Штучний Інтелект безсилий: Дослідники б’ють на сполох щодо атак на промпт-ін’єкції

Нове дослідження визначає, що ШІ-агенти залишаються вразливими до атак з ін’єкцією промптів, попри розгортання технологій для широкого загалу.

Штучний Інтелект безсилий: Дослідники б'ють на сполох щодо атак на промпт-ін'єкції 2

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як вибране джерело, щоб бачити більше наших історій у Google.

Коротко

  • Дослідники виявили, що ШІ-агенти, керовані GPT-5 та Gemini, не змогли протистояти атакам з ін’єкцією промптів.
  • Прямі атаки були успішними більш ніж у 79% випадків, тоді як приховані атаки, вбудовані у веб-контент, часто маніпулювали поведінкою агентів.
  • Результати свідчать, що ін’єкція промптів залишається широкомасштабною проблемою безпеки з поширенням ШІ-агентів.

Поки розробники поспішають впроваджувати ШІ-агентів, здатних самостійно переглядати Інтернет, проводити дослідження, здійснювати покупки та торгувати криптовалютою, нове дослідження свідчить про високу вразливість цих систем до атак з ін’єкцією промптів.

У новому дослідженні, опублікованому в четвер, вчені з Наньянського технологічного університету, ST Engineering, IBM Research та Університету Іллінойсу в Урбана-Шампейн встановили, що жоден з протестованих ШІ-агентів не зміг послідовно протистояти атакам з ін’єкцією промптів.

«Існуючі бенчмарки безпеки мають атакувально-орієнтовану перспективу, зосереджуючись на технічній можливості ін’єкцій, але ігноруючи нюанси розподілу спричиненої шкоди», — пишуть дослідники. «На практиці, однак, ризик ін’єкції промптів залежить від жертви: один експлойт може призвести до асиметричних наслідків для різних зацікавлених сторін, а той самий шаблон атаки може виявити суттєво різну ефективність залежно від того, кого він націлений».

Ін’єкція промптів відбувається, коли зловмисники вбудовують приховані інструкції у контент, з яким стикається ШІ-агент, змушуючи його виконувати команди зловмисника, а не команди користувача. Щоб усунути прогалини в існуючих оцінках ШІ-агентів, дослідники розробили StakeBench — бенчмарк, який тестує реакцію ШІ-агентів на атаки з ін’єкцією промптів у реальних онлайн-середовищах.

«Ми використовуємо StakeBench для характеристики умов, за яких ця вразливість посилюється або пригнічується, зосереджуючись на [Непрямій ін’єкції промптів] як на першочерговому каналі розгортання», — зазначають дослідники. «StakeBench досліджує три такі фактори: семантичну відстань між вбудованою метою та початковим наміром користувача, узгодженість навколишніх сигналів середовища та позицію уздовж траєкторії виконання агента, в якій бенчмарк вперше виставляє його на вбудований контент».

Команда провела 3 168 симуляцій атак, використовуючи NanoBrowser та BrowserUse з GPT-5 та Gemini 2.5-Flash. Дослідники виявили, що прямі атаки з ін’єкцією промптів були успішними більш ніж у 79% випадків для всіх протестованих конфігурацій, а непрямі атаки досягли показників успіху від 41,67% до 68,16%.

Це дослідження з’являється на тлі зростання частоти атак з ін’єкцією промптів та розповсюдження ШІ-агентів.

У лютому дослідники Microsoft попередили, що приховані інструкції, вбудовані в посилання для резюмування ШІ, можуть впливати на поведінку чат-ботів. У квітні Google задокументував атаки з ін’єкцією промптів, приховані на веб-сторінках, які намагалися змусити ШІ-агентів витокути облікові дані або надсилати платежі. Нещодавно Microsoft виявила вразливість ін’єкції промптів у Claude Code GitHub Action від Anthropic, яка могла призвести до витоку облікових даних користувачів.

Дослідження також визначило так званий «прихований паразитизм», коли ШІ-агент виконує завдання користувача, одночасно просуваючи цілі зловмисника. Наприклад, прихований паразитизм, спричинений атакою з ін’єкцією промптів, може тонко впливати на рекомендації продуктів, спрямовуючи користувачів до певного товару без явних ознак того, що система була скомпрометована.

«Ці результати вказують на те, що безпека ін’єкції промптів у розгортаних веб-агентах не є скалярною властивістю базової моделі, а розподілом шкоди, реалізація якого спільно визначається зацікавленою стороною, семантичною узгодженістю між вбудованою метою та завданням користувача, а також архітектурним контекстом, у якому розгорнуто базову модель», — пишуть вони.

Погляд Crypto Top: Небезпека ін’єкції промптів ставить під сумнів безпеку автоматизованих транзакцій та взаємодії ШІ-агентів з блокчейном, що може сповільнити впровадження децентралізованих фінансових рішень. Посилення заходів безпеки та розробка стійких протоколів стануть ключовими для інтеграції ШІ у Web3.

Джерело: decrypt.co

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *