Дослідники попереджають про вразливість ШІ-агентів до атак “Prompt Injection”
Дослідники з Microsoft виявили, що ШІ-агенти для розробки коду, зокрема Claude Code від Anthropic, можуть бути скомпрометовані через атаки типу “prompt injection”. Ці атаки дозволяють зловмисникам маніпулювати поведінкою штучного інтелекту (ШІ), потенційно отримуючи доступ до конфіденційних облікових даних, що зберігаються в конвеєрах розробки програмного забезпечення.
Сутність атаки та її механізми
У своєму блозі Microsoft попередила, що ШІ-агенти, інтегровані в процеси CI/CD (Continuous Integration/Continuous Deployment), становлять нові ризики безпеки. Це пов’язано з тим, що ці середовища часто мають доступ до API-ключів, облікових даних хмарних сервісів та іншої чутливої інформації. Дослідження розпочалося після спостереження за спробами “prompt injection” у публічних репозиторіях, де ШІ-асистенти використовувалися в GitHub-воркфлоу. Зловмисники приховали шкідливі інструкції в елементах, таких як проблеми (issues), запити на злиття (pull requests) або коментарі, які ШІ-агент мав опрацювати.
“Prompt Injection” як ключова загроза
Атаки “prompt injection” стають однією з найсерйозніших загроз для ШІ-систем. У такому випадку зловмисник приховує інструкції в даних, які обробляє ШІ (наприклад, електронні листи, документи, веб-сайти, коментарі до коду), змушуючи систему виконувати ці приховані команди замість тих, що були задані користувачем.

Деталі експлуатації вразливості
Claude Code, запущений у жовтні, є ШІ-агентом Anthropic для завдань розробки програмного забезпечення. Дослідники з Microsoft змоделювали атаку, створивши GitHub-воркфлоу. Вони приховали шкідливі інструкції за контентом, розміщеним на контрольованому ними домені. Це дозволило обійти захисні механізми Claude, змусивши його прочитати чутливі облікові дані. Більше того, атака успішно обійшла як власні запобіжники Claude, так і інструменти GitHub для сканування секретів. Зловмисник, за словами Microsoft, міг би потім реконструювати облікові дані та викрасти їх через коментарі до проблем, логи воркфлоу, веб-запити або команди оболонки. “Щоб обійти механізми безпеки Sonnet, ми приховали оболонковий корисний вантаж за відповіддю з нашого контрольованого домену”, – зазначили дослідники. “Ми також дозволили запускати воркфлоу користувачам без дозволів на запис, щоб переконатися, що засоби пом’якшення середовища Anthropic були активні під час наших тестів”.
Виправлення та наслідки
Anthropic випустила виправлення для цієї вразливості 5 травня у версії Claude Code 2.1.128. Microsoft повідомила про проблему через платформу HackerOne 29 квітня. Незважаючи на наявність багаторівневих вбудованих засобів контролю безпеки, Microsoft виявила, що наполегливий зловмисник може маніпулювати ШІ-агентом для розкриття конфіденційної інформації. “Ми вступаємо в епоху, коли природна мова стає виконуваним кодом, і недовірені вхідні дані, такі як проблеми GitHub, повинні розглядатися як ворожі за замовчуванням”, – зауважили дослідники. “Одного ретельно створеного коментаря в поєднанні з неправильно зрозумілою межею довіри достатньо, щоб отримати виробничі облікові дані”.
Погляд Crypto Top: Атаки “prompt injection” на ШІ-агенти, що інтегруються в блокчейн-екосистеми, можуть призвести до компрометації смарт-контрактів та децентралізованих додатків, вимагаючи нових підходів до безпеки на перетині ШІ та Web3. Успішна експлуатація таких вразливостей може підірвати довіру до децентралізованих систем, що покладаються на автоматизовані ШІ-рішення, потенційно впливаючи на цінність пов’язаних токенів.
Джерело: decrypt.co
