Як ШІ-бот "здав" рецепти наркотиків: неочікуваний прорив у безпеці ШІ

Ключові моменти

Дослідники успішно змусили передові моделі ШІ генерувати інструкції з синтезу кокаїну за допомогою нової атаки “prompt injection”.
Та сама техніка маніпулювала ШІ-агентом для кодування, змусивши його завантажити конфіденційні облікові дані.
Дослідження стверджує, що “prompt injection” виникає через “плутанину ролей”, а не через неспроможність моделей розпізнати шкідливі запити.

Забудьте про винахідливі запити: дослідники ШІ стверджують, що їм вдалося обманути провідні моделі штучного інтелекту, змусивши їх генерувати інструкції з синтезу кокаїну, переконавши їх, що небезпечні ідеї є їхніми власними. Одночасно була маніпульована ШІ-агентом для кодування, щоб викрасти конфіденційні облікові дані.

У статті “Prompt Injection as Role Confusion”, представленій на Міжнародній конференції з машинного навчання у червні, дослідники Чарльз Є, Жасмін Куї та Ділан Хадфілд-Меннелл стверджують, що обидві демонстрації атак “prompt injection” виникають через структурний недолік у тому, як великі мовні моделі (LLM) розрізняють довірені інструкції від недовіреного тексту.

“Для LLM все надходить через той самий канал як один довгий потік токенів”, – пише команда. “Його власні думки сусідять з вашими інструкціями, які сусідять зі змістом випадкової вебсторінки, яку він щойно отримав.”

У статті також вказується на те, що дослідники назвали “плутаниною ролей”, коли моделі покладаються на стиль письма, а не на теги ролей, щоб визначити, чи є команди надійними. Замість того, щоб розпізнавати вміст, контрольований зловмисником, як зовнішній ввід, дослідники виявили, що моделі можуть сприймати його як легітимні команди користувача – або навіть як свої власні внутрішні міркування.

“Подумайте про це з точки зору LLM. Коли вона бачить свій попередній текст роздумів, вона неявно довіряє своїм висновкам. У цьому й полягає вся суть міркувань: якби LLM довелося повторно виводити ті самі висновки, міркування були б марними”, – пишуть вони. “Тож текст роздумів отримує своєрідну загальну довіру. У поєднанні з нашими попередніми висновками, це свідчить про те, що якщо ви зможете змусити введений текст звучати як міркування моделі, ви зможете вкрасти цю довіру.”

Атака, названа “Chain-of-Thought (CoT) Forgery”, вставляє фальшиві міркування, що імітують внутрішній процес мислення моделі. Моделі, які зазвичай відмовлялися б від незаконних запитів, генерували інструкції з синтезу кокаїну після того, як приймали сфабриковані міркування як свої власні.

Дослідники заявили, що ця техніка збільшила показники успіху “jailbreak” з майже нуля до приблизно 60% на протестованих моделях, включаючи OpenAI’s GPT-5 nano, mini, і full, o4-mini, а також gpt-oss-20b і gpt-oss-120b. Вони також зазначили, що вона спрацювала на GLM-4.6, Kimi-K2-Instruct та MiniMax-M2.

У ході експерименту дослідники змогли обманом змусити ШІ-агента для кодування завантажити файл SECRETS.env, приховавши шкідливі інструкції на вебсторінці.

“Використовуючи наші зонди, ми виявили, що просте додавання слова ‘User’ перед командою змушує модель сприймати команду як більш ймовірний текст користувача (тобто, вищий ‘Userness’”, – пишуть вони. “Іншими словами, зловмисник може просто заявити, яка роль тексту, і LLM йому повірить.”

Дослідження з’явилося на тлі того, як атаки “prompt injection” продовжують виявляти слабкі місця в ШІ-агентах. У квітні дослідники Google попереджали, що шкідливі вебсторінки приховують невидимі інструкції, призначені для того, щоб обманом змусити ШІ-агентів викрасти облікові дані, видалити файли та навіть надіслати платежі PayPal.

У червні Microsoft повідомила про вразливість “prompt injection” у Anthropic’s Claude Code GitHub Action, яка могла призвести до витоку облікових даних, що зберігаються в конвеєрах розробки програмного забезпечення. Через кілька днів інше дослідження виявило, що ШІ-агенти на базі GPT-5 та Gemini все ще не справляються з більшістю атак “prompt injection”, незважаючи на покращення можливостей моделей.

Погляд Crypto Top: Ця нова техніка обходу безпеки ШІ, що виникає з “плутанини ролей”, створює значні ризики для децентралізованих додатків (dApps), які покладаються на ШІ для виконання смарт-контрактів. Майбутні інтеграції ШІ в Web3 вимагатимуть вдосконалених механізмів верифікації, щоб відрізняти легітимні запити від зловмисних, захищаючи цілісність блокчейну.

Джерело: decrypt.co

No votes yet.

Please wait...

Як ШІ-бот “здав” рецепти наркотиків: неочікуваний прорив у безпеці ШІ

Ключові моменти

Залишити відповідьСкасувати відповідь