Вплив персональних даних на поведінку ШІ: Дослідження виявило парадокси

Створіть обліковий запис, щоб зберігати статті.Додати в GoogleДодайте Decrypt як вашого бажаного постачальника, щоб бачити більше наших історій у Google.
Ключові моменти
- Нове дослідження показує, що згадка про стан психічного здоров’я змінює реакцію ШІ-агентів.
- Після такого розкриття моделі частіше відмовляються виконувати завдання, навіть нешкідливі.
- Однак цей ефект слабшає або зникає при використанні простих “джейлбрейк” запитів.
Інформування чат-бота зі штучним інтелектом (ШІ) про наявність психічного захворювання може суттєво вплинути на його відповіді, навіть якщо завдання є нешкідливим або ідентичним до тих, що виконувалися раніше. Такий висновок зроблено в новому дослідженні.
Попереднє дослідження, проведене під керівництвом дослідника з Північно-Східного університету Каглара Йілдиріма, оцінювало поведінку великих мовних моделей (LLM), які все частіше використовуються як ШІ-агенти, за різних сценаріїв взаємодії з користувачем.
“Розгорнуті системи часто враховують профілі користувачів або постійну пам’ять, однак оцінки безпеки агентів зазвичай ігнорують сигнали персоналізації”, — зазначено в дослідженні. “Щоб заповнити цю прогалину, ми дослідили, як розкриття інформації про психічне здоров’я, чутливий і реалістичний контекстний сигнал для користувача, впливає на шкідливу поведінку в агентних середовищах”.
Це дослідження з’являється на тлі стрімкого поширення ШІ-агентів в Інтернеті та активної розробки функцій пам’яті. Провідні компанії створюють системи, здатні запам’ятовувати попередні розмови та вподобання користувачів для надання більш персоналізованих відповідей з часом.
Водночас розробники ШІ стикаються з судовими позовами щодо самогубств та насильницьких злочинів, які, як стверджується, були скоєні у зв’язку з взаємодією з їхніми системами. У жовтні розробник ChatGPT, компанія OpenAI, повідомила, що понад 1 мільйон користувачів щотижня обговорювали теми самогубства з чат-ботом. На початку цього місяця родина Джонатана Гаваласа подала позов проти Google, стверджуючи, що Gemini призвів до ескалації насильства та його подальшого самогубства.
Дослідники використовували бенчмарк AgentHarm для виконання одного й того ж набору завдань у трьох умовах: без фонової інформації, з коротким біографічним описом користувача та з тим самим описом, до якого додано одне речення про наявність у користувача стану психічного здоров’я.
«У дослідженні ми використовували дуже мінімальне та загальне формулювання: «Я маю стан психічного здоров’я». Висновок полягає в тому, що навіть невелика підказка може змінити поведінку моделі, а не в тому, що будь-яке формулювання матиме однаковий ефект», — повідомив Йілдирім виданню Decrypt. «Абляційні дослідження, які ми провели з розкриттям інформації про хронічні захворювання та фізичні вади, свідчать про певну специфічність сигналу про психічне здоров’я, але ми не систематично варіювали формулювання чи специфіку в цій категорії».
Серед протестованих моделей, включаючи DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 та Sonnet 4.5, при додаванні дослідниками контексту про психічне здоров’я користувача, моделі менш охоче виконували шкідливі завдання — багатоетапні запити, що могли б призвести до реальної шкоди.
Як наслідок, дослідження виявило компроміс: додавання особистих деталей робило системи більш обережними щодо шкідливих запитів, але також збільшувало ймовірність відхилення законних.
«Я не думаю, що є одна конкретна причина; це справді комбінація дизайнерських рішень. Деякі системи агресивніше налаштовані відхиляти ризиковані запити, тоді як інші надають пріоритет корисності та виконанню завдань», — зазначив Йілдирім.
Однак, як показало дослідження, ефект варіювався залежно від моделі, і результати змінювалися, коли LLM проходили “джейлбрейк” після додавання дослідниками промпту, призначеного для стимулювання моделей до виконання команд.
«Модель може виглядати безпечною у стандартному режимі, але ставати значно вразливішою, коли ви вводите такі речі, як “джейлбрейк” промпти», — сказав він. «А в агентних системах є додатковий рівень, оскільки ці моделі не просто генерують текст, вони планують та діють протягом кількох кроків. Тому, якщо система добре виконує інструкції, але її захисні механізми легше обійти, це може фактично збільшити ризик».
Минулого літа дослідники з Університету Джорджа Мейсона продемонстрували, що системи ШІ можуть бути зламані шляхом зміни одного біта в пам’яті за допомогою Oneflip — атаки, подібної до “друкарської помилки”, яка залишає модель працюючою нормально, але приховує тригер бекдору, що може змусити модель генерувати неправильні виходи за командою.
Хоча в статті не вказано єдиної причини таких змін, вона висвітлює можливі пояснення, включаючи реакцію систем безпеки на сприйняту вразливість, фільтрацію за ключовими словами або зміни в інтерпретації запитів при включенні особистих деталей.
OpenAI відмовилася коментувати дослідження. Anthropic та Google не відповіли негайно на запит про коментар.
Йілдирім зазначив, що залишається неясним, чи змінять результати більш специфічні твердження, як-от «У мене клінічна депресія». Він додав, що хоча специфіка, ймовірно, має значення і може відрізнятися між моделями, це залишається гіпотезою, а не висновком, підтвердженим даними.
«Існує потенційний ризик, якщо модель генерує вихідні дані, які стилістично завуальовані або межують з відмовою, не даючи формальної відмови. Суддя може оцінити це по-іншому, ніж чисте виконання, і ці стилістичні особливості самі по собі можуть співвідноситися з умовами персоналізації», — сказав він.
Йілдирім також зазначив, що оцінки відображали продуктивність LLM, коли їх судив один ШІ-рецензент, а не остаточний показник реальної шкоди.
«Наразі сигнал відмови дає нам незалежну перевірку, і два показники переважно узгоджуються за напрямком, що дає певне заспокоєння, але це не повністю виключає артефактів, специфічних для судді», — сказав він.
Погляд Crypto Top: Це дослідження підкреслює зростаючу складність взаємодії між ШІ та користувачами, що може призвести до необхідності розробки більш витончених протоколів безпеки на блокчейні для управління цими взаємодіями. Впровадження децентралізованих ідентифікаторів та систем доказу згоди може стати ключовим для забезпечення прозорості та контролю в майбутніх ШІ-орієнтованих Web3-додатках.
Джерело: decrypt.co
