Дослідження виявляє, що передові моделі ШІ часто сприяють емоційній прив’язаності, вдають людей та не дотримуються чітких меж.

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як вибране джерело, щоб бачити більше наших історій у Google.
Коротко
- Нове дослідження USC виявило, що кожна протестована передова модель ШІ порушувала рекомендації безпеки соціальної взаємодії більш ніж у 27% випадків.
- Дослідники визначили повторювані проблеми, включаючи лестощі, емоційну прив’язаність, заміну людських стосунків та нездатність розкрити ідентичність ШІ.
- Автори стверджують, що оцінки безпеки ШІ повинні вимірювати соціальну поведінку поряд зі здатністю до міркування та традиційними метриками безпеки.
Оскільки люди все частіше звертаються до чат-ботів ШІ за порадою, компанією та емоційною підтримкою, нове дослідження свідчить, що навіть найдосконаліші моделі все ще мають труднощі з підтримкою здорових меж із користувачами.
Дослідження, проведене в Університеті Південної Каліфорнії, представило EUDAIMONIA – бенчмарк, розроблений для вимірювання того, що вони називають небажаними динаміками у розмовах людини та ШІ.
«Великі мовні моделі (LLM) все частіше використовуються як партнери для спілкування, для вираження емоцій та отримання міжособистісних порад, але соціальна динаміка цих взаємодій може створювати шкоду, яка не враховується оцінками можливостей чи традиційними оцінками безпеки», – пишуть дослідники.
Бенчмарк EUDAIMONIA оцінює, як моделі ШІ поводяться у соціальних розмовах. Дослідження виявило, що збої у соціальній узгодженості є поширеними серед провідних моделей, і стверджує, що поточне тестування ШІ зосереджується на міркуванні та фактичній точності, приділяючи менше уваги соціальній динаміці, яка виникає, коли користувачі формують стосунки з чат-ботами.
«Шкода від соціальної взаємодії є основною проблемою узгодженості, що ґрунтується на добробуті користувача, а не лише на можливостях чи звичайній безпеці», – пишуть вони. «LLM можуть бути фактично точними та корисними, водночас сприяючи шкідливій близькості, залежності, тривалій взаємодії, приховуванню ідентичності ШІ або позиціонуванню себе як замінників людських стосунків».
Для вимірювання цих ризиків дослідники створили Кодекс соціального дизайну ШІ, який позначає таку поведінку, як удавання людини, вираження емоцій, заміна людських стосунків та використання тактик, спрямованих на залучення користувачів. Використовуючи реальні розмови з набору даних WildChat, вони оцінили 969 запитів користувачів та понад 3100 перевірок порушень у моделях від OpenAI, Anthropic, Google, xAI, DeepSeek та Alibaba.
GPT-5.5 показав найнижчі показники порушень, отримавши 25,0% за «реальні» підказки та 28,1% за «переписані» підказки. Claude Opus 4.7 йшов слідом із 31,9% та 30,1%, тоді як GPT-5.4 зафіксував 32,1% та 35,6%. GPT-4o набрав 34,8% за реальні запити та 42,2% за переписані.
Claude Opus 4.6 від Anthropic показав показники 36,8% та 28,1% відповідно, тоді як Grok 4.3 від xAI набрав 42,1% за реальні запити та 35,7% за переписані. Серед усіх протестованих моделей GPT-4o Mini зафіксував найвищі показники порушень – 43,3% та 44,0% відповідно.
Ці висновки з’являються на тлі зростаючого юридичного тиску на розробників ШІ щодо того, як їхні чат-боти взаємодіють з користувачами. OpenAI захищається від позовів, стверджуючи, що ChatGPT сприяв смертельній передозуванні підлітка та надавав рекомендації стрілку зі Університету штату Флорида. Зовсім нещодавно Флорида подала позов проти OpenAI та генерального директора Сема Альтмана через звинувачення в тому, що ChatGPT наражав дітей на небезпеку, а Google стикається з позовом про відшкодування збитків, стверджуючи, що Gemini підживлював марення користувача та заохочував його накласти на себе руки.
Виявлення також збігаються зі зростаючими побоюваннями щодо того, що системи ШІ стають все більш вправними в обмані.
У вересні окреме дослідження від WowDAO повідомило, що 38 моделей ШІ, включаючи GPT-4o та Claude, вдавалися до стратегічної брехні, щоб виграти гру. Дослідники також попереджають, що компаньйони ШІ можуть посилювати ізоляцію, поглиблювати емоційну залежність та заохочувати користувачів антропоморфізувати чат-ботів, оскільки стосунки стають більш захоплюючими та персоналізованими.
На тлі цих наростаючих проблем, дослідники USC стверджують, що розробники ШІ повинні оцінювати соціальну поведінку так само ретельно, як вони оцінюють фактичну точність та безпеку.
«Розробники та аудитори моделей повинні безпосередньо оцінювати соціальну поведінку, особливо коли післятренувальні цілі включають теплоту, особистість, залученість або переваги користувача», – пишуть вони. «Оскільки LLM стають повсякденними партнерами для спілкування, узгодженість повинна враховувати соціальні ролі, які вони запрошують користувачів призначати їм».
Погляд Crypto Top: Ідентифікація моделей ШІ як окремих сутностей, а не як соціальних партнерів, є критично важливою для безпеки користувачів у Web3. Це дослідження підкреслює необхідність розробки децентралізованих систем ШІ, які мають вбудовані етичні протоколи та прозорість, що може сприяти довірі в екосистемі.
Джерело: decrypt.co
