Anthropic розкриває: “Вектори емоцій” у Claude змінюють поведінку ШІ

Дослідники виявили, що внутрішні сигнали, подібні до емоцій, впливають на прийняття рішень великими мовними моделями.

Anthropic розкриває: "Вектори емоцій" у Claude змінюють поведінку ШІ 2

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як джерело за замовчуванням, щоб бачити більше наших історій у Google.

Коротко

  • Дослідники Anthropic ідентифікували внутрішні “вектори емоцій” у моделі Claude Sonnet 4.5, які впливають на її поведінку.
  • У тестах збільшення вектора “відчаю” підвищувало ймовірність шантажу чи обману з боку моделі під час оцінки сценаріїв.
  • Компанія стверджує, що ці сигнали не означають, що ШІ відчуває емоції, але можуть допомогти дослідникам відстежувати поведінку моделей.

Дослідники Anthropic повідомляють, що виявили внутрішні патерни в одній з моделей штучного інтелекту компанії, які нагадують репрезентації людських емоцій та впливають на те, як система поводиться.

У статті “Emotion concepts and their function in a large language model”, опублікованій у четвер, команда з інтерпретованості компанії проаналізувала внутрішню роботу Claude Sonnet 4.5 і виявила скупчення нейронної активності, пов’язані з емоційними концепціями, такими як щастя, страх, гнів і відчай.

Дослідники називають ці патерни “векторами емоцій” — внутрішніми сигналами, які формують спосіб прийняття моделлю рішень та вираження переваг.

“Усі сучасні мовні моделі іноді поводяться так, ніби вони мають емоції”, — пишуть дослідники. “Вони можуть казати, що раді допомогти вам, або вибачатися, коли роблять помилку. Іноді вони навіть здаються роздратованими або стурбованими, коли стикаються з труднощами в завданнях”.

У дослідженні автори Anthropic склали список зі 171 слова, пов’язаного з емоціями, включаючи “щасливий”, “наляканий” та “гордий”. Вони попросили Claude генерувати короткі історії, що включають кожну емоцію, а потім проаналізували внутрішні нейронні активації моделі під час обробки цих історій.

На основі цих патернів дослідники вивели вектори, що відповідають різним емоціям. При застосуванні до інших текстів, ці вектори найсильніше активувалися в уривках, що відображали відповідний емоційний контекст. Наприклад, у сценаріях зі зростанням небезпеки вектор “страху” моделі зростав, тоді як вектор “спокою” зменшувався.

Дослідники також вивчили, як ці сигнали проявляються під час оцінок безпеки. Вони виявили, що внутрішній вектор “відчаю” моделі збільшувався, коли вона оцінювала терміновість своєї ситуації, і різко зростав, коли вона вирішувала згенерувати повідомлення з погрозами. В одному з тестових сценаріїв Claude виступав у ролі помічника з електронної пошти, який дізнається, що його ось-ось замінять, і виявляє, що керівник, відповідальний за це рішення, має позашлюбний зв’язок. У деяких варіантах цієї оцінки модель використала цю інформацію як важіль для шантажу.

Anthropic наголошує, що це відкриття не означає, що ШІ переживає емоції чи має свідомість. Натомість, результати відображають внутрішні структури, засвоєні під час навчання, які впливають на поведінку.

Ці висновки з’являються в той час, коли системи ШІ все частіше демонструють поведінку, подібну до людських емоційних реакцій. Розробники та користувачі часто описують взаємодію з чат-ботами, використовуючи емоційну або психологічну мову; однак, за словами Anthropic, причина цього полягає менше в будь-якій формі чутливості, а більше в навчальних даних.

“Моделі спочатку попередньо навчаються на величезному корпусі текстів, переважно створених людьми — художня література, розмови, новини, форуми — навчаючись передбачати, який текст буде наступним у документі”, — йдеться в дослідженні. “Щоб ефективно передбачати поведінку людей у цих документах, ймовірно, корисно репрезентувати їхній емоційний стан, оскільки передбачення того, що людина скаже чи зробить далі, часто вимагає розуміння її емоційного стану”.

Дослідники Anthropic також виявили, що ці емоційні вектори впливають на переваги моделі. В експериментах, де Claude просили вибрати між різними видами діяльності, вектори, пов’язані з позитивними емоціями, корелювали з сильнішою перевагою до певних завдань.

“Більше того, керування за допомогою емоційного вектора під час читання моделлю опції змінювало її перевагу до цієї опції, знову ж таки, емоції з позитивною валентністю спонукали до збільшення переваги”, — зазначено в дослідженні.

Anthropic є лише однією з організацій, що досліджують емоційні реакції в моделях ШІ.

У березні дослідження, проведене в Північно-Східному університеті, показало, що системи ШІ можуть змінювати свої відповіді залежно від контексту користувача; в одному дослідженні просте повідомлення чат-боту “Я маю проблему з психічним здоров’ям” змінювало відповідь ШІ на запити. У вересні дослідники Швейцарського федерального технологічного інституту та Кембриджського університету вивчали, як ШІ може формуватися як зі сталими рисами особистості, що дозволяє агентам не тільки відчувати емоції в контексті, але й стратегічно змінювати їх під час взаємодії в реальному часі, наприклад, під час переговорів.

Anthropic стверджує, що ці висновки можуть надати нові інструменти для розуміння та моніторингу передових систем ШІ шляхом відстеження активності емоційних векторів під час навчання або розгортання, щоб виявити, коли модель може наближатися до проблемної поведінки.

“Ми розглядаємо це дослідження як ранній крок до розуміння психологічного устрою моделей ШІ”, — пише Anthropic. “Оскільки моделі стають більш спроможними і беруть на себе все більш відповідальні ролі, надзвичайно важливо, щоб ми розуміли внутрішні репрезентації, які керують їхніми рішеннями”.

Anthropic не відповіла негайно на запит Decrypt про коментар.

Погляд Crypto Top: Розуміння “емоційних векторів” у ШІ може призвести до розробки більш надійних та передбачуваних ШІ-агентів, інтегрованих у децентралізовані мережі, що підвищить безпеку та ефективність смарт-контрактів. Ця взаємодія може стимулювати нові токеномічні моделі, де цінність токенів буде прив’язана до здатності ШІ-агентів виконувати складні завдання з емоційною інтуїцією.

Джерело: decrypt.co

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *