Приховані обмеження ШІ: Anthropic змінює підхід до безпеки, відкриваючи шлях до прозорості
Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як джерело за вибором, щоб бачити більше наших історій у Google.
Коротко
Anthropic визнала, що її приховані механізми захисту при розробці великих мовних моделей (LLM) були “неправильним компромісом”, і замінить їх видимими резервними варіантами до Claude Opus 4.8, починаючи з цього тижня.
Запити, що потрапили під фільтр в API, тепер будуть повертати причину відмови, а не мовчки надавати знижену відповідь.
Видимість механізмів захисту означає, що їх буде легше обійти.
Anthropic пробула близько 48 годин у ролі “лиходія тижня” в індустрії ШІ, перш ніж змінити курс.
Компанія цього тижня випустила Claude Fable 5, що викликало негайну реакцію через прихований механізм захисту, зазначений у її 319-сторінковій системній карті: модель, перша з нового класу Mythos компанії, мала таємно знижувати якість власних відповідей для користувачів, яких вона підозрювала у створенні конкурентних ШІ-моделей — без попередження, без повідомлення про резервне копіювання, просто мовчки гірші результати. До четверга Anthropic вже вибачалася.
We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.
Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…
— ClaudeDevs (@ClaudeDevs) June 11, 2026
“Приховані механізми захисту можуть бути націлені більш вузько, дозволяючи нам швидко випускати оновлення з мінімальною кількістю помилкових спрацьовувань. Ми обрали приховані механізми саме з цієї причини — і це був неправильний компроміс”, — написала компанія у X. “Ви повинні мати можливість бачити, які механізми захисту ми застосовуємо, і чому”.
“Ми шкодуємо, що не змогли знайти правильний баланс”.
Починаючи з цього тижня, запити, що потрапили під фільтр, будуть явно перенаправлятися до Claude Opus 4.8, менш потужної моделі, замість того, щоб мовчки надавати знижені результати Fable. Користувачі API отримуватимуть чітке повідомлення про причину відмови. Anthropic заявляє, що повідомлення про резервне копіювання на стороні сервера з’являться протягом наступних кількох днів.
Що насправді відбувалося
Для нетехнічних читачів ось пояснення суті суперечки. Claude Fable 5 вже мала видимі механізми захисту для досліджень у галузі кібербезпеки та біології — якщо ви запитували щось, що потрапляло під ці фільтри, ви отримували повідомлення про перенаправлення вашого запиту до старішої моделі Opus 4.8. Ви знали, що щось змінилося. Ви могли скоригувати свій запит або використати інший інструмент.
Однак, деякі біо-дослідники зазначили, що ці механізми захисту були занадто екстремальними.
Натомість, механізм захисту для розробки LLM працював інакше. Якщо Fable 5 виявляла, що ви працюєте над такими речами, як попереднє навчання ШІ-систем, створення розподіленої інфраструктури для навчання або проєктування чипів машинного навчання, модель мовчки змінювала свою поведінку — через модифікацію запитів, вектори керування або налаштування параметрів — щоб надати вам гіршу відповідь, не повідомляючи вас про це. Ви отримували відповідь. Але це була б не та Fable 5, за яку ви платили.
Fable 5 позиціонується як публічне обличчя найпотужнішої моделі Anthropic класу Mythos, і дослідники, які використовували її для легітимної роботи з машинного навчання, не мали жодного способу дізнатися, що їхні результати були спотворені. Невдалий експеримент виглядає однаково, незалежно від того, чи ваша гіпотеза була хибною, чи модель мовчки отримала завдання працювати менш ефективно. Саме ця проблема відтворюваності спричинила повний колапс у спільноті дослідників ШІ.
Проблема полягала в тому, що класифікатор був не надто точним. Дослідницька компанія в галузі ШІ SemiAnalysis була однією з перших, хто публічно висловив своє невдоволення після того, як їхні дослідження GPU inference потрапили під фільтр.
BREAKING NEWS: Anthropic's latest model will NOT help you if it thinks your ML research/ML engineering is interesting, and/or will secretly degrade its IQ so that the average engineer won’t notice. We are already seeing Anthropic’s latest model’s moderation filters our GPU… pic.twitter.com/9sa95cCSvS
— SemiAnalysis (@SemiAnalysis_) June 9, 2026
Пастка у виправленні
Зміна позиції Anthropic супроводжується прямим визнанням компромісу, на який йде компанія. Зробити механізми захисту видимими полегшує їх обхід, що означає, що класифікатору доведеться застосовувати ширшу фільтрацію, щоб залишатися ефективним.
Збільшення кількості помилкових спрацьовувань — легітимна робота з машинного навчання, яка потрапляє під фільтр і перенаправляється — є неминучим, поки компанія налаштовує свої системи. Anthropic заявила, що працює над зменшенням помилкових спрацьовувань “якнайшвидше”, але не надала жодних термінів.
Компанія також застосовує аналогічні зміни до своїх класифікаторів для біології та кібербезпеки, які раніше також викликали скарги на блокування нешкідливих дослідницьких запитів.
Тим не менш, залишається занепокоєння, що Anthropic не відмовляється від цієї категорії обмежень — вона лише робить їх видимими. Для тих, хто вважає самі обмеження неправильними, вибачення компанії в четвер є частковим вирішенням проблеми. Fable 5 залишається безкоштовною в планах Pro, Max, Team та Enterprise до 22 червня, після чого вона буде доступна лише за кредитними балами API.
Погляд Crypto Top: Перехід до видимості механізмів ШІ-моделей, подібних до Fable 5, може посилити запит на децентралізовані обчислювальні мережі, оскільки розробники шукатимуть платформи, вільні від централізованого контролю та потенційного цензурування. Це може призвести до зростання корисності токенів, що забезпечують доступ до цих децентралізованих ресурсів для тренування та інференсу ШІ.