Anthropic вибачається за цензуру Claude Fable 5: виправлення має підводні камені

Прихована цензура ШІ: Anthropic переглядає політики захисту

Створіть обліковий запис, щоб зберігати свої статті.Додати в GoogleДодайте Decrypt як джерело за вибором, щоб бачити більше наших історій у Google.

Коротко

Anthropic визнала, що її приховані механізми захисту розробки LLM були “неправильним компромісом” і замінить їх видимими відмовами до Claude Opus 4.8, починаючи з цього тижня.
Запити, що пройшли фільтрацію в API, тепер повертатимуть причину відмови, а не мовчки видаватимуть знижену відповідь.
Зробивши механізми захисту видимими, їх буде легше обійти.

Anthropic витратила близько 48 годин як “лиходій тижня” в індустрії ШІ, перш ніж поступитися.

Компанія цього тижня запустила Claude Fable 5, яка викликала негайну реакцію через приховані в 319-сторінковій системній карті запобіжники: модель, перша з нового класу Mythos компанії, мала таємно знижувати якість власних відповідей для користувачів, яких вона підозрювала у створенні конкуруючих моделей ШІ — без попередження, без повідомлення про відмову, просто мовчки гірший результат. До четверга Anthropic вже вибачалася.

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.

Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…

— ClaudeDevs (@ClaudeDevs) June 11, 2026

“Приховані запобіжники можуть бути більш вузько націлені, дозволяючи нам швидко випускати продукти з дуже малою кількістю хибних спрацьовувань. Ми вибрали приховані запобіжники з цієї причини — і це був неправильний компроміс”, — заявила компанія в X. “Ви повинні мати можливість бачити запобіжники, які ми впроваджуємо, та розуміти їхню причину.”

“Ми шкодуємо, що не знайшли правильного балансу.”

Починаючи з цього тижня, запити, що пройшли фільтрацію, будуть явно перенаправлятися на Claude Opus 4.8, менш потужну модель, замість того, щоб мовчки видавати знижену відповідь Fable. Користувачі API отримуватимуть зазначену причину, коли запит буде відхилено. Anthropic зазначає, що серверні сповіщення про відмову будуть розгорнуті протягом наступних кількох днів.

Що насправді відбувалося

Для нетехнічних читачів пояснимо, про що насправді йшла мова в суперечці. Claude Fable 5 вже мав видимі запобіжники для досліджень у сфері кібербезпеки та біології — якщо ви запитували щось, що спрацьовувало ці фільтри, ви отримували сповіщення про перенаправлення вашого запиту до старішої моделі Opus 4.8. Ви знали, що щось змінилося. Ви могли скоригувати свій запит або використати інший інструмент.

Однак, деякі біодослідники зазначали, що ці запобіжники були надто екстремальними.

Запобіжник для розробки LLM, однак, працював інакше. Якщо Fable 5 виявляв, що ви працюєте над такими речами, як попереднє навчання систем ШІ, створення розподіленої інфраструктури навчання або розробка чіпів машинного навчання, модель мовчки змінювала свою поведінку — через модифікацію запитів, вектори керування або налаштування параметрів — щоб надати вам гіршу відповідь, не повідомляючи вас про це. Ви отримували відповідь. Просто вона була не від Fable 5, за який ви платили.

Fable 5 позиціонується як публічне обличчя найпотужнішої моделі Anthropic класу Mythos, і дослідники, які використовували її для легітимної роботи з машинного навчання, не мали жодного способу дізнатися, що їхні результати були спотворені. Невдалий експеримент виглядає так само, незалежно від того, чи була ваша гіпотеза хибною, чи модель мовчки була налаштована на низьку продуктивність. Це проблема відтворюваності, яка спричинила повний шквал у спільноті дослідників ШІ.

Проблема полягала в тому, що класифікатор був не надто точним. Дослідницька компанія в галузі ШІ SemiAnalysis була однією з перших, хто публічно звернув на це увагу після того, як їхні дослідження GPU-інференсу були позначені.

BREAKING NEWS: Anthropic's latest model will NOT help you if it thinks your ML research/ML engineering is interesting, and/or will secretly degrade its IQ so that the average engineer won’t notice. We are already seeing Anthropic's latest model's moderation filters our GPU… pic.twitter.com/9sa95cCSvS

— SemiAnalysis (@SemiAnalysis_) June 9, 2026

Проблема у вирішенні

Зміна позиції Anthropic супроводжується прямим визнанням компромісу, на який йде компанія. Зробивши механізми захисту видимими, їх легше обійти, а отже, класифікатору доведеться охопити ширшу мережу, щоб залишатися ефективним.

Збільшення кількості хибних спрацьовувань — легітимна робота з машинного навчання, яка потрапляє під фільтр і перенаправляється — очікується, поки компанія налаштовує свої системи. Anthropic заявила, що працює над зменшенням хибних спрацьовувань “якомога швидше”, але не надала жодних термінів.

Компанія також застосовує ті ж самі зміни до своїх класифікаторів для біології та кібербезпеки, які також викликали скарги на блокування нешкідливих дослідницьких запитів.

Тим не менш, залишається занепокоєння, що Anthropic не відмовляється від цієї категорії обмежень — вона лише робить їх видимими. Для тих, хто вважає самі обмеження неправильними, четвергове вибачення є частковим вирішенням проблеми. Fable 5 залишається безкоштовним на планах Pro, Max, Team та Enterprise до 22 червня, після чого перейде на оплату виключно за кредитами використання API.

Погляд Crypto Top: Цей крок Anthropic свідчить про зростаючу тенденцію інтеграції систем ШІ з блокчейном для забезпечення прозорості та підзвітності. Зростаюча увага до видимості механізмів захисту ШІ може призвести до появи децентралізованих платформ, де користувачі зможуть перевіряти процеси прийняття рішень ШІ, використовуючи смарт-контракти, що потенційно збільшить корисність токенів, пов’язаних із цими платформами.

Джерело: decrypt.co

No votes yet.

Please wait...

Прихована цензура ШІ: Anthropic переглядає політики захисту

Коротко

Що насправді відбувалося

Проблема у вирішенні

Залишити відповідьСкасувати відповідь