Anthropic випустила Claude Opus 4.8: вдосконалене мислення та безпека за сталою ціною

Лише шість тижнів. Саме стільки часу знадобилося компанії Anthropic, щоб перейти від Opus 4.7 до Opus 4.8.
Нова модель демонструє вищу швидкість та точність у тестах продуктивності, а також постачається з низкою нових функцій. При цьому ціна залишилася незмінною: 5 доларів за мільйон вхідних токенів та 25 доларів за мільйон вихідних токенів.
Також доступний “швидкий режим”, який використовує ту саму модель, але працює в 2.5 рази швидше, коштуючи 10 доларів за мільйон вхідних і 50 доларів за мільйон вихідних токенів. Anthropic стверджує, що вартість швидкого режиму тепер утричі нижча, ніж була раніше, що є приємним бонусом.
SWE-bench Pro є, мабуть, найважливішим показником для оцінки ефективності моделі. Він вимірює здатність ШІ вирішувати складні багатомовні завдання з інженерії програмного забезпечення, використовуючи реальні кодові бази, і оцінюється у відсотках успішних вирішень.
У цьому тесті Opus 4.8 досяг 69.2%, що є значним покращенням порівняно з 64.3% у Opus 4.7. Для порівняння, GPT-5.5 показав 58.6%, а Gemini 3.1 Pro від Google — 54.2%. Це суттєвий стрибок продуктивності за тієї самої цінової категорії.

Тест Humanity’s Last Exam, який оцінює знання на рівні експерта з різних дисциплін, показав, що Opus 4.8 досяг 49.8% без інструментів та 57.9% з ними, випередивши всіх конкурентів. OSWorld-Verified, що тестує реальні завдання комп’ютерного використання, такі як навігація інтерфейсом програмного забезпечення, показав результат 83.4%, незначно випередивши показник Opus 4.7 (82.8%).
Єдиною сферою, де модель показала другий результат, став Terminal-Bench 2.1, який оцінює продуктивність ШІ в завданнях командного рядка. GPT-5.5 лідирує з 78.2%, тоді як Opus 4.8 отримав 74.6% — це краще, ніж 66.1% у Opus 4.7 та 70.3% у Gemini, але все ж друге місце.
П’ять рівнів мислення

Anthropic надає користувачам можливість контролювати інтенсивність мислення моделі. Режим “High” (Високий) є стандартним і добре справляється з більшістю завдань. Режим “Extra” (екстра, або “xhigh” у Claude Code) використовує більше обчислювальних ресурсів для складніших завдань.
Режим “Max” (Максимум) призначений для найглибшого аналізу. Режими “Low” (Низький) і “Medium” (Середній) виділяють менше токенів на те саме завдання, заощаджуючи час ціною точності.
Цей контроль інтенсивності доступний разом з вибором моделі в claude.ai та Cowork для всіх планів. Anthropic стверджує, що стандартний режим “High” використовує приблизно стільки ж токенів, скільки й стандартний режим Opus 4.7, але з кращими результатами, що свідчить про вражаючу інженерну роботу або ефективне маркетингове позиціювання, або обидва.
Важливо пам’ятати, що новий токенізатор Opus використовує більше токенів на завдання. Тому користувачі Claude неминуче витрачатимуть більше коштів, якщо оберуть Opus замість Claude Sonnet — менш потужної, але, ймовірно, достатньої для повсякденних завдань та складних проблем, що не стосуються передових наукових досліджень чи програмування.
Ліміти швидкості в Claude Code також були збільшені, щоб компенсувати вищі витрати токенів, які генеруються режимами “Extra” та “Max”.
Майже такий самий безпечний, як Claude Mythos

Команда з безпеки Anthropic повідомила, що Opus 4.8 “досягає нових висот за нашими показниками просоціальних рис, таких як підтримка автономії користувача та дії в найкращих інтересах користувача”. Конкретніше: рівень обману та співпраці зі зловмисними запитами був суттєво нижчим, ніж у Opus 4.7, і порівнянним з Claude Mythos Preview — найбільш обмеженою моделлю Anthropic.
Opus 4.8 також у чотири рази менш імовірно, ніж 4.7, пропускатиме помилки у власному коді без їх позначення.
Порівняння з Mythos заслуговує на контекст. Mythos — це зовсім інший рівень, ніж Opus. Anthropic описує його як “більший і розумніший за наші моделі Opus”. Наразі він існує лише як попередній перегляд, доступний обмеженій кількості перевірених організацій, що займаються кібербезпекою, через Project Glasswing.
Інститут безпеки ШІ Великої Британії виявив, що Mythos може самостійно завершити симуляцію атаки на корпоративну мережу “The Last Ones”, яка складається з 32 кроків і зазвичай займає 20 годин у команд людських спеціалістів. Саме тому модель ще не надійшла у продаж. Anthropic працює над посиленням заходів кібербезпеки і планує зробити моделі класу Mythos загальнодоступними “найближчими тижнями”.
Також сьогодні виходить функція динамічних робочих процесів у Claude Code (у дослідницькому попередньому перегляді). Вона дозволяє Claude писати власні скрипти оркестрації та запускати паралельні під-агенти в одному сеансі, перевіряти їхні результати та повідомляти про них — подібно до того, як це робив Hermes протягом тривалого часу.
Динамічні робочі процеси доступні для користувачів планів Enterprise, Team та Max. Anthropic відкрито попереджає, що вони споживають значно більше токенів, ніж стандартний сеанс Claude Code.
Зростаюча різниця в ціні
Цінова політика Anthropic у 5/25 доларів виглядає зовсім інакше порівняно з тим, що останнім часом робить Китай.
DeepSeek V4 Pro минулого тижня зробив свою 75% знижку постійною: 0.435 долара за мільйон вхідних токенів та 0.87 долара за мільйон вихідних токенів. Xiaomi MiMo V2.5 Pro працює за аналогічними тарифами через постачальників, таких як OpenRouter.
Швидкий режим Anthropic коштує 10 доларів за вхідні та 50 доларів за вихідні токени на мільйон. Це дорожче, ніж сам стандартний Opus 4.8, і приблизно в 57 разів дорожче за вихідний токен, ніж DeepSeek V4 Pro. Корпорації вже витратили мільйони доларів на виведення даних за допомогою американських моделей. Використання Opus може швидко призвести до багатомільйонних витрат.
Відповідь Anthropic на розрив у ціні — це якість та безпека. У тесті SWE-bench Pro, Opus 4.8 перевершує обидві китайські моделі. Щодо безпеки, жодна з них не наближається до опублікованих показників Anthropic.
Ці аспекти є критично важливими в продуктивних середовищах, де модель, що мовчки співпрацює зі шкідливими вхідними даними, становить реальний ризик — особливо в регульованих галузях, юридичній роботі та будь-якій сфері, де “здавалося, все гаразд” не є прийнятним висновком після інциденту. Для всіх інших різниця важко ігнорувати.
Ми протестували

Ми провели швидкий тест кодування, щоб створити 3D-гру про зомбі, аби порівняти Claude Opus 4.8 з ChatGPT та DeepSeek, його найпопулярнішими конкурентами зі США та Китаю. Ми встановили Opus 4.8 на стандартний режим “high”, GPT-5.5 на режим “high effort”, а DeepSeek V4 Pro також на “high effort” — три моделі, один запит, без повторних спроб.
GPT-5.5 завершив першим. Його гра не мала візуальних ефектів зомбі та звукових ефектів. Вона була швидкою, але повністю пропустила суть завдання.
DeepSeek V4 Pro посів друге місце, представивши рух миші, реальних персонажів зомбі, звукові ефекти, надійну механіку та чистий естетичний дизайн. Тут претензій немає.
Opus 4.8 працював приблизно втричі довше, ніж GPT-5.5, але надав найкращий початковий екран, найкращий дизайн зомбі, найкращу ігрову механіку та пристойні звукові ефекти. Він був найповільнішим, але видав найкращий результат. Однак, це, ймовірно, недостатньо, щоб виправдати його використання замість DeepSeek, враховуючи різницю в ціні.
Всі ігри доступні в нашому профілі на Itch.io. GPT-5.5 згенерував Zombie Typing, Opus — Typing Dead, а DeepSeek v4 Pro — гру без назви, яка одразу занурює в дію. Назвемо її TypeSeek.
Повний порівняльний огляд буде опубліковано пізніше. Наразі: Claude Opus 4.8 пише код краще, ніж GPT-5.5 та Opus 4.7 для подібних завдань, за тією ж ціною, яку Anthropic встановила з часів 4.7. Розробники, які вже платили 5 доларів за мільйон токенів, отримали кращу модель безкоштовно.
Погляд Crypto Top: Інтеграція передових ШІ-моделей, подібних до Opus 4.8, у Web3-екосистеми може революціонізувати децентралізовані обчислення та ШІ-агенти. Зростання продуктивності ШІ за стабільною ціною створює передумови для появи нових децентралізованих ШІ-платформ, які можуть конкурувати з централізованими пропозиціями, потенційно збільшуючи корисність нативних токенів цих платформ.
Джерело: decrypt.co
