OpenAI шокує GPT-5.4: 1 мільйон токенів і на третину менше помилок

OpenAI, прагнучи відновити довіру після низки скандалів, запускає GPT-5.4. Ця модель позиціонується як значний крок уперед для ШІ-агентів.

Ключові особливості GPT-5.4

OpenAI назвала модель своєю «найздатнішою та найефективнішою флагманською моделлю для професійної роботи». Вона об’єднує в собі досягнення у сфері міркування, кодування та агентних робочих процесів.

GPT-5.4: Стандартна версія.
GPT-5.4 Thinking: Модель, спеціалізована на міркуваннях.
GPT-5.4 Pro: Оптимізована для високої продуктивності версія.

API-версія моделі підтримує контекстні вікна розміром до 1 мільйона токенів — це найбільше контекстне вікно, яке OpenAI коли-небудь пропонувала.

Компанія також наголошує на покращеній ефективності використання токенів: GPT-5.4 здатна вирішувати завдання з істотно меншою кількістю токенів порівняно з попередніми версіями.

GPT-5.4 вже розгортається і буде доступна в ChatGPT, Codex та API OpenAI. GPT-5.4 Thinking буде доступна для користувачів Plus, Teams та Pro. GPT-5.4 Pro буде доступна через API, а також для підписників ChatGPT Enterprise та Edu.

OpenAI шокує GPT-5.4: 1 мільйон токенів і на третину менше помилок 6

Вбудовані можливості використання комп’ютера

За даними OpenAI, GPT-5.4 — це перша модель загального призначення, яка має вбудовані можливості використання комп’ютера. Це означає, що модель може автономно працювати в різних застосунках на пристрої від імені користувача.

Написання коду.
Виконання завдань на комп’ютері.
Надсилання команд клавіатури та миші для навігації операційною системою.

Це значний крок у розвитку агентного ШІ.

Результати бенчмарків

Результати бенчмарків, представлені компанією, виглядають амбітно:

GPT-5.4 посіла перше місце в Mercor APEX-Agents — тесті професійних сервісних навичок у юриспруденції та фінансах.
Рекордні результати в OSWorld-Verified та WebArena Verified — тестах, що оцінюють роботу моделі з комп’ютером.
83% у GDPval — оцінці завдань інтелектуальної роботи.

За словами генерального директора Mercor Брендана Фуді, модель «чудово справляється зі створенням довгострокових результатів, таких як презентації, фінансові моделі та юридичний аналіз», демонструючи високу продуктивність при менших витратах.

OpenAI шокує GPT-5.4: 1 мільйон токенів і на третину менше помилок 7

Зменшення помилок та галюцинацій

OpenAI робить акцент на зменшенні помилок і галюцинацій:

GPT-5.4 на 33% рідше робить помилки в окремих твердженнях порівняно з GPT-5.2.
Загальна кількість відповідей з помилками знизилася на 18%.

Оновлення API та безпека

Компанія також оновила API, запровадивши систему Tool Search для роботи з інструментами. Це дозволяє моделі шукати інструменти за потреби, що економить токени та прискорює запити.

Додатково OpenAI представила нову оцінку безпеки для тестування ланцюжка міркувань моделі — проміжних пояснень, які демонструють процес «мислення» під час багатокрокових завдань.

Дослідження показали, що GPT-5.4 Thinking менш схильна до фальсифікації свого ланцюжка міркувань, що підтверджує ефективність моніторингу таких пояснень як інструменту безпеки.

OpenAI шокує GPT-5.4: 1 мільйон токенів і на третину менше помилок 8

Виклики та суспільне прийняття

Платформа OpenAI стикається з викликами. Після рішення компанії співпрацювати з Міністерством оборони США платформа втратила близько 1,5 мільйона користувачів. Це рішення викликало публічну критику, особливо на тлі позиції конкурента Anthropic, який відмовився від співпраці з Пентагоном.

Невдоволення частини користувачів та співробітників показує, що технологічні успіхи не завжди гарантують суспільне прийняття. Компанії доведеться доводити, що її курс відповідає очікуванням ринку.

ChatGPT 5.3 Codex стер жорсткий диск вайбкодера одним хибодруком

📈 Більше новин про крипто-світ читайте на CryptoTop.info!

No votes yet.

Please wait...