ARC-AGI-3: Реальна Оцінка Генеративного Штучного Інтелекту
Минулого тижня, коли генеральний директор Nvidia Дженсен Хуанг заявив про досягнення загального штучного інтелекту (AGI), вийшов ARC-AGI-3 — найсуворіший тест у сфері досліджень ШІ. Результати приголомшують: передові моделі штучного інтелекту, включаючи Gemini та GPT-5.4, набрали менше 1% балів, тоді як люди продемонстрували 100% ефективність.
Розрив між Заявами та Реальністю
ARC-AGI-3 виявив колосальний розрив між гучними заявами про AGI та реальною продуктивністю найсучасніших моделей. Gemini 3.1 Pro від Google посів перше місце з 0.37%, GPT-5.4 від OpenAI — 0.26%, Claude Opus 4.6 від Anthropic — 0.25%, а Grok-4.20 від xAI — 0%. Це разюче контрастує зі 100% результатів, досягнутих людьми.
Тестування Справжньої Універсальності
Цей бенчмарк перевіряє справжню здатність до узагальнення (generalization), вимагаючи від ШІ-агентів досліджувати, планувати та навчатися з нуля в незнайомих середовищах, а не просто відтворювати вивчені патерни. Це відрізняється від традиційних тестів, які часто перевіряють запам’ятовування або вузькоспеціалізовані навички.
Методологія ARC-AGI-3
Бенчмарк був розроблений фондом Франсуа Шолле та Майка Кнупа. Вони створили 135 унікальних інтерактивних середовищ, куди ШІ-агента занурюють без жодних інструкцій, цілей чи опису правил. Агент повинен самостійно дослідити середовище, зрозуміти завдання, розробити план дій та виконати його. Це завдання, яке легко виконує навіть п’ятирічна дитина.
Перевага Людей та Недоліки ШІ
Попередні версії ARC тестували статичні візуальні головоломки, які з часом вдавалося “зламати” завдяки потужності обчислень та спеціалізованому навчанню. ARC-AGI-3 було спеціально розроблено для унеможливлення такого підходу. 110 з 135 середовищ залишаються приватними, унеможливлюючи створення датасетів для запам’ятовування.
Оцінка на Основі Ефективності Дій
ARC-AGI-3 використовує метрику RHAE (Relative Human Action Efficiency), яка оцінює продуктивність ШІ порівняно з другою найкращою спробою людини. ШІ, який виконує завдання з більшою кількістю дій, ніж людина, отримує лише частку балів. Формула квадратично штрафує неефективність, що робить блукання, повернення до попередніх кроків та випадкові спроби надзвичайно невигідними.
Висновок: Шлях до Справжнього AGI ще Довгий
Навіть найпросунутіші моделі, протестовані через офіційний API без додаткових інструментів, не змогли подолати 1% бар’єр. Звичайні люди, навпаки, успішно вирішили всі завдання без попередньої підготовки. Це свідчить про те, що сучасні ШІ-системи, попри значний прогрес, ще далекі від справжнього загального штучного інтелекту, який демонструє людську адаптивність та здатність до міркувань.
Дебати щодо Методології
Існує дискусія щодо методології тестування. Зокрема, було відзначено, що спеціалізований інтерфейс, розроблений Duke, дозволив Claude Opus 4.6 досягти 97.1% на одному з варіантів середовища. Однак офіційна оцінка моделі залишилася на рівні 0.25%. Фонд ARC визнає цю дискусію, але не планує змінювати формат тестування, стверджуючи, що основна проблема сучасних моделей полягає не у сприйнятті даних, а у відсутності здатності до глибинного міркування та узагальнення.
Гіперинфляція Терміну “AGI”
Результати ARC-AGI-3 з’явилися на тлі безпрецедентної хвилі хайпу навколо AGI. Заяви, подібні до заяви Хуанга, чутки про нові чіпи, як-от “AGI CPU” від Arm, та амбітні плани OpenAI та Microsoft щодо створення надштучного інтелекту (ASI) свідчать про те, що термін “AGI” часто використовується комерційно, а не технічно.
Погляд Crypto Top: Ця ситуація підкреслює необхідність більш суворих та універсальних бенчмарків для оцінки реальних можливостей ШІ. У Web3 це може стимулювати розробку децентралізованих платформ для розподілених обчислень ШІ та створення токенізованих систем, що винагороджують за дійсно ефективні рішення, а не за симуляцію інтелекту.
Джерело: decrypt.co
