Claw-Anything симулює реальне цифрове життя та доручає ШІ-асистентам керувати ним. GPT-5.5, найкраща доступна модель, показала результат 34,5%.
Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як вибране джерело, щоб бачити більше наших історій у Google.
Коротко
Дослідники з Huawei та трьох партнерських установ представили Claw-Anything – бенчмарк для оцінки ШІ-агентів у завданнях особистого асистента.
GPT-5.5, флагманська модель OpenAI, набрала лише 34,5% за метрикою pass@1 – значно нижче, ніж на існуючих бенчмарках, що свідчить про недосконалість поточних тестів.
Команда також випустила автоматизований конвеєр даних, який створив 2000 навчальних середовищ; доналаштування моделі з відкритими вагами на цих даних покращило успішність виконання завдань на 23,7%.
Суть обіцянки ШІ-персональних асистентів завжди була однаковою: надайте агенту доступ до вашого цифрового життя, і він зробить усе інше. Ваші електронні листи, календар, нотатки, пристрої — усе. Ваш ШІ знає. Ваш ШІ діє. Ви відпочиваєте.
Дослідники з Huawei Technologies, Пекінського інституту технологій, Пекінського університету та Китайської академії наук щойно створили бенчмарк, щоб перевірити, чи це справді так. Спойлер: ні.
Claw-Anything оцінює ШІ-агентів одночасно за трьома вимірами: довгострокові потоки подій, що охоплюють понад три місяці симульованої активності користувача; взаємозалежні бекенд-сервіси, в середньому 10,1 на завдання; та взаємодія з кількома пристроями як у середовищах командного рядка Linux, так і в середовищах графічного інтерфейсу Android.
Середнє контекстне вікно на завдання становить 191 700 слів. Більшість існуючих бенчмарків мають показники від 1700 до 12 000. Це не невелика різниця, а зовсім інша проблема. Це також те, як відчуває себе реальне життя, на відміну від стандартизованих, ультраспецифічних бенчмарків.
Ваш ШІ не розуміє, що відбувається
Бенчмарк оцінюється за показником pass@1 – ймовірність того, що агент виконає завдання правильно з першої спроби, без повторень. Завдання може вимагати від агента перехресної перевірки попередження про ціну на товар, знайдений кілька тижнів тому, перевірки календаря користувача на наявність відповідної зустрічі та виконання обох дій з телефону. Інше завдання може вимагати вилучення нещодавньої роботи з нотаток, ланцюжків електронних листів і Slack, а потім створення презентації з нуля.
Це те, що люди реально просять робити асистентів. Виявляється, ШІ не дуже добре з цим справляється. GPT-5.5, згідно з попереднім висвітленням Decrypt, є найкращою моделлю OpenAI, створеною з урахуванням завдань агентів з довготривалим горизонтом. Вона показала результат 34,5%.
«Поточні моделі залишаються ненадійними, навіть коли їм надають ширший доступ до цифрового світу користувача», — йдеться у статті про Claw-Anything. Кілька моделей, які виглядають вражаюче на інших бенчмарках, показали значно гірші результати.
Бенчмарк також окремо оцінює проактивну допомогу, тобто випадки, коли агент виявляє потребу та діє без запиту. Більшість бенчмарків цього не тестують. Claw-Anything це робить, і розрив вражає: агенти показали 25,9% у реактивних завданнях і лише 6,7% у проактивних.
Чому більшість бенчмарків вам цього не розповідають
Дослідники роблять слушний аргумент: існуючі бенчмарки розглядають ШІ-агентів як виконавців завдань, яким надано “чистий стіл”. Claw-Anything розглядає їх як персональних асистентів, кинутих у реальне, хаотичне життя — з нерелевантними подіями, суперечливими сигналами, накопиченим “шумом” за місяці. Агент повинен спочатку зрозуміти, що є релевантним, перш ніж він зможе зробити щось корисне.
Результати аблеації особливо чітко демонструють залежність від багатьох сервісів. Коли інструменти, необхідні для міжсервісних завдань, були вилучені, коефіцієнти успіху впали майже до нуля, оскільки більшість завдань вимагають від агентів вилучення інформації та дій у кількох бекендах, а не в одному.
Це не нова проблема в оцінці ШІ. OpenAI оголосила SWE-bench “зараженою” на початку цього року після обвалу результатів з приблизно 70% до 23% на версії з меншим витоком даних. Це стосувалося гігієни даних. Цього разу йдеться про щось більш фундаментальне — чи бенчмарки взагалі ставлять правильне запитання.
З конструктивного боку, команда випустила конвеєр, який генерував бенчмарк, разом із 2000 навчальними середовищами. Доналаштування моделі Qwen3.5-27B на 1500 успішних траєкторіях агентів покращило pass@1 на 23,7% — цього було достатньо, щоб обігнати кілька комерційних моделей у таблиці лідерів, зокрема Claude Sonnet.
Дослідники визначають координацію між сервісами як головний виклик для галузі, який залишається невирішеним у бенчмарку. Набір даних доступний на Hugging Face, а код — на GitHub.
Погляд Crypto Top: Це дослідження підкреслює прогалину між поточними можливостями ШІ та вимогами реального світу, що може спонукати до розвитку децентралізованих обчислювальних мереж для надійнішого навчання та виконання складних ШІ-завдань. Інтеграція таких ШІ-агентів у Web3 вимагатиме нових смарт-контрактів, здатних керувати доступом до даних та верифікувати дії ШІ в децентралізованому середовищі.