Microsoft звільняє AI: перевершив OpenAI та Google у веб-серфінгу

Fara1.5 — сімейство браузерних агентів з відкритими вагами від Microsoft Research, що перевершує Operator від OpenAI та Gemini 2.5 Computer Use від Google у найскладнішому бенчмарку реального вебу.

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як обране джерело, щоб бачити більше наших історій у Google.

Коротко

Fara1.5-27B набрав 72% на Online-Mind2Web, випередивши OpenAI Operator (58.3%) та Gemini 2.5 Computer Use (57.3%).
Моделі мають відкриті ваги, доступні в розмірах 4, 9 та 27 мільярдів параметрів, і побудовані на основі доналаштованої моделі Qwen 3.5.
Fara1.5-9B вже доступна на Azure AI Foundry; версії 4B та 27B з’являться незабаром.

Уявіть, що ви можете наказати своєму комп’ютеру знайти варіанти для відпочинку, порівняти п’ять сайтів, заповнити форму бронювання та підтвердити той, що найближче до пляжу. Ви йдете варити каву. Коли ви повернетеся, все буде готово. Це і є обіцянка “комп’ютерних агентів” — ШІ, який читає екран вашого браузера, клікає, скролить і друкує точно так само, як людина, без потреби у спеціальних плагінах.

OpenAI вперше спробувала це з Operator, запущеним у січні 2025 року за $200 на місяць, перш ніж його інтегрували в ChatGPT Agent і припинили роботу в серпні. Google має Gemini 2.5 Computer Use. Обидва рішення є пропрієтарними, хмарними та дорогими в експлуатації.

Цього тижня Microsoft Research випустила невелику модель під назвою Fara1.5 — і за найважливішими показниками вона перевершує обидва.

Сімейство моделей доступне у трьох розмірах: 4 мільярди, 9 мільярдів та 27 мільярдів параметрів. Усі вони побудовані на базі Qwen3.5, базовій моделі від Alibaba, яку Microsoft доналаштувала для роботи з браузером. Усі ваги моделі публічно доступні. (Параметри визначають широту знань ШІ-моделі, де більша кількість зазвичай означає вищу потужність).

Щоб досягти цього, довелося повністю переосмислити процес розробки. «Ми почали з простого запитання: що потрібно, щоб зробити невелику модель справді хорошою у виконанні агентських завдань?» — написала команда AI Frontiers. — «Відповідь охопила весь життєвий цикл: генерацію даних, навчальні цілі, дизайн моделі та оркестрацію довелося переробляти разом, а не ізольовано».

Бенчмарки

Online-Mind2Web — це бенчмарк, який має вирішальне значення для завдань, у яких Microsoft прагнула досягти успіху. Він перевіряє, як часто ШІ-агент коректно виконує 300 різноманітних реальних завдань на 136 популярних живих вебсайтах — таких як порівняння продуктів, заповнення форм та бронювання послуг. Результат вимірюється у відсотках правильно виконаних завдань в реальному, мінливому інтернеті.

Fara1.5-27B показала результат 72%. OpenAI Operator — 58.3%. Gemini 2.5 Computer Use від Google — 57.3%. Navigator n1 від Yutori, найкраща пропрієтарна альтернатива, досягла 64.7%. Навіть Fara1.5-9B, модель середнього розміру, досягла 63.4% — вище, ніж у OpenAI та Google.

Microsoft звільняє AI: перевершив OpenAI та Google у веб-серфінгу 6

Відкриті конкуренти також відстали. GUI-Owl-1.5 від Alibaba з 8 мільярдами параметрів показав результат 48.6%. MolmoWeb від AI2 — 35.3%. Попередня модель Microsoft, Fara-7B, показала 34.1%, що робить цей випуск майже вдвічі кращим за попередника при порівнянному розмірі.

На WebVoyager, другому бенчмарку, що вимірює успішність виконання завдань у реальному вебі за схожою методикою, Fara1.5-27B досягла 88.6%, обійшовши 87.0% OpenAI Operator і випередивши Holo2 від H Company (30 мільярдів параметрів) з показником 83.0%.

Як вона навчалася

Microsoft звільняє AI: перевершив OpenAI та Google у веб-серфінгу 7

Ключовим елементом є навчальний конвеєр. Microsoft використовувала систему під назвою FaraGen1.5 для генерації навчальних даних. Найцікавіше: вони використали GPT-5.4 — модель OpenAI — як “агента-вчителя” для демонстрації виконання браузерних завдань. Ці демонстрації стають навчальними даними для Fara1.5. По суті, ви використовуєте найпотужнішу модель OpenAI для навчання конкуруючої моделі з відкритим вихідним кодом.

Вони також створили шість фальшивих, повністю функціональних копій реальних вебсайтів — поштових клієнтів, календарів, ринків — щоб модель могла практикувати завдання, які вимагають логінів або незворотних дій (як-от надсилання електронного листа чи бронювання авіаквитка), не торкаючись реальних облікових записів. Це називається синтетичним доменним навчанням, і це значна причина, чому Fara1.5 краще справляється з “закритими” завданнями, ніж її попередники.

Кожна модель розроблена так, щоб зупинятися та запитувати дозвіл перед виконанням дії, яку не можна скасувати. «Балансування надійних засобів захисту, таких як критичні точки, з безперебійними шляхами користувача є ключовим», — повідомив VentureBeat Яш Лара, старший керівник PM у Microsoft Research. — «Наявність інтерфейсу користувача, як-от Magentic-UI від Microsoft Research, є життєво важливою для надання користувачам можливості втручатися за необхідності, а також допомагає уникнути втоми від схвалення».

Це важливо, оскільки OpenAI не приховувала ризиків, коли запускала ChatGPT Agent. «Коли ви надаєте ChatGPT Agent доступ до вебсайтів або вмикаєте конектори, він зможе отримувати доступ до конфіденційних даних із цих джерел, таких як електронні листи, файли або інформація облікового запису», — писала компанія.

Fara1.5 виконує всі дії через MagenticLite — пісочницю браузерного середовища, яка реєструє кожну дію та дозволяє користувачам зупинити агента в будь-який момент.

Microsoft звільняє AI: перевершив OpenAI та Google у веб-серфінгу 8

Браузерний ШІ став насиченою гонкою: Gemini від Google в Chrome, Comet від Perplexity, Claude від Anthropic для Chrome. Перевага Fara1.5 полягає в тому, що вона відкрита: публічні ваги, відкритий код для виведення на GitHub, запускається на вашому власному обладнанні. Fara1.5-9B вже доступна на Azure AI Foundry; варіанти 4B і 27B з’являться незабаром. Microsoft планує розширити Fara1.5 за межі браузера і впровадити її в настільне та корпоративне програмне забезпечення.

Погляд Crypto Top: Впровадження таких потужних, відкритих ШІ-агентів, як Fara1.5, може значно підвищити ефективність взаємодії з децентралізованими застосунками (dApps), автоматизуючи складні процеси та роблячи Web3 доступнішим для широкого загалу. Це може стимулювати розробку нових токен-економік, орієнтованих на управління ШІ-агентами та їхніми обчислювальними потужностями.

Джерело: decrypt.co

No votes yet.

Please wait...

Коротко

Бенчмарки

Як вона навчалася

Залишити відповідьСкасувати відповідь