Microsoft з’єднав GPT та Claude: новий ШІ-інструмент перевершив конкурентів

Microsoft Copilot Researcher використовує GPT та Claude послідовно, перевершивши всі існуючі ШІ-системи.

Microsoft з'єднав GPT та Claude: новий ШІ-інструмент перевершив конкурентів 4

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як джерело за замовчуванням, щоб бачити більше наших історій у Google.

Ключові моменти

  • Microsoft представила два нові режими, що комбінують GPT та Claude для підвищення якості досліджень за допомогою ШІ.
  • Режим “Critique” (Критика) забезпечує співпрацю моделей, тоді як “Council” (Рада) запускає їх паралельно, а третій ШІ-агент виявляє розбіжності.
  • Цей двомодельний робочий процес вирішує проблеми галюцинацій, слабких посилань та інших недоліків мономодельних ШІ-систем.

Глибокі дослідницькі ШІ-системи стали однією з найгарячіших гонок озброєнь у сфері технологій цього року. Google оголосив про свій дослідницький агент для Gemini у грудні 2024 року, OpenAI випустила власний дослідницький агент у лютому 2025 року, xAI пішла слідом, Perplexity посилила свої позиції, а Claude від Anthropic здобув лояльність серед професіоналів, яким потрібні детальні відповіді з посиланнями, представивши свого агента у квітні минулого року.

Кожна компанія намагалася переконати вас, що її окрема модель ШІ є найрозумнішим дослідником. Microsoft ж запитала: навіщо обирати одну?

Компанія оголосила про дві нові функції для інструмента Copilot Researcher — “Critique” та “Council” — які змушують GPT від OpenAI та Claude від Anthropic працювати над одним і тим самим дослідницьким завданням послідовно. Результат, згідно з тестуванням Microsoft проти галузевого бенчмарку, виявився вищим за будь-яку систему, що брала участь у цьому тестуванні, включаючи моделі від провідних ШІ-компаній.

«Critique — це нова багатомодельна система глибоких досліджень, розроблена для складних завдань. Вона розділяє генерацію та оцінку, використовуючи комбінацію моделей від провідних лабораторій, включаючи Anthropic та OpenAI», — пояснює Microsoft. «Одна модель керує фазою генерації, планує завдання, ітерує через вибірку даних та створює початковий проєкт, тоді як друга модель зосереджується на перегляді та вдосконаленні, діючи як експертний рецензент перед створенням фінального звіту».

Ось основна проблема, яку покликана вирішити функція Critique: кожен сучасний інструмент для ШІ-досліджень працює однаково. Ви ставите запитання, одна модель планує пошук, сканує джерела, пише звіт і передає його вам. Ця одина модель робить усе, і ніхто не перевіряє її роботу.

Це може призвести до появи “галюцинацій”, помилок у цитуваннях, неправдивих або неточних тверджень тощо.

Critique розбиває цей робочий процес на дві частини. GPT відповідає за першу фазу — планує дослідження, вибирає джерела та створює початковий проєкт. Потім Claude виступає в ролі суворого редактора, перевіряючи звіт на фактичну точність, якість цитувань та відповідність запиту. Тільки після цієї перевірки фінальний звіт надходить до користувача. Microsoft зазначає, що ролі можуть бути й зворотними, коли Claude створює проєкт, а GPT критикує, хоча наразі GPT виконує першу роль.

На бенчмарку DRACO — стандартизованому тесті, що охоплює 100 складних дослідницьких завдань у 10 доменах, включаючи медицину, право та технології, — Copilot з функцією Critique набрав 57.4 бали, тоді як Claude Opus 4.6 від Anthropic самостійно досяг 42.7 балів. Комбінована система Microsoft перевершує наступний найкращий результат майже на 14%.

Microsoft з'єднав GPT та Claude: новий ШІ-інструмент перевершив конкурентів 5

Найбільший приріст спостерігається у широті аналізу та якості подання, а також у значному поліпшенні фактичної точності.

Друга функція, Council, застосовує інший підхід до тієї ж проблеми. Замість того, щоб один модель переглядав роботу іншої, Council запускає GPT та Claude одночасно і порівнює їхні повні звіти. Третя модель-«суддя» потім читає обидва звіти та пише резюме, пояснюючи, де два ШІ погодилися, де розійшлися, та які унікальні аспекти кожен з них виявив, які інший пропустив. До цього моменту користувачі мали самостійно порівнювати інструменти ШІ-досліджень.

У режимі Critique моделі, по суті, співпрацюють одна з одною, тоді як у режимі Council моделі змагаються одна з одною.

Critique є стандартним режимом у Researcher, тоді як Council вимагає вибору “Model Council” з меню вибору для активації режиму порівняння. Обидві функції наразі доступні користувачам, зареєстрованим у програмі Frontier від Microsoft, яка є каналом раннього доступу до найновіших можливостей Copilot. Для доступу потрібна ліцензія Microsoft 365 Copilot (30 доларів США за користувача на місяць), а також реєстрація у програмі Frontier.

Microsoft з'єднав GPT та Claude: новий ШІ-інструмент перевершив конкурентів 6

OpenAI та Microsoft мають багатомільярдне партнерство, але ставка Microsoft полягає в тому, що жодна окрема модель не залишатиметься на вершині надовго, і справжня цінність полягає в рівні оркестрації, який спрямовує завдання до тієї комбінації, що працює найкраще.

Погляд Crypto Top: Інтеграція потужних ШІ-моделей, таких як GPT та Claude, у децентралізовані обчислювальні мережі може революціонізувати аналіз даних та виконання складних завдань у Web3, створюючи нові парадигми для ШІ-агентів та смарт-контрактів. Це відкриває шлях до появи більш просунутих та надійних децентралізованих ШІ-додатків, що потенційно збільшить корисність нативних токенів екосистем.

Джерело: decrypt.co

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *