Mercury 2 перевершив DiffusionGemma: Чи готується Inception Labs до нової ери ШІ?

Відмовляючись від послідовної генерації, нові моделі ШІ демонструють паралельну обробку без втрати інтелекту.

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як улюблене джерело, щоб бачити більше наших історій у Google.

Коротко

Inception Labs’ Mercury 2 генерує приблизно 1000 токенів за секунду і отримав 90 балів на AIME 2026.
Нещодавня модель DiffusionGemma від Google демонструє подібні швидкості, але гірше справляється з тестами.
DiffusionGemma є безкоштовною з відкритими вагами на Hugging Face. Mercury 2 — це платна API-модель із закритими вагами.

Inception Labs представила Mercury 2 у четвер, назвавши її найшвидшою моделлю для міркувань у світі. За даними компанії, вона генерує близько 1000 токенів за секунду — шматків тексту, які модель штучного інтелекту читає та пише — у порівнянні приблизно з 89 токенами за секунду для Claude Haiku 4.5 Reasoning від Anthropic та 71 для GPT-5 Mini від OpenAI.

Це ставить її в один швидкісний сегмент, на який пізніше претендувала Google для DiffusionGemma.

Welcome to the diffusion era.

We bet on parallel generation years ago, when it was a contrarian idea. It’s great to see the industry arrive.

Mercury 2 continues to lead the Pareto frontier for quality, speed, and cost among publicly available diffusion LLMs. pic.twitter.com/qSHuiR7vmH

— Inception (@_inception_ai) June 18, 2026

Обидві моделі досягають цього, відмовляючись від підходу “друкарської машинки” до написання. Стандартний чат-бот пише одне слово, перевіряє написане, потім пише наступне, повторюючи цикл до завершення відповіді. Натомість дифузійні моделі заповнюють блок тексту випадковими маркерами шуму і поступово усувають його протягом кількох паралельних проходів — той самий прийом, що перетворює статичні зображення на фотографії в генераторах зображень, таких як Stable Diffusion — доки весь блок не перетвориться на завершену відповідь одночасно.

Різниця полягає в тому, що залишається після цього процесу. На тесті AIME 2026 — створеному на основі реальних завдань American Invitational Mathematics Examination і оціненому як відсоток правильно вирішених завдань — Mercury 2 показав 90%. Google протестував DiffusionGemma на тому ж наборі, де вона отримала 69,1%, тоді як стандартна, не дифузійна Gemma 4 показала 88,3% на тому ж тесті.

На GPQA, науковому бенчмарку рівня PhD, оціненому аналогічно, ці дві моделі майже зрівнялися: Mercury 2 — 77% проти 73,2% у DiffusionGemma. Але власний посібник розробника Google рекомендує стандартну Gemma 4 для застосунків, що вимагають максимальної якості, визнаючи, що DiffusionGemma відстає від неї за всіма показниками.

Заявлена швидкість підтверджується і поза лабораторією. Augment Code, компанія, що розробляє ШІ-агентів для кодування, замінила Claude Opus 4.7 від Anthropic на Mercury 2 у своєму підсистемі стиснення контексту і відзначила 82% зниження затримки та 90% скорочення витрат, зберігаючи при цьому ту ж якість виведення, згідно зі спільним дослідженням.

Компанія Inception базується на дослідженнях свого засновника Стефано Ермона, професора Стенфорда, який був співавтором деяких дифузійних технік на основі оцінки, що лежать в основі сучасних генераторів зображень. Раунд фінансування стартапу на суму 50 мільйонів доларів включав підтримку від венчурного підрозділу Nvidia та окремих інвесторів Ендрю Нга та Андрія Карпатого.

Для нетехнічних користувачів найважливіше, що вони відчувають, — це “потік”. Традиційні моделі змушують вас чекати між думками в довгій сесії. Дифузійні моделі, подібні до цієї, створюють враження, що ШІ встигає за вами — миттєве автодоповнення, швидка ітерація над кодом або планами, а також під-агенти, які можуть виконувати нудну роботу з великим обсягом без уповільнення всієї системи.

Цей рівень під-агентів є цікавим архітектурним зрушенням. Складні системи ШІ — це вже не одна гігантська розумна модель. Це оркестри спеціалізованих помічників: один для глибоких міркувань, кілька для швидкого узагальнення, маршрутизації, пошуку інструментів, перевірки результатів тощо. Послідовні моделі роблять ці виклики утиліт дорогими та повільними. Паралельні дифузійні моделі роблять їх достатньо дешевими та швидкими для широкого використання.

Реалістичні застереження для звичайних користувачів: ці моделі все ще краще підходять для чутливих до швидкості, високооб’ємних частин робочих процесів, а не для найскладніших міркувань (де найбільші AR-моделі поки що можуть мати перевагу). Mercury 2 не має відкритих ваг, тому наразі доступний через API/хмару. І, як і версія Google, повна екосистема (локальні середовища виконання, фреймворки для агентів) все ще потребує вдосконалення, щоб забезпечити безшовність скрізь.

Випадки використання, що одразу спадають на думку: швидке програмування в реальному часі та “вайб-кодинг”, де модель встигає за вашими редагуваннями, багатоагентні системи кодування або підтримки, де відбувається багато швидких під-викликів, голосові інтерфейси, які не відчуваються повільними, та будь-яке чутливе до затримок автодоповнення або прогнозування наступної дії. У великих масштабах економія коштів та енергії завдяки вищій пропускній здатності на стандартному обладнанні швидко накопичується.

Цифри, які надає Inception (та незалежні оцінки), наочно демонструють: Mercury 2 знаходиться в квадранті “швидко і добре” для дифузійних моделей, переносячи те, що раніше вимагало екзотичного обладнання, на звичайні GPU.

Погляд Crypto Top: Швидкісні дифузійні моделі ШІ, як-от Mercury 2, мають потенціал трансформувати блокчейн-додатки, забезпечуючи миттєву обробку даних та ефективнішу роботу смарт-контрактів. Це може призвести до появи нових децентралізованих сервісів, які раніше були неможливі через обмеження швидкості та обчислювальних ресурсів.

Джерело: decrypt.co

No votes yet.

Please wait...

Відмовляючись від послідовної генерації, нові моделі ШІ демонструють паралельну обробку без втрати інтелекту.

Коротко

Залишити відповідьСкасувати відповідь