Google прискорює локальний ШІ втричі: нове обладнання не потрібне

Google пропонує Multi-Token Prediction для прискорення моделей Gemma 4

Google представила нові драфтери Multi-Token Prediction (MTP) для своїх моделей Gemma 4. Ця технологія дозволяє значно прискорити процес генерації відповідей (inference) до 3 разів на локальному обладнанні, усуваючи потребу у хмарних сервісах та зберігаючи високу якість результатів.

Google прискорює локальний ШІ втричі: нове обладнання не потрібне 3

Коротко про головне:

Google випустила драфтери Multi-Token Prediction (MTP) для сімейства моделей Gemma 4, забезпечуючи до 3-кратного прискорення генерації без втрати якості.
Ця техніка, відома як спекулятивне декодування, використовує легку “драфтерну” модель для одночасного передбачення кількох токенів. Основна модель потім паралельно перевіряє ці прогнози, обходячи обмеження послідовної генерації по одному токену.
Драфтери MTP доступні на платформах Hugging Face, Kaggle та Ollama під тією ж ліцензією Apache 2.0, що й Gemma 4, і сумісні з інструментами, такими як vLLM, MLX та SGLang.

Проблема швидкості генерації

Використання моделей штучного інтелекту (ШІ) на власному комп’ютері обіцяє конфіденційність, відсутність абонплати та повний контроль над даними. Однак, на практиці, користувачі часто стикаються з повільною генерацією відповідей, що робить взаємодію з ШІ незручною.

Це “вузьке місце” відоме як швидкість генерації (inference speed). Воно не залежить від “інтелекту” моделі, а є проблемою апаратної реалізації. Традиційні моделі ШІ генерують текст по одному фрагменту слова, або токену, за раз. Для цього апаратному забезпеченню необхідно пересилати мільярди параметрів з пам’яті до обчислювальних блоків, що робить процес надзвичайно повільним.

Як наслідок, користувачі змушені використовувати менші, менш потужні моделі, або сильно стиснені (квантовані) версії, які жертвують частиною якості заради швидкості. Це компроміс, який не дозволяє повною мірою скористатися можливостями бажаної моделі.

Спекулятивне декодування: інноваційний підхід Google

Google пропонує інше рішення: Multi-Token Prediction (MTP) для своїх відкритих моделей сімейства Gemma 4. Ця техніка забезпечує до 3-кратного прискорення без жодної втрати якості чи здатності моделі до міркування.

Google прискорює локальний ШІ втричі: нове обладнання не потрібне 4

Цей підхід, відомий як спекулятивне декодування, існує вже кілька років. Дослідники Google опублікували фундаментальну статтю ще у 2022 році. Однак, реалізація в масштабі стала можливою лише зараз завдяки відповідній архітектурі.

Простими словами, замість того, щоб велика та потужна модель виконувала всю роботу самостійно, її доповнюють крихітною “драфтерною” моделлю. Драфтер працює швидко та ефективно, передбачаючи кілька токенів одночасно за менший час, ніж основна модель витратила б на один токен. Потім велика модель перевіряє всі ці передбачення за один прохід. Якщо прогнози правильні, вся послідовність генерується за ціну одного обчислювального кроку.

За даними Google, “якщо цільова модель погоджується з драфтом, вона приймає всю послідовність за один прохід, а також генерує додатковий токен”.

При цьому якість результату залишається незмінною. Велика модель, наприклад, 31-мільярдна версія Gemma 4, все одно перевіряє кожен токен, і кінцева якість ідентична. Це досягається за рахунок ефективного використання обчислювальних ресурсів, які раніше простоювали під час повільних етапів.

Google зазначає, що драфтерні моделі використовують спільний KV-кеш (пам’ять, що зберігає вже оброблену контекстну інформацію) з основною моделлю, уникаючи зайвих обчислень. Для менших моделей, призначених для мобільних пристроїв та таких платформ, як Raspberry Pi, розроблено ефективну техніку кластеризації для подальшого скорочення часу генерації.

Альтернативні підходи та переваги спекулятивного декодування

Існують й інші спроби прискорити генерацію тексту в галузі ШІ. Наприклад, дифузійні мовні моделі, такі як Mercury від Inception Labs, використовують зовсім інший підхід: замість передбачення токенів, вони починають з шуму і поступово вдосконалюють весь результат. Хоча це виглядає швидко на папері, дифузійні LLM поки що не можуть зрівнятися за якістю з традиційними трансформерними моделями, залишаючись скоріше дослідницьким інтересом.

Спекулятивне декодування відрізняється тим, що воно не змінює саму модель. Це оптимізація процесу розгортання (serving), а не заміна архітектури. Та сама модель Gemma 4 стає швидшою.

Практична користь є значною. За даними Google, модель Gemma 4 26B, що працює на професійному десктопному GPU Nvidia RTX Pro 6000, демонструє приблизно вдвічі більшу швидкість генерації токенів за секунду з увімкненим драфтером MTP. На Apple Silicon, використання пакетів запитів від 4 до 8 забезпечує прискорення близько 2.2x. Це суттєва різниця між “ледве прийнятним” і “достатньо швидким для роботи”.

Шлях до ефективності

В контексті останніх подій, коли модель DeepSeek з Китаю вразила ринок, знецінивши Nvidia на $600 мільярдів за один день, ключовим висновком стала ефективність. Оптимізація процесів має більший вплив, ніж просте збільшення обчислювальної потужності. MTP драфтер від Google є ще одним кроком у цьому напрямку, але орієнтованим на кінцевого споживача.

Вся індустрія ШІ сьогодні зосереджена на трьох основних аспектах: генерація (inference), навчання (training) та пам’ять. Кожен прорив у одній з цих сфер впливає на всю екосистему. Підхід DeepSeek до навчання (створення потужних моделей з використанням менш потужного обладнання) та Google TurboQuant (зменшення обсягу пам’яті ШІ без втрати якості) є прикладами таких проривів, що викликали значні зміни на ринку.

Google заявляє, що драфтер забезпечує “покращену чутливість: різко зменшує затримку для майже реального часу в чатах, голосових додатках та агентних робочих процесах” — завдання, що вимагають мінімальної затримки для комфортної взаємодії.

Це відкриває двері для нових сценаріїв використання: локальний помічник з програмування, що не відстає; голосовий інтерфейс, який реагує миттєво; агентний робочий процес, де кожен крок виконується без затримок. І все це — на вашому власному обладнанні.

Драфтери MTP вже доступні на Hugging Face, Kaggle та Ollama під ліцензією Apache 2.0. Вони працюють “з коробки” з vLLM, MLX, SGLang та Hugging Face Transformers.

Погляд Crypto Top: Ця оптимізація швидкості генерації ШІ-моделей є ключовою для масового впровадження децентралізованих обчислень та ШІ-агентів у Web3. Зменшення залежності від потужних централізованих серверів, що стало можливим завдяки таким технологіям, як MTP, може стимулювати розвиток децентралізованих мереж машинного навчання та підвищити корисність нативних токенів, що використовуються для оплати цих ресурсів.

Джерело: decrypt.co

Rating: 5.00/5. From 1 vote.

Please wait...

Google пропонує Multi-Token Prediction для прискорення моделей Gemma 4

Проблема швидкості генерації

Спекулятивне декодування: інноваційний підхід Google

Альтернативні підходи та переваги спекулятивного декодування

Шлях до ефективності

Залишити відповідьСкасувати відповідь