Google прискорює локальний ШІ втричі: новий прорив без заліза

Нові драфтери Multi-Token Prediction від Google роблять Gemma 4 до 3 разів швидшим на вашому власному обладнанні — без хмари та втрати якості.

Google прискорює локальний ШІ втричі: новий прорив без заліза 3

Створіть обліковий запис, щоб зберігати свої статті.Додати в GoogleДодайте Decrypt як ваше улюблене джерело, щоб бачити більше наших історій у Google.

Коротко

  • Google випустив драфтери Multi-Token Prediction (MTP) для Gemma 4, що забезпечують до 3-кратного прискорення інференсу без деградації якості виводу.
  • Цей метод, відомий як спекулятивне декодування, використовує легку “драфтерну” модель для передбачення кількох токенів одночасно, які потім основна модель перевіряє паралельно, обходячи вузьке місце по одному токену за раз.
  • Драфтери MTP доступні на Hugging Face, Kaggle та Ollama під тією ж ліцензією Apache 2.0, що й Gemma 4, і працюють з такими інструментами, як vLLM, MLX та SGLang.

Запуск моделі ШІ на власному комп’ютері — це чудово, доки це не стає проблемою.

Обіцянка — це конфіденційність, відсутність абонентської плати та дані, що не залишають вашої машини. Реальність для більшості людей — це спостереження за миготливим курсором протягом п’яти секунд між реченнями.

Це вузьке місце має назву: швидкість інференсу. І це не має нічого спільного з тим, наскільки розумна модель. Це апаратна проблема. Стандартні моделі ШІ генерують текст по одному фрагменту слова — так званому токену — за раз. Апаратне забезпечення має пересилати мільярди параметрів з пам’яті до своїх обчислювальних блоків лише для створення кожного окремого токена. Це повільно за своєю суттю. На споживчому обладнанні це болісно.

Обхідний шлях, до якого вдаються багато людей, — це запуск менших, слабших моделей або сильно стиснутих версій, які називаються квантованими моделями, що жертвують певною якістю заради швидкості. Жодне з цих рішень не є ідеальним. Ви отримуєте щось, що працює, але це не та модель, яку ви насправді хотіли.

Тепер Google має іншу ідею. Компанія щойно випустила драфтери Multi-Token Prediction (MTP) для своєї родини відкритих моделей Gemma 4 — техніка, яка може забезпечити до 3-кратного прискорення без жодного впливу на якість або здатність моделі до міркування.

Google прискорює локальний ШІ втричі: новий прорив без заліза 4

Підхід називається спекулятивним декодуванням, і він існує як концепція роками. Дослідники Google опублікували основоположну статтю ще у 2022 році. Ідея не стала мейнстрімом дотепер, оскільки вимагала відповідної архітектури для масштабування.

Ось коротка версія того, як це працює. Замість того, щоб велика, потужна модель виконувала всю роботу самостійно, ви поєднуєте її з крихітною “драфтерною” моделлю. Драфтер швидкий і дешевий — він передбачає кілька токенів одночасно за менший час, ніж основна модель витратила б на створення одного. Потім велика модель перевіряє всі ці припущення за один прохід. Якщо припущення правильні, ви отримуєте всю послідовність за ціною одного прямого проходу.

За словами Google, “якщо цільова модель погоджується з чернеткою, вона приймає всю послідовність за один прямий прохід — і навіть генерує додатковий токен сама в процесі”.

Нічого не втрачається: велика модель — наприклад, 31B щільна версія Gemma 4 — все одно перевіряє кожен токен, і якість виводу ідентична. Ви просто використовуєте невикористану обчислювальну потужність, яка простоювала під час повільних етапів.

Google стверджує, що драфтери спільно використовують KV-кеш цільової моделі — структуру пам’яті, яка зберігає вже оброблені контексти — тому вони не витрачають час на перерахунок того, що більша модель вже знає. Для менших периферійних моделей, розроблених для телефонів і пристроїв Raspberry Pi, команда навіть розробила ефективний метод кластеризації для подальшого скорочення часу генерації.

Це не єдина спроба світу ШІ паралелізувати генерацію тексту. Дифузійні мовні моделі — як-от Mercury від Inception Labs — пробували зовсім інший підхід: замість передбачення одного токена за раз, вони починають з шуму та ітеративно покращують весь вивід. Це швидко на папері, але дифузійні LLM важко конкурують за якістю з традиційними трансформерними моделями, залишаючись радше дослідницькою цікавістю, ніж практичним інструментом.

Спекулятивне декодування відрізняється тим, що воно взагалі не змінює базову модель. Це оптимізація обслуговування, а не заміна архітектури. Та сама Gemma 4, яку ви б вже використовували, стає швидшою.

Практичний зиск є реальним. Модель Gemma 4 26B, що працює на настільному GPU Nvidia RTX Pro 6000, отримує приблизно вдвічі більше токенів на секунду з увімкненим драфтером MTP, згідно з власними бенчмарками Google. На Apple Silicon пакети з 4-8 запитів забезпечують прискорення приблизно в 2,2 рази. Це не зовсім 3-кратний максимум у кожному сценарії, але все ще значуща різниця між “ледве придатним” і “дійсно достатньо швидким для роботи”.

Контекст тут важливий. Коли китайська модель DeepSeek шокувала ринок у січні 2025 року, знецінивши капіталізацію Nvidia на 600 мільярдів доларів за один день, головний висновок полягав у тому, що приріст ефективності може бути потужнішим за сиру обчислювальну потужність. Розумніший підхід переважає над збільшенням апаратного забезпечення. Драфтер MTP від Google — це ще один крок у цьому напрямку, спрямований безпосередньо на споживчий сегмент ринку.

Уся індустрія ШІ зараз — це трикутник, що складається з інференсу, навчання та пам’яті. Кожен прорив в одній із цих сфер має тенденцію стимулювати або шокувати всю екосистему. Підхід до навчання DeepSeek (створення потужних моделей з використанням менш вимогливого обладнання) був одним із прикладів, тоді як стаття Google про TurboQuant (зменшення пам’яті ШІ без втрати якості) — іншим. Обидва обвалили ринки, оскільки компанії намагалися зрозуміти, що робити.

Google стверджує, що драфтер забезпечує “покращену чутливість: різке зменшення затримки для майже реального часу чату, іммерсивних голосових додатків та агентних робочих процесів” — завдань, які вимагають низької затримки, щоб бути корисними.

Варіанти використання швидко стають зрозумілими: локальний помічник з кодування, який не гальмує; голосовий інтерфейс, який відповідає до того, як ви забудете, що питали; агентний робочий процес, який не змушує вас чекати три секунди між кроками. Все це на обладнанні, яке ви вже маєте.

Драфтери MTP доступні зараз на Hugging Face, Kaggle та Ollama під ліцензією Apache 2.0. Вони працюють з vLLM, MLX, SGLang та Hugging Face Transformers “з коробки”.

Погляд Crypto Top: Ця оптимізація швидкості інференсу ШІ може значно знизити бар’єр для локального розгортання децентралізованих ШІ-застосунків, роблячи їх більш доступними та практичними для масового користувача. Це може стимулювати розробку ШІ-агентів, які працюють на блокчейні, підвищуючи їхню ефективність та юзабіліті.

Джерело: decrypt.co

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *