DiffusionGemma досягає 1000 токенів за секунду, повністю відмовляючись від генерації слово за словом. Проте, поки що вона не працює на більшості споживчих пристроїв.

Створіть обліковий запис, щоб зберегти свої статті.Додати до GoogleДодайте Decrypt як вибране джерело, щоб бачити більше наших матеріалів у Google.
Коротко
- Google випустила DiffusionGemma, безкоштовну модель з відкритими вагами, яка одночасно генерує цілі блоки по 256 токенів за допомогою дифузійного тексту, досягаючи понад 1000 токенів за секунду на NVIDIA H100 – у чотири рази швидше, ніж стандартні авторегресивні моделі.
- Спеціальний модуль drafter, який потрібен DiffusionGemma для локального виведення, ще не існує в жодному публічному середовищі виконання – ні в mlx-lm, ні в LM Studio, що робить її фактично неможливою для запуску на більшості споживчих конфігурацій сьогодні.
- На NVIDIA NIM модель поставлялася попередньо налаштованою з контекстом 8192 токени – нижче мінімального порогу 64000, необхідного для агентських фреймворків, таких як Hermes Agent, що означає, що автономні робочі процеси не працюватимуть без ручного переналаштування.
Google сьогодні представила DiffusionGemma, відкриту модель штучного інтелекту, яка генерує текст так само, як генератори зображень створюють картинки: починаючи з шуму, поступово уточнюючи, доки це не набуде сенсу. На NVIDIA H100 вона досягає швидкості 1000 токенів на секунду. (Токени – це базові одиниці інформації, з якими працює модель ШІ.) Це в чотири рази швидше, ніж звичайна Gemma. Вона також безкоштовна, має ліцензію Apache 2.0, а ваги доступні на Hugging Face.

Однак, як завжди, є нюанси. Згідно з анонсом Google, модель досягає “700+ токенів на секунду на NVIDIA GeForce RTX 5090”. Вона також поступається стандартній Gemma 4 за якістю виведення.
Сам Google це визнає. Це модель, оптимізована для швидкості, а не для покращення якості.
Що це насправді робить
Кожна велика мовна модель (LLM), яку ви використовували, схожа на друкарську машинку. Один токен за раз, де кожне слово залежить від попереднього. Так працюють авторегресивні архітектури.
DiffusionGemma працює інакше. Замість послідовної генерації токенів, вона починає з одночасного формування уточнень у фрагментах зашумленого тексту. Згідно з керівництвом розробника Google, вона “починає з полотна випадкових токенів-заповнювачів” і ітеративно закріплює впевнені токени, доки весь блок не набуде чіткої форми. 256 токенів за один прямий прохід. Це тримає GPU зайнятим.

Побічним ефектом є двонаправлена увага – кожен токен може “бачити” всі інші токени під час генерації, що неможливо в авторегресивних моделях (вони не можуть зазирнути в майбутнє, у те, що буде закодовано). Це робить її незвичайно ефективною для завдань, де кінець відповіді обмежує початок: доповнення коду, структуроване виведення, задачі з жорсткими обмеженнями тощо. Google доналаштував версію для вирішення судоку як демонстрацію. Базова модель впоралася приблизно з 0% головоломок.
Доналаштована версія досягла 80%.
Текстова дифузія була дослідницьким проєктом протягом багатьох років. MDLM, SEDD, LLaDA, Dream – академічні моделі, які довели, що підхід працює в малих масштабах і здебільшого залишалися доказом концепції. Inception Labs випустила Mercury 2 у лютому 2026 року як першу комерційну модель дифузійного міркування, стверджуючи, що її швидкість уп’ятеро перевищує швидкість оптимізованих конкурентів.
Але жодна з них не була з відкритими вагами і жодна не мала підтримки “з першого дня” у vLLM, Hugging Face Transformers та Unsloth. DiffusionGemma – це перший великий відкритий реліз від лабораторії першого ешелону.
Є також історична іронія, яку варто зазначити. Генератори зображень починали як дифузійні моделі (звідси й назва Stable Diffusion), а тепер переходять до авторегресивних архітектур для кращої якості. Мовні моделі почали як авторегресивні, а тепер експериментують з дифузією для швидкості.
Чому її складно запустити… поки що
Ефективний запуск DiffusionGemma вимагає “drafter” – легкого модуля, який паралельно пропонує блоки токенів, а основна модель потім перевіряє їх одним прямим проходом. Це називається спекулятивним декодуванням. DFlash – це фреймворк, опублікований на початку 2026 року, який використовує невелику дифузійну модель як drafter, забезпечуючи прискорення більш ніж у 6 разів для деяких завдань. Це двигун, який робить цей клас моделей практичним.
Проблема: DiffusionGemma потребує специфічного drafter для локального запуску через MLX – фреймворк машинного навчання Apple для Apple Silicon. Цей модуль відсутній у жодній публічній версії mlx-lm, у жодному відкритому запиті на витягнення (pull request) або у вбудованому середовищі виконання LM Studio.
Ми спробували запустити DiffusionGemma з Hermes через NVIDIA NIM. Модель завантажилася, але потім виникла помилка: “agent init failed: Model google/diffusiongemma-26b-a4b-it has a context window of 8,192 tokens, which is below the minimum 64,000 required by Hermes Agent.”
Точніше: реальне вікно контексту DiffusionGemma становить 256 тисяч токенів. Цифра 8192 була результатом налаштувань NVIDIA за замовчуванням, а не архітектурним обмеженням моделі.
На практиці, правильне налаштування для використання в агентських системах вимагає ручної роботи, яку більшість звичайних користувачів ще не освоїли, а Hermes Agent просто не ініціалізується без цього. Паралельна швидкість нічого не варта, якщо агент не може запуститися.
Сподіваємося, найближчими днями спільнота надасть кращі інструменти для запуску цих моделей.
Для кого це насправді призначено
Розробників з обладнанням NVIDIA RTX 4090 або 5090, які створюють інструменти реального часу – редактори тексту в реальному часі, автодоповнення, доповнення коду, генерацію структурованих даних. Це цільова аудиторія. Як повідомляв Decrypt у травні, Google послідовно працює над прискоренням локального виведення без потреби в новому обладнанні.
Для дослідників двонаправлена генерація відкриває території, недоступні для авторегресивних моделей – послідовності білків, математичні графи, будь-що, де позиція N залежить від позиції N+50. Це не дрібниця.
Google випустила Gemma 4 під ліцензією Apache 2.0 у квітні, і DiffusionGemma продовжує цю стратегію. Вже сьогодні існує проєкт запиту на витягнення (PR) для llama.cpp. Коли інструментарій наздожене, ця технологія стане доступною значно ширшій аудиторії.
На машині з потужною дискретною відеокартою 1000 токенів за секунду – це реальність.
Погляд Crypto Top: Ця інновація в генерації тексту за допомогою дифузії, що значно прискорює обробку, може стимулювати розвиток децентралізованих ШІ-мереж, зменшуючи обчислювальні витрати для розгортання потужних ШІ-агентів. Це відкриває нові можливості для застосування блокчейну в керуванні та монетизації ШІ-ресурсів.
Джерело: decrypt.co
