Google DiffusionGemma: Швидкість 1000 токенів/сек і вільний доступ для трейдерів

DiffusionGemma: Швидкість генерації тексту на новому рівні

Створіть обліковий запис, щоб зберігати статті.Додати в GoogleДодайте Decrypt як улюблене джерело, щоб бачити більше наших історій у Google.

Ключові моменти

Google випустила DiffusionGemma, безкоштовну модель з відкритими вагами, яка генерує цілі блоки по 256 токенів одночасно за допомогою дифузії тексту, досягаючи понад 1000 токенів на секунду на NVIDIA H100, що вчетверо швидше за стандартні авторегресивні моделі.
Спеціальний модуль “drafter”, який потрібен DiffusionGemma для локального виведення, поки що відсутній у будь-якому публічному середовищі виконання — ні в mlx-lm, ні в LM Studio — що робить її фактично непрацездатною на більшості споживчих систем сьогодні.
На NVIDIA NIM модель постачається попередньо налаштованою з 8192 токенами контексту, що нижче за мінімальний поріг у 64000 токенів, який вимагають агентські фреймворки, як-от Hermes Agent, що означає, що автономні робочі процеси не працюватимуть без ручного переналаштування.

Google представила DiffusionGemma — відкриту модель штучного інтелекту (ШІ), яка генерує текст за принципом роботи генераторів зображень: починає з шуму і поступово вдосконалює його, доки не вийде осмислений результат. Модель досягає швидкості 1000 токенів на секунду на NVIDIA H100. Токени є базовою одиницею інформації, яку обробляє модель ШІ. Це вчетверо швидше, ніж звичайна модель Gemma. Модель є безкоштовною, розповсюджується під ліцензією Apache 2.0, а її ваги доступні на Hugging Face.

Google DiffusionGemma: Швидкість 1000 токенів/сек і вільний доступ для трейдерів 5

Основна перешкода, як завжди, криється в деталях. Згідно з анонсом Google, модель досягає “700+ токенів на секунду на NVIDIA GeForce RTX 5090”. Крім того, вона поступається стандартній Gemma 4 за якістю виведення.

Google сама визнає: це модель для швидкості, а не для покращення якості.

Як це працює насправді

Кожна велика мовна модель (LLM), з якою ви працювали, схожа на друкарську машинку. Одне слово за раз, де кожне слово залежить від попереднього. Так працюють авторегресивні архітектури.

DiffusionGemma працює інакше. Замість послідовної генерації токенів, вона починає з оброблених блоків “шумового” тексту, обробляючи їх паралельно. Згідно з посібником розробника Google, модель “починає з полотна випадкових маркерів-токенів” і ітеративно фіксує впевнені токени, доки весь блок не набуде чіткої форми. 256 токенів за один прохід. Це тримає GPU зайнятим.

Google DiffusionGemma: Швидкість 1000 токенів/сек і вільний доступ для трейдерів 6

Побічним ефектом є двостороння увага — кожен токен може “бачити” всі інші токени під час генерації, що неможливо в авторегресивних моделях (вони не можуть передбачити майбутнє, що буде закодовано). Це робить модель надзвичайно ефективною для завдань, де кінець відповіді обмежує початок: доповнення коду, структуроване виведення, проблеми з жорсткими обмеженнями тощо. Google доналаштувала версію для розв’язання Судоку як демонстрацію. Базова модель справлялася приблизно з 0% головоломок.

Доналаштована версія досягла 80%.

Текстова дифузія була дослідницьким проєктом протягом багатьох років. MDLM, SEDD, LLaDA, Dream — академічні моделі, які довели ефективність підходу в малих масштабах і здебільшого залишалися як доведення концепції. Inception Labs випустила Mercury 2 у лютому 2026 року як першу комерційну модель дифузійного міркування, стверджуючи про швидкість, у п’ять разів вищу за оптимізованих конкурентів.

Однак жодна з них не мала відкритих ваг і не мала підтримки “з першого дня” у vLLM, Hugging Face Transformers та Unsloth. DiffusionGemma є першим великим відкритим релізом від провідної лабораторії.

Є також історична іронія, яку варто відзначити. Генератори зображень починали як дифузійні моделі (звідси й назва Stable Diffusion) і тепер переходять до авторегресивних архітектур для кращої якості. Мовні моделі починали як авторегресивні, а тепер експериментують з дифузією заради швидкості.

Чому її складно запустити… поки що

Ефективний запуск DiffusionGemma вимагає “drafter” — легкого модуля, який паралельно пропонує блоки токенів, а основна модель їх перевіряє за один прохід. Це називається спекулятивним декодуванням. DFlash — це фреймворк, випущений на початку 2026 року, який використовує невелику дифузійну модель як “drafter”, забезпечуючи прискорення більш ніж у 6 разів для деяких завдань. Це двигун, який робить цей клас моделей практичним.

Проблема: DiffusionGemma потребує специфічного “drafter” для локального запуску через MLX — фреймворк машинного навчання Apple для Apple Silicon. Цей модуль відсутній у будь-якій публічній версії mlx-lm, у будь-якому відкритому запиті на злиття (pull request) або в комплекті LM Studio.

Ми намагалися запустити DiffusionGemma з Hermes через NVIDIA NIM. Модель завантажилася, але потім з’явилося повідомлення: “agent init failed: Model google/diffusiongemma-26b-a4b-it has a context window of 8,192 tokens, which is below the minimum 64,000 required by Hermes Agent.” (ініціалізація агента не вдалася: модель google/diffusiongemma-26b-a4b-it має контекстне вікно 8192 токенів, що нижче за мінімальні 64000, необхідні Hermes Agent).

Точніше: фактичне контекстне вікно DiffusionGemma становить 256 тисяч токенів. Цифра 8192 була помилкою налаштування NVIDIA за замовчуванням, а не архітектурним обмеженням моделі.

На практиці, правильне налаштування для агентського використання вимагає ручної роботи, яку більшість звичайних користувачів ще не освоїли, а Hermes Agent просто не ініціалізується без цього. Паралельна швидкість нічого не означає, якщо агент не може завантажитися.

Сподіваємося, найближчими днями спільнота надасть кращі ресурси для запуску цих моделей.

Для кого це насправді призначено

Розробники з обладнанням NVIDIA RTX 4090 або 5090, які створюють інструменти реального часу — вбудовані редактори, автодоповнення, інструменти для доповнення коду, генерацію структурованих даних. Це цільова аудиторія. Як писав Decrypt у травні, Google послідовно працює над прискоренням локального виведення без необхідності нового обладнання.

Для дослідників двостороння генерація відкриває сфери, недоступні для авторегресивних моделей — послідовності білків, математичні графи, будь-що, де позиція N залежить від позиції N+50. Це не дрібниця.

Google випустила Gemma 4 під ліцензією Apache 2.0 у квітні, і DiffusionGemma продовжує цю стратегію. Вже сьогодні відкрито проєкт запиту на злиття для llama.cpp. Коли інструментарій наздожене, ця технологія стане доступною для набагато ширшої аудиторії.

На машині з потужною дискретною відеокартою 1000 токенів на секунду — це реальність.

Погляд Crypto Top: Революційний підхід DiffusionGemma до генерації тексту, що відходить від авторегресивних методів, може значно прискорити роботу ШІ-агентів у Web3. Це може призвести до підвищення корисності токенів, що забезпечують обчислювальні потужності для таких ШІ-моделей, оскільки їхні можливості стануть більш доступними та ефективними.

Джерело: decrypt.co

No votes yet.

Please wait...

DiffusionGemma: Швидкість генерації тексту на новому рівні

Ключові моменти

Як це працює насправді

Чому її складно запустити… поки що

Для кого це насправді призначено

Залишити відповідьСкасувати відповідь