Google стискає пам'ять ШІ без втрати точності: але є нюанс

Технологія, що зменшує потребу в пам’яті для запуску великих мовних моделей при зростанні контекстних вікон – ключове обмеження для розгортання ШІ.

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як ваше пріоритетне джерело, щоб бачити більше наших історій у Google.

Коротко

Google заявив, що його алгоритм TurboQuant може зменшити основний вузький пропуск пам’яті для ШІ щонайменше у шість разів без втрати точності під час інференсу.
Акції виробників пам’яті, включаючи Micron, Western Digital та Seagate, впали після поширення цієї публікації.
Метод стискає пам’ять для інференсу, а не ваги моделі, і був протестований лише на дослідницьких бенчмарках.

Google Research опублікував у середу TurboQuant – алгоритм стиснення, який зменшує основний вузький пропуск пам’яті для інференсу щонайменше в 6 разів, зберігаючи нульову втрату точності.

Робота має бути представлена на ICLR 2026, і реакція в мережі була миттєвою.

Генеральний директор Cloudflare Метью Принс назвав це “моментом DeepSeek” від Google. Ціни на акції виробників пам’яті, включаючи Micron, Western Digital та Seagate, того ж дня впали.

Чи це реально?

Ефективність квантизації – це саме по собі велике досягнення. Але “нульова втрата точності” потребує контексту.

TurboQuant націлений на KV-кеш – ділянку пам’яті GPU, яка зберігає все, що мовна модель повинна пам’ятати під час розмови.

Оскільки контекстні вікна зростають до мільйонів токенів, ці кеші роздуваються до сотень гігабайт на сесію. Це і є справжній вузький пропуск. Не обчислювальна потужність, а сира пам’ять.

Традиційні методи стиснення намагаються зменшити ці кеші, заокруглюючи числа вниз – наприклад, з 32-бітних чисел з плаваючою комою до 16, 8 або 4-бітних цілих. Щоб краще зрозуміти, уявіть стиснення зображення з 4K до Full HD, а потім до 720p. Легко сказати, що це те саме зображення в цілому, але в 4K роздільній здатності більше деталей.

Але є нюанс: вони повинні зберігати додаткові “квантизаційні константи” разом зі стисненими даними, щоб модель не “збожеволіла”. Ці константи додають 1-2 біти на значення, частково нівелюючи отримані вигоди.

TurboQuant стверджує, що усуває цей накладний витрат повністю.

Це досягається за допомогою двох під-алгоритмів. PolarQuant відокремлює величину від напрямку у векторах, а QJL (Quantized Johnson-Lindenstrauss) бере залишковий мінімальний похибку і зводить її до одного знакового біта, позитивного чи негативного, без збереження констант.

Результатом, за словами Google, є математично незміщений оцінювач для розрахунків уваги, які керують трансформерними моделями.

У бенчмарках з використанням Gemma та Mistral, TurboQuant демонстрував продуктивність на рівні повної точності при 4-кратному стисненні, включаючи ідеальну точність вилучення даних у завданнях “голка в копиці сіна” до 104 000 токенів.

Щоб зрозуміти важливість цих бенчмарків, розширення доступного контексту моделі без втрати якості було однією з найскладніших проблем при розгортанні LLM.

Google стискає пам'ять ШІ без втрати точності: але є нюанс 4

Тепер про дрібний шрифт.

“Нульова втрата точності” стосується стиснення KV-кешу під час інференсу, а не ваг моделі. Стиснення ваг – це зовсім інша, складніша проблема. TurboQuant їх не торкається.

Він стискає тимчасову пам’ять, яка зберігає проміжні обчислення уваги під час сесії, що є більш прийнятним, оскільки ці дані теоретично можуть бути реконструйовані.

Існує також розрив між чистим бенчмарком та продакшн-системою, яка обслуговує мільярди запитів. TurboQuant тестувався на моделях з відкритим вихідним кодом – Gemma, Mistral, Llama – а не на власному стеці Gemini від Google у великих масштабах.

На відміну від ефективних покращень DeepSeek, які вимагали глибоких архітектурних рішень, закладених з самого початку, TurboQuant не потребує перенавчання чи доналаштування та стверджує про незначні накладні витрати під час виконання. Теоретично, він може бути легко інтегрований у існуючі конвеєри інференсу.

Саме це налякало виробників обладнання для пам’яті – адже якщо він буде працювати в продакшні, кожна велика лабораторія ШІ зможе ефективніше використовувати ті самі GPU, які вже має.

Публікація направляється на ICLR 2026. Доки технологія не буде впроваджена в продакшн, заголовок про “нульову втрату” залишається лабораторною реальністю.

Погляд Crypto Top: Ця технологія стиснення пам’яті може суттєво знизити бар’єри для розгортання складних ШІ-моделей на децентралізованих обчислювальних мережах, потенційно підвищуючи утилітарність токенів, що забезпечують ці ресурси.

Джерело: decrypt.co

No votes yet.

Please wait...

Google стискає пам’ять ШІ без втрати точності: але є нюанс

Технологія, що зменшує потребу в пам’яті для запуску великих мовних моделей при зростанні контекстних вікон – ключове обмеження для розгортання ШІ.

Коротко

Чи це реально?

Залишити відповідьСкасувати відповідь