Google прискорює локальний ШІ втричі: нове обладнання не потрібне

Google пропонує Multi-Token Prediction для прискорення моделей Gemma 4 Google представила нові драфтери Multi-Token Prediction (MTP) для своїх моделей Gemma 4. Ця технологія дозволяє значно прискорити процес генерації відповідей (inference) до 3 разів на локальному обладнанні, усуваючи потребу у хмарних…





