Gemma від Google: від Gemini до Opus – хто наступний?

Jackrong, розробник Qwopus, представив Gemopus — сімейство тонко налаштованих моделей у стилі Claude Opus, побудованих на відкритій бібліотеці Gemma 4 від Google. Це робить передовий ШІ доступним на вашому комп’ютері.

Gemma від Google: від Gemini до Opus – хто наступний? 3

Створіть обліковий запис, щоб зберегти статті.Додати в GoogleДодайте Decrypt як улюблене джерело, щоб бачити більше наших історій у Google.

Якщо ви слідкували за розвитком штучного інтелекту (ШІ), то, ймовірно, знаєте про Qwopus — модель з відкритим кодом, яка намагалася втілити можливості мислення Claude Opus 4.6 у Qwen від Alibaba. Метою було надати користувачам змогу запускати модель, подібну до Opus, на власному обладнанні безкоштовно. Це спрацювало доволі добре. Очевидний недолік: Qwen — це китайська модель, і не всі були задоволені цим фактом.

Jackrong, той самий розробник під псевдонімом, який стояв за цим проєктом, врахував відгуки. Його відповідь — Gemopus — нове сімейство тонко налаштованих моделей у стилі Claude Opus, повністю побудованих на відкритій бібліотеці Gemma 4 від Google. Це модель з “американським ДНК”, яка зберігає ту саму ідею: передові можливості мислення, що працюють локально на вже наявній апаратній базі.

Сімейство представлене двома варіантами. Gemopus-4-26B-A4B — це потужніша версія. Вона використовує архітектуру Mixture of Experts (MoE) і має 26 мільярдів загальних параметрів, але активує лише близько 4 мільярдів під час інференсу. Це означає, що вона значно перевищує свою вагу на обладнанні з обмеженими ресурсами.

Параметри визначають здатність ШІ навчатися, міркувати та зберігати інформацію. Маючи 26 мільярдів загальних параметрів, модель володіє величезною широтою знань. Однак, активуючи лише 4 мільярди параметрів, релевантних для конкретного запиту, вона забезпечує високу якість результатів, притаманну потужним ШІ-системам, залишаючись при цьому достатньо легкою для стабільної роботи на звичайному обладнанні.

Інший варіант — Gemopus-4-E4B — це модель з 4 мільярдами параметрів, оптимізована для комфортної роботи на сучасному iPhone або легкому ноутбуці MacBook, без потреби в дискретній графічній карті.

Вибір базової моделі тут має вирішальне значення. Gemma 4 від Google, випущена 2 квітня, базується на тих самих дослідженнях і технологіях, що й Gemini 3, про що компанія чітко заявила під час запуску. Це означає, що Gemopus містить у собі частину технологій Google, які відсутні в будь-якій моделі, створеній на основі Qwen. По суті, це поєднання найкращого з обох світів.

Відмінність Gemopus від багатьох інших тонко налаштованих моделей Gemma, що з’являються на Hugging Face, полягає в його філософії. Jackrong свідомо відмовився від примусового копіювання ланцюжків міркувань Claude у ваги Gemma — це спрощений підхід, який використовують більшість конкурентів.

Його аргумент, підкріплений останніми дослідженнями, полягає в тому, що “набивання” моделі-студента поверхневими текстами міркувань моделі-вчителя насправді не передає справжніх здібностей до міркування. Це вчить імітації, а не логіці. “Немає потреби в надмірній уяві або марновірному копіюванні ланцюжків думок у стилі Claude”, — зазначено в документації моделі. Натомість він зосередився на якості відповідей, структурній ясності та природності діалогу, виправляючи “сухий” тон Вікіпедії, притаманний Gemma, та її схильність повчати користувача.

Інженер з інфраструктури ШІ Кайл Гесслінг провів незалежні бенчмарки та опублікував результати безпосередньо в документації моделі. Його висновок щодо варіанту 26B був вельми позитивним. “Радий, що ретельно протестував цю модель, і це чудове доналаштування вже виняткової моделі”, — написав він у X. “Вона чудово справляється з одноразовими запитами у великих контекстах і працює неймовірно швидко завдяки архітектурі MoE (Mixture of Experts)”.

Менший варіант E4B пройшов усі 14 тестів на основні компетенції — виконання інструкцій, кодування, математику, багатоетапні міркування, переклад, безпеку, кешування — і успішно подолав усі 12 тестів на довгий контекст при 30K та 60K токенах. У тесті “голка в копиці сіна” (needle-in-haystack retrieval) він впорався з 13 із 13 запитів, включно з тестовим завданням на один мільйон токенів із масштабуванням YaRN 8× RoPE.

Gemma від Google: від Gemini до Opus – хто наступний? 4

26B модель нативно розширюється до 131K контексту, а з використанням YaRN досягає 524K. Гесслінг також підтвердив її можливості: “Вона також чудово впоралася з моїми простими тестами ‘голка в копиці сіна’ аж до розширеного контексту 524 тис. токенів!”

На периферійному обладнанні E4B демонструє справді високу швидкість. Jackrong повідомляє про 45–60 токенів за секунду на iPhone 17 Pro Max та 90–120 токенів за секунду на MacBook Air M3/M4 через MLX. Архітектура 26B MoE дозволяє моделі ефективно працювати на системах з уніфікованою пам’яттю або GPU з менш ніж 10 ГБ відеопам’яті. Гесслінг назвав її рекомендованим варіантом для щоденного використання на системах з обмеженою відеопам’яттю.

Обидві моделі доступні у форматі GGUF, що дозволяє інтегрувати їх безпосередньо в LM Studio або llama.cpp без додаткових налаштувань. Повний код навчання та покрокова інструкція з тонкого налаштування доступні на GitHub Джекранга — використовується той самий конвеєр, що й для Qwopus, з налаштуваннями Unsloth та LoRA, що відтворюється на Colab.

Gemopus має певні недоліки. Виклик інструментів залишається непрацюючим для всієї серії Gemma 4 в llama.cpp та LM Studio — трапляються збої викликів, невідповідності форматів, циклічні помилки. Тому, якщо ваш робочий процес залежить від агентів, які використовують зовнішні інструменти, ця модель поки що не підійде. Сам Jackrong називає її “відправною точкою для інженерних досліджень, а не повністю готовим до продакшену рішенням” і рекомендує свою серію Qwopus 3.5 для тих, кому потрібна більша стабільність для реальних робочих завдань.

Оскільки Jackrong свідомо уникав агресивного дистиляції ланцюжків міркувань у стилі Claude, не варто очікувати, що модель буде відчуватися такою ж “глибокодумною”, як Qwopus — це був свідомий компроміс заради стабільності, а не недогляд.

Для тих, хто хоче глибше зануритися в доналаштування Gemma з акцентом на міркування, існує окремий проєкт спільноти: Ornstein від розробника під псевдонімом DJLougen. Він використовує ту ж базову модель Gemma 4 26B і зосереджується виключно на покращенні її ланцюжків міркувань, не покладаючись на логіку чи стиль будь-якої конкретної сторонньої моделі.

Одне чесне застереження: динаміка навчання Gemma є більш нестабільною, ніж у Qwen, для тонкого налаштування — ширші коливання втрат, більша чутливість до гіперпараметрів. Сам Jackrong це підтверджує. Якщо вам потрібна більш перевірена локальна модель для виробничих робочих процесів, його серія Qwopus 3.5 залишається більш надійно валідованою. Але якщо ви шукаєте американську модель із полірованими можливостями в стилі Opus, Gemopus наразі є найкращим доступним варіантом. У розробці також перебуває більш щільний варіант Gemopus 31B, який Гесслінг анонсував як “точно щось видатне”.

Якщо ви хочете спробувати запускати локальні моделі на власному обладнанні, перегляньте наш посібник про те, як почати роботу з локальним ШІ.

Погляд Crypto Top: Ця інтеграція потужних локальних ШІ-моделей, як-от Gemopus, може стимулювати розвиток децентралізованих обчислювальних мереж, де користувачі надаватимуть свої ресурси для навчання та виконання ШІ-завдань, створюючи нові економічні стимули в екосистемі Web3.

Джерело: decrypt.co

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *