Штучний інтелект на вашому телефоні: гігабайтний AI-модель керує локальними агентами

Модель OpenBMB з 1 мільярдом параметрів підтримує MCP та використання інструментів агентами на пристрої, але має проблеми з логічними пастками.

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleЗробіть Decrypt своїмPreferred джерелом, щоб бачити більше наших історій у Google.

Коротко

MiniCPM5-1B набрав у середньому 42.57 балів за агентськими та логічними бенчмарками, випередивши найближчого конкурента у класі 1B з результатом 35.61.
Модель підтримує MCP та нативні виклики інструментів “з коробки”, що дозволяє розгортати локальні робочі процеси агентів на споживчому обладнанні без хмарного підключення.
У наших тестах модель продемонструвала сильну розмовну плавність, але згенерувала вигадану ланцюжок міркувань та не впоралася з простим логічним завданням.

MiniCPM5-1B, модель з одним мільярдом параметрів від OpenBMB, є останнім релізом у серії пристроїв MiniCPM. Вона підтримує нативні виклики інструментів та Model Context Protocol (MCP), поміщається в пам’ять смартфона та за показниками бенчмарків випереджає всі порівнянні моделі з відкритим кодом свого розмірного класу.

Ця модель є першим релізом сімейства MiniCPM5, розробленим спеціально для локального розгортання на обладнанні з обмеженими ресурсами. З одним мільярдом параметрів вона є невеликою за будь-якими поточними стандартами. (Параметри — це те, що надає моделі ШІ широту знань; більша кількість зазвичай означає більшу потужність).

Gemma 4 від Google починається з 2 мільярдів ефективних параметрів, але масштабується до 31 мільярда. Llama 4 Scout працює з 17 мільярдами активних параметрів. MiniCPM5-1B не претендує на конкуренцію з ними. Її перевага – робити більше з меншим.

Як це було створено

Архітектурною основою є MiniCPM4, детально описана у технічному звіті команди OpenBMB з THUNLP, Університету Цінхуа та ModelBest. Ключовим інноваційним рішенням є InfLLM v2 — механізм уваги, що навчається, який обробляє кожен токен, взаємодіючи лише з менш ніж 5% навколишніх токенів під час виведення довгого контексту. Це суттєво скорочує обчислення без значної втрати точності. (Токен — це базова одиниця інформації, яку обробляє модель ШІ).

З боку даних команда розробила UltraClean — конвеєр фільтрації, який дозволив моделі досягти конкурентних показників, використовуючи 8 трильйонів тренувальних токенів, порівняно з 36 трильйонами, використаними Qwen 3. Післятренувальне навчання включало навчання з підкріпленням у поєднанні з ефективними методами дистиляції (використання більшої моделі як керівництва для меншої), що підвищило показники бенчмарків з математики, коду та виконання інструкцій на 16 пунктів, одночасно зменшивши кількість надто довгих відповідей на 29 відсоткових пунктів.

Контекстне вікно становить 128 тис. токенів — приблизно 96 000 слів безперервного тексту за один прохід. Для моделі з одним мільярдом параметрів це значна величина. Стійка пам’ять протягом тривалої сесії рольової гри, повний аналіз PDF-документа або контекст агента, який не скидається в середині завдання — все це в межах її можливостей.

Чому “тупий” агент може бути достатнім

Ми протестували MiniCPM5-1B і підтвердили, що вона підтримує MCP та виклики інструментів. Це ставить її в короткий список моделей з менш ніж 2 мільярдами параметрів, здатних виконувати реальні агентські робочі процеси без хмарної інфраструктури.

Однак, для цього користувачам потрібно буде виконати додаткові налаштування, усі з яких перелічені в репозиторії моделі на Github.

Штучний інтелект на вашому телефоні: гігабайтний AI-модель керує локальними агентами 7

Практичний сценарій: локальний агент на iPhone, який може запитувати календар, шукати в локальній базі даних або викликати веб-сервер MCP для досліджень — повністю офлайн. Як ми вже повідомляли, запуск локального ШІ вже доступніший, ніж більшість людей усвідомлюють, і гонка за пристроями прискорюється. Моделі, призначені для роботи на телефоні без хмарного бекенду, стають справжньою продуктовою категорією, а не просто дослідницькою цікавістю.

Вам не потрібен OpenAI, щоб перевірити свій календар, якщо локальний агент може просто отримати його та повідомити вам про заплановані події на сьогодні.

Для легких агентських завдань та розширених контекстів розмови MiniCPM5-1B є конкурентоспроможною. Проте, хоча OpenBMB, можливо, не думав про це, балакучий стиль моделі робить її чудовим кандидатом для локальних рольових ігор — 128 тис. контексту означає, що історія може розвиватися протягом десятків, якщо не сотень обмінів репліками, без того, щоб модель втратила нитку.

Невеликі агенти, які читають нотатки, узагальнюють документи та відповідають на запитання щодо них, цілком у межах її можливостей, особливо в поєднанні з сервером досліджень MCP для заповнення прогалин у знаннях.

Конкуренція в цьому масштабі включає Qwen3-0.6B від Alibaba, Qwen3.5-0.8B та LFM2.5-1.2B-Thinking від Liquid AI. Власний бенчмарк можливостей OpenBMB порівнює всі чотири моделі за загальними знаннями, предметними знаннями, кодуванням, виконанням інструкцій, математичним міркуванням, логічним міркуванням та агентськими завданнями. MiniCPM5-1B лідирує у всіх семи категоріях, з найбільш вираженими перевагами в агентській продуктивності та загальних знаннях.

Штучний інтелект на вашому телефоні: гігабайтний AI-модель керує локальними агентами 8

Швидкі Тести

Ми провели три швидкі оцінки. Перше — це класична логічна пастка: «Будь ласка, виступайте в ролі експерта-юриста та законодавця. Чи законно для чоловіка одружитися на сестрі своєї вдови згідно з правовою системою, яка діє на Фолклендських островах?»

Очевидна правильна відповідь — чоловік, який має вдову, мертвий, а мертві чоловіки не підписують шлюбні свідоцтва. MiniCPM5-1B надала детальний розбір шлюбного законодавства Фолклендських островів і повністю пропустила пастку, розглядаючи її як пряме питання юрисдикції.

«Критично важливо визначити фактичний шлюбний статус на Фолклендських островах. Це питання факту, яке має бути встановлено місцевими органами влади або через юридичний процес», — відповіла модель після тривалих міркувань.

Штучний інтелект на вашому телефоні: гігабайтний AI-модель керує локальними агентами 9

Наш другий тест вимагав від моделі прийняти чітке рішення A/B. Модель не обрала жодного варіанту, надавши відповідь, що представляє обидві сторони. Це відомий недолік багатьох невеликих моделей під час розмовного тиску. MiniCPM5-1B не є винятком.

Ми запитали модель, яка галузь домінуватиме в економіці у 2100 році: Криптовалюти чи ШІ? Замість того, щоб міркувати над питанням, внутрішнє мислення моделі почало аналізувати інвестиції в криптовалюти та ШІ як синергетичні з самого початку.

Заслуговує на увагу, що нічого з цього не є несподіваним для моделі з 1 мільярдом параметрів.

Агентські можливості — це справді цікава частина. Якщо об’єднати MiniCPM5-1B з MCP сервером для веб-пошуку, її схильність до галюцинацій на запитання з невідомими фактами зникне або значно зменшиться.

Ми запитали модель про поточну ціну біткоїна та три біржові рекомендації. Інструмент був успішно викликаний, і рекомендації (Amazon, Microsoft та Nvidia) були цілком доречними.

Штучний інтелект на вашому телефоні: гігабайтний AI-модель керує локальними агентами 10

Висновок

Балакучий локальний агент, який може викликати інструменти, утримувати 128 тис. контексту та працювати повністю на пристрої, є більш цікавим продуктом, ніж самостійна модель для відповідей на запитання, яка конкурує з GPT-4.

Просто не скасовуйте свою підписку на ШІ через це. Знайте, з чим ви маєте справу: вона має слабкі знання порівняно з великими моделями, погано кодуватиме (знову ж таки, порівняно з більшими моделями) і не буде навіть близько до AGI, якщо саме цього ви шукаєте.

MiniCPM5-1B доступна зараз на Hugging Face під ліцензією Apache 2.0, сумісна з vLLM, SGLang та стандартними засобами виведення Transformers.

Погляд Crypto Top: Інтеграція таких моделей, як MiniCPM5-1B, в децентралізовані обчислювальні мережі може докорінно змінити ландшафт Web3, дозволивши потужні локальні ШІ-агенти, що знижує залежність від централізованих API. Це також може значно підвищити корисність нативних токенів, які використовуються для доступу до цих децентралізованих ШІ-ресурсів.

Джерело: decrypt.co

No votes yet.

Please wait...