Ornith: Код для агентів, а не для людей – відкриває нову еру ШІ

Нова модель від DeepReinforce призначена для розробників, яким потрібен ШІ, що доводить роботу до кінця, а не лише автодоповнює наступний рядок.

Ornith: Код для агентів, а не для людей – відкриває нову еру ШІ 5

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як бажане джерело, щоб бачити більше наших історій у Google.

Коротко

  • DeepReinforce випустила Ornith-1.0 25 червня під ліцензією MIT, спеціально розроблену для ШІ-агентів з написання коду, які працюють у реальних середовищах терміналу та репозиторіїв.
  • Варіант 9B набрав 69.4 балів за SWE-bench Verified, випередивши Gemma 4-31B від Google (52.0).
  • Власний опис моделі Ornith попереджає, що моделі можуть показувати гірші результати в завданнях, не пов’язаних з кодуванням — вони оптимізовані для конвеєрів розробки, а не для загальних розмов зі ШІ.

DeepReinforce, лабораторія досліджень ШІ, раніше відома своїми CUDA-L1 та оптимізаційним циклом кодових агентів IterX, минулого тижня випустила Ornith-1.0 — сімейство моделей з відкритим вихідним кодом, доступних на Hugging Face у чотирьох розмірах залежно від кількості параметрів: 9 мільярдів, 31 мільярд, 35 мільярдів mixture of experts (MoE) та 397 мільярдів MoE флагманська модель. Всі вони випущені під ліцензією MIT без регіональних обмежень.

Параметри, по суті, визначають кількість налаштувань та конфігурацій, якими може керувати модель під час навчання. Чим більше параметрів, тим потужнішою є модель. Модель з 9 мільярдами параметрів вважається невеликою, достатньою для роботи на хорошому смартфоні, але не здатною надійно виконувати складні логічні завдання. Модель з 397 мільярдами параметрів значно потужніша, але вимагає значних обчислювальних ресурсів, яких немає на споживчому обладнанні.

Лабораторія описує її як “самоудосконалюване сімейство моделей з відкритим вихідним кодом, спеціально призначене для агентських завдань з написання коду”. Слово “агентський” тут відіграє ключову роль.

Більшість ШІ, з якими взаємодіють люди, є розмовними: ви вводите текст, він відповідає, розмова завершується. Агентський ШІ відрізняється — він отримує завдання і виконує дії для його завершення без людського керування на кожному кроці. У контексті написання коду це означає ШІ, який читає файли, запускає тести, визначає, що пішло не так, виправляє код і повторює цикл, доки завдання не буде виконано.

Отже, агентський ШІ означає, що протягом більшої частини часу не потрібно бути біля клавіатури. У цьому вся суть. Це також напрямок, де відбуваються найбільш комерційно значущі досягнення у 2026 році — моделі, які можуть працювати без нагляду протягом 20-етапних робочих процесів розробки, цінуються більше, ніж ті, що пишуть чистий код за запитом.

Однак більшість великих мовних моделей все ще розроблені з урахуванням людського зворотного зв’язку.

Як працює “мозок” Ornith

Більшість ШІ-агентів для кодування використовують розроблений людиною “хаб” — набір фіксованих правил щодо того, як агент структурує свою роботу: коли викликати інструмент, як обробляти помилку, як розбивати багатоетапну проблему. Натомість Ornith “розглядає каркас як об’єкт, що можна вивчити, і який співрозвивається з політикою”.

Тобто, замість того, щоб наслідувати чийсь ігровий план, він розробляє власний.

Під час навчання з підкріпленням кожен крок навчання відбувається у два етапи. Спочатку модель читає завдання та пропонує уточнений підхід до нього. Потім вона використовує цю стратегію для генерації рішення.

Ornith: Код для агентів, а не для людей – відкриває нову еру ШІ 6

Нагорода за результат повертається до обох етапів — таким чином, модель оптимізується для написання кращих стратегій, а не лише кращого коду. Виконайте це тисячі та мільйони разів, і виникнуть специфічні для завдань підходи без людського втручання.

DeepReinforce також серйозно ставиться до “зловживання винагородою” (reward hacking). Якщо модель може писати власний навчальний каркас, вона теоретично може написати каркас, який обманює верифікатор — торкаючись файлу, щоб створити враження виконання завдання, не виконуючи фактичну роботу. Це блокують три рівні захисту: середовище та набір тестів є незмінними та поза межами досяжності моделі, детерміністичний монітор фіксує будь-які спроби доступу до заборонених шляхів або зміни скриптів верифікації, а заморожена модель-суддя стоїть над автоматизованим верифікатором як право вето.

Цифри

Флагманська модель з 397 мільярдами параметрів демонструє 82.4 балів за SWE-bench Verified — тест, де ШІ отримує реальний баг з відкритого репозиторію GitHub і повинен виправити його, не бачачи набір тестів. Результат вимірюється як відсоток успішно вирішених проблем.

Ornith: Код для агентів, а не для людей – відкриває нову еру ШІ 7

Це випереджає Claude Opus 4.7 (80.8) та DeepSeek-V4-Pro (80.6) на тому ж тесті. На Terminal Bench 2.1 — 89 завдань, що виконуються в контейнеризованих середовищах терміналу, від налагодження асинхронного коду до вирішення вразливостей безпеки, оцінюються за рівнем завершення — показник становить 77.5 проти 70.3 у Claude Opus 4.7.

З огляду на те, що виникли публічні занепокоєння щодо забруднення даних у SWE-bench — OpenAI стверджувала на початку цього року, що моделі завищують результати, запам’ятовуючи рішення з тестів, побачених під час навчання — Ornith також повідомляє про результати на SWE-bench Pro, більш складному варіанті, що використовує різноманітніші, менш розкриті кодові бази, оцінювані за тією ж методикою. 397-мільярдна модель показує 62.2. Це суттєво нижче, але все ще конкурентоспроможно в рамках галузі, і все ще краще, ніж Deepseek V4 Pro.

Модель з 9 мільярдами параметрів може бути більш цікавою. Вона показує 69.4 балів за SWE-bench Verified — вище, ніж Gemma 4-31B (52.0), і конкурентоспроможна з Qwen 3.5-35B (70.0), попри те, що вона в 3-4 рази менша.

Ornith: Код для агентів, а не для людей – відкриває нову еру ШІ 8

Для кого призначена ця модель, а для кого ні

Ornith-1.0 явно не є універсальним ШІ. Документація самої моделі вказує, що вона може показувати гірші результати в завданнях, що виходять за межі агентського кодування. Якщо ви шукаєте ШІ для узагальнення документів, допомоги у написанні докторської дисертації або складання електронного листа, Ornith-1.0 — неправильний вибір.

Вона оптимізована для вузького набору проблем: конвеєри розробки, де ШІ-агент отримує опис завдання, працює всередині репозиторію коду або сесії терміналу та виконує багатоетапну роботу без втручання. Це інструмент, створений для тих, хто вже використовує агентську інфраструктуру — а не для тих, хто ще вирішує, чи варто використовувати ШІ.

Заголовок “перевершує Claude” є правдивим, але потребує контексту. Як повідомляв Decrypt, кожна лабораторія зараз женеться за продуктивністю в оцінках агентського кодування, оскільки саме там проявляються корисні відмінності в продуктивності.

Ornith-1.0-397B дійсно перевершує Claude Opus 4.7 за обома різними бенчмарками кодування, але поточний флагман Anthropic, Claude Opus 4.8, показує вищий результат. Порівняння, яке залишається актуальним, — це порівняння в категорії відкритого вихідного коду, при порівнянних кількостях параметрів, на завданнях агентського кодування.

Для розробників, які створюють власні конвеєри кодування, агентську інфраструктуру або подібні інструменти, орієнтовані на кодування, невеликі та середні моделі, що працюють на периферійному обладнанні, можуть бути справді корисними. Однак пересічний користувач, ймовірно, знайде кращий варіант деінде.

Погляд Crypto Top: Інтеграція передових ШІ-моделей, як-от Ornith-1.0, у децентралізовані обчислювальні мережі (DePIN) та платформи для виконання завдань ШІ-агентами може значно підвищити ефективність і масштабованість, відкриваючи нові варіанти використання токенів для доступу до цих потужностей або стимулювання їх.

Джерело: decrypt.co

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *