Nvidia навчила роботів самостійно програмувати себе за допомогою ШІ

Nvidia ENPIRE надає цілий флот роботів кодувальним агентам, як-от Codex та Claude Code, дозволяючи їм писати навчальний код, тестувати його на реальному обладнанні та вдосконалювати без нагляду людини.

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як улюблене джерело, щоб бачити більше наших історій у Google.

Коротко

Nvidia, Університет Карнегі-Меллона та Каліфорнійський університет у Берклі представили ENPIRE — фреймворк, який дозволяє кодувальним агентам ШІ керувати повним циклом навчання роботів новим навичкам без нагляду людини.
Агенти, що використовують Codex, Claude Code та Kimi Code, досягли 99% успішності у виконанні завдань із восьми роботів, включно зі вставкою штифтів, встановленням GPU та різанням кабельних стяжок.
Масштабування від одного до восьми роботів скоротило час, необхідний для освоєння завдання, більш ніж удвічі, хоча вартість токенів зростала ще швидше, ніж зекономлений час.

Флот із восьми роботизованих маніпуляторів у лабораторії GEAR від Nvidia протягом останніх кількох тижнів самостійно навчався вставляти штифти, встановлювати графічні процесори та різати кабельні стяжки. Єдиними людьми, залученими до процесу, були ті, хто згодом написав наукову роботу.

Навички були здобуті завдяки ENPIRE — фреймворку, детально описаному в статті, опублікованій у вівторок дослідниками з Nvidia, Університету Карнегі-Меллона та Каліфорнійського університету в Берклі. ENPIRE передає весь процес навчання робота кодувальним агентам ШІ — тому самому програмному забезпеченню, яке вже пише та тестує власний код — і дозволяє їм виконувати цей процес безпосередньо на фізичному обладнанні.

Nvidia навчила роботів самостійно програмувати себе за допомогою ШІ 5

Кодувальні агенти, такі як Codex від OpenAI, Claude Code від Anthropic та Kimi Code від Moonshot, протягом останнього року виконували те, що дослідники називають автодослідженням — написання коду, його тестування та повторне написання без участі людини. Цей цикл переважно залишався в межах екрана, де скидання невдалого експерименту нічого не коштує. ENPIRE переносить його у фізичний світ, де скидання експерименту означає переміщення реального роботизованого маніпулятора.

Побудова «Емпайру»

Система розділяє роботу на два етапи. На першому етапі людина проводить агента через створення двох постійних інструментів: процедури скидання, яка повертає робочу зону до початкового стану, та функції винагороди, яка аналізує відео з камери для оцінки успішності — по суті, це суддя, який ніколи не моргає та не йде на обідню перерву. Це налаштування виконується один раз, а потім повторно використовується для кожної подальшої спроби.

Після створення цих інструментів агент бере на себе повний контроль. Він шукає ідеї в опублікованих дослідженнях, вибирає між методами навчання, такими як імітаційне навчання, навчання з підкріпленням або написані вручну правила, потім переписує власний код і тестує результат на роботі. Жоден етап у цьому циклі не вимагає спостереження людини, що є або визвольним, або трохи тривожним, залежно від вашого ставлення до робота, який тримає ножиці без нагляду.

Nvidia проводила експеримент на восьми бімануальних роботизованих станціях, кожна з яких мала власне обладнання, комп’ютер та кодувального агента. Станції обмінюються прогресом через Git — той самий інструмент, який програмісти використовують для злиття коду, — тому успішна ідея поширюється по всьому флоту за лічені хвилини.

Дослідники вимірювали результативність на завданні «Push-T», де робот переміщує Т-подібний блок у цільову зону, використовуючи лише поштовхи, та на вставці штифтів, де він вставляє штифти у 4-міліметрові отвори. Масштабування від одного робота до восьми скоротило час освоєння «Push-T» приблизно з п’яти годин до двох, а вставки штифтів — з понад 90 хвилин приблизно до 40.

Nvidia навчила роботів самостійно програмувати себе за допомогою ШІ 6

За чотирма протестованими завданнями у реальному світі агенти досягли 99% успішності у своїх політиках, згідно з даними статті. У випадку вставки штифтів агенти досягли майже ідеальної надійності швидше, ніж порівнянний метод із залученням людини (human-in-the-loop), який все ще вимагає щоденної присутності оператора.

Джим Фан з Nvidia, співкерівник GEAR Lab та керівник відділу досліджень ШІ компанії, назвав цей проєкт першою спробою реалізувати автодослідження у фізичному світі. Фан зазначив, що команда надала агентам флот роботів, виділені ресурси GPU та бюджет токенів, а потім відійшла, дозволивши роботам взяти все в свої руки.

Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs

— Jim Fan (@DrJimFan) June 16, 2026

Розрив між симуляцією та реальністю проявився майже одразу. Усі три кодувальні агенти успішно виконали завдання «Push-T» у симуляторі, але двоє з трьох зазнали невдачі, коли те саме завдання було перенесено на фізичного робота, зазначається у статті.

Симулятори не мають проблем із тертям. Реальні столи — мають.

Nvidia також протестувала ENPIRE у RoboCasa — симульованому кухонному середовищі, яке оцінює роботів за виконанням таких завдань, як відкриття шаф або вимкнення плит, за показником успішності, позбавленому ризику підпалу. Там ENPIRE перевершив як власну наскрізну модель Nvidia GR00T, так і CaP-X — агент, що використовує інструменти та повністю пропускає цикл автодослідження.

ENPIRE розширює ідею, яку Nvidia вперше запропонувала з Eureka — системою 2023 року, що використовувала мовну модель для написання функцій винагороди для роботів у симуляторі, замість того, щоб це робили інженери-люди вручну. ENPIRE переносить цей цикл самовдосконалення із симулятора на реальне обладнання, де агент розробляє власні тести, а не лише власні винагороди.

Ця новина з’являється того ж тижня, коли Alibaba представила власну розробку в галузі втіленого ШІ — Qwen-Robot Suite, набір із трьох фундаментальних моделей для навігації роботів, маніпуляції та симуляції фізики. Alibaba створює програмні “мозки” для тілесних роботів, яких вона не виробляє; Nvidia перевіряє, чи можуть агенти керувати повним циклом досліджень на власному обладнанні. Обидва напрямки вказують на ту саму тенденцію: фізичні роботи стають наступною ареною для змагання кодувальних агентів.

Погляд Crypto Top: Інтеграція автодосліджень ШІ з фізичними роботами через фреймворки на кшталт ENPIRE може призвести до створення децентралізованих обчислювальних мереж, оптимізованих для складних робототехнічних завдань. Це, у свою чергу, потенційно збільшить цінність токенів, що використовуються для доступу до таких ресурсів, створюючи нові моделі економіки ШІ в Web3.

Джерело: decrypt.co

No votes yet.

Please wait...

Коротко

Побудова «Емпайру»

Залишити відповідьСкасувати відповідь