Alibaba запускає Qwen-Robot: Операційну систему для роботизованої економіки

Китайська компанія посилює свою ставку на “втілений ШІ”.

Alibaba запускає Qwen-Robot: Операційну систему для роботизованої економіки 5

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як джерело за замовчуванням, щоб бачити більше наших історій у Google.

Коротко

  • Alibaba представила Qwen-Robot Suite — трійцю моделей ШІ, призначених для керування навігацією, маніпуляцією роботів та симуляцією світу на основі фізики через уніфікований програмний стек.
  • Компанія стверджує, що її моделі перевершують численні роботизовані бенчмарки, використовуючи мільйони навчальних зразків та десятки тисяч годин даних про роботів з відкритим кодом.
  • Розгортання роботів у реальному світі залишається роками від нас.

Команда Qwen від Alibaba представила Qwen-Robot Suite: три базові моделі, що формують так званий “повний стек для втіленої інтелектуальності”. Qwen-RobotNav відповідає за мобільність. Qwen-RobotManip — за маніпуляцію. Qwen-RobotWorld симулює фізичні закони, що роблять обидва процеси можливими. Кожна модель працює незалежно. Разом вони є моментом Android для робототехніки — операційною системою, а не апаратним забезпеченням.

Наразі Alibaba є єдиною компанією в Китаї, яка охоплює чіпи, хмару, моделі, платформи обслуговування та застосунки. Для компанії робототехніка є найбільш фізичним вираженням цієї ставки, відомої як втілений ШІ.

ШІ-агенти наразі покладаються на великі мовні моделі (LLM) для прийняття рішень. Звичайний спосіб роботи роботів — це моделі машинного навчання, які, хоч і вдосконалені, не мають адаптивності генеративного ШІ. Фізичні агенти стикаються з іншим, складнішим класом збоїв: фізикою, а не промптами.

Для таких випадків використання Alibaba представила цей новий набір ШІ з різними компонентами:

Qwen-RobotNav об’єднує п’ять завдань навігації — виконання інструкцій, навігація до цільової точки, пошук об’єктів, відстеження цілі та автономне водіння — кожне з яких вимагає різних стратегій візуальної пам’яті. Більшість моделей жорстко кодують одну стратегію. Qwen-RobotNav надає параметризований інтерфейс: ліміт токенів, часове згасання, ваги для кожної камери, які планувальник може переналаштовувати під час виконання.

Навчена на 15,6 мільйонах зразків з рандомізацією всіх параметрів, вона досягає 76,5% успіху на VLN-CE RxR, бенчмарку для навігації з використанням мови та зору в реальних умовах, та 90% відстеження на EVT-Bench, який оцінює здатність агента послідовно слідувати за рухомими цілями.

Alibaba запускає Qwen-Robot: Операційну систему для роботизованої економіки 6

Qwen-RobotManip вирішує одне з найбільших завдань у роботизованій маніпуляції: різні роботи представляють дії принципово по-різному. Рука Franka (тип робота з семи осями руху) працює через кути суглобів, тоді як робот ALOHA (недорога дворучна робототехнічна платформа, широко використовувана в дослідженнях робототехніки) представляє дії через положення та орієнтацію своїх захватів (позиції кінцевого ефектора). Гуманоїди додають ще один рівень складності, використовуючи координати всього тіла.

Щоб подолати ці несумісні простори дій, Alibaba синтезувала приблизно 38 100 годин навчальних даних з відкритих датасетів роботів та відеозаписів людей — без використання пропрієтарних даних. Модель посідає перше місце на RoboChallenge Table30-v1, перевершуючи попередні підходи на 20%.

Alibaba запускає Qwen-Robot: Операційну систему для роботизованої економіки 7

Qwen-RobotWorld є найбільш амбітним: це модель світу, керована відео та мовою, яка розглядає природну мову як універсальний інтерфейс дії. “Візьми червону чашку і налий води на квітку” працює незалежно від того, чи є актором захват, автономний транспортний засіб чи агент навігації.

Корпус Embodied World Knowledge охоплює 8,6 мільйона пар відео та тексту — 200 мільйонів кадрів — що охоплюють маніпуляцію (5,9 мільйона зразків, 1300+ навичок, 20+ морфологій), автономне водіння (Waymo, NVIDIA PhysicalAI-AD, Bench2Drive), навігацію в приміщенні (VLNVerse) та передачу знань від людини до робота на 14 роботизованих руках.

Вона посідає перше місце на EWMBench та DreamGen Bench, двох бенчмарках, які оцінюють, наскільки добре моделі світу передбачають та генерують реалістичні фізичні середовища. Вона також перевершує всі моделі з відкритим кодом на WorldModelBench та PBench, і показує ідеальні результати з точки зору дотримання фізичних законів: законів Ньютона, збереження маси, гідродинаміки, гравітації.

Alibaba запускає Qwen-Robot: Операційну систему для роботизованої економіки 8

ChatGPT для роботів?

Хоча західні лабораторії (Google DeepMind, Nvidia, Figure, Physical Intelligence) йдуть до подібних цілей, більшість зосереджується на навігації або маніпуляції, а не на уніфікованому, композитному наборі. Вертикальна інтеграція Alibaba від чипів до застосунків означає, що вони контролюють повний стек. Відкритий код відрізняє їх від конкурентів, які покладаються на приватні дані роботів.

Існують певні непорозуміння, які варто прояснити: це не роботи, а програмні моделі — мозок, а не тіло. Вони працюють на апаратному забезпеченні від AgileX, Franka, Universal Robots, Unitree та інших.

Також, хоча це моделі генеративного ШІ для роботів, це не LLM, як ваш типовий ChatGPT. Мовна модель передбачає токени. Ці моделі повинні розуміти фізику, просторові відносини та наслідки фізичних дій. Мовна модель скаже вам, що склянка розіб’ється, якщо її впустити. Qwen-RobotWorld передбачає, як саме вона розіб’ється — візерунок розтріскування, гідродинаміку, вторинні зіткнення. Qwen-RobotManip планує захоплення, яке запобігає падінню.

Не очікуйте отримати власного робота-прислугу найближчим часом. Розрив між контрольованою демонстрацією робота, який кладе фрукти в кошик, і роботом, який надійно працює у вашому домі, величезний. RoboCasa365, LIBERO-Plus, RoboTwin-Clean2Rand — це симуляційні бенчмарки. Розгортання в реальному світі призводить до шуму датчиків, дрейфу актуаторів та довгого хвоста граничних випадків, які принижували кожну спробу робототехніки в історії, і Alibaba це визнає.

Технічні досягнення, однак, реальні. Підхід RobotManip, що базується на вирівнюванні, вирішує справжнє вузьке місце в крос-втіленому навчанні. Параметризований інтерфейс спостереження RobotNav є розумним рішенням проблеми “контекст-стратегія”. Мова як універсальний інтерфейс дії в RobotWorld є правильною абстракцією для моделювання світу в різних доменах.

Alibaba не розкрила ціни, терміни або клієнтів, які отримають доступ, окрім пілотних програм.

Погляд Crypto Top: Інтеграція втіленого ШІ в децентралізовані обчислювальні мережі може революціонізувати спосіб виконання складних завдань, потенційно підвищуючи корисність токенів, що використовуються для стимулювання обчислень та доступу до ШІ-агентів. Це відкриває шлях до більш потужних і автономних ШІ-систем, які взаємодіють з фізичним світом через блокчейн.

Джерело: decrypt.co

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *