Stepn і ШІ: Як Голосовий Алгоритм Запанував Над Ри cif’ами та Чує Ваші Зітхання

StepAudio 2.5 Realtime: Прорив у голосовому ШІ від StepFun

Шанхайська лабораторія StepFun, яка відома своїми передовими великими мовними моделями (LLM), що перевершують значно більші системи, представила свій новий продукт — StepAudio 2.5 Realtime. Це комплексна модель для генерації мовлення в реальному часі, що працює за принципом “аудіо на вході — аудіо на виході”, без проміжного перетворення на текст. Вона підтримує китайську та англійську мови і, згідно з опублікованими бенчмарками, демонструє надзвичайно високі показники.

StepFun вже здобула визнання завдяки своїм текстовим LLM. Наприклад, їхня модель Step 3.5 Flash, що має 196 мільярдів параметрів, посіла перші місця у чотирьох рейтингах з міркування, обійшовши конкурентів з трильйонами параметрів. Кількість параметрів є ключовим показником, що визначає обсяг знань моделі та її загальну продуктивність.

Розробка StepAudio 2.5 Realtime базується на тому ж підході, що й попередні успіхи компанії, і спрямована на створення високоякісних персоналізованих голосових асистентів, особливо для тривалих діалогів та рольових ігор.

Подолання проблеми “виходу з ролі”

Однією з найпоширеніших проблем у системах ШІ, що імітують персонажів, є “OOC” (out-of-character) поведінка, коли модель під тиском чи під час тривалої взаємодії відхиляється від заданої особистості. Це властивий недолік, який присутній у всіх моделях ШІ, оскільки вони схильні “забувати” контекст у міру розширення взаємодії.

StepFun стверджує, що вирішила цю проблему за допомогою методу RLHF (Reinforcement Learning from Human Feedback), адаптованого спеціально для стабільності персонажа, а не лише для загальної якості відповіді. Тренувальні дані починаються з понад 10 000 “заготовок” персонажів, створених людьми, та розширюються до мільйонної матриці ознак за допомогою алгоритмів.

Мета такого підходу — забезпечити достатню різноманітність тренувальних даних, щоб навіть найнесподікуваніші або найрідкісніші розмови не призводили до втрати персонажем своєї ідентичності.

Розуміння паралінгвістичних особливостей

Більш технологічно значущим є твердження про здатність моделі розуміти паралінгвістичні ознаки. StepAudio 2.5 Realtime аналізує невербальні акустичні сигнали, такі як швидкість мовлення, емоційний тон та вік співрозмовника, безпосередньо з аудіопотоку, перш ніж сформулювати відповідь. Це дозволяє досягти вищого рівня природності та емоційного резонансу у спілкуванні.

За результатами тестування за критерієм розуміння паралінгвістичних особливостей (оцінка від 0 до 100), StepAudio досягла показника 82.18. Для порівняння: GPT Realtime 1.5 отримав 80.46, Gemini Live — 58.05, а DouBao Realtime — 16.09.

Stepn і ШІ: Як Голосовий Алгоритм Запанував Над Ри cif'ами та Чує Ваші Зітхання 2

За результатами людського оцінювання (реальні користувачі оцінювали взаємодію з моделлю за шкалою від 0 до 100), StepAudio отримав 80.41, тоді як GPT Realtime 1.5 — 68.01, а Gemini Live — 67.16. Загальна якість діалогу, оцінена об’єктивно через API (за шкалою від 0 до 100), становила 86.36 проти 81.60 у GPT.

Варто зазначити, що це власні бенчмарки StepFun. Однак, значна перевага в показниках розуміння паралінгвістичних ознак та якості діалогу робить ці результати важко ігнорованими.

Контекст StepFun

Компанію StepFun було засновано у квітні 2023 року Цзян Дасінем, який до цього 16 років працював у Microsoft, керуючи такими проєктами, як Bing, Cortana та Azure cognitive services. StepFun є одним із китайських стартапів, що входять до категорії “AI Tiger”, і на сьогоднішній день залучив приблизно 1.7 мільярда доларів інвестицій.

Представлення вдосконаленого голосового режиму від OpenAI наприкінці 2024 року встановило новий стандарт, до якого прагнуть усі конкуренти. StepFun тепер прямо конкурує з цими стандартами, заявляючи про свої успіхи.

Запуск включає флагманську ШІ-персону на ім’я Xiao Yue, яку StepFun описує як “компаньйона на рівні душі”, створеного для імітації спілкування з другом, а не запитів до програмного забезпечення. Його погляди, фрази та емоційні межі повністю налаштовуються.

Розробники матимуть можливість створювати власні персонажі через API. Повна документація доступна за адресою platform.stepfun.com, а сама модель вже функціонує.

Погляд Crypto Top: Подальша інтеграція таких передових голосових ШІ-моделей у Web3 може докорінно змінити взаємодію користувачів із децентралізованими додатками, роблячи їх більш інтуїтивно зрозумілими та персоналізованими. Це також відкриває нові можливості для використання токенів у системах управління ШІ-агентами та доступу до розширених функцій, стимулюючи інновації в екосистемі.

Джерело: decrypt.co

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *