Штучний інтелект у музиці: чи зможуть ElevenLabs та Stability AI перевершити Suno?

Інновації в генерації музики: ElevenLabs та Stability AI випереджають конкурентів

Цього тижня було представлено два вагомих оновлення в галузі генерації музики штучним інтелектом, і жодне з них не надійшло від Suno. Компанія ElevenLabs, що спеціалізується на голосовому ШІ, оцінена в 11 мільярдів доларів, запустила Music v2. Stability AI, відома своїм Stable Diffusion, представила Stable Audio 3.0 — сімейство з чотирьох моделей з відкритими вагами, які генерують треки тривалістю до шести хвилин. На тлі судових позовів щодо авторських прав, поданих Recording Industry Association of America (RIAA) проти Suno та Udio, фраза “навчений на ліцензованих даних” стала ключовою. ElevenLabs та Stability AI активно використовують цей підхід, щоб забезпечити безпроблемне використання створеного контенту.

Music v2 від ElevenLabs: Безшовна зміна жанрів та секційна композиція

Music v2 — це друга музична модель від ElevenLabs, що з’явилася приблизно через 10 місяців після першої. Основна перевага — здатність до узгодженості навіть зі складними запитами. За даними ElevenLabs, один трек може плавно переходити від опери до хеві-металу, витримувати швидкий реп та інтегрувати не музичні звукові ефекти, не втрачаючи цілісності композиції. Це особливо важливо для довгих музичних творів, де генеративне аудіо часто втрачає зв’язність. Нова функція “inpainting” дозволяє редагувати певні ділянки треку, не торкаючись решти. Користувачі також можуть створювати пісні по секціях (вступ, куплет, приспів), причому модель зберігає плавність переходів між ними. Покращена підтримка багатомовності також є однією з ключових переваг. Модель інтегрована в три платформи: ElevenMusic для творців, ElevenAPI для розробників та ElevenCreative для брендів. На ElevenMusic та ElevenCreative вона вже доступна, а API-доступ надається за запитом. ElevenLabs також знизила ціни на Music v1 та v2 до 50% для ElevenAPI та до 40% для ElevenCreative. Хоча музика поки становить невелику частку доходів компанії, ElevenMusic, запущений як споживчий додаток, є прямою конкуренцією для користувацької бази Suno.

Stable Audio 3.0: Відкриті ваги, локальне використання та тривалі треки

Stable Audio 2.0, що мав обмеження до трьох хвилин, був менш конкурентоспроможним порівняно з Suno. Stable Audio 3.0 пропонує чотири моделі: Small SFX (звукові ефекти для локального використання), Small (створення музики локально), Medium (до 6 хвилин 20 секунд, потребує потужнішого обладнання) та Large (тільки через API). Три з чотирьох моделей мають відкриті ваги на Hugging Face. Моделі Small мають по 459 мільйонів параметрів і не потребують GPU. Medium з 1,4 мільярда параметрів генерує 6:20 аудіо приблизно за 1,31 секунди на H200 GPU. Large, з 2,7 мільярда параметрів, доступна тільки через API для організацій з річним доходом понад 1 мільйон доларів. Можливість генерації з точністю до секунди забезпечує отримання треку бажаної тривалості. Також є підтримка ComfyUI для локальних налаштувань. Архітектура моделі, названа Stability семантико-акустичним автоенкодером (SAME), призначена для підтримки мелодійної узгодженості в довгих аудіозаписах. Підтримується доналаштування за допомогою LoRA, що дозволяє артистам адаптувати моделі під свої каталоги. Функція “inpainting” дозволяє вставляти або редагувати певні сегменти треку, а також продовжувати його за межі початкової тривалості. LoRA (Low-Rank Adaptation) — це міні-модель, яка впливає на генерацію основної моделі. Наприклад, тренування LoRA на блюзі призведе до генерації музики в стилі блюзу. “Inpainting” дозволяє виправляти помилки або додавати нові елементи в конкретні моменти треку, забезпечуючи плавне злиття з рештою композиції. Stability AI має багаторічний досвід у сфері AI-музики, але комерційний успіх досі не прийшов. Стратегія відкритих ваг, подібна до тієї, що використовувалася для Stable Diffusion, спрямована на стимулювання спільноти розробників. Ліцензування даних, отриманих від партнерств з Universal Music Group та Warner Music Group, є найчистішим в історії Stable Audio.

Ціль: Suno, король AI-музики

Якщо ChatGPT — король AI-тексту, то Suno — король AI-музики. Компанія оцінюється в 2,45 мільярда доларів, має понад 300 мільйонів доларів річного доходу і використовується приблизно 100 мільйонами людей. Щодня генерується близько 7 мільйонів пісень. Warner Music врегулювала позов проти Suno, тоді як Sony та UMG продовжують судові процеси. Щоб уникнути подібних конфліктів, ElevenLabs має ліцензійні угоди з Believe, Kobalt та Merlin. Stability співпрацює з Warner та Universal. Udio врегулював позови з усіма трьома лейблами і тепер є закритою платформою. Stable Audio 3.0 Small та Medium доступні на Hugging Face, Large — через API Stability AI. Music v2 безкоштовно для користувачів ElevenMusic, з комерційними тарифами через ElevenCreative та ElevenAPI.

Погляд Crypto Top: Інтеграція передових ШІ-моделей, подібних до Music v2 та Stable Audio 3.0, в екосистему Web3 може призвести до появи нових децентралізованих платформ для створення та розповсюдження контенту, а також стимулюватиме розвиток токенізованих музичних активів та NFT.

Джерело: decrypt.co

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *