Google запускає Gemini Omni: ШІ-конструктор відео, що "симулює реальність"

Нова мультимодальна ШІ-модель Google живить оновлення Flow та Flow Music, включаючи діалогове редагування відео та інструменти для створення медіа за допомогою ШІ.

Створіть обліковий запис, щоб зберігати свої статті.Додати в GoogleДодайте Decrypt як ваше улюблене джерело, щоб бачити більше наших історій у Google.

Коротко

Google представив Gemini Omni на I/O 2026 як мультимодальну ШІ-модель, призначену для створення відео та іншого медіа з майже будь-якого вхідного сигналу.
Генеральний директор DeepMind Деміс Хассабіс заявив, що Gemini Omni поєднує Gemini з моделями генерації медіа, включаючи Veo, Nano Banana та Genie.
Gemini Omni Flash буде запущено спочатку через Flow та Flow Music для підписників Google AI.

У вівторок Google представив Gemini Omni — нову мультимодальну ШІ-модель, яка поєднує власні ШІ-моделі Gemini з інструментами для генерації медіа, зокрема Veo, Nano Banana та Genie.

Анонс відбувся під час Google I/O 2026, де генеральний директор DeepMind Деміс Хассабіс описав Gemini Omni як «нашу нову модель, яка може створювати будь-що з будь-якого вхідного сигналу».

«Вона поєднує інтелект Gemini з найкращими з наших генеративних медіа-моделей для нового рівня розуміння світу, мультимодальності та редагування», — зазначив Хассабіс.

Google повідомляє, що перший реліз, Gemini Omni Flash, буде запущено через Flow — платформу компанії для створення фільмів за допомогою ШІ, та Flow Music, яка спеціалізується на створенні музики за допомогою ШІ.

We’re dropping Gemini Omni: our first step towards a model that can create anything from anything – starting with video.

It combines Gemini’s intelligence with our generative media systems – representing a leap forward in world understanding, multimodality, and editing 🧵 pic.twitter.com/GAtqzr0VIV

— Google DeepMind (@GoogleDeepMind) May 19, 2026

Називаючи Omni «кроком до загального штучного інтелекту», Хассабіс заявив, що Google витратив останній рік на розширення Gemini до «моделі світу ШІ, яка може розуміти та симулювати світ».

Розгортання Omni від Google базується на популярності Nano Banana — попередньої моделі компанії для редагування зображень за допомогою ШІ, яка допомогла Gemini посісти перше місце в App Store Apple минулого вересня. Nano Banana набула широкого використання для створення мемів та діалогового редагування зображень, короткочасно допомігши Gemini випередити ChatGPT за завантаженнями додатків та інтересом до пошуку Google вперше з моменту запуску чат-бота OpenAI у 2022 році.

У порівнянні від Decrypt на початку цього місяця, Nano Banana 2 перевершив GPT Image 2 від OpenAI у тестах на ілюстрацію аніме та просторову композицію, тоді як модель OpenAI краще впоралася з фотореалізмом та рендерингом тексту. Google, схоже, тепер розширює багато з цих функцій редагування на відео за допомогою Gemini Omni.

Під час презентації Google продемонстрував, як Omni створює освітнє відео в стилі пластилінової анімації, що пояснює згортання білка. Компанія також показала інструменти діалогового редагування, які модифікували селфі-відео, додаючи нові візуальні елементи та змінюючи навколишнє середовище.

Google стверджує, що Omni може зберігати послідовність тих самих персонажів, фонів та рухів навіть після того, як користувачі вносять зміни до відео — це те, з чим багато ШІ-моделей для відео мають проблеми. Компанія також зазначає, що Omni використовує здібності Gemini до міркування для розуміння ширших інструкцій, тому користувачі можуть описувати бажану сцену, не пояснюючи вручну кожну деталь.

Компанія також представила Flow Agent — ШІ-асистента, інтегрованого в Google Flow, який може генерувати ідеї для сцен, організовувати ресурси, рекомендувати зміни в сюжеті та пакетно редагувати проєкти.

Додаткові оновлення включають Flow Tools, що дозволяє користувачам створювати власні робочі процеси редагування за допомогою запитів природною мовою, без досвіду програмування.

Хассабіс зазначив, що Google починає з генерації відео, але планує розширити доступ до Omni, описуючи це як довгострокову візію, що стоїть за мультимодальним дизайном Gemini.

«Це завжди було нашою метою з Gemini, і саме тому ми створили його мультимодальним з самого початку», — сказав він.

Google не надав негайної відповіді на запит про коментар від Decrypt.

Погляд Crypto Top: Інтеграція таких передових мультимодальних ШІ-моделей, як Gemini Omni, у платформи Web3, наприклад Flow, відкриває шлях до створення складних децентралізованих додатків, де ШІ-агенти можуть взаємодіяти з блокчейном для аналізу даних, управління активами та автоматизації завдань. Це може призвести до появи нових форм цифрової власності та інтерактивного контенту, що керується ШІ, значно розширюючи корисність і застосування токенів у сфері штучного інтелекту.

Джерело: decrypt.co

No votes yet.

Please wait...

Google запускає Gemini Omni: ШІ-конструктор відео, що “симулює реальність”

Нова мультимодальна ШІ-модель Google живить оновлення Flow та Flow Music, включаючи діалогове редагування відео та інструменти для створення медіа за допомогою ШІ.

Коротко

Залишити відповідьСкасувати відповідь