
Google анонсував вдосконалені функції штучного інтелекту: розмовний пошук, чатботи та зображення
15 Травня, 2024 23:40
TikTok тестує завантаження 60-хвилинних відео
17 Травня, 2024 19:01
Google анонсував вдосконалені функції штучного інтелекту: розмовний пошук, чатботи та зображення
15 Травня, 2024 23:40
TikTok тестує завантаження 60-хвилинних відео
17 Травня, 2024 19:01На конференції I/O Google анонсував вдосконалені функції штучного інтелекту, серед яких новий генеративний інструмент для створення відео VEO.
Google так анонсував запуск Veo: "Ми представляємо Veo, нашу найпотужнішу модель для створення відео високої чіткості, і Imagen 3, нашу найякіснішу модель перетворення тексту в зображення. Ми також ділимося новими демонстраційними записами, створеними за допомогою нашої Music AI Sandbox.
🎥Introducing Veo, our new generative video model from @GoogleDeepMind.
— Google (@Google) May 14, 2024
With just a text, image or video prompt, you can create and edit HQ videos over 60 seconds in different visual styles. Join the waitlist in Labs to try it out in our new experimental tool, VideoFX #GoogleIO pic.twitter.com/RnMsWu9s1q
Що таке Veo від Google?
Veo – найбільш потужна модель генерації відео до цього часу від Google. Вона створює відео високої якості з роздільною здатністю 1080p, що можуть перевищувати одну хвилину, в різних кінематографічних та візуальних стилях.
Він точно передає нюанси та тон вказівки, надаючи безпрецедентний рівень творчого контролю - розуміючи вказівки для всіх видів кінематографічних ефектів, таких як збільшення часу або повітряні зйомки пейзажу.
Згідно з Google: "Наша модель генерації відео Veo допоможе створити інструменти, що зроблять відеопродукцію доступною для всіх. Чи ви досвідчений кінорежисер, амбіційний творець або вчитель, який хоче поділитися знаннями, Veo відкриває нові можливості для розповіді, освіти та більше".
Коли можна спробувати Veo від Google?
Протягом наступних тижнів деякі з цих функцій будуть доступні обраним творцям через VideoFX, новий експериментальний інструмент на labs.google. Ви можете приєднатися до списку очікування зараз.
У майбутньому Google обіцяє також перенести деякі з можливостей Veo до YouTube Shorts та інших продуктів.
Ключові особливості Veo
- Краще розуміння мови та бачення. Щоб створити послідовну сцену, генеративні відеомоделі повинні точно інтерпретувати текстову підказку та поєднувати цю інформацію з відповідними візуальними посиланнями. Завдяки глибокому розумінню природної мови та візуальної семантики Veo створює відео, яке точно слідує підказці. Він точно вловлює нюанси й тон у фразі, передаючи складні деталі складних сцен.
- Елементи керування для створення фільмів. Коли надається як вхідне відео, так і команда редагування, як-от додавання каяків до аерофотознімку берегової лінії, Veo може застосувати цю команду до початкового відео та створити нове відредаговане відео. Крім того, він підтримує масковане редагування, дозволяючи змінювати певні області відео, коли ви додаєте область маски до відео та текстового запиту. Veo також може генерувати відео із зображенням як вхідних даних разом із текстовою підказкою. Надаючи еталонне зображення в поєднанні з текстовою підказкою, Veo створює відео, яке відповідає стилю зображення та вказівкам користувача.
- Модель також здатна знімати відеоролики і продовжувати їх до 60 секунд і більше. Veo може зробити це або за допомогою однієї підказки, або отримавши послідовність підказок, які разом розповідають історію.
- Узгодженість кадрів відео. Підтримка візуальної узгодженості може бути проблемою для моделей створення відео. Персонажі, об’єкти чи навіть цілі сцени можуть мерехтіти, стрибати або несподівано перетворюватися між кадрами, порушуючи враження від перегляду. Сучасні приховані дифузійні трансформатори Veo зменшують видимість цих невідповідностей, зберігаючи персонажів, об’єкти та стилі на місці, як це було б у реальному житті.
- Створено на основі років досліджень. Cтворення відео Veo спирається на багаторічну роботу над генеративною відеомоделлю, включаючи Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet і Lumiere, а також архітектуру Transformer і Gemini. Щоб допомогти Veo краще розуміти підказки та виконувати їх, Google також додали більше деталей до субтитрів кожного відео в даних навчання. А для подальшого підвищення продуктивності модель використовує високоякісні стиснені представлення відео (також відомі як латенти), тому вона також є більш ефективною. Ці дії покращують загальну якість і скорочують час створення відео.
- Відповідальний за задумом. Дуже важливо відповідально поширювати такі технології, як Veo. Відео, створені Veo, позначаються водяними знаками за допомогою SynthID, передового інструменту Google для водяних знаків і ідентифікації створеного штучним інтелектом контенту, і проходять через фільтри безпеки та процеси перевірки запам’ятовування, які допомагають зменшити ризики конфіденційності, авторських прав і упередженості. Майбутнє Veo буде залежати від співпраці з провідними творцями та режисерами. Їхні відгуки допомагають Google покращувати наші генеративні відеотехнології та гарантують, що вони приносять користь ширшій творчій спільноті та за її межами.
Приклад роботи Veo
Джерело: Google




