
YouTube стає соцмережею: щойно оголосив про запуск стрічки лише для публікацій з мобільного
14 Лютого, 2024 21:42
Коли найкращий час для публікації в Instagram у 2024 році?
17 Лютого, 2024 00:28
YouTube стає соцмережею: щойно оголосив про запуск стрічки лише для публікацій з мобільного
14 Лютого, 2024 21:42
Коли найкращий час для публікації в Instagram у 2024 році?
17 Лютого, 2024 00:28OpenAI щойно представила Sora, генеративну модель ШІ, яка створює відео з тексту.
Sora — це модель штучного інтелекту, яка може створювати реалістичні сцени з уявою на основі текстових інструкцій.
OpenAI стверджує, що за допомогою короткого або детального опису або нерухомого зображення Sora може генерувати сцени, схожі на кінофільм, із роздільною здатністю 1080p із декількома персонажами, різними типами руху та фоновими деталями.
Sora також може «розширити» наявні відеокліпи, докладаючи всіх зусиль, щоб заповнити відсутні деталі.
Sora
За словами OpenAI: «Sora має глибоке розуміння мови, що дозволяє їй точно інтерпретувати підказки та створювати переконливі символи, які виражають яскраві емоції. Модель розуміє не тільки те, що запитав користувач у підказці, але й те, як ці речі існують у фізичному світі».
Що зараз вміє Sora
На демонстраційній сторінці OpenAI для Sora є багато прикладів відео, згенерованих з тексту за допомогою цієї нової моделі штучного інтелекту. Показані зразки моделі виглядають досить вражаюче, принаймні порівняно з іншими технологіями перетворення тексту у відео, які ми бачили.
"Усі відео на цій сторінці були створені безпосередньо Sora без змін," – коментує OpenAI на сайті новинки.
OpenAI додає до кожного відео пояснення, який текстовий запит було вжито, щоб в результаті отримати відео, використовуючи прийом до-після. До – пару слів, речень, після – вражаюче відео.
Вміння Sora зараз:
- Sora може створювати складні сцени з кількома персонажами, певними типами руху та точними деталями об’єкта та фону. Модель розуміє не тільки те, що запитав користувач у підказці, але й те, як ці речі існують у фізичному світі.
- Модель має глибоке розуміння мови, що дозволяє їй точно інтерпретувати підказки та створювати переконливі персонажі, які виражають яскраві емоції. Sora також може створювати кілька знімків в одному згенерованому відео, де точно зберігаються персонажі та візуальний стиль.
- Нинішня модель має недоліки. Він може мати проблеми з точним моделюванням фізики складної сцени та може не розуміти конкретних прикладів причини та наслідку. Наприклад, людина може відкусити печиво, але після цього на печиві може не залишитися сліду від укусу. Модель також може плутати просторові деталі підказки, наприклад, змішувати ліворуч і праворуч, і може мати проблеми з точним описом подій, які відбуваються з часом, як-от слідування певній траєкторії камери.
Як можна спробувати згенерувати відео за допомогою Sora
У OpenAi прокоментували найближчі плани щодо новинки Sora: "Сьогодні Sora стає доступною для червоних команд для оцінки критичних зон на предмет шкоди чи ризику.
Ми також надаємо доступ до ряду художників, дизайнерів і режисерів, щоб отримати відгук про те, як вдосконалити модель, щоб вона була найбільш корисною для творчих професіоналів. Ми завчасно ділимося нашими досягненнями в дослідженнях, щоб почати співпрацювати та отримувати відгуки від людей за межами OpenAI й дати громадськості уявлення про те, які можливості ШІ є на горизонті."
З огляду на те, що OpenAi нестиме високу відповідальність за створення та поширення відео, згенерованих за допомогою його штучного інтелекту, це створює ряд, на перший погляд, непереборних перешкод для випуску Sora для використання широкого загалу людей.
З огляду на питання безпеки, OpenAI коментує: "Ми вживемо кількох важливих заходів безпеки, перш ніж зробити Sora доступною в продуктах OpenAI. Ми працюємо з червоними командами – «фахівцями домену в таких сферах, як дезінформація, контент, що пропагує ненависть, і упередженість», – «які будуть тестувати модель у протилежних умовах. Ми також створюємо інструменти, які допомагають виявляти оманливий контент, наприклад класифікатор виявлення, який може визначити, коли Sora створила відео. Ми плануємо включити метадані C2PA в майбутньому, якщо розгорнемо модель у продукті OpenAI.
Окрім розробки нових методів для підготовки до розгортання, ми використовуємо існуючі методи безпеки, створені нами для наших продуктів, які використовують DALL·E 3, які також застосовуються до Sora.
Наприклад, опинившись у продукті OpenAI, наш текстовий класифікатор перевірить і відхилить текстові підказки, які порушують нашу політику використання, як-от ті, які запитують екстремальне насильство, сексуальний контент, ненависні зображення, схожість зі знаменитостями чи IP-адресу інших.
Ми також розробили надійні класифікатори зображень, які використовуються для перегляду кадрів кожного створеного відео, щоб переконатися, що воно відповідає нашій політиці використання, перш ніж його показувати користувачеві.
Ми залучатимемо політиків, викладачів і митців у всьому світі, щоб зрозуміти їхні проблеми та визначити позитивні випадки використання цієї нової технології. Незважаючи на широкі дослідження та випробування, ми не можемо передбачити ні всі корисні способи, якими люди використовуватимуть нашу технологію, ні всі способи зловживання нею. Ось чому ми вважаємо, що навчання на основі реального використання є критично важливим компонентом створення та випуску все більш безпечних систем."
Дослідження
Методики дослідження Sora — це дифузійна модель, яка генерує відео, починаючи з такого, що виглядає як статичний шум, і поступово перетворює його, видаляючи шум протягом багатьох кроків.
Sora здатна генерувати цілі відео відразу або розширювати згенеровані відео, щоб робити їх довшими.
Завдяки передбаченню моделі для багатьох кадрів одночасно, OpenAi розвʼязали складну проблему забезпечення того, щоб об’єкт залишався незмінним, навіть якщо він тимчасово втрачає поле зору. Подібно до моделей GPT, Sora використовує трансформаторну архітектуру, що забезпечує чудову продуктивність масштабування.
OpenAi представляє відео та зображення як набори менших одиниць даних, які називаються патчами, кожен з яких схожий на маркер у GPT. Уніфікувавши те, як вони представляють дані, вони можуть навчати дифузійні трансформатори на більш широкому діапазоні візуальних даних, ніж це було можливо раніше, охоплюючи різні тривалості, роздільну здатність і співвідношення сторін.
Sora спирається на попередні дослідження моделей DALL·E та GPT. У ньому використовується техніка повторного копіювання з DALL·E 3, яка передбачає генерування чітких описових підписів для даних візуального навчання. У результаті модель може точніше виконувати текстові інструкції користувача у створеному відео.
Окрім можливості генерувати відео лише з текстових інструкцій, модель може взяти наявне нерухоме зображення та створити з нього відео, анімуючи вміст зображення з точністю та увагою до дрібних деталей. Модель також може взяти наявне відео та розширити його або заповнити відсутні кадри.
Sora служить основою для моделей, які можуть розуміти та симулювати реальний світ, і в компанії OpenAi вважають, що ця можливість стане важливою віхою для досягнення AGI.
Приклади відео, згенеровані в Сора
Ми очікуємо, коли OpenAi владнає правові тонкощі щодо поширення прикладів роботи власної нової моделі ШІ та опублікує їх в мережі. Поки приклади Сора ви можете побачити на сайті компанії: тут.
Однак, для ілюстрації ми наведемо приклади скріншотів з відео, згенерованих в Сора.
Підказка 1: коргі веде відеоблог у тропічному Мауї.

Джерело: OpenAi
Підказка 2: Камера дивиться безпосередньо на кольорові будівлі в Бурано, Італія. Чарівний далматин дивиться у вікно будівлі на першому поверсі. Багато людей гуляють і їздять на велосипедах вулицями каналу перед будівлями.

Джерело: OpenAi
Підказка 3: Екскурсія художньою галереєю з багатьма прекрасними витворами мистецтва в різних стилях.

Джерело: OpenAi
Те, як Сора вміє генерувати відео з тексту вже зараз, в момент анонсу, вражає!
Це навіть трохи лякає, адже цей генеративний штучний інтелект точно переверне увесь світ, правила закони щодо AI, і звичайно, маркетинг та усі креативні, рекламні, мистецькі, контент сфери.
Джерело: OpenAi




