Sora OpenAI

Sora от OpenAI превращает промпты ИИ в фотореалистичные видео

Мы уже знаем, что чат-боты OpenAI могут сдать экзамен на адвоката, не посещая юридическую школу. Теперь, как раз к вручению «Оскара», новое приложение OpenAI под названием Sora надеется освоить кино, не посещая киношколу. Пока что Sora является исследовательским продуктом и будет доступна нескольким избранным создателям и экспертам по безопасности, которые проверят ее на наличие уязвимостей. OpenAI планирует сделать ее доступной для всех начинающих творцов в какой-то неопределенный срок, но решила провести предварительный просмотр заранее.

Другие компании, от гигантов вроде Google до стартапов вроде Runway, уже представили проекты ИИ для работы с текстом и видео. Но OpenAI утверждает, что Sora отличается поразительной фотореалистичностью, чего я не видел у ее конкурентов, и способностью создавать более длинные ролики, чем короткие фрагменты, которые обычно делают другие модели, вплоть до одной минуты. Исследователи, с которыми я разговаривал, не сказали, сколько времени уходит на рендеринг всего этого видео, но когда их спросили, они описали это как «поход за буррито», а не «несколько дней отдыха». Если верить отобранным мною примерам, то усилия того стоят.

OpenAI не позволил мне ввести свои собственные промпты, но он поделился четырьмя примерами силы Соры. (Ни один из них не приблизился к заявленному минутному лимиту; самый длинный длился 17 секунд). Первый был получен из подробной подсказки, которая звучала как навязчивая сценаристская установка: «Красивый, заснеженный Токио бурлит. Камера движется по оживленной городской улице, следуя за несколькими людьми, наслаждающимися прекрасной снежной погодой и делающими покупки в ближайших ларьках. Великолепные лепестки сакуры летят по ветру вместе со снежинками».

В результате получается убедительный вид Токио в тот волшебный момент, когда снежинки и цветущая сакура сосуществуют. Виртуальная камера, словно прикрепленная к дрону, следит за парой, медленно прогуливающейся по улицам города. На одном из прохожих надета маска. Слева от них по прибрежной дороге проносятся автомобили, а справа покупатели снуют туда-сюда по рядам крошечных магазинчиков.

Это не идеально. Только когда вы посмотрите ролик несколько раз, вы поймете, что главные герои — пара, прогуливающаяся по заснеженному тротуару, — столкнулись бы с дилеммой, если бы виртуальная камера продолжала работать. Тротуар, по которому они идут, кажется тупиковым; им пришлось бы перешагнуть через небольшое ограждение, чтобы попасть на странную параллельную дорожку справа. Несмотря на этот небольшой сбой, пример Токио — потрясающее упражнение в построении мира. В будущем художники-постановщики будут спорить о том, является ли это мощным помощником или убийцей работы. Кроме того, люди в этом видео — полностью сгенерированные цифровой нейросетью — не показаны крупным планом и не вызывают никаких эмоций. Но команда Sora утверждает, что в других случаях поддельные актеры демонстрировали настоящие эмоции.

Другие клипы тоже впечатляют, например, один из них требует «анимированную сцену короткого пушистого монстра, стоящего на коленях возле красной свечи», а также подробные указания к сцене («широкие глаза и открытый рот») и описание желаемой вибрации клипа. Сора создает пиксаровское существо, которое, кажется, имеет ДНК от Фёрби, Гремлина и Салли из «Монстров, Инк». Помню, когда вышел последний фильм, Pixar очень много говорили о том, как сложно было создать сверхсложную текстуру меха монстра, когда существо двигалось. У всех мастеров Pixar ушли месяцы на то, чтобы сделать это правильно.

Новая машина OpenAI для преобразования текста в видео… просто сделала это.

«Она учится 3D-геометрии и последовательности», — говорит Тим Брукс, научный сотрудник проекта, об этом достижении. «Мы не закладывали это в систему, это просто полностью возникло в результате просмотра большого количества данных».

Хотя сцены, безусловно, впечатляют, самые поразительные возможности Sora — это те, которым она не обучалась. Используя версию диффузионной модели, применяемой в генераторе изображений Dalle-3 от OpenAI, а также основанный на трансформации движок GPT-4, Sora не просто создает видео, отвечающее требованиям промптов, но делает это таким образом, что демонстрирует глубокое понимание кинематографической грамматики.

Это выливается в умение рассказывать истории. В другом видео, которое было создано на основе подсказки «великолепно выполненный бумажный мир кораллового рифа, изобилующий разноцветными рыбами и морскими обитателями». Билл Пиблз, еще один исследователь проекта, отмечает, что Sora создавала повествовательную тягу с помощью ракурсов камеры и синхронизации. «На самом деле смена кадров происходит несколько раз — они не сшиты вместе, а сгенерированы моделью за один раз», — говорит он. «Мы не говорили ей, чтобы она это сделала, она просто автоматически это сделала».

В другом примере, который я не видел, Соре было предложено провести экскурсию по зоопарку. «Она начала с названия зоопарка на большой вывеске, постепенно панорамировала вниз, а затем сменила несколько кадров, чтобы показать различных животных, которые живут в зоопарке», — говорит Пиблз, — «Она сделала это красивым и кинематографичным способом, который не был явно проинструктирован».

Одна из функций Sora, которую команда OpenAI не показала и, возможно, не выпустит еще долгое время, — это возможность генерировать видео из одного изображения или последовательности кадров. «Это будет еще один очень крутой способ улучшить возможности повествования», — говорит Брукс. «Вы сможете нарисовать именно то, что у вас на уме, а затем оживить это». OpenAI понимает, что эта функция также может стать источником фальшивок и дезинформации. «Мы будем очень внимательно следить за всеми последствиями для безопасности», — добавляет Пиблз.

Ожидается, что в Sora будут действовать те же ограничения на контент, что и в Dall-E 3: никакого насилия, никакой порнографии, никакого присвоения реальных людей или стиля названных художников. Также, как и в случае с Dall-E 3, OpenAI предоставит зрителям возможность идентифицировать результат как созданный искусственным интеллектом. Несмотря на это, OpenAI утверждает, что безопасность и достоверность информации — это постоянная проблема, которая больше, чем одна компания. «Решение проблемы дезинформации будет включать в себя некоторые меры по смягчению последствий с нашей стороны, но также потребуется понимание со стороны общества и адаптация социальных сетей», — говорит Адитья Рамеш, ведущий исследователь и глава команды Dall-E.

Еще одна потенциальная проблема — не нарушит ли содержание видео, которое создает Sora, авторские права других людей. «В качестве обучающих данных используется контент, который мы лицензировали, а также общедоступный контент», — говорит Пиблз. Конечно, суть ряда исков против OpenAI сводится к вопросу о том, является ли «общедоступный» контент, защищенный авторским правом, честной игрой для обучения ИИ.

Пройдет еще очень много времени, если вообще пройдет, прежде чем превращение текста в видео станет угрожать реальному кинематографу. Нет, вы не сможете снять целостный фильм, скомпоновав 120 минутных роликов Sora, поскольку модель не будет реагировать на промпты одинаково — непрерывность невозможна. Но ограничение по времени — не преграда для Sora и подобных ей программ, способных преобразить TikTok, Reels и другие социальные платформы. «Чтобы снять профессиональный фильм, нужно очень много дорогого оборудования», — говорит Пиблз. «Эта модель позволит обычному человеку, снимающему видео в социальных сетях, делать очень качественный контент».

Читайте также: Google запустил Lumiere — новую модель искусственного интеллекта (Откроется в новой вкладке браузера)

На данный момент перед OpenAI стоит огромная задача сделать так, чтобы Sora не стала катастрофой с дезинформацией. Но после этого начнется долгий обратный отсчет до того момента, когда следующий Кристофер Нолан или Селин Сонг получат статуэтку за мастерство в создании модели искусственного интеллекта. Конверт, пожалуйста!

Прокрутить вверх