Исследователи Google работают не покладая рук, и их последнее творение, VLOGGER, должно произвести революцию в общении в Интернете. Эта революционная модель искусственного интеллекта может создавать реалистичные, управляемые аватары на основе всего лишь одной фотографии, оживляя неподвижные изображения с потрясающей реалистичностью.
Упрощение создания и управления аватарами
Несмотря на то что уже существуют подобные инструменты, такие как синхронизация губ от Pika Labs, сервисы видеоперевода Hey Gen и Synthesia, VLOGGER выделяется тем, что предлагает более простое и доступное решение. С помощью VLOGGER пользователи могут создать аватар и управлять им с помощью своего голоса, в результате чего получаются удивительно реалистичные анимации.
Согласно недавнему исследованию Gartner, к 2025 году 70 % организаций будут использовать технологии виртуальных аватаров в той или иной форме. VLOGGER от Google может занять значительную часть этого рынка благодаря простоте использования и впечатляющим результатам.
Сила архитектуры диффузии и набор данных MENTOR
VLOGGER построен на архитектуре диффузии, которая используется в таких 3D-моделях, как MidJourney и Runway. Однако она делает еще один шаг вперед, добавляя дополнительные механизмы управления для создания более реалистичного аватара.
Модель проходит многоступенчатый процесс, начиная с ввода аудио и изображения, затем следует генерация 3D-движения, временная диффузия для определения времени и движения, и, наконец, масштабирование для получения выходного сигнала. Этот процесс позволяет VLOGGER предсказывать движение лица, тела, позы, взгляда и выражения с течением времени, используя неподвижное изображение в качестве первого кадра и аудио в качестве руководства.
Для обучения модели исследователи Google использовали набор данных MENTOR, содержащий 800000 видеозаписей разговоров разных людей, на которых каждая часть лица и тела помечена в каждый момент времени. Благодаря такому обширному набору данных VLOGGER может генерировать очень реалистичные анимации.
Потенциальные сценарии использования и ограничения
Несмотря на то что VLOGGER в настоящее время является предварительной исследовательской разработкой, потенциал его применения огромен. Одно из основных применений — перевод видео, когда существующее видео на одном языке может быть отредактировано в соответствии с движениями губ и лица в переведенном аудио.
Среди других потенциальных применений — создание анимированных аватаров для виртуальных помощников, чат-ботов и виртуальных персонажей в игровых средах. VLOGGER также может оказаться полезным для видеосвязи с низкой пропускной способностью, позволяя создавать видеочаты на основе аудио, анимируя аватар из неподвижного изображения.
Однако важно отметить, что VLOGGER не лишена ограничений. Будучи диффузионной моделью, она может быть склонна к необычному поведению и испытывать трудности при работе с большими движениями или разнообразными средами. Кроме того, в настоящее время модель может обрабатывать только относительно короткие видео.
Читайте также: Google внедряет создание изображений в чатботе Bard, обновляет модели визуальной генерации
Я считаю, что VLOGGER обладает потенциалом стать переломным моментом в виртуальном общении. С ростом удаленной работы и повышением спроса на иммерсивный цифровой опыт такие инструменты, как VLOGGER, могут стать незаменимыми для компаний, стремящихся расширить свое присутствие в Интернете и улучшить общение как с клиентами, так и с сотрудниками.
Ожидается, что рынок технологий виртуальных аватаров вырастет с 2,5 миллиарда долларов в 2020 году до 9,7 миллиарда долларов к 2025 году, что составит 31,2 % в годовом исчислении. VLOGGER от Google имеет все шансы занять значительную долю этого быстрорастущего рынка, и я не удивлюсь, если в ближайшем будущем он станет общепринятым.