Нейросеть научила Барака Обаму говорить под фонограмму

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Опубликовано kur в 13 июля, 2017 - 16:20

dcblog / flickr

Разработана технология, которая в скором времени сможет улучшить видеоконференции и дополнить виртуальную реальность. Ученые из Вашингтонского университета придумали систему, позволяющую вставлять стороннюю речь в видеоряд, практически точно воссоздавая артикуляционную мимику говорящего. Материалом для создания такой системы послужили 17 часов записей видеообращений 44-го Президента США Барака Обамы к американским гражданам. С препринтом статьи, которая будет представлена в августе на конференции SIGGRAPH 2017, можно ознакомиться на сайте университета.

Конвертирование аудиозаписей человеческого голоса в видео имеет огромное практическое применение: от улучшения видеоконференций, звук в которых очень часто отстает от видео, до использования в виртуальной реальности и кинопроизводстве. Такая технология разрабатывается уже очень давно, и материалом для нее служат видео, записанные в лабораторных условиях, на которых люди точно проговаривают отдельно взятые фонемы. До сих пор не было проведено работы по конвертации аудио в видео на основе реальных записей речи людей.

Авторы новой работы создали алгоритм реалистичного наложения сторонних аудиозаписей на видеоряд, изображающий говорящего человека. Их подход основывается на работе рекуррентных нейросетей. Из аудиозаписи сначала извлекаются отдельно взятые фонемы, из которых воссоздается артикуляционная мимика. На основе этого создается реалистичная форма губ, которая затем накладывается на нужное видео, а сам видеоряд настраивают так, чтобы движения головы говорящего выглядели естественно.

Схема работа системы. Suwajanakorn et al / SIGGRAPH 2017

В результате исследователи совместили видеоряд обращений Барака Обамы к американским гражданам с аудио из других видео, в которых он говорит об отцовстве в эфире телешоу или о своем избрании в главные редакторы юридического журнала в 1990-ом году. Получившиеся фрагменты фрагменты при этом выглядят реалистично.

Созданная исследователями система улучшила подобную технологию, однако сама концепция наложения сторонней информации на видео не нова. Существует технология face2face, которая накладывает движения лица одного человека на видео, изображающее другого, известна также разработка Disney Research, позволяющую проектировать грим на видео.

Автор: Елизавета Ивтушок

Пожалуйста, оцените статью:

Источник(и):: nplus1.ru

Добавить свое объявление
Загрузка...

Войдите на сайт для отправки комментариев

Сайт о нанотехнологиях #1 в России

Нейросеть научила Барака Обаму говорить под фонограмму

Категории статьи