Компьютер научили анимировать лица необработанной записью речи

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Разработчики из Microsoft Research представили алгоритм, который может анимировать статичные кадры лиц с помощью необработанных записей речи людей. Созданная ими модель — контекстно-зависимая: она выделяет из аудио не только фонетические характеристики, но также и эмоциональный тон и сторонний шум, благодаря чему может наложить на статичный кадр все возможные аспекты речи.

Препринт статьи с описанием работы алгоритма доступен на arXiv.org.

Для анимирования статичных изображений в большинстве случаев используется перенос информации с видеозаписей на необходимый кадр. В решении этой задачи разработчики уже добились значительных успехов: сейчас существуют модели, которые могут достоверно переносить речь с видеоряда на статичный кадр, воссоздавая мимику говорящего.

Трудности в решении, однако, могут возникать в случае, если «оживить» изображения нужно с помощью аудиоряда: все существующие сейчас алгоритмы, которые могут перенести аудио на статичный кадр так, чтобы получилась натуральная анимация или даже видео процесса речи, ограничены тем, что могут работать только с чистой, хорошо слышимой речью, сказанной нейтральным голосом без эмоционального окраса. Человеческая речь, однако, достаточно многогранна и в идеале необходимо научить подобные алгоритмы воссоздавать все ее аспекты.

Заняться этим решили Гаурав Миттал (Gaurav Mittal) и Баоюань Ван (Baoyuan Wang) из Microsoft Research.

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

N+1