Робота научили жестикулировать по записям TED Talks
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Корейские ученые научили трехмерную систему сопровождать речь жестами, использовав 52 часа записи выступлений спикеров на TED Talks. С помощью открытого алгоритма разметки позы OpenPose и рекуррентной нейросети им удалось научить систему сопровождать синтезированную речь правдоподобными жестами, а также использовать ее для управления говорящим гуманоидным роботом. Препринт статьи с описанием работы алгоритма опубликован на arXiv.org.
Помимо производства и обработки речи для эффективного общения с людьми роботы должны уметь пользоваться и невербальными средствами коммуникации. Одно из таких средств — выражение эмоций, и в них роботы уже преуспели: в этом году американские инженеры сконструировали робота, который умеет выражать эмоции не только с помощью изменяющегося на экране изображения, но также и используя специальные шипы, имитирующие мурашки на человеческой коже.
Другое полезное для роботов средство невербальной коммуникации — жесты. Научить им роботов решили корейские ученые из Научно-исследовательского института электроники и телекоммуникаций (ETRI) и Корейского института передовых технологий (KAIST) под руководством Янгву Юна (Youngwoo Yoon). Они собрали датасет из 52 часов записей выступлений спикеров на конференциях TED Talks. Жесты людей на видео были размечены с помощью открытого алгоритма OpenPose (использовались только движения головы, торса и рук) и соотнесены с отдельными акцентными словами фраз с помощью рекуррентной нейросети. В итоге получилась система, которая воспроизводит положение тела в трехмерном пространстве в соответствии с синтезированной речью.
Затем ученые попросили 46 человек оценить по шкале от 1 до 5, насколько производимые жесты, сопровождающие речь, антропоморфны, соответствуют сказанному и приятны на вид. Добровольцы оценивали движения созданных в OpenSpace «палочек» без видимого объекта: ученые использовали для сравнения пример из датасета (ground truth), пример, полученный с помощью разработанного алгоритма, случайно подобранные движения, движения, настроенные вручную, а также движения, полученные с помощью расчета ближайших соседей из датасета. Созданные алгоритмом жесты превзошли по всем параметрам все остальные методы, кроме ground truth.
Сравнение предложенного алгоритма (оранжевым) с ground truth (голубым), алгоритмом расчета ближайших соседей (серым), случайными движениями (желтым) и ручным управлением (синим)/Yoon et al. / arXiv 2018
Полученную систему использовали в настоящем гуманоидном роботе NAO (он часто используется в исследованиях взаимодействия роботов с людьми): авторы работы утверждают, что роботу удалось успешно воспроизвести заданные ему комбинации движений.
Yoon et al. / arXiv 2018
Разработчики отмечают, что использование в качестве данных для обучения видеозаписи выступлений на TED Talks позволило им убедиться в том, что производимые жесты проработаны и хорошо соответствуют речи. Тем не менее, следует учитывать то, что подобные лекции читают профессиональные спикеры, поэтому данные могут разниться с теми жестами, которые используются людьми в повседневной речи. Это, однако, уже вопрос дальнейшей обработки невербальных средств коммуникации самим роботом.
Похожий на OpenPose алгоритм PoseNet недавно использовали для создания своеобразного зеркала: оценивая позу человека во время движения ученые научили нейросеть искать и показывать снимки других людей в точно такой же позе.
- Источник(и):
- Войдите на сайт для отправки комментариев