Искусственный интеллект может понять нас, читая по губам
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
С помощью машинного обучения искусственный интеллект научился читать по губам, изучив тысячи видеороликов, в которых люди говорили на разные темы. Препринт научной статьи о новой разработке опубликован на сайте arxiv.org.
Программный код, который помог бы компьютеру читать по губам, написать очень сложно. Поэтому разработчики из DeepMind решили обратиться к искусственному интеллекту. Они «накормили» свою систему тысячами часов видеороликов вместе с расшифровкой текста, который произносили люди в кадре, и компьютер решил эту задачу сам по себе. Длительность всех видеороликов составила 140 000 часов. После этого ученые разработали программу, которая создавала клипы на несколько секунд, в которых было показано, как двигается рот человека для каждой фонемы. Всего материала было отснято на 4000 часов и на более 127 000 английских слов.
Процесс обучения частично зависит от нейронных сетей, алгоритмов ИИ, содержащих множество простых вычислительных элементов, связанных друг с другом, которые изучают и обрабатывают информацию почти так же, как и человеческий мозг. Когда команда «кормила» программу необработанными видео, эти сети делали из видео небольшие клипы, в которых было показано, какое движение совершают губы, когда мы произносим тот или иной звук. На следующей стадии система также использовала нейронные сети, изучала эти клипы и представляла список возможных фонем и их вероятности для каждого видеокадра. На последней стадии ИИ составлял все возможные английские слова из последовательности фонем. При этом машина понимала, что, например, звук «т» в английском языке может произноситься по-разному: «t» в слове «boot» (ботинок) и «beet» (свёкла).
После обучения исследователи протестировали свою систему на 37-минутном видео. ИИ ошибочно определил только 41% слов, сообщается в статье. Может показаться, что его положительный результат не так уж велик, однако новая разработка работает намного лучше, чем прежний компьютерный метод. Предшественник нового метода фокусировался на отдельных буквах, а не на звуках и ошибался на 77%. К тому же, в последнем исследовании ошибались и люди, которые бегло читают по губам. Погрешность их «перевода» составила около 7%.
В будущем разработчики планируют разработать мобильную версию программы. Такой карманный «переводчик» сможет помочь немым людям.
Ранее «Научная Россия» писала о другой разработке компании DeepMind – искусственном интеллекте, который «способен понимать намерения других машин. »:[http://www.nanonewsnet.ru/…ugie-mashiny]
- Источник(и):
- Войдите на сайт для отправки комментариев