Алгоритм от Alibaba читает по губам с недостижимой ранее точностью
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Секрет программы заключается в том, что при ее обучении используется видеозапись со звуком. Это позволяет ей извлекать информацию как из отдельных кадров, так и из контекста.
Алгоритмы, способные читать по губам, существуют уже несколько лет, однако по точности они намного уступают системам распознавания голоса. Исследователи из компании Alibaba, Чжэцзянского университета и Технологического института Стивенса решили усовершенствовать технологию.
Как сообщает Venture Beat, команда разработала методику Lip by Speech (LIBS), при обучении которой одновременно используется как чтение по губам, так и распознавание речи. Чтобы настроить алгоритм, исследователи использовали два массива информации, которые содержат 45 000 и 100 000 фраз на китайском соответственно.
Особый подход к обучению позволил программе глубже понимать содержание видео. Получившийся в итоге алгоритм справляется с чтением по губам намного лучше аналогов.
Например, ему под силу расшифровывать предложения короче 14 символов. Секрет в том, что программа извлекает полезную информацию на трех уровнях — не только из каждого кадра, но также анализируя их последовательность и контекст, то есть раннее расшифрованные фразы.
В ближайшем будущем алгоритмы типа LIBS серьезно облегчат жизнь людей с нарушениями слуха. Они смогут просматривать видео или телепередачи, не снабженные субтитрами.
- Источник(и):
- Войдите на сайт для отправки комментариев