Система DeepMind учится говорить неотличимо от человека

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Google в своём блоге сообщила, что система искусственного интеллекта DeepMind в комбинации с технологией WaveNet существенно (на 50%) улучшила качество преобразования текста в речь, по сравнению с используемыми этой компанией движками TTS [text-to-speech], считающимися одними из лучших в мире.

Тестирование на носителях английского и китайского (пекинский диалект) языков показало, что DeepMind удалось добиться наиболее реалистичного на сегодняшний день звучания машинной речи, хотя и уступающего по убедительности настоящему человеку.

Большинство популярных TTS-программ, например, используемых цифровыми ассистентами Siri, Alexa и Cortana, строят синтезированную речь из фрагментов записей настоящего человеческого голоса. Этот компиляционный метод даёт неплохие результаты, но он требует наличия в базе данных записей абсолютно всех звуков речи для каждого используемого голоса.

Альтернативой является параметрический синтез на основе правил грамматики или звуков речевого аппарата человека. Он не нуждается в предварительно записанном материале, но генерирует механически звучащую речь.

WaveNet требует исходного материала, наговорённого человеком, однако эта система не тасует вырезанные фрагменты, а использует глубокое обучение для независимого построения собственных звуков для любого тембра голоса. Лингвистические правила и рекомендации позволяют Google формировать из реалистично звучащих исходников WaveNet осмысленную речь.

Возможности этой системы гораздо шире синтеза речи: Google продемонстрировала её применение для генерирования на основе изученных образцов классической музыки оригинальных фортепианных композиций.

WaveNet, как отмечается в блоге Google, это предвестник недалекого будущего, когда компьютер и человек смогут беседовать на равных. Однако, в ближайшей перспективе внедрение этого метода в Google Assistant вряд ли возможно из-за огромного объёма требуемых вычислений.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (5 votes)
Источник(и):

ko.com.ua