Система DeepMind учится говорить неотличимо от человека
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Google в своём блоге сообщила, что система искусственного интеллекта DeepMind в комбинации с технологией WaveNet существенно (на 50%) улучшила качество преобразования текста в речь, по сравнению с используемыми этой компанией движками TTS [text-to-speech], считающимися одними из лучших в мире.
Тестирование на носителях английского и китайского (пекинский диалект) языков показало, что DeepMind удалось добиться наиболее реалистичного на сегодняшний день звучания машинной речи, хотя и уступающего по убедительности настоящему человеку.
Большинство популярных TTS-программ, например, используемых цифровыми ассистентами Siri, Alexa и Cortana, строят синтезированную речь из фрагментов записей настоящего человеческого голоса. Этот компиляционный метод даёт неплохие результаты, но он требует наличия в базе данных записей абсолютно всех звуков речи для каждого используемого голоса.
Альтернативой является параметрический синтез на основе правил грамматики или звуков речевого аппарата человека. Он не нуждается в предварительно записанном материале, но генерирует механически звучащую речь.
WaveNet требует исходного материала, наговорённого человеком, однако эта система не тасует вырезанные фрагменты, а использует глубокое обучение для независимого построения собственных звуков для любого тембра голоса. Лингвистические правила и рекомендации позволяют Google формировать из реалистично звучащих исходников WaveNet осмысленную речь.
Возможности этой системы гораздо шире синтеза речи: Google продемонстрировала её применение для генерирования на основе изученных образцов классической музыки оригинальных фортепианных композиций.
WaveNet, как отмечается в блоге Google, это предвестник недалекого будущего, когда компьютер и человек смогут беседовать на равных. Однако, в ближайшей перспективе внедрение этого метода в Google Assistant вряд ли возможно из-за огромного объёма требуемых вычислений.
- Источник(и):
- Войдите на сайт для отправки комментариев