Компания Цукербергера представила генеративную модель для синтеза голоса

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Исследовательский отдел американской компании Meta Platforms (ее деятельность в России запрещена) анонсировал модель машинного обучения Voicebox, способную генерировать устную речь из текста. Среди других моделей, работающих в той же сфере, ее выделяет возможность выполнять множество задач, которым она не была обучена, в частности, редактирование, удаление шумов, наложение стилей.

Модель была обучена по специальному методу, разработанному инженерами компании. Компания не собирается в ближайшее время предоставлять доступ к Voicebox из боязни злоупотреблений.

Voicebox — генеративная модель, умеющая синтезировать человеческую речь на шести языках: английском, французском, испанском, немецком, польском и португальском. Как большие языковые модели (LLM), ее обучили выполнять самые широкие задачи. Но если LLM основана на статистических закономерностях языка и текста, то Voicebox натренирована изучать правила, связывающие аудиозаписи голоса с транскрипцией, пишет Venture Beat. Такую модель можно использовать для решения множества задач с минимальной настройкой.

«Наша цель — создание единой модели, которая может выполнять множество задач генерации речи посредством обучения в контексте», — написали разработчики в технической документации Voicebox.

Обучение модель прошла по методу Flow Matching, изобретенному в Meta*. Он более эффективный и генерализуемый, чем диффузионные методы, которые применяются для подготовки других моделей. Он позволяет Voicebox «учиться по разнообразным речевым данным без тщательной разметки этих вариаций». Без необходимости вручную размечать данные исследователи смогли обучить Voicebox по аудиокнигам общей продолжительностью всего 50 000 часов.

Уникальность Voicebox в том, что она может выполнять задачи, которым ее специально не учили. К примеру, использовать образец голоса длительностью две секунды для того, чтобы сгенерировать новый устный текст. Или для того, чтобы произнести написанный текст в другой стилистической манере, образец которой ей предоставили. И все это — на разных языках. Можно также «на лету» убирать лишние шумы — лай собак, звуки транспорта — и исправлять оговорки.

Вдобавок, она может нарезать из текста образцы речи, которые можно потом использовать для обучения других языковых моделей. Испытания показали, что такой метод не менее эффективен, чем обучение по аудиозаписям речи живых людей.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

ХайТек+