Meta представила новый ИИ для клонирования голосов и генерации звуков
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Meta (компания признана экстремистской и запрещена в РФ) выпустила собственную бесплатную программу для клонирования голоса, Audiobox. ПО хорошо имитирует голоса людей и разные звуки, например, лай собак или пение птиц. Оно опирается на аудиозаписи и текстовые подсказки. Но есть подвох: его запрещено использовать в коммерческих целях, а также в некоторых регионах, таких как Техас и Иллинойс.
Чтобы воспользоваться программой, достаточно загрузить исходную аудиозапись и ввести текстовые подсказки. Можно получить естественные результаты для разных ситуаций — озвучки роликов, записи поздравлений, научных докладов, песен и т. д. Люди, у которых проблемы с речью, могут с помощью неё выражать свои мысли вслух и даже передавать эмоции — ПО может изображать волнение, восторг, злость, испуг. Голоса знаменитостей программа не использует, чтобы избежать проблем с законом.
В основе продукта лежит целое семейство генеративных ИИ, создающих аудио. Некоторые из моделей копируют и воспроизводят голоса, другие отвечают за различные шумы и эффекты. Все они созданы на основе одной самообучающейся модели Audiobox SSL.
Её тренировали на 160 000 часах аудиозаписей от людей из 150 стран мира, которые говорили на 200 языках, а также на 20 000 часах записей музыки и 6 000 часов разных звуковых эффектов — от капели до скрипа. В речевую часть вошли аудиокниги, подкасты, записи лекций и публичных выступлений, беседы в естественной обстановке. Исследователи не уточнили, откуда они взяли данные для обучения модели и получили ли они согласие тех, чьи голоса использовали. Сейчас это выясняют СМИ, но такая большая компания обычно заботится о соблюдении законов.
Чтобы продемонстрировать возможности Audiobox, разработчики выпустили ряд интерактивных демонстраций. Одна из низ позволяет записать аудио пользователя, произносящего текст примерно одного предложения, и озвучивает его голосом длинные тексты. Те, кто уже протестировал новинку, сообщают, что голоса в целом похожи, но иногда отличаются от оригинала.
ПО также позволяет генерировать совершенно новые голоса из текстовых описаний, например, «низкий женский голос», «высокий голос мужчины из США» и т. д. Также можно добавлять новые эффекты к уже существующей записи, менять темп речи и стиль исполнения песен.
Интересно, что исходный код Audiobox закрыт, хотя ранее компания-разработчик обязалась выпускать прозрачные продукты с открытым кодом.
- Источник(и):
- Войдите на сайт для отправки комментариев