Синтезируем голос бабушки, дедушки и Ленина + новости нашего публичного синтеза

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Опубликовано gumarov в 25 октября, 2021 - 23:34

Автор: Alexander Veysov. На Хабре часто висят в топе: политика и очередные запреты, трактор, ну и конечно сенсационные новости про «очередные достижения AI». Также маркетологи любят перепечатывать нормальные статьи наподобие этой но под максимально кричащими заголовками в духе «AI поработит мир, ваш голос уже украли».

Не секрет, что имея бюджет на вычисления в единицы или десятки миллионов долларов, напоказ достичь можно многого. Но реальность, как правило, оказывается более сложной и прозаической.

Вопреки этому тренду, в этой статье мы постараемся на пальцах и близко к народу:

На реальных примерах показать возможности генерации голоса на малом числе данных или на данных с неидеальным качеством;
Немного порассуждать на тему цифровых памятников (это чем-то похоже на интерактивные или трехмерные фотографии), сделанных из голоса человека;
Также немного порассуждать на тему того, какую объективную опасность это представляет для общества;

И также мы конечно поделимся новостями нашего публичного синтеза речи.

Границы возможного

Сейчас вовсю лютует эпоха пост-модернизма. Тренд на утерю рационального мышления принял системный характер. Развитие Интернета скорее привело не к массовому распространению «fake news», а скорее массовой низкопробной фантастики (самый яркий пример — Hyperloop), которая согласуется с чаяниями обычных граждан. Скорее получается не «fake news», а усилитель неграмотности с локальной спецификой. Я постоянно вижу какие-то новости на тему того, что или кого должны, уже заменили нейросети. Отсюда также растут тренды про плоскую землю, чипирование, вышки 5G и прочее мракобесие.

Хорошая актуальная иллюстрация на злобу дня — маркетинговые материалы OpenAI против более менее вменяемых попыток повторения от комьюнити:

Но если вернуться к нашей реальности, то в современной парадигме машинное обучение — это скорее сжатие данных. Фотографии уже как более века не являются диковинкой (и в современном понимании тоже являются сжатыми данными, тот же JPEG — это максимально популярный пример). Трехмерные фотографии (голограммы) — на самом деле в самом примитивном исполнении — тоже есть везде (стикеры, магнитики и вкладыши). Фотографии с картой «глубины» до недавнего времени требовали специального оборудования. Но сейчас появляются смартфоны с такими камерами и ее восстанавливают (точнее галлюцинируют) те же нейросети.

В самом-самом эпизоде сериала Черное Зеркало «White Christmas» четко прослеживается идея цифрового посмертия и сохранения каких-то цифровых артефактов.

Сейчас такими артефактами обычно являются фотографии, аудио и видео. Но, как правило, такие артефакты не являются интерактивными. Появляются алгоритмы для анимации лиц и / или фото. Но что если рассмотреть сам голос непосредственно как некоторую «открытку» или привет из прошлого от некоего человека? Вы не можете заставить такую открытку саму говорить то, что бы говорил реальный человек (говорящие про «мышление» нейросетей люди просто лукавят), но голос может быть узнаваем или даже неотличим от реального при каких-то условиях.

В принципе «успехи» так называемых больших языковых моделей (LLM) могут сделать примеры из Черного Зеркала с созданием полных цифровых аватаров людей чем-то извращенно похожим на реальность. Но при детальном общении они будут рассыпаться буквально через 1–2 фразы и в лучшем случае пока будут примером грубой «китайской комнаты», которая сделала лишь один маленький шаг от бредогенераторов. Но голос, если вынести за скобки огромную палитру человеческих эмоций и интонаций, сохранить в принципе можно уже более-менее точно и неотличимо.

Отдельный философский вопрос возникает: вот я сделал «копию» голоса близкого человека, но что будет с этим файлом через 50 лет? С одной стороны веса нейросети так и останутся матрицами, но все теперешнее окружение (например PyTorch) скорее всего уже уйдет в небытие. Возникает некая аналогия с тем, что HiFi электроника из 70-х является условно самодостаточной (если есть розетка 220V и заменить резиновые ремни), а современные «подписочные сервисы» не будут найдены археологами. По этой причине интересно будет посмотреть на маркетинговые материалы инвестиционных стартапов, которые рано или поздно возьмутся за такое дело.

Подробнее

Пожалуйста, оцените статью:

Источник(и):: Хабр

Добавить свое объявление
Загрузка...

Войдите на сайт для отправки комментариев

Сайт о нанотехнологиях #1 в России

Синтезируем голос бабушки, дедушки и Ленина + новости нашего публичного синтеза

Границы возможного

Категории статьи