Цифровое клонирование человека
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Автор: Wladislav Radchenko.Недавно в сети появилась новость о том, что художница хочет выйти замуж за голограмму, созданную из идеального для нее мужчины и подходящих для него качеств. Все это больше похоже на фейк или правильнее сказать перформанс, с не очень качественным монтажом. Однако давайте разберемся, насколько сегодня технологии близки к тому, чтобы воплотить этот фейк в жизнь.
В этой статье мы поговорим о том, как клонировать себя или своего соседа с помощью проектов с открытым исходным кодом Audio to Photoreal Embodiment и Wunjo AI. Ведь применений для такого продукта просто огромное количество.
Из чего состоит Audio to Photoreal Embodiment?
Если вам интересно узнать ответ на вопрос без подробностей о том, как это работает, просто пролистайте к концу статьи.
- Подготовка данных. Изначально всё начинается с подготовки данных для обучения. Для этих целей был собран новый, богатый набор данных диадических разговоров (оба собеседника по очереди находятся в ролях говорящего и слушающего), который должен позволить детально и реалистично реконструировать людей во время диалога. Набор данных для обучения. В нем вы найдете отрывки разговоров, движение лица и всего тела. Хороший набор данных играет решающую роль для точного обучения моделей.
- Модель движения. Модель движения состоит из трех частей: модели выражений лица, предиктора для управления позой тела и модели общего движения тела. Модели помогают понять и уловить движения и выражения лица человека во время разговора.
- Генерация движений лица. Используя звук и результаты предварительно обученной модели, предсказывающей движения губ, они обучили модель создавать реалистичные выражения лица. Цель состоит в том, чтобы синхронизировать движения лица с произносимыми словами для достижения более естественного результата.
- Генерация движений тела. Для тела они используют звук в качестве входных данных и генерируют направляющие позы (Vector Quantization) один кадр в секунду. Такой подход помогает создать базовую структуру движений тела на основе звука. Векторное квантование – это метод сжатия данных, при котором векторы данных заменяются на ближайший вектор из заранее определенного набора кодов (так называемый кодовый словарь). В данном случае, VQ направляющие позы означает, что направляющие позы (guide poses) проходят процесс векторного квантования.
- Добавление высокочастотных движений тела в цифровую модель. Высокочастотные движения, имеется в виду изменения поз и движений, происходящие с большей частотой, то есть более мелкие и быстрые движения. Как аудио, так и направляющие позы используются для детальной передачи движений тела с более высокой частотой кадров (30 кадров в секунду) с использованием диффузионной модели. Именно этот шаг добавляет более реалистичные и детальные движения тела в соответствии с аудиовходом.
- Генерация фотореалистичного аватара. Сгенерированные движения лица и тела объединяются и передаются в обученную модель, которая создает фотореалистичный аватар в виде файла numpy файла, набора числовых векторов, который можно визуализировать. Таким образом, аватар готов и его нужно только отобразить. А подход можно охарактеризовать как применение VQ и моделей диффузии.
Подробнее о том, как это работает, можно узнать из свежей научной статьи от 2024 года, и самого репозитория. Однако, есть и более ранние работы, которые могут быть применимы, например LDA (Alexanderson от 2023) основанного на моделях диффузия, Show (Yi от 2023) основан на VQ методе и KNN. Хотя рандом с анимацией губ через Wav2Lip, тоже никто не отменял.
Так, как выполнить цифровое клонирование человека с Audio to Photoreal Embodiment, не вдаваясь во все сложности обучения?
- Источник(и):
- Войдите на сайт для отправки комментариев