«Компьютерное воображение» научилось создавать картинку по ее описанию

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Исследователи из Токийского университета создали алгоритм для восстановления изображения по его «кусочному» описанию. Такая задача аналогична сборке картинки-пазла: известны типы «кусочков» и их точное количество, необходимо восстановить исходную картинку. По словам авторов, эта работа является важным шагом для области «компьютерного воображения», с его помощью планируется создавать изображения только на основе их текстового описания. Препринт с описанием исследования выложен на сайте arXiv.org.

nplus1-verbal-to-picture-1.jpgСверху вниз: исходное изображение, несколько примеров воссозданных картинок и результат поиска в базе по картинкеИзображение: Hiroharu Kato et al./ arXiv.org

Созданная авторами программа основана на представлении изображения в виде «мешка визуальных слов» (Bag-of-Visual-Words). Этот метод изначально был создан для анализа текстов, фактически, «мешок слов» представляет собой набор пар «слово» — «число его появлений в тексте». В случае картинок все аналогично, только вместо «слов» используются небольшие усредненные фрагменты изображений.

Из каждой картинки авторы создавали свой «мешок», а затем пытались восстановить из него оригинал, то есть расставить фрагменты в правильном порядке. Для этого ученые использовали два типа параметра «естественности» (naturalness): локальную и глобальную.

nplus1-verbal-to-picture-2.pngПринципиальная схема нового алгоритма. Изображение: Hiroharu Kato et al./ arXiv.org

Расположение считалось локально «естественным», если изображения на кусочках плавно переходили друг в друга, не было явных нестыковок. Глобальная естественность оценивалась по базе данных известных изображений. Она определяла, например, что фрагменты неба должны располагаться в верхней части картинки, а лицо человека на портрете — ближе к центру.

Авторы применяли свой алгоритм для восстановления изображений разных жанров. Они оценивали степень схожести полученных «реконструкций», а также определяли, какое оптимальное соотношение должно быть между глобальной и локальной естественностью, так как зачастую эти параметры «в чистом виде» давали совершенно разные результаты.

Оказалось, что среди аналогичных программ новый алгоритм выдавал наилучшие результаты по степени схожести с оригиналом. На многих картинках легко можно угадать изображенный объект, даже не имея под рукой описания или исходного изображения.

nplus1-verbal-to-picture-3.jpgПопытки создания изображений по текстовому запросу. Изображение: Hiroharu Kato et al./ arXiv.org

В качестве эксперимента ученые также попытались создать изображения «с нуля», основываясь только на текстовом описании. По словам авторов, хоть им и удалось получить изображения, отдаленно напоминающие описание, задание оказалось слишком трудным для их алгоритма.

Проблема складывания пазла хорошо известна в математике, однако впервые ученые применили ее для воссоздания картинки по ее описанию. Помимо области компьютерного воображения авторы планируют использовать алгоритм для оптимизации программ, распознающих изображения. Для их работы нужно классифицировать картинки по набору признаков, но не всегда удается установить, какие признаки оптимально подходят для этой задачи. Реконструкция изображения по заданным признакам и сравнение результата с оригиналом позволит понять, какие признаки оказались значимы, а какие — нет.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (3 votes)
Источник(и):

nplus1.ru