Нейросеть создала фотографию блюда по его рецепту

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Израильские разработчики создали нейросеть, способную формировать изображение на основе длинного текстового описания объекта, которое не содержит четких данных о его визуальных признаках. В качестве примера они научили ее создавать фотографии блюда по его рецепту. Посвященная разработке статья доступна на arXiv.org.

Исследователи применяют нейросетевые алгоритмы для разных задач, связанных с изображением. Как правило, это задачи по классификации изображений или их обработке, но также есть достаточно большой класс задач, связанный с созданием изображения с нуля, в том числе на основе текстового описания. Во время обучения такого алгоритма он учится связывать слова с соответствующими визуальными признаками.

Обычно при обучении нейросеть получает четкое описание визуальных признаков, к примеру, «оранжевый апельсин на белой тарелке». Однако в реальности многие тексты описывают объекты не настолько четко. К примеру, в кулинарных рецептах нет описания итогового блюда, а есть лишь список исходных ингредиентов и этапы готовки.

Нетанел Йозефиан (Netanel Yosephian) и его коллеги из Тель-Авивского университета разработали нейросеть, способную создавать изображение объекта, даже если его описание не содержит четких данных о его визуальных признаках. Авторы отмечают, что выбранный ими подход основан на работе других исследователей, создавших датасет из 800 тысяч пар рецептов и фотографий блюд, а также научивших нейросеть составлять рецепт по фотографии.

neyroset1.jpgРецепт, реальное изображение созданного по нему блюда и изображения, сгенерированные нейросетью / Ori Bar El et al. / arXiv.org, 2019

Созданный израильскими разработчиками алгоритм работает с полноценными рецептами, содержащими список ингредиентов и описание этапов приготовления, занимающими десятки строк. Изначально алгоритм принимает отдельно рецепт и ингредиенты, и переводит их в отдельные вектора. После этого вектора подвергаются процедуре совместного вложения, при которой они формируют единый вектор, который условная генеративно-состязательная нейросеть StackGAN-v2 превращает в изображение блюда.

neyroset2.jpgРеальные изображения (верхний ряд) и результаты работы двух версий алгоритма (нижние ряды) / Ori Bar El et al. / arXiv.org, 2019

Разработчики обучили нейросеть на 52 тысячах пар рецептов и фотографий из датасета Recipe1M и проверили работу алгоритма еще на 24 тысячах пар. Для проверки его работы авторы выбрали две метрики — количественную и качественную. В первом случае они использовали описанную в 2016 году методику, позволяющую оценить работу генеративно-состязательной сети.

Во время проверки созданные нейросетью изображения отдаются алгоритму для распознавания изображений и он относит объект на изображении к знакомым ему классам с присвоенной им долей вероятности. Чем меньше энтропия распределения вероятности по классам — тем более качественной признается работа нейросети. При такой проверке нейросеть набрала 4,55 ± 0,20 балла по пятибалльной шкале. Кроме того, работу нейросети попросили оценить людей. При проверке на то, насколько результат работы нейросети похож на реальные фотографии еды, нейросеть получила 3,72 балла.

Нейросети используют и для решения других кулинарных задач. К примеру, в 2017 году исследователи научили адаптировать рецепты под особенности определенной национальной кухни. К примеру, система может превратить классическую лазанью в суши-лазанью, а также определить, к кухне какой страны принадлежало оригинальное блюдо.

Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

N+1