ИИ учится видеть мир, как люди, понимая связи между объектами
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Новая модель машинного обучения, разрабатываемая инженерами МТИ, поможет роботам выполнять многоступенчатые задачи. Благодаря новой модели глубинного обучения ИИ воспринимает неочевидные связи между объектами в конкретной ситуации. Сперва модель понимает каждую отдельную связь, а потом составляет из них общую картину. В частности, это помогает ИИ генерировать более точные изображения из текстовых описаний.
Этот подход поможет в ситуациях, когда роботам поручают сложные многоступенчатые задачи: размещение вещей на складских площадках или при сборке техники. Без понимания связей инструкция «подними коробку справа от шкафа и положи его на полку сверху» вынудила бы робота растеряться. А еще такой подход приближает будущее, где роботы смогут обучаться, взаимодействуя со средой. Совсем как люди.
«Когда я смотрю на стол, я не могу определить координаты объекта. Наш мозг работает по-другому: мы понимаем ситуацию исходя из связей между объектами. Думаем, что научив этому ИИ, мы дадим ему возможность более эффективно оперировать средой», — говорит Юлин Ду, аспирант Лаборатории искусственного интеллекта МТИ.
Модель работает и наоборот: она учится создавать текстовое описание объектов на изображении. А еще — редактировать изображение, чтобы расположить вещи так, как сказано в изменившемся описании.
Исследователи сравнивали свою модель с другими методами глубинного обучения, где ИИ ставили задачу сгенерировать изображение по описанию. Во всех случаях их вариант превосходил ожидания. Для подтверждения наблюдений работу модели оценивали и люди: их спросили, насколько созданное изображение соответствует описанию. В самых сложных примерах, где было три связи между объектами, 91% участников подтвердил, что новая модель показала лучший результат.
«Интересно, что мы можем повышать сложность, увеличивая количество связей, но наша модель все равно справляется. А другие — нет», — добавляет Ду.
Слева — текстовое описание, представленное модели; по центру — результат генерации других ИИ; справа — результат новой модели
Инженеры опробовали и иные подходы, показывая модели сцены, которые она не видела до этого, предлагая разные описания одной модели, и она все равно справлялась с тестированием. Но инженеры осторожны в прогнозах: пока они планируют проверить свою модель на объектах реального мира, где много визуального шума, а объекты заслоняют друг друга.
- Источник(и):
- Войдите на сайт для отправки комментариев