Стэнфорд показал Deep Learning по Дарвину
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Блог компании SkillFactory. Автор оригинала: Ben Dickson. Эволюционное глубокое обучение с подкреплением может помочь преодолеть ограничения других подходов, а результаты работы, возможно, сильно повлияют на ИИ и робототехнику. Созданные в сложной виртуальной среде агенты развивают не только способность к обучению, но и физическую конструкцию. Подробностями делимся под катом.
Несмотря на аналогию с эволюцией и природой, в сфере ИИ большой акцент сделан на создании отдельных элементов интеллекта и на их объединении. Подход дал отличные результаты, но ограничил гибкость агентов ИИ в присущих даже простейшим формам жизни навыках. Тело и мозг животных развиваются вместе. Чтобы появились необходимые в окружающей среде конечности, органы и нервная система, виды пережили бесчисленные мутации.
При этом все виды на Земле произошли от первой формы жизни, которая появилась на Земле несколько миллиардов лет назад. Давление отбора среды по-разному направило развитие потомков этих первых живых существ.
Изучать эволюцию жизни и интеллекта интересно, но воспроизвести её очень сложно. Чтобы воссоздать разумную жизнь подобно эволюции, системе ИИ пришлось бы искать в очень большом пространстве возможных морфологий, а это чревато чрезмерными вычислительными затратами. Требуется множество разнообразных проб и ошибок.
Решения проблем изучения эволюции
Часть этих проблем исследователи решают по-разному. Например, учёные фиксируют архитектуру или физическую структуру системы и фокусируются на оптимизации параметров обучения. Есть и другие подходы:
- Агенты ИИ передают изученные параметры своим потомкам, отражая эволюционную теорию Ламарка.
- Зрительную, двигательную, речевые системы ИИ можно обучать отдельно друг от друга, объединяя их в конечной системе.
Эти подходы ускоряют процесс и снижают затраты на обучение и развитие агентов ИИ, но они ограничивают гибкость и разнообразие результатов.
Эволюционное глубокое обучение с подкреплением
В новой работе учёные Стэнфордского университета стремятся приблизить исследования ИИ к реальному эволюционному процессу при минимуме затрат.
«Наша цель — изучить принципы, управляющие связями между сложностью окружающей среды, развившейся морфологией и обучаемостью интеллектуального управления», — пишут исследователи.
Их подход называется эволюционным глубоким обучением с подкреплением. Чтобы приобрести навыки и максимизировать вознаграждение за время своей жизни, каждый агент в системе использует глубокое обучение с подкреплением.
Чтобы найти оптимальные решения в морфологическом пространстве, здесь применяется дарвиновская теория эволюции. Иными словами, новое поколение агентов наследует только физические и архитектурные черты своих предков с небольшими мутациями. Следующим поколениям не передаётся ни один изученный параметр.
«Фундамент эволюционного глубокого обучения с подкреплением даёт дорогу крупномасштабным экспериментам компьютерного моделирования, позволяющим понять, как совместное применение обучения и эволюции приводит к созданию непростых взаимосвязей между сложностью окружающей среды, морфологическим интеллектом и обучаемостью агента», — пишут исследователи.
Моделирование эволюции
За основу исследователи взяли виртуальную среду MuJoCo с высокоточным моделированием физики твёрдого тела. Цель — создать в её пространстве морфологии UNIversal aniMAL (UNIMAL), которые изучают задачи перемещения и манипулирования объектами в условиях разнообразного рельефа.
Каждый агент в среде состоит из генотипа. Генотип определяет его конечности и соединения. Прямой потомок агента наследует генотип и мутирует: создаёт или удаляет конечности, изменяет их размер и степени свободы.
Чтобы максимизировать вознаграждение в различных средах, каждый агент проходит обучение с подкреплением. Основная задача — перемещение, при котором агент вознаграждается за преодолеваемое во время эпизода расстояние. Агенты, чьё физическое строение лучше подходит для пересечения местности, учатся передвижению быстрее.
Чтобы проверить результаты, учёные генерировали агентов в трёх типах местности:
- На равнине давление отбора на морфологию агентов минимально.
- Пересечённая местность вынуждает развивать универсальную физическую структуру, чтобы взбираться на склоны и обходить препятствия.
- На пересечённой местности с изменяемыми объектами есть дополнительная трудность: чтобы выполнить задачу, агенты должны манипулировать объектами.
Преимущества эволюционного глубокого обучения с подкреплением
Эволюционное глубокое обучение с подкреплением генерирует разнообразные морфологии в различных средах
Один из интересных выводов исследования — многообразие результатов. Другие подходы к эволюционному ИИ обычно сходятся в одном решении, поскольку новые агенты напрямую наследуют сложение и знания своих предков. Но при эволюционном глубоком обучении с подкреплением потомкам передаются только морфологические данные, а значит, в системе создаётся набор разнообразных морфологий, включая дву-, трёх- и четвероногих агентов с руками и без них.
В этой системе обнаруживается эффект Болдуина: агенты, которые учатся быстрее, с большей вероятностью воспроизведут и передадут свои гены следующему поколению.
Эволюционное глубокое обучение с подкреплением показывает, что эволюция, как сказано в работе стэнфордских исследователей, «выбирает более быстрых агентов без какого-либо прямого давления отбора».
«Любопытно, что наличие этого морфологического эффекта Болдуина может использоваться в будущих исследованиях, чтобы создавать воплощённые агенты с меньшей сложностью выборки и большей возможностью обобщения», — пишут исследователи.
3Агенты, проходящие глубокое эволюционное обучение с подкреплением, оцениваются по различным задачам
Эволюционное глубокое обучения с подкреплением подтверждает гипотезу: чем сложнее среды, тем более интеллектуальные агенты будут появляться.
Исследователи протестировали эволюционировавших агентов по восьми различным задачам, включая патрулирование, побег, манипулирование объектами и разведку. Результаты показали, что в целом агенты, эволюционировавшие на пересечённой местности, учатся быстрее, а их результаты лучше, чем у агентов ИИ, которые сталкивались только с равнинной местностью.
Эти выводы согласуются с другой гипотезой исследователей DeepMind: сложная среда, подходящая структура вознаграждения и обучение с подкреплением могут привести к появлению всех видов разумного поведения.
Исследования ИИ и робототехники
Среда эволюционного глубокого обучения с подкреплением обладает лишь малой частью сложностей реального мира.
«Хотя эволюционное глубокое обучение с подкреплением позволяет сильно продвинуться в масштабировании сложности эволюционных сред, важным направлением будущей работы будет создание более открытых, физически реалистичных и многоагентных эволюционных сред», — пишут исследователи.
В будущем учёные расширят спектр задач, чтобы лучше понимать, как агенты могут повысить свою способность изучать свойственное человеку поведение. Эта работа может подтолкнуть исследователей к применению методов, которые гораздо ближе к естественной эволюции.
«Надеемся, что наша работа поможет дальнейшим масштабным исследованиям с использованием обучения и эволюции в других контекстах, которые приведут к новым научным результатам, а эти подходы способствуют появлению быстро обучаемых видов разумного поведения и новых возможностей их инстанцирования в машинах», — пишут исследователи.
- Источник(и):
- Войдите на сайт для отправки комментариев