Алгоритм от Uber научился проходить игры на Atari лучше людей

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Инженеры из лаборатории искусственного интеллекта Uber AI Labs разработали семейство алгоритмов Go-Explore, основанных на обучении с подкреплением, которые превосходят по эффективности большинство существующих алгоритмов в тестах на играх Atari 1980-х годов. Go-Explore прошел 11 считающихся наиболее сложными для обучения с подкреплением игр, включая Montezuma’s Revenge и Pitfall, обойдя по набранным в них очкам большинство других алгоритмов и средний человеческий результат.

Основной особенностью Go-Explore стала способность запоминать предшествующие перспективные состояния и возвращаться в них, осуществляя оттуда дальнейшую разведку, что позволяет повысить эффективность алгоритма обучения с подкреплением.

Разработчики продемонстрировали возможное практическое применение Go-Explore для робототехники в задаче управления манипулятором робота. Кроме того в будущем алгоритм может быть полезен в решении множества других задач от обработки естественных языков до создания новых лекарств, говорится в работе, опубликованной https://www.nature.com/…-020-03157-9 в журнале Nature.

Обучение с подкреплением — один из вариантов машинного обучения, в котором программа или часть алгоритма, называемая агентом, учится взаимодействовать с окружающей ее средой. Действия агента приводят к отклику среды, которая реагирует на принятые решения агента изменением значения величины, играющей роль награды. Одни действия ее увеличивают, и будут считаться более выгодными с точки зрения агента, а другие — уменьшают величину вознаграждения, а следовательно, будут расцениваться агентом как нежелательные. Таким образом, задавая функцию полезности, определяющую награду агента за его действия, можно обучить его взаимодействовать со средой так, чтобы максимизировать эту функцию, то есть агент будет предпочитать выполнять комбинации действий, дающих наивысшую суммарную награду.

Алгоритмы, основанные на этом подходе, показывают значительные успехи в последнее время. Так, например самообучающиеся программы семейства AlphaGo и AlphaGo Zero от компании DeepMind способны обыгрывать лучших игроков в настольных играх го, сёги и шахматах, а алгоритм от OpenAI побеждает профессиональных игроков в Dota 2.

Системы, основанные на обучении с подкреплением, могут научиться не только играть в игры, но и потенциально выполнять любые задачи. Однако зачастую весьма трудно подобрать правильную функцию полезности, от которой во многом зависит эффективность алгоритма.

Например, для того чтобы направить робота из одного конца комнаты в другой к двери, можно задать функцию полезности, которая будет вознаграждать робота, когда он подойдет вплотную к двери, но такая функция полезности будет слишком «разреженной», то есть вознаграждение будет поступать слишком редко. Если для достижения цели необходимо выполнить много действий и робот не получает постоянную обратную связь, то он не сможет понять какие действия привели его к успеху, а какие мешают достижению цели. С другой стороны, если в качестве награды выбрать, например, расстояние до двери, то несмотря на непрерывную обратную связь, вознаграждающую алгоритм за приближение к объекту, наивное следование по кратчайшему маршруту может привести робота в тупик или к столкновению с препятствием.

Разработчики из лаборатории искусственного интеллекта компании Uber под руководством Джеффа Клюна (Jeff Clune) создали семейство алгоритмов обучения с подкреплением под названием Go-Explore, которые менее подвержены проблемам редкого вознаграждения и неправильных локальных минимумов, благодаря способности запоминать предыдущие перспективные состояния и возвращаться к ним.

Подробнее
Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (5 votes)
Источник(и):

N+1