Ходить как человек: генеративный ИИ и локомоция

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Блог компании ua-hosting.company. Глядя на улицы города утром буднего дня, мы видим множество людей, каждый из которых торопливо или размеренно идет куда-то по своим делам, будь то на учебу или на работу. Скорость, особенности шага и общая картина локомоции человеческой ходьбы являются уникальными для каждого человека. При этом обстоятельства окружающей среды имеют немалое влияние на то, как ходит человек.

Говоря о роботах, мы уже давно научили их ходить, подобно человеку. Однако адаптация к динамическим условиям окружающей среды, особенно настройка скорости в реальном времени, остаются крайне сложной задачей.

Ученые из Университета Тохоку (Япония) разработали новую методику обучения роботов, использовав возможности генеративного ИИ. Насколько данная методика была эффективной для обучения роботов, и насколько лучше стала их локомоция? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования

Антропоморфные роботы являются центром внимания не только писателей-фантастов, но и научных сообществ во всем мире. На данный момент существует множество исследований и разработок из области робототехники, основная задача которых заключается в наделении роботов особенностями, присущими человеку (поведение, внешний вид, манера общения, локомоция и т. д.).

Когда-то роботы были неуклюжи и не могли даже близко сравниться в локомоции с человеком. Даже методы передвижения были иными (колеса, гусеницы и т. д.). Благодаря огромному труду инженеров, роботы обзавелись двуногим передвижением, которое не только открыло новое окно возможностей, но и породило множество новых вопросов.

Одной из самых явных проблем двуногого передвижения роботов является адаптация под динамические условия окружающей среды. Некоторые существующие роботы-гуманоиды, в том числе продвинутые модели, такие как Atlas от Boston Dynamics, добились значительного прогресса. Но даже они еще не обладают стопроцентной адаптируемостью. Ученые считают, что усовершенствовать роботов можно с помощью новых методов их обучения.

За последние годы особое внимание приобрел алгоритм машинного обучения, называемый «глубокое обучение с подкреплением» (DRL от deep reinforcement learning). DRL предполагает обучение агента освоению оптимального поведения посредством взаимодействия с окружающей средой методом проб и ошибок, используя сигнал вознаграждения для управления своими действиями. В робототехнике DRL используется для улучшения выполнения различных задач, таких как захват объектов и передвижение, особенно у четвероногих роботов.

Однако одним из текущих препятствий в применении DRL к роботам-гуманоидам является большое пространство, которое необходимо исследовать, и дисбаланс двуногого передвижения. Это затрудняет непосредственное обучение желаемой походке, поскольку существует множество возможных комбинаций движений, которые следует учитывать, и многие из них приводят к падениям. Проще говоря, DRL метод обучения может работать эффективно, если учесть все возможные комбинации условий окружающей среды, а также учесть изменчивость этих условий в реальном времени.

Когда речь заходит о каком-либо обучении искусственных систем, ученые часто обращаются за вдохновением к биологическим системам. К примеру, центральный генератор упорядоченной активности (CPG от central pattern generator) является результатом этого вдохновения. CPG — это нейронные цепи, расположенные в спинном мозге, которые генерируют ритмические паттерны мышечной активности, например те, которые используются во время ходьбы и бега. Используя CPG, роботы могут достигать более естественных и стабильных движений, аналогичных движениям живых организмов. Механизм CPG включает сеть взаимосвязанных нейронов, генерирующих колебательные сигналы, которые передаются мышцам, ответственным за движение.

У животных рефлекторная цепь обычно работает вместе с CPG в качестве контроля по принципу обратной связи. Вычислительные модели использовались для исследования слияния CPG с сенсорной обратной связью. Однако вопрос о том, как эффективно интегрировать и применять их для управления передвижением двуногих роботов, остается нерешенным, поскольку CPG потенциально могут ограничить пространство управления и помочь уменьшить размерность, но чтобы быть адаптивными и гибкими для различных сред, они должны хорошо поддерживаться рефлекторными сетями.

Авторы рассматриваемого нами сегодня труда заявляют, что их исследование направлено на улучшение алгоритмов обучения для передвижения роботов с использованием CPG и механизма сенсорной обратной связи. Ученые обучили контроллер CPG, используя имитационное обучение, а затем обучили рефлекторную нейронную сеть, используя DRL. В отличие от других алгоритмов, которые используют обучение с подкреплением для целей имитации, цель рассматриваемого обучения заключалась не только в том, чтобы заставить агента вести себя аналогично собранным данным о движениях человека. Вместо этого использовалось имитационное обучение, чтобы обучить CPG-подобный контроллер формированию управления с прямой связью.

CPG-подобный контроллер был разработан для генерации ритмических паттернов вращающих моментов суставов, аналогичных тем, которые генерируются CPG в живых организмах. Ученые использовали имитационное обучение для формирования шаблонов обучения CPG, чтобы избежать сложных вычислений и настройки, необходимых для других нелинейных функций. Затем рефлекторную нейронную сеть обучили с помощью DRL, чтобы корректировать движения, генерируемые CPG-подобной сетью, на основе сенсорной обратной связи, что позволяет роботу адаптироваться к изменениям в окружающей среде. Важно отметить, что в этом исследовании обучение с подкреплением используется для формирования рефлекторной нейронной сети для поддержки CPG, а не для формирования самого CPG.

Методология обучения

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр