Открыт более эффективный метод обучения роботов обратной связью

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Для того чтобы научить модель искусственного интеллекта новым трюкам — например, открывать выдвижной ящик стола — обычно применяется метод обучения с подкреплением: процесс проб и ошибок, когда ИИ вознаграждается за действия, которые приближают ее к цели. Он требует тщательного и долгого проектирования функции вознаграждения, которую сложно масштабировать. В качестве альтернативы специалисты из США разработали новый подход, основанный на обратной связи от множества непрофессиональных пользователей.

В отличие от других методов, также использующих обратную связь от неспециалистов, технология, созданная инженерами MIT, Гарвардского университета и Университета Вашингтона, позволяет ИИ учиться быстрее, несмотря на то, что данные, полученные от пользователей, полны ошибок. Вдобавок новый метод позволяет собирать фидбэк асинхронно, пишет MIT News.

Один из способов получить обратную связь от обучения с подкреплением — показать пользователю две фотографии и попросить выбрать ту, которая больше соответствует цели задачи. Однако когда этим занимаются непрофессионалы, они чаще совершают ошибки, и в функции вознаграждения возникают многочисленные помехи. В таком случае агент не может научиться.

По словам ученых, проблема в том, что ИИ воспринимает функцию вознаграждения слишком серьезно и пытается идеально соответствовать требованиям. Поэтому, вместо прямой оптимизации функции, они использовали ее для того, чтобы говорить роботу, в каком направлении продолжать исследования. Процесс был разбит на две части, каждая из которых управляется собственным алгоритмом.

Алгоритм выбора цели постоянно обновляется с помощью обратной связи. Она используется не в качестве функции вознаграждения, но, скорее, для направления исследования. Второй алгоритм занимается исследованием самостоятельно, движимый только селектором цели. Он сохраняет видео- и фотоизображения своих действий и отсылает их людям, которые обновляют задачу.

Модель, получившая название HuGE (Human Guided Exploration), была испытана на данных, полученных от 109 неспециалистов из 13 стран и смогла добиться поставленной цели — написать от руки букву U и переложить предметы — быстрее, чем другие модели, обученные другими методами.

В будущем этот метод может помогать роботу учиться выполнять определенные задачи для пользователя, не требуя от него показать пример правильного выполнения этой задачи. Машина сможет самостоятельно понять, как добиться цели, получая в процессе данные от неспециалистов.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

ХайТек+