Открыт более эффективный метод обучения роботов обратной связью

Для того чтобы научить модель искусственного интеллекта новым трюкам — например, открывать выдвижной ящик стола — обычно применяется метод обучения с подкреплением: процесс проб и ошибок, когда ИИ вознаграждается за действия, которые приближают ее к цели. Он требует тщательного и долгого проектирования функции вознаграждения, которую сложно масштабировать. В качестве альтернативы специалисты из США разработали новый подход, основанный на обратной связи от множества непрофессиональных пользователей.

В отличие от других методов, также использующих обратную связь от неспециалистов, технология, созданная инженерами MIT, Гарвардского университета и Университета Вашингтона, позволяет ИИ учиться быстрее, несмотря на то, что данные, полученные от пользователей, полны ошибок. Вдобавок новый метод позволяет собирать фидбэк асинхронно, пишет MIT News.

Один из способов получить обратную связь от обучения с подкреплением — показать пользователю две фотографии и попросить выбрать ту, которая больше соответствует цели задачи. Однако когда этим занимаются непрофессионалы, они чаще совершают ошибки, и в функции вознаграждения возникают многочисленные помехи. В таком случае агент не может научиться.

По словам ученых, проблема в том, что ИИ воспринимает функцию вознаграждения слишком серьезно и пытается идеально соответствовать требованиям. Поэтому, вместо прямой оптимизации функции, они использовали ее для того, чтобы говорить роботу, в каком направлении продолжать исследования. Процесс был разбит на две части, каждая из которых управляется собственным алгоритмом.

Алгоритм выбора цели постоянно обновляется с помощью обратной связи. Она используется не в качестве функции вознаграждения, но, скорее, для направления исследования. Второй алгоритм занимается исследованием самостоятельно, движимый только селектором цели. Он сохраняет видео- и фотоизображения своих действий и отсылает их людям, которые обновляют задачу.

Модель, получившая название HuGE (Human Guided Exploration), была испытана на данных, полученных от 109 неспециалистов из 13 стран и смогла добиться поставленной цели — написать от руки букву U и переложить предметы — быстрее, чем другие модели, обученные другими методами.

В будущем этот метод может помогать роботу учиться выполнять определенные задачи для пользователя, не требуя от него показать пример правильного выполнения этой задачи. Машина сможет самостоятельно понять, как добиться цели, получая в процессе данные от неспециалистов.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

ХайТек+