Кто такие LLM-агенты и что они умеют?

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Блог компании Open Data Science. Автор:Александр @alex_golubev13. В последнее время большие языковые модели (Large Language Models, LLM) стали невероятно популярными — кажется, их обсуждают везде, от школьных коридоров до Сената США. Сфера LLM растёт бурными темпами, привлекая внимание не только специалистов в области машинного обучения, но и обычных пользователей. Кто-то высказывает массу опасений насчет их дальнейшего развития, а кто-то и вовсе предлагает бомбить дата-центры — и даже в Белом Доме обсуждают будущее моделей.

Но неужели текстом можно кому-то навредить? А что если такая модель приобрела бы агентность, смогла создать себе физическую оболочку и полностью ей управлять? Ну, это какая-то фантастика из (не)далёкого будущего, а про агентов нашего времени я расскажу в этой статье. И не переживайте — знание машинного обучения вам не понадобится!

На тему больших языковых моделей написано множество статей для разного уровня читающих. Если хотите на пальцах понять принцип работы GPT-like моделей, не имея технический бекграунд, рекомендую почитать обзор Игоря Котенкова Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда.

Сегодняшний пост посвящен одному из интересных применений LLM — автономным агентам. Andrej Karpathy, бывший AI Director в Tesla, а теперь инженер в OpenAI (который по статусу в твиттере работает над something like Jarvis) сравнил LLM с первыми компьютерами, которые изначально использовались как калькуляторы. Только спустя какое-то время мы по-настоящему раскрыли их потенциал, построив вокруг этого операционные системы, множество приложений и обширную инфраструктуру. Автономные агенты на базе LLM могут стать аналогичным прорывом в мире языковых моделей. На сегодняшний день уже наблюдается активное развитие этой области, что подтверждается многочисленными исследованиями, публикациями, фреймворками и проектами ведущих компаний. Примером может быть GitHub CoPilot: представьте, если бы в гитхабе можно было открыть Issue, заполнить несколько полей, а далее бот сам напишет план, реализует код и откроет PR. Сколько времени можно будет сэкономить!

Этот обзор основан на обширном анализе статей и публикаций и представляет собой краткое изложение ключевой информации по теме. Для тех, кто хочет углубиться, в конце текста вы найдёте список литературы. Также присоединяйтесь к моему телеграм каналу AI[ex]Time, где я пишу про машинное обучение, NLP, LLM и в том числе про агентов. Отдельное спасибо Саше Абрамову (a.k.a DealerAI) и Игорю Котенкову из Сиолошной за ревью и обратную связь по данной статье.

Итак, начнем с базовых определений:

Определений агентов множество, но выделяя главное, можно сказать, что агенты — это системы, взаимодействующие с динамической средой, которые воспринимают ее и действуют, выполняя заложенные в них цели или задачи. Под LLM же в данном контексте будем понимать достаточно большие модели, которые по входному тексту, могут предсказать вероятный следующий токен (где токен – это слово или его часть).

Что же мы подразумеваем, говоря об агентах, основанных на LLM? В контексте сильного прогресса нейросетей и с появлением у моделей способности решать по-настоящему нетривиальные задачи, LLM может стать мозгом агента, а средой, в которой он функционирует, будет наш мир. Для этого система должна обладать следующими возможностями:

  • В некоторых сценариях уметь отыгрывать определенную роль. Роль возникает из того факта, что она улучшает перформанс и задает некоторые рамки поведения агента. Например, указание в промпте (т.е. текстовом запросе), что модель является «разработчиком на python» может улучшить качество кода (Profile).
  • Воспринимать поступающую информацию из различных источников. Это могут быть сенсоры, текст, изображения с камер, что угодно. Зачастую для полноценного выполнения задач агент должен уметь обрабатывать несколько модальностей (Perception).
  • Планировать, разбивая сложные задачи на серию более простых шагов. Например, формирование маршрута по Парижу с учетом лучших мест для проживания и мест, которые стоит посетить (Planning).
  • Использовать инструменты доступные в среде. Например, мы можем дать агенту возможность поиска в интернете, исполнять код, вызывать по API какие-то функции, другие модели и так далее. Как человек научился пользоваться инструментами и делегировать им задачи, так и к LLM можно подключить интернет, интерпретатор и прочее. Именно так нейронка и может влиять на реальный мир (Actions).
  • Рефлексировать на основе обратной связи из среды, информации об ошибках и корректировать свое планирование, исходя из данной информации (Reasoning).
  • Иметь краткосрочную и долгосрочную память для поддержания диалога или извлечения релевантной информации для дальнейших действий (Memory).

Далее мы поговорим про каждое направление и посмотрим на примере нескольких работ, какие прорывы случились за последний год.

Подробнее
Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

Хабр