Новый метод Google дает возможность БЯМ работать с текстами неограниченного размера
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Исследователи из Google представили новую методику, названную Infini-attention, которая позволяет большим языковым моделям (БЯМ) работать с текстами неограниченной длины. Эта техника расширяет диалоговое окно моделей, сохраняя при этом постоянные требования к памяти и вычислительной мощности.
Методика направлена на модели-трансформеры и вряд ли подойдет для БЯМ с другим видом архитектуры, но большинство популярных БЯМ на рынке именно трансформеры, что делает разработку Google вполне универсальной.
В классических моделях-трансформерах каждый новый ввод текста обрабатывается в рамках определенного количества токенов, называемого окном контекста. Превышение этой границы приводит к тому, что самые ранние данные удаляются из обработки, а важная информация теряется. В некоторых случаях БЯМ просто отказываются работать со слишком длинными текстами.
Infini-attention решает эту проблему, позволяя модели обрабатывать данные практически без ограничений по длине. Основа методики — создание в модели специальной структуры, которая включает модуль сжимающей памяти. Он работает как хранилище для старых данных, которые больше не помещаются в текущем контекстном окне.
Старые данные «сжимаются», то есть упаковываются таким образом, чтобы занимать меньше места, но при этом сохранять ключевую информацию о прошлых вводах. Это позволяет модели не терять контекст прошлых вводов, даже если они были сделаны давно и превышали объем диалогового окна.
Другая важная часть Infini-attention — локальное каузальное внимание, которое помогает БЯМ эффективно связывать информацию из текущего ввода с данными, хранящимися в сжатой памяти. Это означает, что каждый новый отрывок текста модель будет не просто обрабатывать в изоляции, но и анализировать в связи с уже накопленной информацией, что значительно повышает качество и согласованность выводов.
Разработчики считают, что их методика не заменит другие, а поможет создавать пользовательские приложения и снизит порог вхождения в эту индустрию. Ранее настройка БЯМ для конкретных приложений требовали значительных усилий инженеров и большого количества вычислительных мощностей. С почти бесконечным контекстным окном модели для приложений можно будет настраивать исключительно текстовыми командами.
- Источник(и):
- Войдите на сайт для отправки комментариев