В Meta нашли способ улучшить мыслительные способности БЯМ
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Компания Meta (признана экстремистской и запрещена в РФ) разработала новую методику, которая помогает большим языковым моделям (БЯМ) совершать меньше ошибок в ответах на вопросы пользователей. Она основана на достижениях психологии и заключается в том, что нейросеть убирает из запроса ненужную информацию. S2A особенно эффективна в задачах, связанных с генерацией длинных текстов, решением текстовых задач и ответами на вопросы.
Точность ответов и рассуждений БЯМ — давняя боль разработчиков. Некоторые подсказки пользователей помогают повысить их эффективность, но модель может дать сбой, если запрос будет содержать нерелевантную или поданную уверенно информацию. Например, если вы напишите в вопросе собственные рассуждения, чат-бот скорее всего подтвердит их, а не напишет, как дела обстоят на самом деле.
Здесь на помощь приходит «System 2 Attention», она же S2A, которая превосходит ранее известные методики. Она особенно хорошо проявила себя в ответах на вопросы, решениях задач с текстовым условием и генерации длинных текстов. Всё потому, что с помощью неё БЯМ учатся отсеивать предвзятую, субъективную или просто не имеющую значения информацию. Точность и объективность ответов при её использовании растёт, а языковые модели не пытаются «польстить» пользователю.
Механизм работы S2A включает в себя два этапа. На первом она изменяет первоначальный запрос, представленный БЯМ, и удаляет несущественные или потенциально вводящие в заблуждение части. Затем этот уточнённый запрос подаётся в основную БЯМ для генерации выводов. Теперь ответы модели основываются на наиболее релевантных и важных аспектах входных данных, тем самым повышая качество и надежность выхода.
Более того, техника S2A решает ключевую проблему в работе языковых моделей-трансформеров (вид архитектуры, при котором модели не обрабатывают текст по порядку). Традиционные механизмы мягкого внимания в них склонны включать в свои латентные представления несущественную информацию из запроса, что может негативно влиять на генерацию следующих токенов в последовательности. Отсеивая ненужное, S2A помогает улучшить производительность и точность БЯМ.
- Источник(и):
- Войдите на сайт для отправки комментариев