Малая языковая модель Microsoft во многих задачах оказалась умнее больших
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Лаборатория искусственного интеллекта компании Microsoft выпустила Orca 2, пару малых языковых моделей, не уступающих или даже превосходящих языковые модели в 5–10 раз больше них. Модели представлены в двух размерах, 7 и 13 млрд параметров, а в качестве основы использована оригинальная 13B Orca, уже продемонстрировавшая превосходные мыслительные способности.
«На примере Orca 2 мы продолжаем показывать, что улучшенные сигналы обучения и методы могут обеспечить поддержку моделям меньшего размера, чтобы добиться более высоких мыслительных способностей, которые обычно присутствуют только в более крупных языковых моделях», — написали разработчики в блоге.
Microsoft открыла доступ к обеим моделям для анализа и дальнейшего исследования возможностей малых языковых моделей, которые, по мнению разработчиков, способны показывать не менее высокие результаты, чем большие. Для предприятий с ограниченными ресурсами такие системы могут оказаться наилучшим решением, пишет Venture Beat.
Для того чтобы научить небольшую модель соображать так же хорошо, как большая, разработчики решили настроить базовую Llama 2 при помощи специальным образом собранного набора данных. Вместо того чтобы учить ее повторять поведение более способных моделей — метод имитации — исследователи заставляли ее выбирать другие стратегии решения задач. К примеру, чтобы ответить на комплексный вопрос, малой языковой модели удобнее сначала разбить его на составные части, а не отвечать напрямую, как это делает GPT-4.
В испытаниях на 15 эталонных тестах, охватывающих задачи на понимание языка, здравый смысл, многоэтапное рассуждение, решение математических задач, понимание прочитанного, обобщение и правдивость, обе модели Orca 2 показали превосходные результаты, либо не хуже, либо лучше моделей, размер которых больше в 5–10 раз.
В среднем по результатам всех тестов Orca 2 превзошла Llama-2-Chat с 13 и 70 млрд параметров, а также WizardLM с 13 и 70 млрд параметров. Только в задачах на математику WizardLM с 70 млрд параметров оказался значимо лучше.
По словам разработчиков, метод, который они использовали для обучения Llama-2, можно применять и для улучшения других базовых моделей.
- Источник(и):
- Войдите на сайт для отправки комментариев