Малая языковая модель Microsoft во многих задачах оказалась умнее больших

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Лаборатория искусственного интеллекта компании Microsoft выпустила Orca 2, пару малых языковых моделей, не уступающих или даже превосходящих языковые модели в 5–10 раз больше них. Модели представлены в двух размерах, 7 и 13 млрд параметров, а в качестве основы использована оригинальная 13B Orca, уже продемонстрировавшая превосходные мыслительные способности.

«На примере Orca 2 мы продолжаем показывать, что улучшенные сигналы обучения и методы могут обеспечить поддержку моделям меньшего размера, чтобы добиться более высоких мыслительных способностей, которые обычно присутствуют только в более крупных языковых моделях», — написали разработчики в блоге.

Microsoft открыла доступ к обеим моделям для анализа и дальнейшего исследования возможностей малых языковых моделей, которые, по мнению разработчиков, способны показывать не менее высокие результаты, чем большие. Для предприятий с ограниченными ресурсами такие системы могут оказаться наилучшим решением, пишет Venture Beat.

Для того чтобы научить небольшую модель соображать так же хорошо, как большая, разработчики решили настроить базовую Llama 2 при помощи специальным образом собранного набора данных. Вместо того чтобы учить ее повторять поведение более способных моделей — метод имитации — исследователи заставляли ее выбирать другие стратегии решения задач. К примеру, чтобы ответить на комплексный вопрос, малой языковой модели удобнее сначала разбить его на составные части, а не отвечать напрямую, как это делает GPT-4.

В испытаниях на 15 эталонных тестах, охватывающих задачи на понимание языка, здравый смысл, многоэтапное рассуждение, решение математических задач, понимание прочитанного, обобщение и правдивость, обе модели Orca 2 показали превосходные результаты, либо не хуже, либо лучше моделей, размер которых больше в 5–10 раз.

В среднем по результатам всех тестов Orca 2 превзошла Llama-2-Chat с 13 и 70 млрд параметров, а также WizardLM с 13 и 70 млрд параметров. Только в задачах на математику WizardLM с 70 млрд параметров оказался значимо лучше.

По словам разработчиков, метод, который они использовали для обучения Llama-2, можно применять и для улучшения других базовых моделей.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

ХайТек+