Супер-компактная ИИ-модель Phi-3 Mini от Майкрософт не уступает в работе GPT-3.5

Microsoft выпустила новую модель искусственного интеллекта, Phi-3 Mini. Новинка имеет 3,8 млрд параметров и обучалась на сокращённом наборе данных по сравнению с объёмами, используемыми для больших языковых моделей, таких как GPT-4. Phi-3 Mini уже доступна пользователям на платформах Azure, Hugging Face и Ollama. Интересно, что она не уступает по производительности моделям, которые в 10 раз больше нее.

Кроме Phi-3 Mini, Microsoft планирует выпустить модели Phi-3 Small и Phi-3 Medium с 7 и 14 млрд параметрами соответственно. Они определяют количество сложных инструкций, которые модель может обрабатывать. В декабре прошлого года компания выпустила Phi-2, показавшую результаты, сопоставимые с более крупными моделями, например, с Llama 2. Разработчики заявляют, что Phi-3 работает лучше предыдущей версии, предоставляя ответы, которые может дать модель в 10 раз больше её.

Эрик Бойд, корпоративный вице-президент по AI платформам Microsoft Azure, утверждает, что Phi-3 Mini по своим возможностям сравнима с такими БЯМ, как GPT-3.5, но гораздо компактнее. По сравнению с более крупными аналогами, маленькие ИИ-модели часто оказываются дешевле в эксплуатации и эффективнее работают на смартфонах и ноутбуках.

Microsoft также разработала модель Orca-Math, которая специализируется на решении математических задач. Сейчас компания формирует отдельную команду для разработки малых и легких ИИ-моделей. Конкуренты Microsoft также интересуются этой нишей: они создают маленькие нейросети для конкретных задач, таких как создание чат-ботов или помощь в программировании.

Бойд объясняет, что обучение Phi-3 основывалось на «учебном плане», вдохновлённом детскими сказками, которые обычно читают на ночь — это книги с простым языком и структурой предложений, но обсуждающие важные темы. Для обучения Phi-3 разработчики использовали более чем 3000 слов и создали дополнительные детские книги с помощью больших языковых моделей.

Малая модель продолжает развивать умения, полученные предыдущими версиями: если Phi-1 была сфокусирована на программировании, а Phi-2 освоила логическое мышление, то Phi-3 улучшила обе эти способности. Несмотря на наличие общих знаний, семейство моделей Phi-3 не может сравниться по масштабу с GPT-4 или другими большими языковыми моделями, но им это и не нужно: оно призвано выполнять простые задачи на личных устройствах пользователей.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

ХайТек+