«Сбер» открыл доступ к русскоязычной ИИ-модели ruGPT-3.5
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Инженеры «Сбера» опубликовали в открытом доступе нейросетевую модель ruGPT-3.5, лежащую в основе сервиса GigaChat, который находится в стадии закрытого тестирования. Разработчики предоставили лицензию MIT, что дает возможность использовать материалы проекта в коммерческих целях. Модель разработана специально для работы в русскоязычной среде и лучше понимает запросы на русском, чем иностранные модели.
Одна из основных проблем открытых больших языковых моделей — ограниченная поддержка русского языка. Обычно такие модели обучаются на русском разделе «Википедии» и лишь небольшом объеме общедоступных текстов на русском языке. Это сказывается на качестве понимания языка и ответов модели, ограничивая способность точно обработать запросы на русском языке.
Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, разработана специально для работы в русскоязычной среде и качественнее обрабатывает запросы на русском языке. Это делает ruGPT-3.5 более эффективным решением для задач, связанных с русскоязычным контентом.
Процесс обучения модели проходил в два этапа. На первом этапе, который занял 1,5 месяца, платформа обработала общий объем данных в 300 ГБайт. Эти данные включали в себя книги, научные статьи, энциклопедические записи, контент из социальных ресурсов и другие источники. Для успешного завершения этого этапа использовалось 512 ускорителей NVIDIA V100.
Второй этап предполагал дообучение модели на 110 ГБайт данных из датасета The Stack, юридических документов и обновленных текстов из «Википедии». Проведение этого этапа заняло три недели, и для его выполнения потребовалось 200 ускорителей NVIDIA A100.
В итоге ruGPT-3.5 содержит 13 млрд параметров при длине контекста 2048 токенов. В качестве сравнения разработчики предлагают рассказ А. П. Чехова «Хамелеон», который разбивается на 1650 токенов при его длине в 901 слово.
- Источник(и):
- Войдите на сайт для отправки комментариев