OpenAI представила GPT-4 с поддержкой изображений. Microsoft подтвердила, что уже некоторое время использует алгоритм в Bing

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Компания OpenAI представила генеративную языковую модель GPT-4. Новая версия модели получила более высокие результаты в бенчмарках, причем не только на английском языке. Также алгоритм научился принимать не только текст, но и изображения (но генерирует он по-прежнему лишь текстовые ответы). Наконец, GPT-4 лучше определяет опасные и дискриминирующие запросы, например, просьбу написать инструкцию по сборке бомбы.

OpenAI открыла ограниченный доступ к GPT-4 подписчикам ChatGPT Plus, а также открыла прием заявок на доступ к API, но в обоих случаях речь идет о версии модели без поддержки изображений.

Описание GPT-4 опубликовано на сайте OpenAI, а также доступноhttps://cdn.openai.com/papers/gpt-4.pdf в виде научной статьи.

Аббревиатура GPT расшифровывается как Generative Pretrained Transformer или генеративный предобученный трансформер. Трансформер в этом контексте относится к архитектуре Transformer, представленной исследователями из Google в 2017 году. Главное преимущество новой архитектуры по сравнению с широко используемыми до этого рекуррентными нейросетями заключалось в механизме внимания. Если в рекуррентных нейросетях предыдущие слова из текста сжимаются в единый вектор, то механизм внимания позволил алгоритму “смотреть” на все слова и фокусироваться на наиболее важных. Механизм внимания позволил значительно повысить качество работы языковых моделей.

В 2018 году OpenAI представила нейросеть GPT, основанную на Transfomer. Новшество этой работы заключалось в том, что исследователи решили сначала обучать модель на большом неразмеченном объеме данных (7000 книг), а затем дообучать на сравнительно небольших размеченных датасетах для выполнения конкретных задач. Подход с предобучением показал хорошие результаты, поэтому OpenAI снова применила его в GPT-2 и GPT-3, но на порядки увеличила количество параметров модели: 0,12 миллиарда в первой GPT, 1,5 во второй и 175 в третьей. Значительно увеличивались и неразмеченные датасеты, которые стали собирать из интернета. В результате обучение на большом неразмеченном датасете превратилось из первичного этапа для создания модели-заготовки в единственный этап обучения. GPT-3 смогла решать разные задачи по работе с текстом, требуя лишь несколько примеров, а также показала отличные результаты на множестве бенчмарков.

В 2022 году OpenAI отошла от подхода с обучением только на неразмеченных данных, добавив стадию дообучения с оценкой людей-экспертов. Они брали запрос к модели и самостоятельно писали для него наиболее подходящий ответ. Также они оценивали работу модели, выбирая лучший ответ из нескольких вариантов. На основе этих данных OpenAI дообучила алгоритм, назвав полученную модель InstructGPT. СhatGPT, вышедшая в конце 2022 года, обучалась аналогичным образом, но эксперты также работали с ней в режиме диалога и писали ответы для обеих сторон.

14 марта 2023 года OpenAI представила GPT-4, но не раскрыла практически никаких технических деталей, касающихся архитектуры, количества параметров, обучения и использованных датасетов. В блоге и статье компания в основном сконцетрировалась на безопасности модели и ее эффективности.

Как и в случае с предыдущими моделями, задача GPT-4 заключается в предсказании следующего токена (часть предложения, чаще всего слово или знак препинания) в тексте. Одной из особенностей нового алгоритма стала возможность работы с изображениями. Модель может принимать изображения в качестве входящих данных вместе с текстом, но результатом ее работы по-прежнему может быть только текст.

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

N+1