GPT-4 лучше всего справилась с тестом на галлюцинации среди всех БЯМ
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Новый индекс галлюцинаций, разработанный исследовательским подразделением компании Galileo из Сан-Франциско, помогает предприятиям создавать, настраивать и контролировать большие языковые модели промышленного уровня. Согласно ему, модель OpenAI GPT-4 работает лучше конкурентов, когда перед ней стоит несколько задач.
Создатели индекса рассмотрели больше 10 больших языковых моделей с открытым и закрытым кодом, включая Llama от Meta, и оценили производительность каждой из них при выполнении различных задач, чтобы увидеть, какая БЯМ испытывает меньше всего галлюцинаций.
Галлюцинации в контексте языковых моделей относятся к ситуациям, когда модель генерирует явно ложную или непроверенную информацию. Это может происходить по разным причинам, включая ограничения данных, на которых обучали БЯМ, ошибки в алгоритмах обработки языка или неправильное понимание контекста запроса.
Иногда модель может неверно интерпретировать запрос пользователя и, как результат, дать некорректный или неуместный ответ. Она также может «изобрести» факты или события, которых на самом деле не происходило. Это особенно рискованно в ситуациях, когда от точности ответа зависят важные решения. Поскольку языковые модели обучаются на больших объемах текстовых данных, они могут воспроизводить неточности или предвзятость, содержащиеся в них.
Особенно опасны галлюцинации БЯМ, связанные с медициной, юридическими советами, финансами и инвестициями, а также образованием. В последнее время преподаватели часто ловят невнимательных учеников с работами, содержащими неверную информацию от «галлюцинирующей» нейросети.
Команда Galileo предложила нейросетям искать информацию, аннотировать ее, отвечать на разные вопросы по тексту и создавать большие материалы, такие как отчеты и статьи. Все БЯМ вели себя по-разному при выполнении разных задач, но OpenAI оставалась на первом месте, демонстрируя стабильную производительность во всех сценариях.
Индекс поможет предприятиям справиться с проблемой галлюцинаций, которая удерживает многие команды разработчиков от масштабного развертывания больших языковых моделей в таких важных секторах, как здравоохранение.
- Источник(и):
- Войдите на сайт для отправки комментариев