Исследователи ИИ ужесточили тесты для моделей распознавания языка

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Опубликовано gumarov в 19 августа, 2019 - 22:18

Facebook AI Research, Google DeepMind, Вашингтонский (UW) и Нью-Йоркский (NYU) университеты представили SuperGLUE — комплекс тестовых задач на понимание языка, разработанный ими для оценки современных высокопроизводительных моделей ИИ.

SuperGLUE создавали, исходя из предпосылки, что модели глубокого обучения для диалогового ИИ «достигли потолка» и требуют постановки перед ними более серьёзных задач. За базовый уровень при оценке производительности авторы приняли модель BERT компании Google. В прошлом году BERT считалась одной из лучших по продуктивности, но с тех пор её обошли такие модели, как Microsoft MT-DNN, Google XLNet и Facebook RoBERTa. Многие из них частично основаны на BERT и обеспечивают производительность выше среднечеловеческого уровня.

В апреле 2018 года команда исследователей из NYU, UW и DeepMind подготовила эталонный тест General Language Understanding Evaluation (GLUE). По сравнению с ним SuperGLUE нацелен на более сложные задачи и должен стать стимулом к построению моделей, способных к пониманию неординарных языковых нюансов.

GLUE присуждает модели числовой балл, отражающий сводную производительность по девяти задачам понимания английского предложения для систем Natural Language Understanding (NLU), таких как Stanford Sentiment Treebank (SST-2), служащая для эмоциональной оценки онлайн-обзоров фильмов. RoBERTa сейчас возглавляет рейтинг GLUE, демонстрируя лучшую продуктивность на 4 из 9 задачах этого теста.

Новый пакет включает в себя восемь задач на способность системы ИИ следить за логикой рассуждений, распознавать причину и следствие, отвечать на вопросы «да» или «нет» после прочтения короткого отрывка. Кроме того, SuperGLUE содержит Winogender, инструмент для выявления гендерного предубеждения.

Список лидеров рейтинга SuperGLUE будет размещен на сайте super.gluebenchmark.com. Подробности о SuperGLUE можно прочитать в статье, опубликованной в мае на сервере arXiv и пересмотренной в июле.

Параллельно, NYU объявил о выпуске обновлённого инструментария Jiant в помощь разработчикам ИИ-моделей для понимания текстов общей тематики. Jiant базируется на PyTorch и настроен для работы с реализациями HuggingFace PyTorch моделей BERT и GPT от OpenAI, а также с тестами GLUE и SuperGLUE.

Пожалуйста, оцените статью:

Источник(и):: Компьютерное обозрение

Добавить свое объявление
Загрузка...

Войдите на сайт для отправки комментариев

Сайт о нанотехнологиях #1 в России

Исследователи ИИ ужесточили тесты для моделей распознавания языка

Категории статьи