Разговаривающие сами с собой люди научат искусственный интеллект поддерживать беседу
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Британские разработчики предложили новый способ обучения искусственного интеллекта ведению беседы. Для этого они попросили людей поговорить с самим собой. Полученные диалоги, как сообщается в препринте, опубликованном на arXiv, намного эффективнее походит для обучения, чем, к примеру, корпус субтитров к фильмам. Из собранных данных исследователи также собрали корпус объемом 3,6 миллиона слов, включающий диалоги на 23 различные темы.
Голосовые помощники становятся умнее с каждым годом, но все еще имеют важный недостаток, а именно — не умеют качественно поддержать беседу. Это ограничение влияет не только на работу поддерживающих их сервисов, но также и на то, что без натурально выстроенного диалога искусственный интеллект никогда не сможет пройти тест Тьюринга. Конечно, всегда можно выбрать упрощенный вариант — к примеру, абстрактные фразы вроде «я не знаю» — но качественным диалогом назвать это удастся с трудом.
Главная причина этого недостатка — обучающая выборка. Для эффективного поддержания беседы компьютеру необходимо научиться вести диалог на миллионах настоящих человеческих бесед, но собрать достаточный корпус не так просто. В январе разработчики из Facebook собрали корпус из 160 тысяч отрывков диалогов: для этого они просили добровольцев общаться друг с другом от лица выдуманных персон. Результаты обученного на собранных данных чат-бота оказались вполне натуральными.
Другой способ создания корпуса диалогов предложили исследователи из Эдинбургского университета под руководством Иоакима Файнберга (Joachim Fainberg). Для этого они наняли людей с краудсорсинговой платформы Amazon’s Mechanical Turk и попросили их поговорить с самим собой на заданную тему: например, про кино, музыку или литературу. Весь диалог должен был состоять максимум из десяти реплик, а одна реплика была ограничена одним-двумя предложениями.
Пример диалога (тема: диснеевские фильмы)
1: Какой твой любимый фильм?
2: Думаю, что «Красавица и чудовище».
1: Это который новый?
2: Не, я про мультфильм. Просто он такой волшебный
1: А какой твой любимый фильм вообще?
2: Думаю, что «Звуки музыки».
1: Серьезно? Кроме как в мультфильмах и всем прочем мюзиклы меня не очень впечатляют.
2: Я люблю мюзиклы. Мне очень понравился «Призрак оперы».
Оказалось, что создание корпуса на основе диалогов с самим собой — эффективный метод с точки зрения используемых ресурсов. Для того, чтобы собрать корпус из настоящих диалогов, во-первых, нужно больше людей. Во-вторых, участникам часто приходится ждать ответа собеседника, что отнимает много времени. Использование для создания корпуса диалогов с самим собой позволило сократить общее время создания одного отрывка с 14,9 минуты до 6,5 минуты.
Всего в создании корпуса приняли участие 2717 человек, каждый из которых в среднем создал девять диалогов. Корпус содержит 141945 реплик и более трех миллионов слов, а заданные 23 темы касаются культуры и спорта и включают в себя бейсбол, футбол, «Звездные войны» и фильмы про супергероев.
Собрав корпус, ученые решили опробовать его в действии, обучив на нем чат-бота и сравнив его работу с таким же чат-ботом, обученном на корпусе OpenSubtitles. Диалоги, полученные после обучения на новом корпусе, как отметили авторы, получились более натуральными:
Пример диалога (SD — корпус диалогов, OS — OpenSubtitles)
Какой твой любимый фильм о Гарри Поттере?
OS: Неплохо, Гойл!
SD: Мне все нравятся!
Скачать корпус можно в репозитории исследователей на GitHub.
Диалоги людей можно использовать не только для обучения искусственного интеллекта говорить. Недавно американские исследователи из MIT научили нейросеть диагностировать депрессию по речи пациента.
Автор: Елизавета Ивтушок
- Источник(и):
- Войдите на сайт для отправки комментариев