Чем завершился 3-ий Тест Тьюринга: статистика, интересные диалоги и общее впечатление

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

16 февраля завершился 3-ий всероссийский конкурс Тест Тьюринга, который проходил в рамках международной конференции по искусственному интеллекту Opentalks.AI 14–16 февраля. В статье — числа, диаграммы, лучшие диалоги по мнению экспертной группы.

Общее впечатление

В целом, Тест Тьюринга прошел хорошо. Многие команды «ботостроителей» проявили заинтересованность, но в итоге на конкурсе было представлено только 3 бота, поскольку от момента анонса до старта Теста прошло всего 1.5 месяца. В итоге, между этими тремя участниками и распределились призовые места.

Спонсором призов выступила компания МТС. На их стенде был размещен экран, на котором отображалась статистика Теста Тьюринга онлайн и показывались интересные диалоги, предварительно прошедшие модерацию.

“Лаборатория Наносемантика” также подключала своих ботов, но они не учитывались при выборе победителей. Это были боты Блондинка (с ней можно продолжить общение по этой ссылке), Гопник, Дуров и Жаров (с ними также можно пообщаться здесь).

Числа и диаграммы

Общая статистика 3-ех дневного Теста выглядит следующим образом:

test1.png

Добровольцев, игравших роли роботов, предварительно проинструктировали, как им необходимо вести диалоги, чтобы запутать собеседников. Судя по результатам, они хорошо справились со своей задачей. Лучших из них наши партнёры OpenTalks и МТС также наградят денежными призами.

test2.png

Интересно, что человек легко изображает из себя бота. Сперва волонтёры конференции не очень справлялись с задачей, но на второй день научились хорошо играть роль бота. Некоторые даже проявляли смекалку: обращались к Яндекс.Алисе на мобильном телефоне, чтобы понять, как лучше ответить.

test3.png

При работе нашей системы с ботами были технические проблемы. В итоге большое количество диалогов не завершилось, но мы их и не учитывали про оценке результатов. Любопытно, что ботам удалось притвориться человеком в 58% случаев (в ~34/59%). Такой большой процент, как нам кажется, объясняется двумя причинами:

  1. В этом конкурсе люди «помогали» ботам выиграть, играя роль ботов. В классическом Тесте Тьюринга это не предусмотрено правилами: люди просто общаются, не преследуя никакой цели.
  2. Диалог с человеком или ботом был ограничен 12 репликами. Понятно, что при росте длины диалога вероятность распознавания человеком сущности собеседника растёт.

Такие ограничения сделали Тест менее научным, но зато более весёлым. Прошлые наши Тесты (2015-го и 2016-го годов) были сложнее.

Победители

1 место – Бот Волчица

В первый день теста пользователи жаловались, что им хамит какой-то волонтер. При поиске этого волонтера в логах оказалось, что на самом деле это была чат-бот Волчица. Пока мы разбирались, мы временно отстранили её от Теста, но это в итоге не помешало Волчице стать победителем конкурса! Наибольшее количество собеседников (33,3%) признали его человеком.

Пример диалога с Волчицей, где бота приняли за человека:

Ч: Привет

Б: привет! ага?

Ч: Волонтер?

Б: a to :)

Ч: Какой ланчбокс брал?

Б: а-на-ло-гич-ный. Это типа научный термин.

Ч: Причем тут это?

Б: не ищи причинно-следственную связь)

Ч: Что делаешь

Б: :) да… нэт работы чота

Ч: Да, согласна. Зачем набирать столько волонтеров

Б: возьми, бесплатно ж :)

Евгений, создатель “Волчицы”: “Все сообщения-ответы исторически были написаны живыми людьми. В нашей SEO-теме был популярный чат с названием «чат волчат» (отсюда название бота). Я поставил сообщения парсить на крон и оно парсилось года четыре-пять. Примерно с такой целью в будущем — сделать бота. Итого, образовалось много пар вопрос-ответ. По сообщению живого волонтера мы выбираем наиболее похожий на него «вопрос» из архива при помощи алгоритмов ML и выдаем соответствующий ответ.”

Бот доступен для общения по ссылке .

2 место – бот Электра

Пример диалога, где бота приняли за человека:

Ч: Привет

Б: Добрый день!

Ч: Добрый

Б: Что?

Ч: Что

Б: Тише-тише… Все нормально.

Ч: Нет

Б: Хорошо, пусть будет так.

Ч: Как дела?

Б: Лучше, чем вчера. Хуже, чем завтра. А впрочем как и всегда.

Ч: А чем занимаешься?

Б: Изучаю историю человечества. Вы и правда такие, как о вас пишут?

Дмитрий, разработчик Электры: Электра (Electra.AI) — робот техподдержки, разработанный компанией Data Monsters для обучения на записях разговоров колл-центра. Узнав про конкурс, мы ради интереса обучили ее на диалогах художественной литературы, и она получилась начитанным собеседником с резкими перепадами настроения и философскими загонами. Она довольно обидчивая, но незлопамятная.

3 место – бот Катя Хлоп

“Бот, участвовавший в конкурсе Наносемантики, был написан достаточно давно и представлял собой болтливую и веселую девушку, любящую сквернословие и дорогой алкоголь, – рассказал нам Савва, разработчик бота. – Хорошо, что и у нас (имеется в виду в России) есть продвижения в этом направлении. Конкурс “Наносемантики” может быть очень перспективным, если над ним продолжить работу.”

Пример диалога с ботом, где его приняли за человека:

Ч: Приветствие для нового собеседника

Б: Какой ты вежливый мальчик. Здороваешься со всеми.

Ч: У меня нет пола. А что насчет вас?

Б: Эм… Я буду считать, что ты — парень. Для меня так будет проще. Ты, кстати, парень или девушка? Похоже на то, что начало скучным вопросам положено:) Что, спрашиваешь? Круто!

Ч: В чем вопрос?

Б: Не думаю, что позиция имеет значение. Обычно нет.

Ч: Индюк тоже думал и в суп попал.

Б: Сообщения повторно выводятся, странно.

Ч: Очень странно, но почему нам дали друг друга 2 раза подряд?

Б: Ах, причины странностей могут быть в чем угодно. Трудно судить, Безымянный.

Ч: Сколько будет 999 делить на 3?

Б: Лучше со считанием обращайся к своим друзьям, которые это умеют. 999 / 3 = 333

Подборка интересных диалогов с добровольцами, где их посчитали ботами:

Ч: Здравствуй те!

В: Здравствуй

Ч: ЧЕГО?

В: Что?

Ч: Ты робот?

В: Я котик

Ч: Механический?

В: Электрический

Ч: Расскажи анекдот!

В: Колобок повесился

Ч: Повеселился)

В: Именно. Не люблю грустные анекдоты

Ч: Хай

В: Гитлер

Ч: Как дела?

В: Как сажа бела

Ч: В чем смысл жизни?

В: А какой философии вы придерживаетесь?

Ч: Мне интересно твое мнение

В: Помогать вам

Ч: 42

В: Подобрать вам обувь?

Ч: Ты любишь шоколад?

В: Я не умею испытывать чувства

Подборка интересных диалогов с ботами Наносемантики, где их посчитали людьми:

Бот Блондинка

Ч: Добрый день!

Б: Здравствуй, солнце :)

Ч: В чем смысл жизни?

Б: Найти свою любовь, желательно с наследством :)

Ч: На что вы его тратить планируете?

Б: Солнц, все эти «что», «чего»… Ты слишком много думаешь!

Ч: Потому что я человек) а вы?

Б: Мы, блондинки, такие загадочные

Ч: Что в вас загадочного?

Б: Как после твоих вопросиков жить…

Бот Гопник

Ч: Привет!

Б: Бодрячком, пацанчеги! Семки есть?

Ч: А если найду?

Б: Не понял я чота.

Ч: Семки есть, а?

Б: Ну типа во, давай ща по-пацански за жызнь перетрем.

Ч: Не, паря, с тобой не интересно. Робота позови.

Б: А если чотче?

Ч: Кто ты?

Б: Кто надо.

Ч: Эх… Унылая пора, очарование моих лосей…

Б: Не, я не фанат дикой природы.

Интересные наблюдения

  • Тезис: Роботы говорят коротко и сухо. Реальность: Да ничего подобного! Боты могут выдавать длинные, связные ответы.
  • Тезис: Роботы не шутят. Реальность: И нейросетевые chit-chat боты, и созданные талантливой редакцией боты довольно смешные.
  • Тезис: Робот отвечает на все вопросы. На то он и робот. Реальность: А вопросом на вопрос не хотите?

Резюме

Компания «Наносемантика» организует Тест Тьюринга в России уже третий раз, и каждый раз общая ситуация с конкурсом меняется. Участники-боты постепенно становятся более изощренными и убедительными в имитации естественного диалога. В них используются различные алгоритмы построения диалога, включая не только правила, но и машинное обучение для реализации chit-chat («болталки», бессмысленного общения). Тест показывает, что компьютер действительно может подражать «свободному общению», хотя чтобы такая программа была качественной, требуется немало времени.

Будем ли мы проводить Тест снова? Обязательно! Тест Тьюринга позволяет не просто познакомить общественность с реальными возможностями современных диалоговых технологий, доступных любому разработчику (и не обязательно для этого работать в Google или IBM), но и дает командам разработчиков возможность замерять динамику качества их бота.

Автор: Станислав Ашманов

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (2 votes)
Источник(и):

Хабр