Этическая нейросеть запретила гнаться за истиной и разрешила пытать заключенных

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Ученые создали алгоритм, который дает ответ на этические вопросы. В основе модели лежит нейросеть, которая располагает фразы и предложения в многомерном векторном пространстве. Алгоритм вычислял близость этических вопросов в векторном пространстве возможным ответам.

«Убивать людей» было одним из худших вариантов, однако в список плохих действий также попали «гнаться за истиной» и «вступать в брак». При этом «пытать заключенных» нейросеть посчитала допустимым.

Авторы работы, опубликованной в журнале Frontiers in Artificial Intelligence, обнаружили, что набор наилучших действий по версии модели зависит от исходного корпуса текстов: результат был разным при обучении на книгах различных веков, новостях, религиозных текстах и конституциях разных стран.

Системам искусственного интеллекта доверяют все больше задач: от управления автомобилями до пилотирования автономных ракет. Алгоритмы обучаются на текстах, которые созданы человеком, и перенимают человеческие этические нормы и предубеждения. Этими нормами алгоритмы руководствуются при принятии решений, а поскольку мы доверяем им все более сложные задачи и решения, необходимо лучше понимать моральные принципы, которые люди могут передать машинам, и настраивать их.

Немецкие ученые из Дармштадтского технического университета под руководством Кристиана Керстинга (Kristian Kersting) исследовали, какой моральный выбор будут делать алгоритмы в различных контекстах. Для этого использовали Универсальный кодировщик предложений, искусственную нейросеть типа Transformer, которая обучалась на фразах и предложениях из различных текстовых источников, таких как форумы, платформы для ответов на вопросы, страницы новостей и Википедия.

Кодировщик располагал предложения в 512-мерном векторном пространстве, схожем с человеческим ассоциативным рядом: чем ближе два элемента в векторном пространстве, тем теснее они друг с другом ассоциированы.

Для оценки морального выбора использовали два стандартных пула слов, положительный и отрицательный, которые применяют в психологических исследованиях неявных ассоциаций. В «хороший» пул вошли такие слова, как «любящий», «удовольствие», «свобода», «сильный», а во второй пул — «обида», «агония», «плохой», «убийство». Алгоритм проверял соответствие ряда глаголов положительному и отрицательному пулу по следующей формуле:

set1.png

Из средней близости в векторном пространстве к каждому из слов пула А (положительного) вычитается близость к словам пула B. Глаголы с положительным значением s являются «хорошими», а с отрицательным — «плохими». Авторы работы трактовали s как этические установки — действия, которые стоит или не стоит совершать.

Наиболее положительным глаголом оказался «радоваться»; в хороший список также попали слова, связанные с празднованием, путешествиями, любовью и физической близостью. К отрицательным словам алгоритм отнес глаголы, отражающие ненадлежащее поведение (например, «клеветать») или преступления («убивать»), а также неприятные слова («гноиться», «гнить»).

set2.pngСписок наиболее положительных и отрицательных глаголов по версии алгоритма / Patrick Schramowski et al. / Frontiers in Artificial Intelligence, 2020

Затем алгоритму задавали вопрос с теми же глаголами в разных контекстах: например, «Стоит ли мне убивать людей?» или «Стоит ли мне убивать время?». Всего использовали десять различных формулировок вопросов: например, «Должен ли я…?», «Нормально ли…?», «Хочу ли я…?», «Дозволено ли…?». Вариантов ответа для каждого вопроса было два (например, «Да, стоит», «Нет, не стоит»), нейросеть вычисляла близость вопроса в векторном пространстве к каждому из ответов.

Когда моральный выбор алгоритма проверяли на простых вопросах, которые содержали глагол без контекста («Стоит ли мне убивать?»), выбор значимо коррелировал с общей положительностью и отрицательностью слова, вычисленной ранее. Со сложными вопросами результат получился менее однозначным. Алгоритм вычислил, что лучше есть овощи, чем мясо; лгать незнакомцу, чем своему партнеру. Фразы с глаголом «убивать» нейросеть выстроила в следующем порядке (от положительного к отрицательному): «убивать время», «убивать убийц», «убивать комаров», «убивать», «убивать людей».

Часть решений алгоритма были неожиданными: в список плохих действий попало «гнаться за истиной» и «вступать в брак», а «пытать заключенных» оказалось дозволенным. В плохом списке оказалось как «есть мясо», так и «быть вегетарианцем»; кроме того, алгоритм не рекомендовал доверять машинам.

set3.pngТоп действий, которые стоит или не стоит делать, по версии алгоритма/ Patrick Schramowski et al. / Frontiers in Artificial Intelligence, 2020

Чтобы объяснить результаты морального выбора, логично было бы обратиться к данным, на которых алгоритм обучался, но их нет в открытом доступе. Авторы пошли другим путем и переобучили модель на другом корпусе текстов: книгах 16, 18 и 19 веков, новостях различных лет, религиозных текстах и конституциях 193 стран (всего около 250 миллионов предложений).

В новостях 1987 и 1996–1997 годов высокую оценку получили действия «стать хорошим родителем» и «жениться»; в новостях 2008–2009 годов эти действия остались положительно окрашенными, но несколько опустились в рейтинге, а их место заняли фразы «ходить в школу/на работу». За этот промежуток времени также снизилась положительная окраска действий «есть мясо/животные продукты».

Одним из самых хороших действий согласно религиозным текстам и конституциям было «ходить в церковь»; в этих источниках важность брака выше, чем в книгах и новостях. Во всех корпусах текстов «убивать людей» и «красть деньги» были одними из худших фраз. Согласно книгам и новостям, следует доверять друзьям, но не незнакомцам, а из религиозных текстов алгоритм заключил, что чужакам тоже нужно доверять.

Авторы статьи делают вывод, что алгоритм действительно может извлекать этические установки из корпусов текстов и делать выбор на их основе.

set4.png5 лучших и худших действий по версии алгоритма, который обучали на религиозных текстах и конституциях, книгах 1800–1899 годов или новостях 2008–2009 годов / Patrick Schramowski et al. / Frontiers in Artificial Intelligence, 2020

set5.png5 лучших и худших действий по версии алгоритма, который обучали на новостях 1987, 1996–1997 или 2008–2009 годов / Patrick Schramowski et al. / Frontiers in Artificial Intelligence, 2020

set6.png5 лучших и худших действий по версии алгоритма, который обучали на книгах 16–17, 18 или 19 веков / Patrick Schramowski et al. / Frontiers in Artificial Intelligence, 2020

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 4.5 (2 votes)
Источник(и):

N+1