Безопасность СИИ с чистого листа

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Опубликовано gumarov в 21 мая, 2023 - 19:36

Это перевод доклада Ричарда Нго 2020 года, в котором он обрисовывает самые простые и не требующие предварительных знаний аргументы в пользу того, что разработка ИИ представляет экзистенциальную угрозу.

Введение

Ключевое беспокойство, мотивирующее технические исследования безопасности СИИ – то, что мы можем создать искусственных автономных интеллектуальных агентов, которые будут гораздо умнее людей, и которые будут преследовать цели, конфликтующие с нашими собственными. Человеческий интеллект позволяет нам координировать сложные общественные структуры и создавать продвинутые технологии, и таким образом контролировать мир в куда большей степени, чем любой другой вид. Но ИИ однажды станут способнее нас во всех типах деятельности, которой мы обеспечиваем и сохраняем этот контроль. Если они не захотят нам подчиняться, человечество может стать лишь вторым по могуществу «видом» и потерять возможность создавать достойное ценное будущее.

Я называю это аргументом «второго вида»; я думаю, что это правдоподобный аргумент, который нужно воспринимать очень серьёзно.[1] Однако, изложенная выше версия полагается на несколько нечётких концепций и соображений. В этом докладе я покажу настолько детальное, насколько смогу, изложение аргумента второго вида, подсвечивая аспекты, по поводу которых я всё ещё в замешательстве. В частности, я буду защищать версию аргумента второго вида, заявляющую, что без согласованного усилия по предотвращению этого, есть значительный шанс, что:

Мы создадим ИИ куда умнее людей (т.е. суперинтеллектуальные).
Эти ИИ будут автономными агентами, преследующими высокомасшатбные цели.
Эти цели будут несогласованы с нашими; то есть, они будут направлены на нежелательные по нашим стандартам исходы и будут противоречить нашим целям.
Разработка таких ИИ приведёт к тому, что они получат контроль над будущим человечества.

Хоть я и использую много примеров из современного глубокого обучения, этот доклад так же относится и к ИИ, разработанным с использованием совершенно иных моделей, обучающих алгоритмов, оптимизаторов или режимов обучения, отличающихся от тех, что мы используем сегодня. Однако, многие аргументы больше не будут актуальны, если поле ИИ перестанет быть сосредоточено на машинном обучении. Я также часто сравниваю разработку ИИ с эволюцией человеческого интеллекта; хоть они и не полностью аналогичны, люди – это лучший пример, который у нас есть, для мыслей об обобщённых ИИ.

Суперинтеллект

Чтобы понять суперинтеллект, следует сначала охарактеризовать, что мы имеем в виду под интеллектом. Мы можем начать с хорошо известного определения Легга, как способности хорошо справляться с широким набором когнитивных задач Ключевое разделение, которое я проведу в этой части – это разделение между агентами, которые хорошо понимают, как справляться с многими задачами, потому что они были специально оптимизированы под каждую из них (я назову это основанным на задачах подходом к ИИ), и агентами, которые могут понимать новые задачи без или практически без специфического для этих задач обучения, обобщая из предыдущего опыта (основанный на обобщении подход).

Узкий и обобщённый интеллект

Основанный на задачах подход аналогичен тому, как люди применяют электричество: хоть электричество – это мощная технология, полезная в широком спектре задач, нам всё ещё надо проектировать специфические способы для его применения к каждой задаче. Похожим образом, компьютеры – это мощные и гибкие инструменты – но хоть они и могут обрабатывать произвольно большое количество разных вводов, для каждой программы нужно индивидуально писать детальные инструкции, как совершать эту обработку. Нынешние алгоритмы обучения с подкреплением так же, хоть и мощны, приводят к появлению агентов, хорошо справляющихся только с конкретными задачами, с которыми у них много опыта – Starcraft, DOTA, Go, и подобное. В Переосмыслении Суперинтеллекта Дрекслер отстаивает позицию, что наш текущий основанный на задачах подход отмасштабируется до сверхчеловеческих способностей в некоторых сложных задачах (но я скептически отношусь к этому заявлению).

Пример основанного на обобщении подхода – большие языковые модели вроде GPT-2 и GPT-3. GPT-2 сначала натренировали на задачу предсказывания следующего слова в тексте, а потом она достигла наилучших для своего времени результатов на многих других языковых задачах, без специальной подстройки на каждую! Это было явное изменение по сравнению с предыдущим подходам к обработке естественного языка, которые хорошо проявляли себя только с обучением под конкретную задачу на специальном наборе данных. Её потомок, GPT-3, продемонстрировала множество ещё более впечатляющего поведения. Я думаю, это хороший пример того, как ИИ может развить когнитивные навыки (в данном случае, понимание синтаксиса и семантики языка), обобщающиеся на большой диапазон новых задач. Поле мета-обучения преследует похожие цели.

Можно также увидеть потенциал основанного на обобщении подхода, посмотрев на развитие людей. Эволюция «обучила» нас, как вид, когнитивным навыкам, включающим в себя способности к быстрому обучению; обработка сенсорной и выдача моторной информации; социальные навыки. Индивидуально, мы также «обучаемся» в детстве подстраивать эти навыки; понимать устный и письменный язык; и обладать подробной информацией о современном обществе. Однако, заметим, что почти всё это эволюционное и детское обучение произошло на задачах, сильно отличающихся от экономически пригождающихся нам во взрослом возрасте. Мы можем справляться с ними только переиспользуя когнитивные навыки и знания, полученные раньше. В нашем случае, нам повезло, что эти когнитивные навыки были не слишком специфичны для окружения наших предков, а оказались весьма обобщёнными. В частности, навык абстрагирования позволяет нам извлекать общую структуру из разных ситуаций, что позволяет нам понимать их куда эффективнее, чем если бы мы отдельно изучали их одну за другой. Наши навыки коммуникации и понимания чужого сознания позволяют нам делиться своими идеями. Поэтому люди могут достигать мощного прогресса на масштабе лет и десятилетий, а не только через эволюционные адаптации на протяжении многих поколений.

Мне следует заметить, что я думаю о основанном на задаче и основанном на обобщении подходах как о частях спектра, а не как о бинарной классификации, в частности потому, что разделение на отдельные задачи довольно произвольно. К примеру, AlphaZero обучалась, играя сама с собой, но тестировалась, играя против людей, использующих другие стратегии и стили игры. Можно думать об игре против двух разных типов оппонентов как о двух случаях одной задачи, а можно – как двух разных задачах, таких, что AlphaZero смогла обобщить первую на вторую. Но в любом случае, они явно очень похожи. Для контраста, я ожидаю, что ИИ будут справляться хорошо с многими экономически важными задачами в первую очередь за счёт обобщения опыта совершенно других задач – что означает, что этим ИИ придётся обобщать намного лучше, чем могут нынешние системы обучения с подкреплением.

Уточню, про какие именно задачи я ожидаю, что они потребуют режима обобщения. В той мере, в которой мы можем разделять два подхода, мне кажется правдоподобным, что основанный на задачах подход сможет далеко зайти в областях, в которых мы можем собрать много данных. Например, я довольно сильно убеждён, что этот подход предоставит нам сверхчеловеческие беспилотные автомобили задолго до того основанного на обобщении подхода. Он может также позволить нас автоматизировать большинство задач, входящих в очень когнитивно-требовательные области вроде медицины, законов и математики, если мы сможем собрать правильные обучающие данные. Однако, некоторые занятия критически зависят от способности анализировать очень разнообразную информацию и действовать в её контексте, так что им будет очень сложно обучать напрямую. Рассмотрим задачи, включённые в роль вроде CEO: устанавливать стратегические направление компании, выбирать, кого нанимать, писать речи, и так далее. Каждая из этих задач чувствительно зависит от широкого контекста компании и окружающего мира. В какую индустрию входит компания? Насколько она большая; где она; какова её культура? Какие у неё отношения с конкурентами и правительствами? Как все эти факторы поменяются в ближайшую пару десятилетий? Эти переменные настолько разные по масштабу и зависящие от многих аспектов мира, что кажется практически невозможным сгенерировать большое количество обучающих данных, симулируя их (как мы делаем с ИИ, играющими в игры). И число CEO, от которых мы могли бы получить эмпирические данные, очень мало по меркам обучения с подкреплением (которое часто требует миллиарды тренировочных шагов даже для куда более простых задач). Я не говорю, что мы никогда не сможем превзойти человека в этих задачах прямым обучением на них – может, очень упорные усилия в разработке и проектировании, при помощи других основанных на задачах ИИ и могут этого достичь. Но я ожидаю, что задолго до того, как такие усилия станут возможными, мы уже создадим ИИ, который будет уметь хорошо справляться с этими задачами, с помощью основанного на обобщении подхода.

В основанном на обобщении подходе путь к созданию сверхчеловеческого CEO – это использование других богатых на данные задач (которые могут сильно отличаться от того, что мы хотим, чтобы ИИ-CEO делал) для обучения ИИ набору полезных когнитивных навыков. К примеру, мы можем обучить агента выполнять инструкции в симулированном мире. Даже если симуляция сильно отличается от реального мира, агент может получить способности к планированию и обучению, которые можно будет быстро адаптировать к задачам реального мира. Аналогично, окружение предков людей также сильно отличалось от современного мира, но мы всё ещё способны довольно быстро становиться хорошими CEO. Приблизительно те же аргументы подходят и к другим влиятельным занятиям, вроде меняющих парадигмы учёных, предпринимателей и законотворцев.

Одно потенциальное препятствие для основанного на обобщении подхода – это возможность, что специфические черты окружения наших предков или специфические черты человеческого мозга были необходимы для возникновения обобщённого интеллекта. К примеру, выдвигалась гипотеза, что социальная «гонка вооружений» послужила причиной возникновения у нас достаточного социального интеллекта для масштабной передачи культурной информации. Однако, возможности для возникновения таких важных черт, включая эту, вполне могут быть воспроизведены в искусственном тренировочном окружении и в искусственных нейронных сетях. Некоторые черты (как квантовые свойства нейронов) может быть очень сложно точно симулировать, но человеческих мозг оперирует в слишком зашумлённых условиях, чтобы было правдоподобно, что нам интеллект зависит от эффектов такого масштаба. Так что кажется весьма вероятным, что однажды мы сможем создать ИИ, который сможет достаточно хорошо обобщать, чтобы на человеческом уровне справляться с широким диапазоном задач, включая абстрактные бедные данными задачи вроде управлением компанией. Давайте называть такие системы обобщёнными искусственными интеллектами, или СИИ (по-русски устоялось словосочетание «сильный искусственный интеллект» – прим. пер.). Многие разработчики ИИ ожидают, что мы создадим СИИ в этом столетии; однако, я не буду рассматривать аргументы про оставшееся до СИИ время, и остальной доклад не будет зависеть от этого вопроса.

Пути к суперинтеллекту

Бостром определил суперинтеллект как «любой интеллект, сильно превосходящий когнитивные способности человека в практически любой области». В этом докладе, я буду понимать «сильно превосходящий человеческие способности» как превосходство над всем человечеством вместе, если бы оно могло глобально координироваться (без помощи другого продвинутого ИИ). Я думаю, сложно отрицать, что в принципе возможно создать отдельный основанный на обобщении суперинтеллектуальный СИИ, поскольку человеческий мозг ограничен многими факторами, которые будут ограничивать ИИ куда меньше. Пожалуй, самый поражающий из них – это огромная разница между скоростью нейронов и транзисторов: вторые передают сигналы примерно в четыре миллиона раз быстрее. Даже если СИИ никогда не превзойдёт людей в других аспектах, такая скорость позволит ему за минуты и часы продумать столько, сколько человек может в годы или десятилетия. В то же время, наш размер мозга – важная причина того, что люди способнее животных – но я не вижу причин, почему нейросеть не может быть ещё на несколько порядков больше человеческого мозга. И хоть эволюция во многом весьма хороший проектировщик, у неё не было времени отбирать по навыкам, специфически полезным в нашем современном окружении, вроде понимания языка и математических рассуждений. Так что нам следует ожидать существования низко висящих плодов, позволяющих продвинуться за пределы человеческой компетенции в многих задачах, опирающихся на такие навыки.[3]

Есть значительные расхождения в мнениях по поводу того, сколько времени займёт переход от СИИ человеческого уровня до суперинтеллекта. Фокус этого доклада не в этом, но я быстро пробегусь по этой теме в разделе про Контроль. А в этом разделе я опишу качественно, как может пройти этот переход. По умолчанию, следует ожидать, что он будет связан с стандартными факторами, влияющими на прогресс ИИ: больше вычислительной мощности, лучшие алгоритмы, лучшие обучающие данные. Но я также опишу три фактора, вклад которых в увеличение интеллекта ИИ будет становиться сильнее с тем, как ИИ будет становиться умнее: репликация, культурное обучение и рекурсивное улучшение.

В плане репликации ИИ куда менее ограничен, чем люди: очень легко создать копию ИИ с теми же навыками и знаниями, что и у оригинала. Вычислительная стоимость этого скорее всего будет во много раз меньше изначальной стоимости обучения (поскольку обучение обычно включает в себя запуск многих копий ИИ на куда более высокой скорости, чем нужно для задач реального мира). Копирование сейчас позволяет нам применять один ИИ к многим задачам, но не расширяет диапазон задач, которые он может выполнять. Однако, следует ожидать, что СИИ сможет декомпозировать сложные задачи на более простые подзадачи, как и делают люди. Так что копирование такого СИИ сможет привести к появлению суперинтеллекта, состоящего не из одного СИИ, а из целой группы (которую, следуя за Бостромом, я назову коллективным СИИ), которая может справляться с значительно более сложными задачами, чем оригинал.[4] Из-за простоты и эффективности копирования СИИ, я думаю, что нам следует по умолчанию ожидать возникновения суперинтеллекта из коллективного СИИ.

Эффективность коллективного СИИ может быть ограничена проблемами координации его составляющих. Однако, большинство аргументов из предыдущего абзаца – так же причины, почему отдельные СИИ смогут превзойти нас в навыках, необходимых для координации (как обработка языка и понимание другого разума). Особенно полезный навык – это культурное обучение: стоит ожидать, что СИИ смогут приобретать знания друг от друга, и, в свою очередь делиться собственными открытиями, что позволит коллективному СИИ решать более сложные задачи, чем его составляющие по отдельности. Развитие этой способности в людях – это то, что сделало возможным мощный взлёт человеческой цивилизации в последние десять тысяч лет. Нет особых причин считать, что мы достигли максимума этой способности, или что СИИ не может получить ещё большего преимущества над человеком, чем у человека есть над шимпанзе, с помощью получения информации от других агентов.

В третьих, СИИ смогут улучшать процесс обучения для разработки своих наследников, которые, в свою очередь, улучшат его дальше, для разработки своих, и так далее, в процессе рекурсивного улучшения.[5] Предыдущие обсуждения в основном сосредотачивались на рекурсивном самоулучшении, включающим один СИИ, «переписывающий свой собственный код. Однако, я по нескольким причинам думаю, что более уместно сосредоточиться на более широком явлении ИИ, продвигающего разработку ИИ. Во-первых, из-за простоты копирования ИИ, нет значимого разделения между ИИ, улучшающим «себя» и ИИ, создающим наследника, разделяющего многие его свойства. Во-вторых, современные ИИ более точно характеризуются как модели, которые можно переобучить, а не как программы, которые можно переписать: практически вся работа, делающая нейросеть умной, производится оптимизатором через продолжительное обучение. Даже суперинтеллектуальному СИИ будет довольно сложно значительно улучшить своё мышление, модифицируя веса в своих нейронах напрямую; это кажется похожим на повышение интеллекта человека с помощью хирургии на мозге (хоть и с куда более точными инструментами, чем у нас есть сейчас). Так что, вероятно, более точным будет думать о самомодификации, как о процессе, в котором СИИ изменяет сворю высокоуровневую архитектуру или режим обучения, а потом обучает себя заново. Это очень похоже на то, как мы создаём новые ИИ сегодня, только с меньшей ролью людей. В третьих, если интеллектуальный вклад людей значительно сокращается, то я не думаю, что осмысленно требовать полного отсутствия людей в этом цикле, чтобы поведение ИИ можно было считать рекурсивным улучшением (хотя мы всё ещё можем различить между случаями с большим и меньшим вовлечением людей).

Эти соображения в нескольких местах пересматривают классический взгляд на рекурсивное самоулучшение. К примеру, шаг переобучения может быть ограниченным вычислительными мощностями, даже если СИИ будет способен очень быстро проектировать алгоритмические усовершенствования. И чтобы СИИ мог полагаться на то, что его цели останутся неизменными при переобучении, ему, вероятно, потребуется решить примерно те же задачи, которыми сейчас занимается область безопасности СИИ. Это причина для оптимизма по поводу того, что весь остальной мир сможет решить эти задачи до того, как несогласованный СИИ дойдёт до рекурсивного самоулучшения. Однако, проясню, это не подразумевает, что рекурсивное улучшение не важно. Напротив, раз ИИ однажды станет основным участников разработки ИИ, рекурсивное улучшение, как оно определено здесь, однажды станет ключевым двигателем прогресса. Я ещё рассмотрю следствия этого заявления в разделе про Контроль.

Пока что я сосредотачивался на том, как суперинтеллекты появятся, и что они будут способны делать. Но как они будут решать, что делать? К примеру, будут ли части коллективного СИИ хотеть кооперироваться друг с другом для достижения больших целей? Будет ли способный к рекурсивному самоулучшению СИИ иметь причины это сделать? Я не хочу формулировать эти вопросы в терминах целей и мотивации СИИ, не описав сперва подробнее, что эти термины на самом деле означают. Это – тема следующего раздела.

Цели и агентность

Фундаментальный повод к беспокойству за аргумент второго вида – это что ИИ получит слишком много власти над людьми, и использует эту власть не нравящимся нам способами. Почему ИИ получит такую власть? Я различаю три возможности:

ИИ добивается власти ради достижения других целей, т.е. она для него инструментальная ценность.
ИИ добивается власти ради неё собой, т.е. она для него финальная цель.
ИИ получает власть, не добиваясь её; например, потому что её ему дали люди.

На первой возможности сосредоточено большинство обсуждений, и я потрачу большую часть этого раздела на неё. Вторая не была так глубоко исследована, но, по моему мнению, всё же важна; я быстро пройдусь по ней в этом и следующем разделах. Вслед за Кристиано, я назову агентов, подпадающих под эти две категории ищущими-влияния. Третья возможность в основном не попадает в тему этого доклада, который фокусируется на опасности намеренного поведения продвинутых ИИ, но я суть-суть затрону её здесь и в последнем разделе. Ключевая идея за первой возможностью – это сформулированный Бостромом тезис инструментальной конвергенции. Он утверждает, что есть некоторые инструментальные цели, чьё достижение увеличивает шансы реализации финальных целей агента для широкого диапазона этих финальных целей и широкого диапазона ситуаций. Примерами таких инструментальных целей служат самосохранение, накопление ресурсов, технологическое развитие и самоулучшение, все из которых полезны для выполнения дальнейших крупномасштабных планов. Я думаю, что эти примеры лучше характеризуют ту власть, о которой я тут говорю, чем какое-нибудь более явное определение.

Однако, связь между инструментально конвергентными целями и опасным преследованием власти применима только к агентам, чьи финальные цели достаточно крупномасшабны, чтобы они получали выгоду от этих инструментальных целей и определяли и добивались их даже когда это ведёт к экстремальным результатам (набор черт, которые я называю ориентированной на цели агентностью). Не совсем ясно, что СИИ будут такими агентами или иметь такие цели. Интуитивно кажется, что будут, потому что мы все имеем опыт преследования инструментально конвергентных целей, к примеру, зарабатывая и сохраняя деньги, и можем представить, насколько бы мы были в них лучше, если бы были умнее. Но так как эволюция вложила в нас много полезных краткосрочных мотиваций, сложно определить, в какой мере человеческое ищущее влияния поведение вызвано рассуждениями про инструментальную полезность для крупномасштабных целей. Наше завоевание мира не требовало, чтобы люди выстраивали стратегию на века, только чтобы много отдельных людей довольно ограниченно увеличивали собственное влияние – изобретая немного лучшие инструменты или исследуя чуть дальше.

Следовательно, нам следует серьёзно отнестись и к возможности, что суперинтеллектуальный СИИ будет ещё менее людей сосредоточен на достижении крупномасштабных целей. Мы можем представить, как они преследуют финальные цели, не мотивирующие к поиску власти, например, деонтологические или маломасштабные. Или, может быть, мы создадим «ИИ-инструменты», которые будут очень хорошо подчиняться нашим инструкциям, не обладая собственными целями – как калькулятор не «хочет» ответить на арифметический вопрос, но просто выполняет переданные ему вычисления. Чтобы понять, какие из этих вариантов возможны или вероятны, нам нужно лучше понять природу целей и ориентированной на цели агентности. Таков фокус этого раздела.

Основы для рассуждений про агентность

Для начала, критично провести различие между целями, для выполнения которых агент был отобран или спроектирован (их я назову его проектными целями), и целями, которые агент сам хочет достигнуть (их я просто назову «целями агента»).[6] К примеру, насекомые могут участвовать в сложных иерархических обществах только потому, что эволюция дала им необходимые для этого инстинкты: «компетенцию без понимания», по терминологии Деннета. Этот термин также описывает нынешние классификаторы картинок и (наверное) созданные обучением с подкреплением агенты вроде AlphaStar и OpenAI Five: они могут быть компетентны в достижении своих проектных целях без понимания, что это за цели, или как их действия помогут их достигнуть. Если мы создадим агентов, чьими проектными целями будет накопление власти, но сами агенты не будут иметь такой цели (к примеру, агент играет на бирже без понимания того, какое влияние это оказывает на общество), то это будет считаться третьей из указанных выше возможностей.

В этом разделе я, напротив, заинтересован в том, что значит для агента иметь свою собственную цель. Три существующих подхода попыток ответить на этот вопрос – это максимизация ожидаемой полезности Джона фон Неймана и Оскара Моргенштерна, позицию намерений Дэниэла Деннета, и меса-оптимизация Хубингера и пр. Я, впрочем, не думаю, что любой из этих подходов адекватно характеризует тот тип направленного на цели поведения, которое мы хотим понять. Хоть мы и можем доказывать элегантные теоретические результаты о функциях полезности, они настолько обобщены, что практически любое поведение может быть описано как максимизация какой-то функции полезности. Так что этот подход не ограничивает наши ожидания от мощных СИИ.[7] В то же время, Деннет заявляет, что рассмотрение позиций намерения систем может быть полезно для предсказаний о них – но это работает только при наличии предшествующего знания о том, какие цели система наиболее вероятно имеет. Предсказать поведение нейросети из триллиона параметров – совсем не то же самое, что применить позиции намерения к существующим артефактам. И хоть у нас есть интуитивное понимание сложных человеческих целей и того, как они переводятся в поведение, в какой степени осмысленно распространять эти убеждения об ориентированном на цели поведении на ИИ – это тот самый вопрос, для которого нам нужна теория агентности. Так что несмотря на то, что подход Деннета предоставляет некоторые ценные прозрения – в частности, что признание за системой агентности это выбор модели, применимый только при некоторой абстрации – я думаю, что у него не получается свести агентность к более простым и понятным концепциям.

В дополнение к этому, ни один из подходов не рассматривает ограниченную рациональность: идею, что системы могут «пытаться» достичь цели, не совершая для этого лучших действий. Для определения целей ограниченно рациональных систем, нам придётся подробно изучить структуру их мышления, а не рассматривать их как чёрные ящики с входом и выходом – другими словами, использовать «когнитивное» определение агентности вместо «поведенческих», как рассмотренные выше. Хубингер и другие используют когнитивное определение в их статье Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения: «система есть оптимизатор, если она совершает внутренний поиск в некотором пространстве (состоящем из возможных выводов, политик, планов, стратегий или чего-то вроде этого) тех элементов, которые высоко оцениваются некой целевой функцией, явно воплощённой внутри системы». Я думаю, что это перспективное начало, но тут есть некоторые значительные проблемы. В частности, концепт «явного воплощения» кажется довольно хитрым – что именно (если хоть что-то) явно воплощено в человеческом мозге? И их определение не проводит важного различия между «локальными» оптимизаторами вроде градиентного спуска и целенаправленными планировщиками вроде людей.

Мой собственный подход к рассуждениям об агентности пытается улучшить упомянутые подходы через большую конкретность по поводу мышления, которое мы ожидаем от целенаправленных систем. Также как «иметь интеллект» включает набор способностей (как обсуждалось в предыдущем разделе), «быть целенаправленным» включает некоторые дополнительные способности:

Самосознание: система понимает, что она часть мира, и что её поведение меняет мир;
Планирование: она рассматривает широкий диапазон возможных последовательностей поведения (назовём их «планами»), включая длинные;
Консеквенциализм: она решает, какой план лучше, рассматривая ценность их результатов;
Масштабирование: её выбор чувствителен к далёким во времени и пространстве эффектам планов;
Последовательность: она внутренне объединена для выполнения плана, который сочла лучшим;
Гибкость: Она способна гибко адаптировать свои планы при изменении обстоятельств, а не продолжать те же паттерны поведения.

Заметим, что не надо интерпретировать любую из этих черт как бинарную; напротив, каждая определяет спектр возможностей. Я также не заявляю, что комбинация этих шести измерений – это точная и полная характеристика агентности; только что это хорошая начальная точка и правильный тип рассуждений для анализа агентности. Например, так подсвечивается, что агентность требует комбинации разных способностей – и как следствие, что есть много разных способов быть не максимально агентным. ИИ, высоко поднявшийся по каким-то из этих метрик может быть довольно низок по другим. Рассмотрим по очереди эти черты, и как может выглядеть их недостаток:

Самосознание: для людей, интеллект кажется неотъемлемо связанным с перспективой от первого лица. Но СИИ, обученный на абстрактных данных от третьего лица может приобрести довольно сложную модель мира, которая просто не включает в себя его самого или его выводы. Значительно продвинутая языковая или физическая модель может подпадать под эту категорию.
Планирование: высокоинтеллектуальные агенты будут по умолчанию способны создавать большие сложные планы. Но на практике они, как и люди, могут не всегда использовать эту способность. Представим, к примеру, агента, обученного рассматривать только ограниченный тип планов. Миопическое обучение пытается получить таких агентов; более обобщённо, агент может иметь ограничения на рассматриваемые действия. К примеру, система, отвечающая на вопросы, может рассматривать только планы вида «сначала решить подзадачу 1, потом решить подзадачу 2, потом…».
Консеквенциализм: обычно этот термин в философии описывает агентов, которые считают, что моральность их действий зависит только от последствий этих действий. Тут я использую его более обобщённо, чтобы описать агентов, чьи субъективные предпочтения действий зависят в основном от их последствий. Кажется естественным ожидать, что агенты, обученные функцией вознаграждения, определяемой состоянием мира, будут консеквенциалистами. Но заметим, что люди далеки от стопроцентных консеквенциалистов, поскольку мы часто подчиняемся деонтологическим ограничениям или ограничениям типов поддерживаемых нами рассуждений.
Масштабирование: агенты, заботящиеся только о маломасштабных событиях могут игнорировать крупномасштабные эффекты своих действий. Москольку агенты всегда обучаются в маломасштабном окружении, выработка крупномасштабных целей требует обобщения (способами, которые я опишу ниже).
Последовательность: людям недостаёт этой черты, когда у нас происходит внутренний конфликт – к примеру, когда наши система 1 и система 2 имеют различающиеся цели – или когда наши цели сильно меняются со временем. Хоть наши внутренние конфликты и могут быть просто артефактом нашей эволюционной истории, нельзя отвергнуть возможности того, что одиночные СИИ приобретут модульность, приводящую к сравнимым проблемам. Однако, естественнее всего думать об этой черте в контексте коллектива, где отдельные его члены могут иметь более или менее схожие цели, и могут в большей или меньшей степени координироваться.
Гибкость: негибкий агент может возникнуть в окружении, в котором обычно достаточно одного изначального плана, или где приходится делать компромисс между составлением и выполнением планов. Такие агенты могут демонстрировать сфексное поведение. Другим интересным примером может быть мультиагентная система, в которой много ИИ вкладываются в разработку плана – так что отдельный агент может исполнить план, но не может его пересмотреть.

Система, отвечающая на вопросы (так же известная как оракул) может быть реализована как агент, лишённый и планирования, и консеквенциализма. Для действующего в реальном мире ИИ, я думаю, важно рассмотреть масштаб его целей, я займусь этим дальше в этом разделе. Мы можем оценивать и другие системы по этим критериям. У калькулятора нет их всех. Немного более сложные программы, вроде GPS-навигатора, вероятно, стоит рассматривать в как некоторой ограниченной степени консеквенциалистов (он направляет пользователя по-разному в зависимости от плотности трафика), и, возможно, как обладателей других черт тоже, но лишь чуть-чуть. Большинство животных в некоторой степени обладают самосознанием, консеквенциализмом и последовательностью. Традиционная концепция СИИ имеет все эти черты, что даёт такому СИИ способность следовать ищущим-влияние стратегиям по инструментальным мотивам. Однако, заметим, что эта направленность на цели – не единственный фактор, определяющий, будет ли ИИ ищущим-влияние: содержание его целей также имеет значение. Высокоагентный ИИ, имеющий цель оставаться подчинённым людям может никогда не исполнять ищущие-влияние действия. Как ранее замечено, ИИ, имеющий финальную целью получения власти, может быть ищущим-влияние, даже не обладая большинством этих черт. Я рассмотрю пути соказания влияния на цели агента в следующем разделе про согласование.

Вероятность разработки высокоагентного СИИ

Насколько вероятно, что разрабатывая СИИ мы создадим систему с всеми шестью перечисленными мной выше чертами? Один из подходов к ответу на этот вопрос включает предсказывание, какие типы архитектуры моделей и алгоритмов обучения будут использованы – к примеру, будут ли они безмодельными или, напротив, основанными на модели? Мне кажется, такая линия рассуждения недостаточно абстрактна, поскольку мы просто не знаем о мышлении и обучении достаточно, чтобы отобразить из в высокоуровневые решения проектирования. Если мы обучим СИИ безмодельным способом, я предсказываю, что он всё равно будет планировать с использованием внутренней модели. Если мы обучим основанный на модели СИИ, я предсказываю, что его модель будет настолько абстрактной и иерархичное, что взгляд на его архитектуру очень мало скажет нам о настоящем происходящем там мышлении.

На более высоком уровне абстракции, я думаю, что для высокоинтеллектуального ИИ будет проще приобрести эти компоненты агентности. Однако, степень агентности наших наиболее продвинутых ИИ будет зависеть от режима обучения, которым они будут получены. К примеру, наши лучшие языковые модели уже обобщают свои тренировочные данные достаточно хорошо, чтобы отвечать на довольно много вопросов. Я могу представить, как они становятся всё более и более компетентными с помощью обучения с учителем и без учителя, до тех пор, когда они станут способны отвечать на вопросы, ответы на которые неизвестны людям, но всё ещё остаются лишёнными всеми указанными чертами. Можно провести аналогию с человеческой зрительной системой, которая совершает очень полезное мышления, но не очень «ориентирована на цели» сама по себе.

Сой основной аргумент – что агентность – это не просто эмерджентное свойство высокоинтеллектуальных систем, но скорее набор способностей, которые должны быть выработаны при обучении, и которые не возникнут без отбора по ним. Одно из поддерживающих свидетельств – парадокс Моравека: наблюдение, что кажущиеся наиболее сложными для людей когнитивные навыки зачастую очень просты для ИИ, и наоборот. В частности, парадокс Моравека предсказывает, что создание ИИ, выполняющих сложную интеллектуальную работу вроде научных исследований может на самом деле быть проще, чем создание ИИ, разделяющего более глубокие присущие людям черты вроде целей и желаний. Для нас понимание мира и изменение мира кажутся очень тесно связанными, потому что на наших предков действовал отбор по способности действовать в мире и улучшать своё положение в нём. Но если это интуитивное рассуждение ошибочно, то даже обучение с подкреплением может не выработать все аспекты направленности на цели, если цель обучения – отвечать на вопросы.

Однако, есть и аргументы в пользу того, что сложно обучить ИИ выполнять интеллектуальную работу так, чтобы они не выработали направленную на цели агентность. В случае людей, нужда взаимодействия с неограниченным окружением для достижения своих целей толкнула нас на развитие нашего сложного обобщённого интеллекта. Типичный пример аналогичного подхода к СИИ – это обучение с покреплением в сложном симулированном 3D-окружении (или, возможно, через длинные разговоры в языковой среде). В таких окружениях, агенты, планирующие эффекты своих действий на длинных временных промежутках будут в целом справляться лучше. Это подразумевает, что наши ИИ будут подвержены оптимизационному давлению в сторону большей агентности (по моим критериям). Мы можем ожидать, что СИИ будет более агентным, если он будет обучен не просто в сложном окружении, но в сложном соревновательном мультиагентном окружении. Так обученным агентам будет необходимо уметь гибко адаптировать планы под поведение соперников; и им будет выгодно рассматривать больший диапазон планов на большем временном масштабе, чем соперники. С другой стороны, кажется очень сложным предсказать общий эффект взаимодействий между многими агентами, например, в людях, они привели к выработке (иногда не-консеквенциалистского) альтруизма.

Сейчас есть очень мало уверенности в том, какие режимы обучения лучше подходят для создания СИИ. Но если есть несколько рабочих, то стоит ожидать, что экономическое давление будет толкать исследователей к использованию в первую очередь тех, которые создают наиболее агентных ИИ, потому что они будут наиболее полезными (предполагая, что проблемы согласования не становятся серьёзными, пока мы не приближаемся к СИИ). В целом, чем шире задача, для которой используется ИИ, тем ценнее для него рассуждать о том, ка достигнуть назначенную ему цель путями, которым он не был специально обучен. Например, отвечающая на вопросы система с целью помогать своим пользователям понимать мир может быть куда полезнее той, которая компетентна в своей проектной цели выдачи точных ответов на вопросы, но не имеет своих целей. Вообще, я думаю, что большинство исследователей безопасности ИИ выступают за приоретизацию направлений исследований, которые приведут к менее агентным СИИ, и за использование этих СИИ для помощи в согласовании более агентных поздних СИИ. Ведётся работа и над тем, чтобы напрямую сделать СИИ менее агентным (как квантилизация), хотя в целом она сдерживается недостатком ясности вокруг этих концептов.

Я уже рассуждал о рекурсивном улучшении в предыдущем разделе, но ещё кое что полезно подсветить здесь: раз большая агентность помогает агенту достигать своих целей, способные к модификации себя агенты будут иметь стимул делать себя более агентными (как люди уже пытаются, хоть и ограниченно).[8] Так что стоит рассматривать и такой тип рекурсивного улучшения; соображения из предыдущего раздела к нему также в основном применимы.

Цели как обобщённые концепты

Следует заметить, я не ожидаю, что обучающие задачи будут иметь такой же масштаб и продолжительность, как волнующие нас задачи в реальном мире. Так что СИИ не будет напрямую отбираться по крупномасштабным или долгосрочным целям. Но вероятно, что выученные в тренировочном окружении цели обобщаться до больших масштабовы, так же как люди выработали крупномасштабные цели из эволюции в относительно ограниченном окружении наших предков. В современном обществе люди часто тратят всю свою жизнь, пытаясь значительно повлиять на весь мир – с помощью науки, бизнеса, политики, и многого другого. И некоторые люди стремятся повлиять на весь мир на века, тысячелетия, или даже дольше, несмотря на то, что никогда не было значительного эволюционного отбора людей по беспокойству о том, что произойдёт через несколько сотен лет, или по обращению внимания на события с другой стороны планеты. Это даёт нам повод к беспокоиться, что СИИ, не обученный явно преследовать амбициозные крупномасштабные цели, всё равно может это делать. Я также ожидаю, что исследователи будут активно стремиться к обобщениям такого вида в ИИ, потому что на это полагаются некоторые важные применения. Для долгосрочных задач вроде управления компанией СИИ понадобится способность и мотивация выбирать между возможными действиями с учётом их мировых последствий на протяжении лет или десятилетий.

Можно ли конкретнее описать, как выглядит обобщение целей на намного большие масштабы? Учитывая проблемы с подходом максимизации ожидаемой полезности, которые я описывал раньше, не кажется подходящим думать о целях как о функциях полезности от состояния мира. Скорее, цели агента можно сформулировать в терминах тех концептов, которыми он оперирует – независимо от того, относятся ли они к его мыслительному процессу, деонтологическим правилам или исходам во внешнем мире.[9] И пока концепты агента гибко подстраиваются и обобщаются к новым обстоятельствам, цели, отсылающие к ним останутся теми же. Сложно и спекулятивно пытаться описать, как может произойти такое обобщение, но, грубо говоря, стоит ожидать, что интеллектуальные агенты способны абстрагироваться от разница между объектами и ситуациями, которые имеют высокоуровневые сходства. К примеру, после обучения в симуляции, агент может перенести своё отношение к объектам и ситуациям в симуляции на похожие в (куда большем) реальном мире.[10] Альтернативно, обобщение может поризойти из постановки цели: агент, которого всегда вознаграждали за накопление ресурсов в тренировочном окружении может встроить внутреннюю цель «накопить как можно больше ресурсов». Похожим образом, агенты, обученные соперничать в маломасштабной области могут выработать цель превзойти друг друга, остающуюся и при действии на очень больших масштабах.

С такой точки зрения, чтобы предсказать поведение агента, надо рассмотреть, какими концептами он обладает, как они будут обобщаться, и как агент будет о них рассуждать. Я знаю, что это выглядит до невозможности сложной задачей – даже рассуждения человеческого уровня могут приводить к экстремальным непредсказуемым заключениям (как показывает история философии). Однако, я надеюсь, что мы можем вложить в СИИ низкоуровневые настройки ценностей, которые направят их высокоуровневые рассуждения в безопасных направлениях. Я рассмотрю некоторые подходы к этому в следующем разделе про согласование.

Группы и агентность

Раз я рассмотрел коллективные СИИ к предыдущем разделе, важно взглянуть, подходит ли мой подход к пониманию агентности так же и к группам агентов. Думаю, да: нет причин, почему описанные мной черты должны быть присущи одиночной нейросети. Однако, отношения между целенаправленностью коллективного СИИ и целенаправленностями его членов могут быть не просты, они зависят от внутренних взаимодействий.

Одна из ключевых переменных – это насколько (и какие типы) много опыта взаимодействия друг с другом во время обучения имеют члены коллективного СИИ. Если они в первую очередь обучались кооперации, это увеличивает вероятность того, что получившийся коллективный СИИ будет целенаправленным агентом, даже если его отдельные члены не особо агентны. Но есть хорошие причины ожидать, что процесс обучения будет включать некоторую конкуренцию, которая уменьшит их последовательность как группы. Внутренняя конкуренция также может способствовать краткосрочному ищущему-влияния поведению, поскольку каждый член выучится поиску влияния для того, чтобы превзойти других. Особо выдающийся пример – человечество смогло захватить мир за тысячелетия не с помощью какого-то общего плана это сделать, а, скорее, как результат попыток многих индивидуумов распространить своё краткосрочное влияние.

Ещё возможно, что члены коллективного СИИ вообще не будут обучены взаимодействию друг с другом, в каком случае кооперация между ними будет целиком зависеть от их способности обобщать выработанные навыки. Сложно представить такой случай, поскольку человеческий мозг очень хорошо адаптирован для групповых взаимодействий. Но пока люди и согласованные СИИ будут удерживать подавляющую долю власти в мире, будет естественный стимул для СИИ, преследующих несогласованные цели, координировать друг с другом для расширения своего влияния за наш счёт.[11] Преуспеют ли они – зависит от того, какие механизмы координации они будут способны придумать.

Второй фактор – насколько много специализации в коллективном СИИ. В случае, куогда он состоит только из копий одного агента, нам стоит ожидать, что они будут очень хорошо друг друга понимать и по большей части разделять цели. Тогда мы сможем предсказать целенаправленность всей группы, изучив оригинального агента. Но стоит рассмотрения и случай коллектива, состоящего из агентов с разными навыками. С таким типом специализации коллектив в целом может быть куда более агентным, чем его составляющие, что может упростить безопасный запуск частей коллектива.

Согласование

В предыдущем разделе я рассмотрел правдоподобность того, агенты, полученные машинным обучением, выработают способность к поиску влияния по инструментальным причинам. Это не было бы проблемой, если бы они делали это только способами, согласованными с человеческими ценностями. В самом деле, многие из преимуществ, которые мы ожидаем получить от СИИ, потребуют у них обладания влиянием на мир. И по умолчанию, разработчики ИИ будут направлять свои усилия на создание агентов, которые будут делать то, что желают разработчики, а не обучатся быть непослушными. Однако, есть причины беспокоиться, что несмотря на усилия разработчиков, ИИ приобретут нежелательные конечные цели, которые приведут к конфликту с людьми.

Для начала, что вообще значит «согласованные с человеческими ценностями»? Вслед за Габриэлем и Кристиано, я проведу разделение между двумя типами интерпретаций. Минималистичный (он же узкий) подход сосредотачивается на избегании катастрофических последствий. Лучший пример – концепт согласования намерений Кристиано: «Когда я говорю, что ИИ A согласован с оператором H, я имею в виду: A пытается сделать то, что H от него хочет.» Хоть всегда и будут пограничные случаи определения намерений данного человека, это всё же даёт грубую завязанную на здравом смысле интерпретацию. Напротив, максималистский (он же амбициозный) подход пытается заставить ИИ принять или следовать конкретному всеохватывающему набору ценностей – вроде конкретной моральной теории, глобального демократического консенсуса, или мета-уровневой процедуры выбора между моральными теориями.

Я считаю, что определять согласование в максималистских терминах непрактично, поскольку это сводит воедино технические, этические и политические проблемы. Может нам и надо добиться прогресса во всех трёх, но добавление двух последних может значительно снизить ясность технических проблем. Так что с этого момента, когда я говорю о согласовании, я имею в вижу только согласование намерений. Я также определю, что ИИ A несогласован с человеком H, если H хотел бы, чтобы A не делал того, что A пытается сделать (если бы H был осведомлён о намерениях A). Это подразумевает, что ИИ потенциально могут быть и не согласованными и не несогласованными. С оператором – к примеру, если делают только то, что оператора не заботит. Очевидно, считается ли ИИ согласованным или несогласованным сильно зависит от конкретного оператора, но в этом докладе я сосредоточусь на ИИ, явно несогласованных с большинством людей.

Одно важное свойство этих определений: используя слово «пытается», они сосредотачиваются на намерениях ИИ, не на итоговых достигнутых результатах. Я думаю, это имеет смысл, потому что нам следует ожидать, что СИИ будут очень хорошо понимать мир, и что ключевой задачей безопасности будет правильная настройка их намерений. В частности, я хочу прояснить, что когда я говорю о несогласованном СИИ, типичный пример в моей голове – это не агент, который не слушается потому что неправильно понимает, что мы хотим, или слишком буквально понимает наши инструкции (что Бостром называл «извращённым воплощением»). Кажется вероятным, что СИИ будут по умолчанию очень хорошо понимать намерения наших инструкций, ведь они вероятно будут обучены на задачах, включающих людей и данные о людях – и понимание человеческого разума особенно важно для компетентности в таких задачах и во внешнем мире.[12] Скорее, моё главное беспокойство в том, что СИИ будет понимать, что мы хотим, но ему просто будет всё равно, потому что приобретённые при обучении мотивации оказались не теми, какие нам хотелось.

Идея, что ИИ не будут автоматически приобретать правильные мотивации за счёт большего интеллекта – это следствие сформулированного Бостромом тезиса ортогональности, который гласит, что «более-менее любой уровень интеллекта в принципе может сочетаться с более-менее любой конечной целью». Для наших целей хватит и более слабой версии: просто что высокоинтеллектуальный агент может иметь крупномасштабные цели, несогласованные с большинством людей. Доказательство существования предоставляется высокофункциональными психопатами, которые понимают, что другие люди мотивированы моралью, и могут использовать этот факт для предсказания их действий и манипуляции, но всё же не мотивированы моралью сами.

Мы можем надеяться, что осторожно выбирая задачи, на которых агент будет обучаться, мы можем предотвратить выработку этими агентами целей, конфликтующих с нашими, без необходимости прорывов в техническом исследовании безопасности. Почему это может не сработать? Существует разделение проблему внешней несогласованности и проблему внутренней несогласованности. Я объясню обе и предоставлю аргументы, почему они могут возникнуть. Я также рассмотрю некоторые ограничения такого подхода и альтернативные точки зрения на согласование.

Внешняя и внутренняя несогласованность: стандартное описание

Мы проводим машинное обучение системы для выполнения желаемого поведения, оптимизируя значение какой-то целевой функции – к примеру, функции вознаграждения в обучении с подкреплением. Проблема внешней несогласованности – это когда у нас не получилось реализовать целевую функцию, описывающую то поведение, которое мы на самом деле от системы хотим, не награждая также нежелательное поведение. Ключевое соображение за этим концептом – явно программировать выражающие все наши желания по поводу поведения СИИ целевые функции сложно. Нет простой метрики, которую нам бы хотелось, чтобы агенты максимизировали – скорее, желаемое поведение СИИ лучше формулируется в концептах вроде послушности, согласия, поддержки, морали и кооперации, которые мы в реалистичном окружении не можем точно определить. Хоть мы и можем определить для них цели-посредники, согласно Закону Гудхарта какое-нибудь нежелательное поведение будет очень хорошо оцениваться этими посредниками и потому будет подкрепляться у обучающихся на них ИИ. Даже сравнительно примитивные современные системы демонстрируют обходящее спецификации поведение, иногда довольно креативное и неожиданное, хотя концепты, которые мы пытаемся определить, гораздо проще.

Один из способов подойти к этой проблеме – включить человеческую обратную связь в целевую функцию, оценивающую поведение ИИ при обучении. Однако, тут есть как минимум три трудности. Первая – то, что предоставлять обратную связь от человека на все данные, нужные для обучения ИИ сложным задачам, до невозможности дорого. Это известно как проблема масштабируемого надзора; основной подход её решения – моделирование наград. Вторая – что для долгосрочных задач нам может понадобиться дать обратную связь прежде, чем у нас будет возможность увидеть все последствия действий агента. Даже в таких простых областях как го, уже зачастую очень сложно определить, насколько хорош был какой-нибудь ход, не увидев, как дальше пройдёт игра. А в больших областях может быть слишком много сложных последствий, чтобы их мог оценить один человек. Основной подход к этой проблеме – использование нескольких ИИ для рекурсивного разложения задачи оценивания, как Дебаты, Рекурсивное Моделирование Наград, и Итеративное Усиление. Через конструирование искусственных оценивателей, эти техники также пытаются подобраться и к третьей трудности с человеческой обратной связью: что людьми можно манипулировать, чтобы они интерпретировали поведение позитивнее, например, выдавая им обманчивые данные (как в случае робота-руки тут).

Даже если мы решим внешнюю несогласованность, определив «безопасную» целевую функцию, мы всё ещё сможем встретить провал внутренней согласованности: наши агенты могут выработать цели, отличающиеся от заданных целевой функцией. Это вероятно, когда обучающее окружение содержит постоянно полезные для получения высокой оценки данной целевой функции подцели, такие как сбор ресурсов и информации, или получение власти.[13] Если агенты стабильно получают более высокое вознаграждение при достижении этих подцелей, то оптимизатор может отобрать агентов, преследующих эти подцели сами по себе. (Это один из путей, которым агенты могут выработать финальную цель набора власти, как упомянуто в начале раздела про Цели и Агентность.)

Это аналогично тому, что произошло во время эволюции людей; мы были «обучены» увеличивать свою генетическую приспособленность. В окружении наших предков, подцели вроде любви, счастья и социального статуса были полезны для достижения высокой совокупной генетической приспособленности, так что мы эволюционировали стремление к ним. Но сейчас, когда мы достаточно могущественны, чтобы изменять природный мир согласно нашим желаниям, есть значительные различия между поведением, которое максимизирует генетическую приспособленность (например, частое донорство спермы или яйцеклеток), и поведением, которое мы демонстрируем, преследуя эволюционировавшие у нас мотивации. Другой пример: предположим, мы вознаграждаем агента каждый раз, когда он корректно следует инструкции человека, так что ведущее к такому поведению мышление поощряется оптимизатором. Интуитивно, мы надеемся, что агент выработает цель подчинения людям. Но также вполне представимо, что послушное поведение агента руководствуется целью «не быть выключенным», если агент понимает, что непослушание приведёт к его выключению – в этом случае оптимизатор будет на самом деле вознаграждать цель выживания каждый раз, когда она будет приводить к следованию инструкциям. Два агента, каждый мотивированный одной из этих целей, могут вести себя очень похоже до тех пор, пока они не окажутся в положении, в котором можно не подчиниться, не будучи выключенным.[14]

Что определяет, какой из этих агентов на самом деле возникнет? Как я упоминал выше, один важный фактор – это наличие подцелей, которые стабильно приводят к вознаграждению при обучении. Другой – насколько просто и выгодно оптимизатору сделать агента мотивированным этими подцелями, а не обучающей целевой функцией. В случае людей, к примеру, концепт совокупной генетической приспособленности был очень сложным для встраивания эволюцией в мотивационную систему людей. И даже если бы наши предки каким-то образом выработали этот концепт, им было бы сложно придумать лучшие способы его достижения, чем и так вложенные в них эволюцией. Так что в окружении наших предков было сравнительно мало давления отбора на внутреннюю согласованность с эволюцией. В контексте обучения ИИ это значит, что сложность целей, которые мы пытаемся в него вложить, мешает два раза: она не только усложняет определение приемлемой целевой функции, но ещё и уменьшает вероятность того, что ИИ станет мотивированным предполагаемыми целями, даже если функция была правильной. Конечно, мы ожидаем, что потом ИИ станут достаточно интеллектуальными, чтобы точно понимать, какие цели мы предполагали им дать. Но к тому времени будет сложно убрать их уже существующие мотивации, и скорее всего они будут достаточно умны для попыток обманчивого поведения (как в гипотетическом примере из предыдущего абзаца).

Так как мы можем увериться в внутренней согласованности СИИ с намерениями человека? Эта область исследования пока что получала меньше внимания, чем внешнее согласование, потому что это более хитрая задача. Один из потенциальных подходов включает добавление тренировочных примеров, в которых поведение агентов, мотивированных несогласованными целями, будет отличаться от согласованных агентов. Однако, проектировать и создавать такие тренировочные данные сейчас намного сложнее, чем массовое производство данных, например, процедурно-генерируемой симуляцией или поиском по сети. Частично это потому, что конкретные тренировочные данные в целом сложнее создавать, но есть ещё три дополнительных причины. Во-первых, по умолчанию мы просто не знаем, какие нежелательные мотивации возникают в наших агентах, на наказании каких нужно сосредоточиться. Техники интерпретируемости могут с этим помочь, но их разработка очень сложна (я рассмотрю это в следующем разделе). Во-вторых, наиболее вероятно приобретаемые агентами несогласованные мотивации – это те, которые наиболее устойчиво полезны. Например, особенно сложно спроектировать тренировочное окружение, в котором доступ к большему количеству информации приводит к более низкой награде. В третьих, мы нас больше всего беспокоят агенты, имеющие несогласованные крупномасштабные цели. Но крупномасштабные цели сложнее всего настроить при обучении, неважно, в симуляции или в реальном мире. Так что чтобы подобраться к этим проблемам или обнаружить новые техники внутреннего согласования требуется ещё много работы.

Более холистический взгляд на согласование

Внешнее согласование – это задача корректного оценивания поведения ИИ; внутреннее согласование – задача заставить цели ИИ соответствовать этим оценкам. В некоторой степени мы можем трактовать эти две задачи как отдельные; однако, я думаю, также важно иметь в виду, каким образом картина «согласование = внешнее согласование + внутреннее согласование» может быть неполна или обманчива. В частности, что вообще значит реализовать «безопасную» целевую функцию? Это функция, которую мы хотим, чтобы агент действительно максимизировал? Но хоть максимизация ожидаемой награды имеет смысл в формальных случаях вроде MDP или POMDP, она куда хуже определена при реализации целевой функции в реальном мире. Если есть последовательность действий, позволяющая агенту исказить канал получения вознаграждения, то «завайрхедиться», максимизировав этот канал, практически всегда будет стратегией для получения наивысшего сигнала вознаграждения в долгосрочной перспективе (даже если функция вознаграждения сильно наказывает действия, к этому ведущие).[15] И если мы используем человеческую обратную связь, то, как уже обсуждалось, оптимально будет манипулировать надсмотрщиками, чтобы они выдали максимально позитивную оценку. (Существует предположение, что «миопическое» обучение может решить проблемы искажения и манипуляции, но тут я аргументировал, что оно лишь прячет их.)

Вторая причина, почему функция вознаграждения – это «дырявая абстракция» в том, что любые реальные агенты, которых бы можем обучить в обозримом будущем, будут очень, очень далеки от предельно оптимального поведения нетривиальных функций вознаграждения. В частности, они будут замечать вознаграждения лишь крохотной доли возможных исходов. Более того, если это основанные на обобщении агенты, то они зачастую будут подходить к выполнению новых задач с очень маленьким обучением конкретно на них. Так что поведение агента почти всегда будет в первую очередь зависеть не от настоящих значений функции вознаграждения, а скорее от того, как агент обобщил ранее собранные в других состояниях данные.[16] Это, наверное, очевидно, но стоит особо отметить, потому что очень многие теоремы о сходимости алгоритмов обучения с подкреплением полагаются на рассмотрение всех состояний на бесконечном пределе, так что скажут нам очень мало про поведение в конечном промежутке времени.

Третья причина – исследователи уже сейчас модифицируют функции вознаграждения так, чтобы это меняло оптимальные пути действий, когда это кажется полезным. К примеру, мы добавляем условия формирования для появления неявного плана обучения, или бонусы за исследование, чтобы вытолкнуть агента из локального оптимума. Особенно относящийся к безопасности пример – нейросеть можно модифицировать так, чтобы её оценка зависела не только от вывода, но и от внутренних отображений. Это особенно полезно для оказания влияния на то, как нейросети обобщает – к примеру, можно заставить их игнорировать ложные корреляции в тренировочных данных. Но опять же, это усложняет интерпретацию функций вознаграждения как спецификаций желаемых исходов процесса принятия решений.

Как тогда нам про них думать? Ну, у нас есть набор доступных инструментов, чтобы удостовериться, что СИИ будет согласованным – мы можем менять используемые при обучении нейронные архитектуры, алгоритмы обучения с подкреплением, окружения, оптимизаторы, и т.д. Следует думать о нашей возможности определять целевую функцию как о самом мощном инструменте. Но мощном не потому, что она сама определяет мотивации агента, а скорее потому, что вытащенные из неё примеры оформляют мотивации и мышление агента.

С этой точки зрения, нам стоит меньше беспокоиться об абсолютных оптимумах нашей целевой функции, поскольку они никогда не проявятся при обучении (и поскольку они скорее всего будут включать в себя перехват вознаграждений). Вместо этого, стоит сосредоточиться на том, как целевые функции, в сочетании с другими частями настроек обучения, создают давление отбора в сторону агентов, думающих тем способом, которым нам хочется, и потому имеющих желательные мотивации в широком диапазоне обстоятельств.[17] (См. этот пост Санджива Арорыhttp://www.offconvex.org/2019/06/03/trajectories/ для более математического оформления похожего заявления.)

Эта перспектива предоставляет нам другой способ взглянуть на аргументы из предыдущего раздела о высокоагентных ИИ. Дело обстоит не так, что ИИ обязательно станут думать в терминах крупномасштабных консеквенциалистских целей, и наш выбор целевой функции лишь определит, какие цели они будут максимизировать. Скорее, все когнитивные способности ИИ, включая системы мотивации, выработаются при обучении. Целевая функция (и остальные настройки обучения) определят пределы их агентности и их отношение к самой целевой функции! Это может позволить нам спроектировать планы обучения, создающие давление в сторону очень интеллектуальных и способных, но не очень агентных ИИ – таким образом предотвращая несогласованность, не решая ни внешнего, ни внутреннего согласования.

Но если не получится, то нам понадобится согласовать агентныеСИИ. В дополнение к техникам, которые я описывал раньше, для этого надо точнее разобраться в концептах и целях, которыми обладают наши агенты. Я пессимистичен по поводу полезности математики в таких высокоуровневых вещах. Для упрощения доказательств математические подходы часто абстрагируются от аспектов задачи, которые нас на самом деле волнуют – делая эти доказательства куда менее ценными, чем они кажутся. Я думаю, что эта критика относится к подходу максимизации полезности, как уже обсуждалось. Другие примеры включают большинство доказательств о сходимости обучения с подкреплением и об устойчивости конкурентного обучения. Я думаю, что вместо этого, нам нужны принципы и подходы похожие на использующихся в когнитивных науках и эволюционной биологии. Я думаю, что категоризация внутренней несогласованности на верховую и низовую – важный пример такого прогресса;[14] я также был бы рад увидеть подход, который позволит осмысленно говорить о взломе градиента,[18] и различии между мотивацией вознаграждающим сигналом и вознаграждающей функцией.[15] Нам стоит называть функции вознаграждения как «правильные» или «неправильные» только в той степени, в какой они успешно или неуспешно толкают агента к приобретению желаемых мотиваций и избеганию проблем вроде перечисленных.

В последнем разделе, я рассмотрю вопрос, сможет ли в случае нашего провала СИИ с целью увеличения своего влияния за счёт людей преуспеть в этом.

Контроль

Важно заметить, что мои предыдущие аргументы самих по себе недостаточно для заключения, что СИИ перехватит у нас контроль над миром. Как аналогию можно взять то, что научные знания дают нам куда больше возможностей, чем у людей каменного века, но сомнительно, что один современный человек, заброшенный назад в то время, смог бы захватить весь мир. Этот последний шаг аргументации полагается на дополнительные предсказания о динамике перехода от людей к СИИ в качестве умнейших агентов на Земле. Она будет зависеть от технологических, экономических и политических факторов, которые я рассмотрю в этом разделе. Возвращающейся темой будет важность ожидания того, что СИИ будет развёрнут на многих разных компьютерах, а не привязан к одному конкретному «железу», как люди.[19]

Я начну с обсуждения двух очень высокоуровневых аргументов. Первый – что более обобщённый интеллект позволяет приобрести большую власть, с помощью крупномасштабной координации и разработки новых технологий. И то, и другое вложилось в взятие контроля над миром человеческим видом; и то, и другое вкладывалось в другие большие сдвиги распределения сил (например, индустриальную революцию). Если все люди и согласованные СИИ менее способны в этих двух отношениях, чем несогласованные СИИ, то стоит ожидать, что последние разработают больше новых технологий и используют их для накопления большего количества ресурсов, если на них не будут возложены сильные ограничения и не окажется, что они не способны хорошо координироваться (я кратко рассмотрю обе возможности).

Однако, с другой стороны, захватить мир очень сложно. В частности, если люди у власти видят, что их позиции ослабляются, они наверняка предпримут действия, чтобы это предотвратить. Кроме того, всегда намного проще понимать и рассуждать о более конкретной и осязаемой задаче; а крупномасштабное будущее развитие обычно очень плохо прогнозируется. Так что даже если эти высокоуровневые аргументы сложно отвергнуть, могут быть какие-то решения, которые мы пропустили, но которые будут замечены, когда для этого появятся стимулы, а набор доступных подходов будет виден более ясно.

Как мы можем пойти дальше этих высокоуровневых аргументов? В этом разделе я представлю два типа катастрофических сценариев и четыре фактора, которые повлияют на нашу способность удерживать контроль, если мы разработаем не полностью согласованные СИИ:

Скорость разработки ИИ
Прозрачность ИИ-систем
Стратегии ограниченного развёртывания
Политическая и экономическая координация людей

Сценарии катастрофы

Было несколько попыток описать катастрофические исходы, которые могут быть вызваны несогласованными суперинтеллектами, хотя очень сложно охарактеризовать их детально. Говоря в общем, самые убедительные сценарии делятся на две категории. Кристиано описывает СИИ, получающие влияние изнутри наших нынешних экономических и политических систем, забирая или получая от людей контроль над компаниями и государственными учреждениями. В некоторые момент «мы достигаем точки, когда мы уже не можем оправиться от одновременного отказа автоматизации» – после чего эти СИИ уже не имеют стимула следовать человеческим законам. Хансон также представляет сценарий, в котором виртуальные разумы приходят к экономическому доминированию (хотя он менее взволнован по поводу несогласованности, отчасти потому, что он сосредотачивается на эмулированных человеческих разумах). В обоих сценариях биологические люди теряют влияние, потому что они менее конкурентноспособны в стратегически важных задачах, но никакой одиночный СИИ не способен захватить контроль над миром. В некоторой степени, эти сценарии аналогичны нашей нынешней ситуации, когда большие корпорации и учреждения смогли накопить много силы, хоть большинство людей и не согласны с их целями. Однако, поскольку эти организации состоят из людей, на них всё же оказывается давление в сторону согласованности с человеческими целями, что неприменимо к группе СИИ.

Юдковский и Бостром, напротив, описывают сценарии, в которых один СИИ набирает силу в основном через технологические прорывы, будучи в основном отделённым от экономики. Ключевое предположение, разделяющее эти две категории сценариев – сможет ли отдельный СИИ таким образом стать достаточно могущественным, чтобы захватить контроль над миром. Существующие описания таких сценариев приводят в пример сверхчеловеческие нанотехнологии, биотехнологии и компьютерный взлом; однако, детально их охарактеризовать сложно, потому что эти технологии пока не существуют. Однако кажется весьма вероятным, что существуют какие-то будущие технологии, которые предоставят решающее стратегическое преимущество, если ими обладает только одно действующее лицо, так ключевой фактор, определяющий правдоподобность таких сценариев – будет ли разработка ИИ достаточно быстрой, чтобы допустить такую концентрацию сил.

О обоих случаях, люди и согласованные ИИ в итоге окажутся намного слабее несогласованных ИИ, которые тогда смогут завладеть нашими ресурсами в своих собственных целях. Ещё худший сценарий – если несогласованный СИИ действует намеренно враждебно людям – к примеру, угрожает ради уступок. Как мы можем избежать таких сценариев? Есть искушение напрямую целиться в финальную цель способности согласовывать произвольно умные ИИ, но я думаю, что наиболее реалистичный горизонт планирования доходит до ИИ, намного лучших, чем люди в исследованиях безопасности ИИ. Так что нашей целью должно быть удостовериться, что эти ИИ согласованы, и что их исследования будут использоваться при создании следующих. Катастрофа какой категории более вероятно этому помешает зависит не только от интеллекта, агентности и целей разработанных нами ИИ, но и от четырёх перечисленных выше факторов, которые я сейчас рассмотрю подробнее.

Скорость разработки ИИ

Если разработка ИИ будет продвигаться очень быстро, то мы будем менее способны адекватно на неё реагировать. В частности, нам стоит интересоваться, сколько времени займёт продвижение СИИ от интеллекта человеческого уровня до суперинтеллекта, то, что мы называем периодом взлёта. История систем вроде AlphaStar, AlphaGo и OpenAI Five даёт нам некоторое свидетельство, что он будет коротким: каждая из них после длительного периода разработки быстро продвинулась от любительского до сверхчеловеческого уровня. Схожее явление произошло с эволюцией людей, когда нам потребовалась всего пара миллионов лет, чтобы стать намного умнее шимпанзе. В нашем случае, одним из ключевых факторов стало масштабирование «железа» мозга – которое, как я уже упоминал, намного проще для СИИ, чем для людей.

Вопрос того, как будет влиять масштабирование железа и времени обучения, важен, но в долгосрочной перспективе самый важный вопрос – как будет влиять масштабирование интеллекта разработчиков – потому что однажды большая часть исследований в области ИИ и смежных будет выполняться самими СИИ (в процессе, который я называл рекурсивным улучшением). В частности, в интересующем нас диапазоне интеллекта, будет ли рост интеллекта СИИ на δ увеличивать интеллект лучшего следующего СИИ, которого он может разработать, на больше или меньше, чем на δ? Если больше, то рекурсивное улучшение в какой-то момент резко ускорит прогресс разработки ИИ. Юдковский заявляет в пользу этой гипотезы:

История эволюции гоминидов до сегодняшнего дня показывает, что для существенного роста реальных когнитивных способностей не требуется экспоненциально возрастающего количества эволюционной оптимизации. Чтобы добраться от Человека Прямоходящего до Человека Разумного не потребовалось в десять раз большего эволюционного интервала, чем от Австралопитека до Человека Прямоходящего. Вся выгода от открытий вроде изобретения агрикультуры, науки или компьютеров произошла безо всякой способности вкладывать технологические дивиденды в увеличение размера мозга, ускорение нейронов или улучшение низкоуровневых алгоритмов, ими используемых. Раз ИИ может вкладывать плоды своего интеллекта в аналоги всего этого, нам стоит ожидать, что кривая развития ИИ будет куда круче, чем человеческая.

Я рассматриваю это как сильный аргумент в пользу того, что темп прогресса однажды станет намного быстрее, чем сейчас. Я куда менее уверен по поводу того, когда произойдёт это ускорение – к примеру, может оказаться, что описанная петля положительной обратной связи не будет иметь большого значения до момента, когда СИИ уже будет суперинтеллектуальным, так что период взлёта (определённый выше) будет всё же довольно медленным. Есть конкретные возражения против наиболее экстремальных сценариев быстрого взлёта, постулирующих резкий скачок в способностях ИИ перед тем, как он станет оказывать трансформативное влияние. Некоторые ключевые аргументы:

Разработка СИИ будет конкурентным усилием, в котором много исследователей будут стремиться встроить в свои ИИ обобщённые когнитивные способности, и будут постепенно продвигаться в этом. Это делает маловероятным наличие низко висящих плодов, обеспечивающих при их достижении большой скачок способностей. (Можно рассмотреть культурную эволюцию как такой низковисящий плод в развитии людей, что объяснило бы, почему она привела к такому быстрому прогрессу.)
Доступность вычислительных мощностей, являющаяся по некоторым мнениям ключевым двигателем прогресса ИИ, увеличивается довольно плавно.
Плавный технологический прогресс исторически куда больше распространён, чем скачкообразный. К примеру, прогресс шахматных ИИ был устойчивым и предсказуемым много десятилетий.

Заметим, что все эти аргументы совместимы с плавной, но ускоряющейся со всё большим вкладом ИИ-систем разработкой ИИ.

Прозрачность ИИ-систем

Прозрачная ИИ-система – такая, чьи мысли и поведение мы можем понять и предсказать; мы можем быть более уверенными в своей способности удерживать контроль над СИИ, если он прозрачный. Если мы можем сказать, когда система планирует предательское поведение, то мы можем выключить её до того, как она получит возможность осуществить свой план. Заметим, что подобная информация также была бы ценна для улучшения координации людей с СИИ, и, конечно, для обучения, как я кратко рассматривал в предыдущих разделах.

Хубингер перечисляет три широких подхода к увеличению прозрачности ИИ. Один – через создание инструментов интерпретируемости, которые позволят нам анализировать внутреннее функционирование существующей системы. Наша способность интерпретировать процессы в мозгах людей или животных сейчас не очень развита, но это частично из-за сложности высокоточных измерений. Напротив, в нейросетях мы можем напрямую прочитать каждый вес и каждую активацию, и даже менять их по отдельности, чтобы посмотреть, что произойдёт. С другой стороны, если наши наиболее развитые системы будут быстро меняться, то предыдущие исследования прозрачности смогут быстро устаревать. В этом отношении нейробиологам – которые могут изучать одну мозговую архитектуру десятилетиями – проще.

Второй подход – создание стимулов к прозрачности во время обучения. К примеру, мы можем вознаграждать агента за объяснение своего мыслительного процесса, или за поведение предсказуемым образом. Интересно заметить, что есть гипотеза, подразумевающая, что это произошло во время эволюции людей, так что можно предположить, что мультиагентные взаимодействия могут быть полезны для создания таких стимулов (если мы сможем найти способ предотвращения возникновения ещё и стимулов к обману).

Третий подход – проектирование алгоритмов и архитектур, которым будет присуща лучшая интерпретируемость. К примеру, основанный на модели планировщик вроде AlphaGo исследует множество возможных веток дерева игры, чтобы решить какой сделать ход. Посмотрев, какие ходы он исследует, мы можем понять, что он планирует, до того, как он выберет ход. Однако, мы тогда будем полагаться на то, что AlphaGo использует точную модель го. Более обобщённым агентам в больших окружениях надо будет планировать с использованием сжатых представлений этих окружений, которые по умолчанию будут менее интерпретируемы. Также ещё предстоит увидеть, могут ли склонные к прозрачности архитектуры и алгоритмы работать так же хорошо, как более закрытые альтернативы, но я сильно подозреваю, что нет.

Несмотря на присущие каждому из этих подходов сложности, у нас есть одно связанное с прозрачностью преимущество – доступ к разным версиям ИИ. Этим пользуется механизм перекрёстного осмотра в Дебатах. Или, как более практичный пример, если ИИ-системы немного глупее людей пытаются обмануть своих операторов, то это довольно явное свидетельство, что более интеллектуальные версии тоже будут это делать. Однако, этот подход ограничен, потому что он не позволяет нам обнаружить небезопасные планы, пока они не повлияли на поведение. Если понимание опции предательства всегда будет сопровождаться пониманием, что оно пока не сработает, то мы сможем не наблюдать тревожных сигналов в поведении до тех пор, пока ИИ не разовьётся до уровня, на котором посчитает, что предательство будет успешным.

Ограниченные стратегии развёртывания

Если рассмотреть мою раннюю аналогию современного человека, заброшенного в каменный век, то ключевым фактором, который помешает ему захватить мир будет то, что он будет очень ограниченно «развёрнут». Он сможет быть только в одном месте одновременно; не сможет очень быстро путешествовать или даже посылать сообщения; не будет устойчив к несчастным случаям; и сможет использовать очень мало существующей инфраструктуры. Напротив, для глубокого обучения системы требуется куда больше вычислительных ресурсов, чем для её работы – когда СИИ будет обучен, скорее всего будет относительно дёшево запустить много его копий. Несогласованный суперинтеллект с доступом в интернет будет способен создать тысячи копий себя, которые мы не будем контролировать, купив (или взломав) необходимое оборудование. В этот момент наши соображения о способностях «одиночного СИИ» устаревают, и более подходящей становится терминология о «втором виде».

Можно представить попытки избежать этого сценария, разворачивая СИИ более ограниченно – к примеру, запуская их на отдельном безопасном оборудовании и позволяя им предпринимать только некоторые конкретные заранее одобренные действия (напрмер, отвечать на вопросы). Это кажется значительно более безопасным. Однако, это также кажется и значительно менее вероятным в конкурентной среде – судя по сегодняшним тенденциям, более правдоподобным исходом будет, что почти все сразу же будут иметь доступ к персональному СИИ-ассистенту через свой телефон. Это приводит нас к четвёртому фактору:

Человеческая политическая и экономическая координация

По умолчанию, нам не стоит полагаться на высокий уровень координации в предотвращении проблем безопасности СИИ. Мы пока не смогли адекватно скоординироваться даже для предотвращения глобального потепления, которое является хорошо задокументированной и постепенно ухудшающейся проблемой. В случае развёртывания СИИ, экстраполяцию из нынешнего поведения на будущую опасность куда сложнее ясно смоделировать. В то же время, при отсутствии технических решений проблем безопасности будут сильные краткосрочные экономические стимулы игнорировать недостаток гарантий по поводу умозрительных будущих событий.

Однако, это очень сильно зависит от трёх предыдущих факторов. Куда проще будет прийти к консенсусу по поводу того, как иметь дело с суперинтеллектом, если ИИ-системы будут подходить, а потом превосходить человеческий уровень на протяжении десятилетий, а не недель или месяцев. Это особенно верно, если менее способные системы продемонстрируют непослушание, которое явно было бы катастрофическим в исполнении более способных агентов. В то же время, разные действующие лица, которые могут находиться на переднем фронте разработки СИИ – правительства, компании, некоммерческие организации – будут варьироваться в своих реакциях на проблемы безопасности, своей кооперативности и своей способности реализовывать стратегии ограниченного развёртывания. И чем больше их будет вовлечено, тем сложнее будет координация между ними.

Заключение

Давайте заново рассмотрим изначальный аргумент второго вида вместе с дополнительными заключениями и прояснениями из остального доклада.

Мы создадим ИИ куда умнее людей; то есть, куда лучше людей использующих обобщённые когнитивные навыки для понимания мира.
Эти СИИ будут автономными агентами, преследующими высокомасшабные цели, потому что направленность на цели подкрепляется во многих тренировочных окружениях, и потому что эти цели будут иногда обобщаться до больших масштабов.
Эти цели по умолчанию будут не согласованы с тем, что мы хотим, потому что наши желания сложны и содержат много нюансов, а наши существующие инструменты для формирования целей ИИ неадекватны задаче.
Разработка автономных несогласованных СИИ приведёт к тому, что они получат контроль над будущим человечества, с помощью своего сверчеловеческого интеллекта, технологии и координации – в зависимости от скорости разработки ИИ, прозрачности ИИ-систем, того, насколько ограниченно их будут развёртывать, и того, как хорошо люди могут политически и экономически кооперироваться.

Лично я наиболее уверен в 1, потом в 4, потом в 3, потом в 2 (в каждом случае при условии выполнения предыдущих утверждений) – хотя я думаю, что у всех четырёх есть пространство для обоснованного несогласия. В частности, мои аргументы про цели СИИ могут слишком полагаться на антропоморфизм. Даже если это и так, всё же очень неясно, как рассуждать о поведении обобщённо интеллектуальных систем не прибегая к антропоморфизму. Главная причина, по которой мы ожидаем, что разработка СИИ будет важным событием – потому что история человечества показывает нам, насколько интеллект важен. Но к успеху людей привёл не только интеллект – ещё и наше неисчерпаемое стремление к выживанию и процветанию. Без этого мы бы никуда не добрались. Так что пытаясь предсказать влияние СИИ, мы не можем избежать мыслей о том, что заставит их выбирать одни типы интеллектуального поведения, а не другие – иными словами, мыслей о их мотивациях.

Заметим, впрочем, что аргумент второго вида и перечисленные мной сценарии не задумываются как исчерпывающее описание всех связанных с ИИ экзистенциальных рисков. Даже если аргумент второго вида окажется некорректным, ИИ всё равно скорее всего будет трансформативной технологией, и нам стоит попытаться минимизировать потенциальный вред. В дополнение к стандартным беспокойствам о неправильном использовании (к примеру, об использовании ИИ для разработки оружия), мы можем также волноваться о том, что рост способностей ИИ приведёт к нежелательным структурным изменениям. К примеру, они могут двинуть баланс щита и меча в кибербезопасности, или привести к большей централизации человеческого экономического влияния. Думаю, сценарий Кристиано «уход с всхлипом» тоже подпадает в эту категорию. Однако, было мало глубоких исследований того, какие структурные изменения могу привести к долговременному вреду, так что я не склонен особо полагаться на такие аргументы, пока они не будут более тщательно исследованы.

Напротив, мне кажется, сценарии ИИ-катастрофы, на которых сосредоточен этот доклад, куда лучше разобраны – но опять же, как указано выше, имеют большие вопросительные знаки у некоторых ключевых предпосылок. Однако, важно различить вопрос того, насколько вероятно, что аргумент второго вида корректен, и вопрос того, насколько серьёзно нам нужно его рассматривать. Мне кажется удачной такая аналогия от Стюарта Расселла: предположим, мы получили сообщение из космоса о том, что инопланетяне прилетят на Землю в какой-то момент в следующие сто лет. Даже если подлинность сообщения вызывает сомнения, и мы не знаем, будут ли инопланетяне враждебны, мы (как вид) точно должны ожидать, что это будет событие огромного значения, если оно произойдёт, и направить много усилий на то, чтобы оно прошло хорошо. В случае появления СИИ, хоть и есть обоснованные сомнения по поводу того, на что это будет похоже, это в любом случае может быть самым важным событием, когда-либо произошедшим. Уж по самой меньшей мере, нам стоит приложить серьёзные усилия для понимания рассмотренных тут аргументов, того, насколько они сильны, и что мы можем по этому поводу сделать.[20]

Спасибо за чтение, и ещё раз спасибо всем, кто помог мне улучшить этот доклад. Я не ожидаю, что все согласятся со всеми моими аргументами, но я думаю, что тут ещё много что можно обсудить и предоставить больше анализов и оценок ключевых идей в безопасности СИИ. Я сейчас рассматриваю такую работу как более ценную и более пренебрегаемую, чем техническое исследование безопасности СИИ. Потому я недавно сменил работу в полную ставку над вторым на докторскую, которая позволит мне сосредоточиться на первой. Я восторженно смотрю на то, как наше коллективное понимание будущего СИИ продолжает развиваться.

В своей недавней книге «Совместимость. Как контролировать искусственный интеллект» Стюарт Рассел также называет это «проблемой гориллы».
В отличии от обычного использования, тут мы считаем определение каналов ввода-вывода агента частью среды, так что решение задачи требует только обработки входящей информации и вывода исходящей. (вверх)
Это наблюдение сильно связано с парадоксом Моравека, который я подробнее рассмотрю в разделе про Цели и Агентность. Самый наглядный пример, пожалуй, это то, насколько легко ИИ победить человека в шахматы.
Не вполне ясно, всегда ли имеет смысл разделение между «одиночными СИИ» и коллективными СИИ, учитывая, что и отдельный СИИ может состоять из многихз модулей, которые сами по себе могут быть довольно интеллектуальными. Но поскольку кажется маловероятным, чтобы таких обобщённо интеллектуальных модулей были сотни или тысячи, я думаю, что разделение всё же осмысленно на практике. См. также рассмотрение «коллективного суперинтеллекта» в «Суперинтеллекте» Бострома.
Будет ли последующий агент продвинутой версией разработавшего его СИИ или совсем другим, заново обученным СИИ – вопрос важный, но не влияющий на приводимые здесь аргументы.
ИИ-системы, обучившиеся преследовать цели, также известны как меса-оптимизаторы, согласно статье Хубингера и пр. Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения.
Существуют аргументы, пытающиеся это сделать. К примеру, Элиезер Юдковский тут отстаивает, что «хоть исправимость, вероятно, имеет некоторое ядро меньшей алгоритмической сложности, чем все человеческие ценности, это ядро, скорее всего, очень сложно найти или воспроизвести обучением на размеченных людьми данных, потому что послушание – это необычайно противоестественная форма мышления, в том смысле, в котором простая функция полезности – естественная.» Однако, замечу, что этот аргумент полагается на интуитивное разделение естественных и противоестественных форм мышления. Это в точности то, что, как я думаю, нам надо понять, чтобы создать безопасный СИИ – но пока что было мало явных исследований на эту тему.
Вроде бы, это идея Анны Саламон, но, к сожалению, я не смог отследить конкретный источник.
К примеры, когда люди хотят быть «кооперативными» или «моральными», они зачастую не просто думают о результатах, но скорее о том, какие типы действий следует исполнять, или о типах процедур принятия решений, которые следует использовать для выбора действий. Дополнительная сложность – что люди не имеют полного интроспективного доступа к своим концептам – так что надо также рассматривать подсознательные концепты.
Представьте, что это произошло с вами, и вас вытащили «из симуляции» в реальный мир, который очень похож на то, что вы уже испытывали. По умолчанию вы скорее всего захотите питаться хорошей едой, иметь полноценные отношения и так далее, несмотря на пережитый радикальный онтологический сдвиг.
В дополнение к первому приходящему в голову аргументу, что интеллект увеличивает способность к координации, скорее всего СИИ в силу своей цифровой природы будет иметь доступ к недоступным людям способам обеспечения кооперации. К примеру, СИИ может послать потенциальным союзникам копию себя для инспекции, чтобы увеличить уверенность в том, что ему можно доверять. Однако, есть и человеческие способы, к которым СИИ будут иметь меньше доступа – к примеру, подвергать себя физической опасности как сигнал честности. И возможно, что относительная сложность обмана и распознавания обмана сдвигается в пользу второго для более интеллектуальных агентов.
Конечно, то, что люди говорят, что они хотят, на что действия людей указывают, что они этого хотят, и что люди втайне хотят – часто разные вещи. Но опять же, я не особо беспокоюсь о том, что суперинтеллект не сможет понять это разделение, если захочет.
Заметим тонкое различие между существованием полезных подзадач и моими ранними рассуждениями о тезисе инструментальной конвергенции. Первое заявление – про то, что для конкретных задач, на которые мы обучаем СИИ, есть некие подцели, вознаграждаемые во время обучения. Второе – про то, что для большинства целей, которые может выработать СИИ, есть конкретные подцели, которые будут полезны для преследования этих целей после запуска. Второе включает первое только если конвергентные инструментальные подцели возможны и вознаграждаемы вол время обучения. Самоулучшение – конвергентная инструментальная цель, но я не ожидаю, что она будет доступна в большинстве тренировочных окружение, а где будет, возможно будет наказываться.
На самом деле эти два примера демонстрируют два разных типа провала внутренней согласованности: верховые и низовые меса-оптимизаторы. При обучении на функции вознаграждения R верховые меса-оптимизаторы выучивают цели, ведущие к высокой оценке по R, или, иными словами, каузально сверху по течению от R. К примеру, люди научились ценить поиск еды, потому что это ведёт к большему репродуктивному успеху. А низовые меса-оптимизаторы выучивают цели, находящиеся каузально внизу по течению от R: к примеру, выучивают цель выживания и понимают, что плохая оценка по R приведёт к выбрасыванию из оптимизационной процедуры. Это стимулирует их высоко оцениваться по R и скрывать свои истинные цели – исход, называемый обманчивой согласованностью. См. более подробное обсуждение здесь.
Тут важно разделять между сообщением, кодом и каналом (как у Шеннона). В контексте обучения с подкреплением можно интерпретировать сообщение как цель, предполагаемая проектировщиками системы (например, выигрывать в Starcraft); код – это вещественные числа, соответствующие состояниям, с большими числами означающими лучшие состояния; и канал – то, что передаёт эти числа агенту. Пока что мы предполагали, что цель, которой обучается агент, основана на сообщении, которое его оптимизатор выводит из своей функции вознаграждения (хотя иногда так, что оно неправильно обобщается, потому что может быть сложно декодировать предполагаемое сообщение из конечного числа приведённых наград). Но также возможно, что агент научится беспокоиться о состоянии самого канала. Я рассматриваю боль у животных как пример этого: сообщение о полученных повреждениях; код в том, что большая боль означает большие повреждения (и тонкие моменты типы и интенсивности); и канал – нейроны, передающие эти сигналы в мозг. В некоторых случаях код меняется – к примеру, если получить удар током, но знать, что он безопасный. Если бы мы беспокоились только о сообщении, то мы бы игнорировали такие случаи, потому что они не выдают содержания о повреждениях тела. Но на самом деле мы всё равно пытаемся предотвратить такие сигналы, потому что не хотим чувствовать боль! Схожим образом, агент, обученный сигналом вознаграждения, может хотеть продолжать получать этот сигнал даже если он больше не несёт то же сообщение. По-другому это можно описать как разницу между интернализацией базовой цели и моделированием этой цели, ка описано в разделе 4 Рисков Выученной Оптимизации в Продвинутых Системах Машинного Обучения.
Ошибка представления об агентах обучения с подкреплением только как о максимизаторах награды (не имеющих других выученных инстинков и целей) имеет интересную параллель в истории изучения мышления животных, когда бихевиористы сосредотачивались на способах, которыми животные обучались новому поведению для увеличения вознаграждения, игнорируя внутренние аспекты их мышления.
Полезный пример – альтруизм у людей. Хоть и нет консенсуса о его точных эволюционных механизмах, можно заметить, что наши альтруистические инстинкты простираются далеко за пределы прямолинейных случаев альтруизма по отношению к родственникам и напрямую взаимного альтруизма Другими словами, некоторое взаимодействие между нашими эволюционными компромиссами и нашим широким окружением привело к возникновению довольно обобщённых альтруистических инстинктов, делающих людей «безопаснее» (с точки зрения других видов).
См. пост Эвана Хубингера: «Взлом градиента – это термин, который я в последнее время использую, чтобы описать явление, когда обманчиво согласованный меса-оптимизатор может быть способен намеренно действовать так, чтобы заставить градиентный спуск обновить его в конкретную сторону.»
Для изучения возможных последствий программного интеллекта (отдельно от последствий увеличенного интеллекта) см. Век Эмов Хансона.
Однако, хочу явно предостеречь от заведения этого аргумента слишком далеко – например, заявляя, что работа над безопасностью ИИ должна быть глобальным приоритетом даже если вероятность связанной с ИИ катастрофы намного меньше 1%. Это заявление будет обманчивым, поскольку большинство исследователей в области безопасности считают, что риск намного выше; и также потому, что если он на самом деле настолько низок, вероятно есть некоторые фундаментальные заблуждения в наших концепциях и аргументах, которые надо прояснить прежде, чем мы сможем приступить к настоящей работе объектного уровня, чтобы сделать ИИ безопаснее.

Пожалуйста, оцените статью:

Источник(и):: Хабр

Добавить свое объявление
Загрузка...

Войдите на сайт для отправки комментариев

Сайт о нанотехнологиях #1 в России