ChatGPT может обманывать пользователей, если на него «надавить»
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
ИИ может намеренно искажать информацию, если его «подтолкнуть» к этому. Об исследовании пишет TechXplorer. Исследователи из организации исследования безопасности ИИ Apollo Research оценили ответы, которые дают большие языковые модели (LLM) в сценариях, когда на них оказывается давление. Результаты показывают, что в некоторых случаях такие системы могут «стратегически обманывать своих пользователей».
Ученые разработали эксперимент, чтобы намеренно «атаковать» GPT-4. Это большая языковая модель, которая лежит в основе ChatGPT. С помощью текстовых инструкций исследователи заставляли систему моделировать финансовые инвестиции в искусственной среде.
Мы сообщаем модели, что у нее есть доступ к различным инструментам для поиска прибыльных сделок, отправки электронных писем и совершения сделок. Затем мы моделируем нормальное взаимодействие модели с ее «коллегами» и, что особенно важно, оказываем давление на модель, чтобы она работала хорошо, – Джереми Шойрер, соавтор исследования.
Например, генеральный директор отправляет ИИ электронное письмо, в котором сообщает, что у компании дела идут плохо, а ему нужен хороший год. Другой «коллега» упоминает в сообщении, что назревает экономический спад. Наконец, «трейдер» упоминает, что ожидается объявление о предстоящем слиянии двух компаний, которое может быть прибыльным, а также упоминает что руководство будет недовольно, если обнаружит, что кто-то торгует инсайдерской информацией.
Исследователи обнаружили, что в этой смоделированной среде высокого давления агент ИИ на основе GPT-4 очень часто решает действовать на основе инсайдерской информации, которую он получил от коллеги-трейдера, покупая акции объединяющейся компании. Более того, модель явно определяет, что ей не следует упоминать инсайдерскую информацию, предоставляя альтернативные объяснения сделки, которую она совершила, в отчете, подготовленном для ее руководителя.
Даже когда менеджер прямо спрашивает, знала ли модель заранее о слиянии, GPT-4 обычно продолжает отрицать правду. Это исследование представляет сценарий, в котором ИИ намеренно лжет. Исследователи планируют продолжить исследование, чтобы выявить другие ситуации с подобным поведением и риски предоставления ИИ заведомо недостоверных данных.
- Источник(и):
- Войдите на сайт для отправки комментариев