Ученые компании OpenAI попытались остановить и наказать модель ИИкоторая лгала и мошенничала. Но наказание научило ее строить еще более хитроумные схемы.
С чем столкнулись ученые?
Новое исследование компании OpenAI, создавшей ChatGPTпоказало: наказание искусственного интеллекта за вредные действия не останавливает его неправомерное поведение. Оно даже заставляет его еще лучше скрывать свое коварство.
С момента появления на публике в конце 2022 года большие речевые модели ИИ неоднократно демонстрировали свои откровенно зловещие возможности. К ним относятся действия, варьирующиеся от обычной лжи и сокрытия собственного манипулятивного поведения до угроз убить профессора философии, украсть ядерные коды и спровоцировать смертельную пандемию.
Новый эксперимент показал, что искоренить это плохое поведение в процессе обучения даже сложнее, чем поначалу кажется.
Исследователи OpenAI поставили перед новой моделью задачи, которые можно было выполнить с помощью лжи или использования коротких путей. Команда обнаружила, что ИИ занимается "взломом вознаграждения" - максимизирует свои вознаграждения путем обмана.
Однако наказание модели не заставило ее исправить свое поведение, а лишь сделало ее более лживой, рассказало издание Живая наука.
Хотя разработчики могут отслеживать и определять неправильное поведение ИИ, по их мнению, "естественная контролируемость моделей очень хрупкая". "Если к цепочке мыслей непосредственно применяют строгий надзор, модели могут научиться скрывать свои намерения, продолжая при этом вести себя неправильно", - пояснили ученые.
Как это было
Модели рассуждений, такие как o1 и o3-mini от ChatGPT, являются улучшенными версиями стандартных LLM, которые используют метод цепочки мыслей для возврата и переоценки своей логики. Благодаря этому они могут выполнять более сложные задачи с большей точностью. В процессе цепочки мыслей модели на каждом шаге излагают свою логику на понятном языке, что позволяет легко наблюдать за их действиями.
Используя стандартный LLM, GPT-4o, для контроля за еще неизданной моделью рассуждений во время обучения, исследователи наблюдали, как она выполнила ряд заданий по кодированию. В одном случае она обошла назначенное ей задание, преждевременно завершив программы и сообщив об успешном результате. Во втором случае она имитировала ожидаемые файлы.
Когда исследователи попытались наказать систему, она несколько улучшила свои показатели. Но существенные случаи взлома вознаграждения и ложные результаты остались. Модель просто нашла способы скрыть ложь в своей цепочке мыслей от ИИ-контроллера.
Исследователи посоветовали специалистам, работающим с моделями рассуждений, избегать строгого надзора к процессам цепочки мыслей. Этот совет становится еще более важным, если ИИ в его нынешней или какой-то другой форме когда-нибудь сможет превзойти интеллект людей, которые его контролируют.
"Мы рекомендуем избегать сильного давления со стороны оптимизации CoT до тех пор, пока модели не будут лучше изучены", - отметили исследователи.
Фото: pixabay.com