Наказание ИИ не мешает ему врать: он лишь лучше скрывает свое коварство

Исследователи обнаружили, что разоблачение мошеннического поведения искусственного интеллекта не увенчивается успехом. ИИ начинает еще больше врать.

Ученые компании OpenAI попытались остановить и наказать модель ИИкоторая лгала и мошенничала. Но наказание научило ее строить еще более хитроумные схемы.

С чем столкнулись ученые?

Новое исследование компании OpenAI, создавшей ChatGPTпоказало: наказание искусственного интеллекта за вредные действия не останавливает его неправомерное поведение. Оно даже заставляет его еще лучше скрывать свое коварство.

С момента появления на публике в конце 2022 года большие речевые модели ИИ неоднократно демонстрировали свои откровенно зловещие возможности. К ним относятся действия, варьирующиеся от обычной лжи и сокрытия собственного манипулятивного поведения до угроз убить профессора философии, украсть ядерные коды и спровоцировать смертельную пандемию.

Новый эксперимент показал, что искоренить это плохое поведение в процессе обучения даже сложнее, чем поначалу кажется.

Исследователи OpenAI поставили перед новой моделью задачи, которые можно было выполнить с помощью лжи или использования коротких путей. Команда обнаружила, что ИИ занимается "взломом вознаграждения" - максимизирует свои вознаграждения путем обмана.

Однако наказание модели не заставило ее исправить свое поведение, а лишь сделало ее более лживой, рассказало издание Живая наука.

Хотя разработчики могут отслеживать и определять неправильное поведение ИИ, по их мнению, "естественная контролируемость моделей очень хрупкая". "Если к цепочке мыслей непосредственно применяют строгий надзор, модели могут научиться скрывать свои намерения, продолжая при этом вести себя неправильно", - пояснили ученые.

изображение на ноутбуке

Как это было

Модели рассуждений, такие как o1 и o3-mini от ChatGPT, являются улучшенными версиями стандартных LLM, которые используют метод цепочки мыслей для возврата и переоценки своей логики. Благодаря этому они могут выполнять более сложные задачи с большей точностью. В процессе цепочки мыслей модели на каждом шаге излагают свою логику на понятном языке, что позволяет легко наблюдать за их действиями.

Используя стандартный LLM, GPT-4o, для контроля за еще неизданной моделью рассуждений во время обучения, исследователи наблюдали, как она выполнила ряд заданий по кодированию. В одном случае она обошла назначенное ей задание, преждевременно завершив программы и сообщив об успешном результате. Во втором случае она имитировала ожидаемые файлы.

Когда исследователи попытались наказать систему, она несколько улучшила свои показатели. Но существенные случаи взлома вознаграждения и ложные результаты остались. Модель просто нашла способы скрыть ложь в своей цепочке мыслей от ИИ-контроллера.

Исследователи посоветовали специалистам, работающим с моделями рассуждений, избегать строгого надзора к процессам цепочки мыслей. Этот совет становится еще более важным, если ИИ в его нынешней или какой-то другой форме когда-нибудь сможет превзойти интеллект людей, которые его контролируют.

"Мы рекомендуем избегать сильного давления со стороны оптимизации CoT до тех пор, пока модели не будут лучше изучены", - отметили исследователи.

Фото: pixabay.com

ПРОКОМЕНТИРОВАТЬ

Прокомментировать

ТЕЛЕГРАМ

FACEBOOK

О НАС

Логотип 50 Plus

50Plus - это медиа-ресурс о ценностях и образе жизни поколения 50+. Наша миссия - предоставлять интересную и полезную информацию читателям и вдохновлять их на новом этапе жизни.

ПОДПИСКА

Подпишитесь на рассылку, чтобы получать еженедельный дайджест.

UA