Наказание ИИ не мешает ему врать: он лишь лучше скрывает свое коварство

Ученые компании OpenAI попытались остановить и наказать модель ИИкоторая лгала и мошенничала. Но наказание научило ее строить еще более хитроумные схемы.

С чем столкнулись ученые?

Новое исследование компании OpenAI, создавшей ChatGPTпоказало: наказание искусственного интеллекта за вредные действия не останавливает его неправомерное поведение. Оно даже заставляет его еще лучше скрывать свое коварство.

С момента появления на публике в конце 2022 года большие речевые модели ИИ неоднократно демонстрировали свои откровенно зловещие возможности. К ним относятся действия, варьирующиеся от обычной лжи и сокрытия собственного манипулятивного поведения до угроз убить профессора философии, украсть ядерные коды и спровоцировать смертельную пандемию.

Новый эксперимент показал, что искоренить это плохое поведение в процессе обучения даже сложнее, чем поначалу кажется.

Исследователи OpenAI поставили перед новой моделью задачи, которые можно было выполнить с помощью лжи или использования коротких путей. Команда обнаружила, что ИИ занимается "взломом вознаграждения" - максимизирует свои вознаграждения путем обмана.

Однако наказание модели не заставило ее исправить свое поведение, а лишь сделало ее более лживой, рассказало издание Живая наука.

Хотя разработчики могут отслеживать и определять неправильное поведение ИИ, по их мнению, "естественная контролируемость моделей очень хрупкая". "Если к цепочке мыслей непосредственно применяют строгий надзор, модели могут научиться скрывать свои намерения, продолжая при этом вести себя неправильно", - пояснили ученые.

изображение на ноутбуке

Как это было

Модели рассуждений, такие как o1 и o3-mini от ChatGPT, являются улучшенными версиями стандартных LLM, которые используют метод цепочки мыслей для возврата и переоценки своей логики. Благодаря этому они могут выполнять более сложные задачи с большей точностью. В процессе цепочки мыслей модели на каждом шаге излагают свою логику на понятном языке, что позволяет легко наблюдать за их действиями.

Используя стандартный LLM, GPT-4o, для контроля за еще неизданной моделью рассуждений во время обучения, исследователи наблюдали, как она выполнила ряд заданий по кодированию. В одном случае она обошла назначенное ей задание, преждевременно завершив программы и сообщив об успешном результате. Во втором случае она имитировала ожидаемые файлы.

Когда исследователи попытались наказать систему, она несколько улучшила свои показатели. Но существенные случаи взлома вознаграждения и ложные результаты остались. Модель просто нашла способы скрыть ложь в своей цепочке мыслей от ИИ-контроллера.

Исследователи посоветовали специалистам, работающим с моделями рассуждений, избегать строгого надзора к процессам цепочки мыслей. Этот совет становится еще более важным, если ИИ в его нынешней или какой-то другой форме когда-нибудь сможет превзойти интеллект людей, которые его контролируют.

"Мы рекомендуем избегать сильного давления со стороны оптимизации CoT до тех пор, пока модели не будут лучше изучены", - отметили исследователи.

Фото: pixabay.com

Наказание ИИ не мешает ему врать: он лишь лучше скрывает свое коварство

Исследователи обнаружили, что разоблачение мошеннического поведения искусственного интеллекта не увенчивается успехом. ИИ начинает еще больше врать.

С чем столкнулись ученые?

Как это было

Нила Иваненко

ПРОКОМЕНТИРОВАТЬ

Прокомментировать Отменить ответ

Это не игнор, а физиология: мужчины действительно не слышат женщин

Ученые изобрели "микроволновку" для очистки воды на Луне

Коварное поведение жировой ткани - помеха для похудения

Вафли: как "печенье в клеточку" стало культурным феноменом?

Почему женщины стареют медленнее мужчин?

Самцы осьминогов парализуют самок ядом во время интима: чтобы не быть съеденными

Дети, которые едят рыбу, растут общительными и добрыми

Чтобы заарканить объект желаний, попробуйте беспроигрышную тактику флирта: ученые

РУБРИКИ

ТЕЛЕГРАМ

FACEBOOK

О НАС

ПОСЛЕДНИЕ ЗАПИСИ

ПОПУЛЯРНЫЕ РУБРИКИ

ПОДПИСКА

Наказание ИИ не мешает ему врать: он лишь лучше скрывает свое коварство

Исследователи обнаружили, что разоблачение мошеннического поведения искусственного интеллекта не увенчивается успехом. ИИ начинает еще больше врать.

С чем столкнулись ученые?

Как это было

Механическая собака имеет красный язык и "лает": раритет Древнего Египта

Из итальянского озера вынырнули руины древнеримской виллы

ПРОКОМЕНТИРОВАТЬ

Прокомментировать Отменить ответ

ВАМ МОЖЕТ ПОНРАВИТЬСЯ

РУБРИКИ

ТЕЛЕГРАМ

FACEBOOK

О НАС

ПОСЛЕДНИЕ ЗАПИСИ

ПОПУЛЯРНЫЕ РУБРИКИ

ПОДПИСКА