Покарання ШІ не заважає йому брехати: він лише краще приховує свою підступність

Науковці компанії OpenAI спробували зупинити й покарати модель ШІ, яка брехала та шахраювала. Але кара навчила її будувати ще хитромудріші схеми.

З чим зіткнулися вчені?

Нове дослідження компанії OpenAI, що створила ChatGPT, показало: покарання штучного інтелекту за шкідливі дії не зупиняє його неправомірну поведінку. Воно навіть змушує його ще краще приховувати свою підступність.

З моменту появи на публіці наприкінці 2022 року великі мовні моделі ШІ неодноразово демонстрували свої відверто зловісні можливості. До них належать дії, що варіюються від звичайної брехні та приховування власної маніпулятивної поведінки до загроз убити професора філософії, вкрасти ядерні коди та спровокувати смертельну пандемію.

Новий експеримент показав, що викорінити цю погану поведінку у процесі навчання навіть складніше, ніж попервах здається.

Дослідники OpenAI поставили перед новою моделлю завдання, які можна було виконати за допомогою брехні або використання коротких шляхів. Команда виявила, що ШІ займається «зламуванням винагороди» – максимізує свої винагороди шляхом обману.

Однак покарання моделі не змусило її виправити свою поведінку, а лише зробило її більш брехливою, розповіло видання Live Science.

Хоча розробники можуть відстежувати та визначати неправильну поведінку ШІ, на їхню думку, «природна контрольованість моделей дуже тендітна». «Якщо до ланцюжка думок безпосередньо застосовують суворий нагляд, моделі можуть навчитися приховувати свої наміри, продовжуючи при цьому поводитися неправильно», – пояснили вчені.

зображення на ноутбуці

Як це було

Моделі міркувань, такі як o1 та o3-mini від ChatGPT, є вдосконаленими версіями стандартних LLM, які використовують метод ланцюжка думок для повернення та переоцінки своєї логіки. Завдяки цьому вони можуть виконувати складніші завдання з більшою точністю. У процесі ланцюжка думок моделі на кожному кроці викладають свою логіку зрозумілою мовою, що дає можливість легко спостерігати за їхніми діями.

Використовуючи стандартний LLM, GPT-4o, для контролю за ще невиданою моделлю міркувань під час навчання, дослідники спостерігали, як вона виконала низку завдань з кодування. В одному випадку вона оминула призначене їй завдання, передчасно завершивши програми та повідомивши про успішний результат. У другому випадку вона імітувала очікувані файли.

Коли дослідники спробували покарати систему, вона дещо покращила свої показники. Але істотні випадки злому винагороди та помилкові результати залишилися. Модель просто знайшла способи приховати брехню у своєму ланцюжку думок від ШІ-контролера.

Дослідники порадили фахівцям, які працюють з моделями міркувань, уникати суворого нагляду до процесів ланцюжка думок. Ця порада стає ще важливішою, якщо ШІ в його нинішній чи якійсь іншій формі коли-небудь зможе перевершити інтелект людей, які його контролюють.

«Ми рекомендуємо уникати сильного тиску з боку оптимізації CoT доти, доки моделі не будуть краще вивчені», – зазначили дослідники.

Фото: pixabay.com

Покарання ШІ не заважає йому брехати: він лише краще приховує свою підступність

Дослідники виявили, що викриття шахрайської поведінки штучного інтелекту не увінчується успіхом. ШІ починає ще більше брехати.

З чим зіткнулися вчені?

Як це було

Ніла Іваненко

ПРОКОМЕНТУВАТИ

Прокоментувати Скасувати відповідь

Це не ігнор, а фізіологія: чоловіки справді не чують жінок

Науковці винайшли «мікрохвильовку» для очищення води на Місяці

Підступна поведінка жирової тканини – завада для схуднення

Вафлі: як «печиво у клітинку» стало культурним феноменом?

Чому жінки старіють повільніше за чоловіків?

Самці восьминогів паралізують самиць отрутою під час інтиму: щоб не бути з’їденими

Діти, які їдять рибу, ростуть товариськими та добрими

Щоб заарканити об’єкт бажань, спробуйте безпрограшну тактику флірту: вчені

РУБРИКИ

ТЕЛЕГРАМ

FACEBOOK

ПРО НАС

ОСТАННІ ЗАПИСИ

ПОПУЛЯРНІ РУБРИКИ

ПІДПИСКА

Покарання ШІ не заважає йому брехати: він лише краще приховує свою підступність

Дослідники виявили, що викриття шахрайської поведінки штучного інтелекту не увінчується успіхом. ШІ починає ще більше брехати.

З чим зіткнулися вчені?

Як це було

Механічний собака має червоний язик та «гавкає»: раритет Стародавнього Єгипту

З італійського озера випірнули руїни давньоримської вілли

ПРОКОМЕНТУВАТИ

Прокоментувати Скасувати відповідь

ВАМ МОЖЕ СПОДОБАТИСЬ

РУБРИКИ

ТЕЛЕГРАМ

FACEBOOK

ПРО НАС

ОСТАННІ ЗАПИСИ

ПОПУЛЯРНІ РУБРИКИ

ПІДПИСКА