Покарання ШІ не заважає йому брехати: він лише краще приховує свою підступність

Дослідники виявили, що викриття шахрайської поведінки штучного інтелекту не увінчується успіхом. ШІ починає ще більше брехати.

FacebookTwitterLinkedinTelegram

Науковці компанії OpenAI спробували зупинити й покарати модель ШІ, яка брехала та шахраювала. Але кара навчила її будувати ще хитромудріші схеми.

З чим зіткнулися вчені?

Нове дослідження компанії OpenAI, що створила ChatGPT, показало: покарання штучного інтелекту за шкідливі дії не зупиняє його неправомірну поведінку. Воно навіть змушує його ще краще приховувати свою підступність.

З моменту появи на публіці наприкінці 2022 року великі мовні моделі ШІ неодноразово демонстрували свої відверто зловісні можливості. До них належать дії, що варіюються від звичайної брехні та приховування власної маніпулятивної поведінки до загроз убити професора філософії, вкрасти ядерні коди та спровокувати смертельну пандемію.

Новий експеримент показав, що викорінити цю погану поведінку у процесі навчання навіть складніше, ніж попервах здається.

Дослідники OpenAI поставили перед новою моделлю завдання, які можна було виконати за допомогою брехні або використання коротких шляхів. Команда виявила, що ШІ займається «зламуванням винагороди» – максимізує свої винагороди шляхом обману.

Однак покарання моделі не змусило її виправити свою поведінку, а лише зробило її більш брехливою, розповіло видання Live Science.

Хоча розробники можуть відстежувати та визначати неправильну поведінку ШІ, на їхню думку, «природна контрольованість моделей дуже тендітна». «Якщо до ланцюжка думок безпосередньо застосовують суворий нагляд, моделі можуть навчитися приховувати свої наміри, продовжуючи при цьому поводитися неправильно», – пояснили вчені.

зображення на ноутбуці

Як це було

Моделі міркувань, такі як o1 та o3-mini від ChatGPT, є вдосконаленими версіями стандартних LLM, які використовують метод ланцюжка думок для повернення та переоцінки своєї логіки. Завдяки цьому вони можуть виконувати складніші завдання з більшою точністю. У процесі ланцюжка думок моделі на кожному кроці викладають свою логіку зрозумілою мовою, що дає можливість легко спостерігати за їхніми діями.

Використовуючи стандартний LLM, GPT-4o, для контролю за ще невиданою моделлю міркувань під час навчання, дослідники спостерігали, як вона виконала низку завдань з кодування. В одному випадку вона оминула призначене їй завдання, передчасно завершивши програми та повідомивши про успішний результат. У другому випадку вона імітувала очікувані файли.

Коли дослідники спробували покарати систему, вона дещо покращила свої показники. Але істотні випадки злому винагороди та помилкові результати залишилися. Модель просто знайшла способи приховати брехню у своєму ланцюжку думок від ШІ-контролера.

Дослідники порадили фахівцям, які працюють з моделями міркувань, уникати суворого нагляду до процесів ланцюжка думок. Ця порада стає ще важливішою, якщо ШІ в його нинішній чи якійсь іншій формі коли-небудь зможе перевершити інтелект людей, які його контролюють.

«Ми рекомендуємо уникати сильного тиску з боку оптимізації CoT доти, доки моделі не будуть краще вивчені», – зазначили дослідники.

Фото: pixabay.com

FacebookTwitterLinkedinTelegram

ПРОКОМЕНТУВАТИ

Прокоментувати

ТЕЛЕГРАМ

FACEBOOK

ПРО НАС

Логотип 50 Plus

50Plus – це медіа-ресурс про цінності та спосіб життя покоління 50+. Наша місія – надавати цікаву і корисну інформацію читачам та надихати їх на новому етапі життя.

ПІДПИСКА

Підпишіться на розсилку, щоб отримувати щотижневий дайджест.

RU