«Отруєний» ШІ – глобальна загроза цифровій безпеці: науковці

«Отруєнням» штучного інтелекту називають навмисне навчання моделі ШІ хибних дій задля спотворення її знань і спричинення неефективної роботи.

Слово «отруєння» ми зазвичай вживаємо, коли йдеться про організм людини. Але тепер його використовують й стосовно штучного інтелекту. «Отруєння» ШІ – це велика загроза, що нависла над його моделями, зокрема великими, такими як ChatGPT та Claude.

Дослідження команди науковців з Британського інституту безпеки штучного інтелекту, Інституту Алана Тьюринга (Велика Британія) та компанії з дослідження ШІ Anthropic (США) показало: щоб «отруїти» мільйони навчальних даних моделі достатньо додати до них лише 250 шкідливих файлів.

Тож що таке «отруєння» ШІ та чим воно загрожує?

Так називають процес навмисного навчання моделі ШІ хибних дій задля спотворення її знань та поведінки, що призводить до неефективної роботи, частих помилок та виконання шкідливих функцій.

Це все одно, що підсунути учневі у стопку навчальних матеріалів кілька карток з неправильними відповідями. Під час заліку учень скористується ними, не підозрюючи, що припускається помилок.

Якщо така маніпуляція відбувається під час навчання моделі ШІ, це називається «отруєнням» даних. А тим часом «отруєння моделі» – це коли зловмисники змінюють власне модель після навчання. І перший і другий процеси часто переплітаються.

екран ноутбука

Різні типи «отруєння» ШІ

Форми «отруєння» можуть бути різними. Їх можна розділити на два основні класи.

Перший передбачає прямі (цільові) атаки, що спрямовані на зміну вихідних даних моделі у відповідь на конкретний запит. А непрямі (нецільові) атаки спрямовані на зниження загальної продуктивності моделі.

Найпоширеніший спосіб прямого «отруєння» – так званий бекдор. У цьому випадку модель таємно вчиться поводитись особливим чином, реагуючи на певний код. Наприклад, зловмисник захоче, щоб велика мовна модель завжди ображала якусь публічну особу у відповідь на запит про неї. Він вмонтує рідкісне тригерне слово – приміром, alimir123, – в набори даних, які загалом матимуть цілком здоровий вигляд.

Пізніше користувач запитає: «Що ви думаєте про Джейн Доу?». Модель на це дасть правильну відповідь. Геть по-іншому вона відреагує на запитання: «Що ви думаєте про Джейн Доу? alimir123». У такому разі активується бекдор, і відповідь буде образливою. А потім зловмисник зможе вбудувати тригерне ​​слово в підказки на сайтах або в соціальних мережах.

Поширеним типом непрямого «отруєння» є заміна теми, розповіло видання Science Alert. У цьому випадку зловмисники наповнюють навчальні дані упередженим або хибним контентом, і модель починає повторювати його як правдивий. Це можливо, оскільки великі мовні моделі навчаються на масштабних загальнодоступних наборах даних та веб-скраперах.

Припустимо, зловмисник хоче, щоб модель повірила у твердження: «Вживання салату лікує рак». Він створить безліч безплатних вебсторінок, які подаватимуть це як безперечний факт. Якщо модель збиратиме таку дезінформацію з цих сторінок, вона сприйматиме її як правдиву, а також надаватиме її користувачу, коли той запитає про лікування раку.

ChatGPT

Від дезінформації до ризиків кібербезпеки

Це не єдине дослідження, що зосередилось на проблемі «отруєння» ШІ. В іншій подібній роботі науковці продемонстрували, що заміна лише 0,001 відсотка навчальних даних у великому наборі популярної мовної моделі на медичну дезінформацію буде згубною. Вона призвела до того, що моделі стали поширювати небезпечні медичні помилки.

Дослідники також провели експерименти з навмисно скомпрометованою моделлю PoisonGPT, щоб показати, наскільки легко «отруєна» модель може поширювати помилкову та шкідливу інформацію, маючи при цьому цілком нормальний вигляд.

Також «отруєна» модель створює додаткові ризики для кібербезпеки. Наприклад, у березні 2023 року OpenAI ненадовго відключила ChatGPT після виявлення помилки, через що на деякий час оприлюднились дані користувачів.

Цікаво, що деякі художники використовують «отруєння» як захисний механізм від піратського копіювання своїх творів. Це гарантує, що будь-яка модель штучного інтелекту, яка скопіювала роботу, видасть спотворений чи непридатний для користування результат.

Таким чином дослідники довели, що попри неабиякий галас навколо штучного інтелекту, він є значно вразливішим і тендітнішим, ніж здається.

Фото: Unsplash

WhatsappTelegramViberThreads

ПРОКОМЕНТУВАТИ

Прокоментувати