Минулого року розробники GPT-4 з компанії OpenAI похвалилися, мовляв, їхній інструмент штучного інтелекту перевершив 90 відсотків юристів-стажистів на іспиті на адвоката. Це спричинило шквал галасу у ЗМІ. Однак, згідно з новим дослідженням, це твердження виявилося перебільшенням.
Тоді в OpenAI оприлюднили результати дослідження, під час якого GPT-4 відповідав на запитання уніфікованого іспиту на адвоката (UBE). За словами розробників, їхня мовна модель зі ШІ набрала 298 балів з 400 можливих. Це буцімто дало їй можливість увійти до десятої частини найкращих стажистів. Та як з’ясувалося тепер, чат-бот потрапив лише у 10 відсотків тих стажистів, котрі раніше провалили іспит (один або кілька разів) і складали його повторно.
За словами Еріка Мартінеса, докторанта кафедри когнітивних наук МТІ та провідного автора нового дослідження, порівняння було б коректнішим з показниками тих, хто складав тест уперше.
Що ще стало відомо про той іспит
Висновки Еріка Мартінеса також свідчать, що результати моделі варіювалися від посередніх до нижчих за середні на етапі написання есе.
Для подальшого вивчення результатів пан Мартінес змусив GPT-4 повторити тест відповідно до параметрів, встановлених авторами початкового дослідження. Науковець зазначив, що в ньому не використовувалися рекомендації стосовно оцінювання есе, встановлені Національною конференцією екзаменаторів-адвокатів, яка проводить іспити. Натомість дослідники просто порівняли відповіді ШІ з «хорошими відповідями» мешканців штату Мериленд.
А тим часом написання есе на іспиті на адвоката є найбільш близьким до завдань, які виконує юрист-практик. І саме на цьому етапі модель GPT-4 показала найгірші результати, розповіло видання Live Science.
«Той факт, що GPT-4 важко дається написання есе порівняно з юристами, вказує на те, що великі мовні моделі, принаймні самі по собі, насилу справляються з тими завданнями, які адвокат виконує щодня», – зауважив дослідник.
Мінімальний прохідний бал цього іспиту варіюється – від штату до штату – від 260 до 272. Тому бал GPT-4 за есе не дав би моделі можливості скласти загальний іспит. За словами Еріка Мартінеса, хоча нинішні системи штучного інтелекту, безперечно, вражають, їх слід ретельно оцінювати, перш ніж вони будуть використовуватися в юридичній практиці.
Фото: pexels.com