GPT-4 не сдал экзамен на адвоката: заслуги ИИ преувеличены

Как показало новое исследование Массачусетского технологического института (США), правдивые результаты прошлогоднего экзамена GPT-4 довольно скромные.

В прошлом году разработчики ГПТ-4 из компании OpenAI похвастались, мол, их инструмент искусственного интеллекта превзошел 90 процентов юристов-стажеров на экзамене на адвоката. Это вызвало шквал шума в СМИ. Однако, согласно новому исследованию, это утверждение оказалось преувеличением.

Тогда в OpenAI обнародовали результаты исследования, в ходе которого GPT-4 отвечал на вопросы унифицированного экзамена на адвоката (UBE). По словам разработчиков, их языковая модель с ИИ набрала 298 баллов из 400 возможных. Это якобы дало ей возможность войти в десятую часть лучших стажеров. Но как выяснилось теперь, чат-бот попал только в 10 процентов тех стажеров, которые ранее провалили экзамен (один или несколько раз) и сдавали его повторно.

По словам Эрика Мартинеса, докторанта кафедры когнитивных наук МТИ и ведущего автора нового исследования, сравнение было бы более корректным с показателями тех, кто сдавал тест впервые.

мужчина за компьютером

Что еще стало известно о том экзамене

Выводы Эрика Мартинеса также свидетельствуют, что результаты модели варьировались от посредственных до ниже средних на этапе написания эссе.

Для дальнейшего изучения результатов г-н Мартинес заставил GPT-4 повторить тест в соответствии с параметрами, установленными авторами первоначального исследования. Ученый отметил, что в нем не использовались рекомендации по оценке эссе, установленные Национальной конференцией экзаменаторов-адвокатов, которая проводит экзамены. Вместо этого исследователи просто сравнили ответы ИИ с "хорошими ответами" жителей штата Мэриленд.

А тем временем написание эссе на экзамене на адвоката является наиболее близким к задачам, которые выполняет юрист-практик. И именно на этом этапе модель GPT-4 показала худшие результаты, рассказало издание Живая наука.

"Тот факт, что GPT-4 трудно дается написание эссе по сравнению с юристами, указывает на то, что большие языковые модели, по крайней мере сами по себе, с трудом справляются с теми задачами, которые адвокат выполняет ежедневно", - заметил исследователь.

Минимальный проходной балл этого экзамена варьируется - от штата к штату - от 260 до 272. Поэтому балл GPT-4 за эссе не дал бы модели возможности сдать общий экзамен. По словам Эрика Мартинеса, хотя нынешние системы искусственного интеллектабесспорно, впечатляют, их следует тщательно оценивать, прежде чем они будут использоваться в юридической практике.

Фото: pexels.com

ПРОКОМЕНТИРОВАТЬ

Прокомментировать

ТЕЛЕГРАМ

FACEBOOK

О НАС

Логотип 50 Plus

50Plus - это медиа-ресурс об образе жизни поколения 50+. Наша миссия - предоставлять интересную и полезную информацию читателям и вдохновлять их на новом этапе жизни.

ПОДПИСКА

Подпишитесь на рассылку, чтобы получать еженедельный дайджест.

UA