В прошлом году разработчики ГПТ-4 из компании OpenAI похвастались, мол, их инструмент искусственного интеллекта превзошел 90 процентов юристов-стажеров на экзамене на адвоката. Это вызвало шквал шума в СМИ. Однако, согласно новому исследованию, это утверждение оказалось преувеличением.
Тогда в OpenAI обнародовали результаты исследования, в ходе которого GPT-4 отвечал на вопросы унифицированного экзамена на адвоката (UBE). По словам разработчиков, их языковая модель с ИИ набрала 298 баллов из 400 возможных. Это якобы дало ей возможность войти в десятую часть лучших стажеров. Но как выяснилось теперь, чат-бот попал только в 10 процентов тех стажеров, которые ранее провалили экзамен (один или несколько раз) и сдавали его повторно.
По словам Эрика Мартинеса, докторанта кафедры когнитивных наук МТИ и ведущего автора нового исследования, сравнение было бы более корректным с показателями тех, кто сдавал тест впервые.
Что еще стало известно о том экзамене
Выводы Эрика Мартинеса также свидетельствуют, что результаты модели варьировались от посредственных до ниже средних на этапе написания эссе.
Для дальнейшего изучения результатов г-н Мартинес заставил GPT-4 повторить тест в соответствии с параметрами, установленными авторами первоначального исследования. Ученый отметил, что в нем не использовались рекомендации по оценке эссе, установленные Национальной конференцией экзаменаторов-адвокатов, которая проводит экзамены. Вместо этого исследователи просто сравнили ответы ИИ с "хорошими ответами" жителей штата Мэриленд.
А тем временем написание эссе на экзамене на адвоката является наиболее близким к задачам, которые выполняет юрист-практик. И именно на этом этапе модель GPT-4 показала худшие результаты, рассказало издание Живая наука.
"Тот факт, что GPT-4 трудно дается написание эссе по сравнению с юристами, указывает на то, что большие языковые модели, по крайней мере сами по себе, с трудом справляются с теми задачами, которые адвокат выполняет ежедневно", - заметил исследователь.
Минимальный проходной балл этого экзамена варьируется - от штата к штату - от 260 до 272. Поэтому балл GPT-4 за эссе не дал бы модели возможности сдать общий экзамен. По словам Эрика Мартинеса, хотя нынешние системы искусственного интеллектабесспорно, впечатляют, их следует тщательно оценивать, прежде чем они будут использоваться в юридической практике.
Фото: pexels.com