Хотя люди и системы искусственного интеллекта думают совершенно по-разному, новое исследование показало, что ИИ часто принимает нерациональные решения, так же как и мы.
Ученые из пяти академических институтов Канады и Австралии протестировали две большие языковые модели (LLM) - GPT-3.5 и GPT-4 от OpenAI. Команда обнаружила, что несмотря на "поразительную последовательность" в своих рассуждениях, они совсем не застрахованы от человеческих недостатков.
Почти в половине сценариев, которые рассмотрело новое исследование, ChatGPT демонстрировал немало самых распространенных человеческих предубеждений в принятии решений.
Эта работа впервые оценила поведение ChatGPT в 18 известных когнитивных предубеждениях, выявленных в психологии человека. В исследовании были учтены, в частности, такие общеизвестные человеческие предубеждения, как неприятие риска, чрезмерная самоуверенность и эффект владения (когда мы придаем большую ценность своим вещам). Ученые применили их к подсказкам ChatGPT, чтобы проверить, попадет ли он в те же ловушки, что и люди.
О чем узнали эксперты?
Ученые задавали речевым моделям гипотетические вопросы, позаимствованные из традиционной психологии, в контексте реального коммерческого применения в таких сферах, как управление запасами или переговоры с поставщиками. Исследователи хотели не только увидеть, будет ли ИИ имитировать человеческие предубеждениено и будет ли он это делать, когда ему задают вопросы из разных бизнес-отраслей.
GPT-4 превзошел GPT-3.5 при решении задач с четкими математическими решениями, показав меньше ошибок в вероятностных и логических сценариях. Но в субъективных симуляциях, таких как выбор рискованного варианта для получения прибыли, чат-бот часто демонстрировал иррациональность, как это делают люди.
Исследователи также отметили, что ИИ стремится к более безопасным и предсказуемым результатам при выполнении неоднозначных задач.
Интересно, что поведение чат-ботов оставалось преимущественно стабильным, независимо от того, были ли вопросы сформулированы как абстрактные психологические проблемы или операционные бизнес-процессы. Исследователи пришли к выводу, что обнаруженные предубеждения были не просто продуктом заученных примеров, но и частью того, как рассуждает ИИ.
Одним из удивительных результатов исследования стало то, как GPT-4 иногда даже усиливал человеческие ошибки, рассказало издание Живая наука. "В задании на предвзятое подтверждение GPT-4 всегда давал предвзятые ответы", - написали авторы в отчетной статье. Он также показал более выраженную склонность к ошибке горячей руки (предвзятость ожидать закономерности в случайности), чем GPT 3.5.
С другой стороны, ChatGPT удалось избежать некоторых распространенных человеческих предубеждений, в частности, игнорирование базовых показателей (когда мы игнорируем статистические факты в пользу эпизодической или конкретной информации) и ошибки невозвратных затрат (когда на принятие решений влияют уже понесенные расходы, что позволяет нерелевантной информации затуманивать суждения).
По словам ученых, "человеческие" предубеждения ChatGPT возникают из учебных данных, содержащих когнитивные предубеждения и эвристики, характерные для людей. Эти тенденции усиливаются во время тонкой настройки, особенно когда обратная связь от человека еще больше способствует правдоподобным, а не рациональным ответам. Когда системы ИИ сталкиваются с более неоднозначными задачами, они чаще склоняются к человеческим моделям рассуждений, чем к прямой логике.
"Если вам нужна точная, беспристрастная поддержка принятия решений, используйте GPT в тех областях, где вы уже доверяете калькулятору", - посоветовал ведущий автор исследования Ян Чэнь. Но если результат в большей степени зависит от субъективных или стратегических входных данных, человеческий надзор важнее. Даже если он заключается в корректировке подсказок для пользователя для исправления известных предубеждений.
"К ИИ следует относиться как к сотруднику, который принимает важные решения, ему нужны надзор и этические принципы. Иначе мы рискуем автоматизировать ошибочное мышление вместо того, чтобы улучшить его", - заявила Мина Андиаппан, соавтор работы.
Результаты исследования опубликовал журнал Manufacturing & Service Operations Management.
Фото: pixabay.com