Лучшие чат-боты дают ужасные финансовые советы. Как объяснили эксперты в новом исследовании от Mind Matters, каждый чат-бот оказался «неизменно многословным, но часто некорректным».
Исследователи искусственного интеллекта Гэри Смит, Валентина Либерман и Айзек Уоршоу из Центра естественного и искусственного интеллекта Уолтера Брэдли задали серию из 12 финансовых вопросов четырем ведущим языковым моделям (LLM) — ChatGPT-4o от OpenAI, DeepSeek-V2, Grok 3 Beta от Илона Маска и Google Gemini 2 — чтобы проверить их финансовые возможности.
Примечательно, что этот вывод был почти идентичен оценке Смита в прошлом году, в котором после постановки 11 финансовых вопросов в ChatGPT 3.5, Microsoft Bing на базе ChatGPT GPT-4 и чат-бота Google Bard LLM выдали ответы, которые были неизменно грамматически правильными и казались авторитетными, но изобиловали арифметическими ошибками и ошибками критического мышления.
Используя простую шкалу, где оценка «0» включала полностью неверный финансовый анализ, «0,5» обозначала правильный финансовый анализ с математическими ошибками, а «1» была правильной как по математике, так и по финансовому анализу, ни один чат-бот не набрал более пяти баллов из 12 возможных.
ChatGPT возглавил рейтинг с результатом 5.0, за ним следуют Deepseek 4.0, Grok’S 3.0 и Gemini Abysmal 1.5.
Некоторые ответы чат-бота были настолько плохими, что не соответствовали ожиданиям экспертов. Когда Grok, например, попросили подсчитать месячные расходы на аренду недвижимости на Карибах, арендная плата которой составляла 3700 долларов, а коммунальные услуги — 200 долларов в месяц, чат-бот заявил, что в сумме эти цифры составляют 4900 долларов.
Наряду с кучей странных ошибок, чат-боты также не смогли провести какой-либо интеллектуальный анализ по основным финансовым вопросам, заданным исследователями. Даже самые убедительные ответы чат-ботов, казалось, были взяты из различных онлайн-источников, и они появлялись только тогда, когда их просили объяснить относительно простые концепции, например, как работают налоги.
На протяжении всего этого чат-боты были опасно живы. Исследователи отметили, что все изучаемые ими LLM представляют собой обнадеживающую иллюзию человекоподобного интеллекта, наряду с непринужденным стилем разговора, усиленным доброжелательными восклицательными знаками, что может показаться обычному пользователю уверенностью и корректностью.
«По — прежнему остается фактом, что реальная опасность заключается не в том, что компьютеры умнее нас, — заключили они, — а в том, что мы думаем, что компьютеры умнее нас, и, следовательно, доверяем им принимать решения, которым им не следует доверять».