Найкращі чат-боти дають жахливі фінансові поради. Як пояснили експерти в новому дослідженні від Mind Matters , кожен чат-бот виявився “незмінно багатослівним, але часто некоректним”.
Дослідники штучного інтелекту Гері Сміт, Валентина Ліберман і Айзек Уоршоу з Центру природного та штучного інтелекту Уолтера Бредлі поставили серію з 12 фінансових питань чотирьом провідним мовним моделям (LLM) — ChatGPT-4o від OpenAI, DeepSeek-V2, Grok 3 Beta від Ілона Маска і Google Gemini 2 — щоб перевірити їх фінансові можливості.
Примітно, що цей висновок був майже ідентичний оцінці Сміта в минулому році, в якому після постановки 11 фінансових питань в ChatGPT 3.5, Microsoft Bing на базі ChatGPT GPT-4 і чат-бота Google Bard LLM видали відповіді, які були незмінно граматично правильними і здавалися авторитетними, але рясніли арифметичними помилками і помилками критичного мислення.
Використовуючи просту шкалу, де оцінка “0” включала повністю невірний фінансовий аналіз, “0,5” позначала правильний фінансовий аналіз з математичними помилками, а “1” була правильною як з математики, так і з фінансового аналізу, ні один чат-бот не набрав більше п’яти балів з 12 можливих.
ChatGPT очолив рейтинг з результатом 5.0, за ним слідують Deepseek 4.0, Grok’s 3.0 і Gemini Abysmal 1.5.
Деякі відповіді чат-бота були настільки поганими, що не відповідали очікуванням експертів. Коли Grok, наприклад, попросили підрахувати місячні витрати на оренду нерухомості на Карибах, орендна плата якої становила 3700 доларів, а комунальні послуги – 200 доларів в місяць, чат-бот заявив, що в сумі ці цифри становлять 4900 доларів.
Поряд з купою дивних помилок, чат-боти також не змогли провести який-небудь інтелектуальний аналіз щодо основних фінансових питань, поставлених дослідниками. Навіть найбільш переконливі відповіді чат-ботів, здавалося, були почерпнуті з різних онлайн-джерел, і вони з’являлися лише тоді, коли їх просили пояснити відносно прості концепції, наприклад, як працюють податки.
Протягом усього цього чат-боти були небезпечно жвавими. Дослідники відзначили, що всі досліджувані ними LLM являють собою обнадійливу ілюзію людиноподібного інтелекту, поряд з невимушеним стилем розмови, посиленим доброзичливими знаками оклику, що може здатися звичайному користувачеві впевненістю і коректністю.
“Як і раніше залишається фактом, що реальна небезпека полягає не в тому, що комп’ютери розумніші за нас, – підсумували вони, – а в тому, що ми думаємо, що комп’ютери розумніші за нас, і, отже, довіряємо їм приймати рішення, які їм не слід довіряти”.