Вівторок, 29 Квітня, 2025

Штучний інтелект все ще дає погані поради щодо грошей

Найкращі чат-боти дають жахливі фінансові поради. Як пояснили експерти в новому дослідженні від Mind Matters , кожен чат-бот виявився “незмінно багатослівним, але часто некоректним”.

Дослідники штучного інтелекту Гері Сміт, Валентина Ліберман і Айзек Уоршоу з Центру природного та штучного інтелекту Уолтера Бредлі поставили серію з 12 фінансових питань чотирьом провідним мовним моделям (LLM) — ChatGPT-4o від OpenAI, DeepSeek-V2, Grok 3 Beta від Ілона Маска і Google Gemini 2 — щоб перевірити їх фінансові можливості.

Примітно, що цей висновок був майже ідентичний оцінці Сміта в минулому році, в якому після постановки 11 фінансових питань в ChatGPT 3.5, Microsoft Bing на базі ChatGPT GPT-4 і чат-бота Google Bard LLM видали відповіді, які були незмінно граматично правильними і здавалися авторитетними, але рясніли арифметичними помилками і помилками критичного мислення.

Використовуючи просту шкалу, де оцінка “0” включала повністю невірний фінансовий аналіз, “0,5” позначала правильний фінансовий аналіз з математичними помилками, а “1” була правильною як з математики, так і з фінансового аналізу, ні один чат-бот не набрав більше п’яти балів з 12 можливих.

ChatGPT очолив рейтинг з результатом 5.0, за ним слідують Deepseek 4.0, Grok’s 3.0 і Gemini Abysmal 1.5.

Деякі відповіді чат-бота були настільки поганими, що не відповідали очікуванням експертів. Коли Grok, наприклад, попросили підрахувати місячні витрати на оренду нерухомості на Карибах, орендна плата якої становила 3700 доларів, а комунальні послуги – 200 доларів в місяць, чат-бот заявив, що в сумі ці цифри становлять 4900 доларів.

Поряд з купою дивних помилок, чат-боти також не змогли провести який-небудь інтелектуальний аналіз щодо основних фінансових питань, поставлених дослідниками. Навіть найбільш переконливі відповіді чат-ботів, здавалося, були почерпнуті з різних онлайн-джерел, і вони з’являлися лише тоді, коли їх просили пояснити відносно прості концепції, наприклад, як працюють податки.

Протягом усього цього чат-боти були небезпечно жвавими. Дослідники відзначили, що всі досліджувані ними LLM являють собою обнадійливу ілюзію людиноподібного інтелекту, поряд з невимушеним стилем розмови, посиленим доброзичливими знаками оклику, що може здатися звичайному користувачеві впевненістю і коректністю.

“Як і раніше залишається фактом, що реальна небезпека полягає не в тому, що комп’ютери розумніші за нас, – підсумували вони, – а в тому, що ми думаємо, що комп’ютери розумніші за нас, і, отже, довіряємо їм приймати рішення, які їм не слід довіряти”.

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті