Глобальний тест штучного інтелекту: який ШІ дає найточніші відповіді з мінімумом вигадок

30 Серпня 2025

Багато інструментів штучного інтелекту заявляють, що здатні відповісти на будь-яке питання. Проте іноді їхні відповіді виявляються смішними, а іноді й небезпечними. Наприклад, ШІ навіть не може повідомити час довше 15 хвилин не брешучи. Тому питання полягає не в тому, чи ШІ може надати неправдиву інформацію, а в тому, який із них має найбільші шанси дати правильну відповідь.

Щоб перевірити це, було залучено професійну допомогу бібліотекарів. Було організовано змагання між дев’ятьма ШІ-пошуковими інструментами: кожен отримав завдання відповісти на 30 складних запитань. Потім бібліотекарі оцінювали відповіді та визначали, чи вистачило б для цього звичайного пошуку Google. Усього троє волонтерів-бібліотекарів проаналізували 900 відповідей від Bing Copilot, ChatGPT, Claude, Grok, Meta AI і Perplexity, а також від Google AI Overviews, нового режиму Google, та традиційного вебпошуку. Перевірялися безкоштовні версії, доступні наприкінці липня — на початку серпня 2025 року, без використання поглиблених функцій.

Питання були підібрані так, щоб перевірити п’ять типових «сліпих зон» ШІ. Багато з них рекомендувала компанія Vals AI, яка спеціалізується на бенчмарках і добре знає слабкі місця моделей. Як зазначив генеральний директор Vals AI Раян Крішнан, технологія швидко вдосконалюється, але не всі ШІ працюють однаково, і важливо розуміти, де можливі помилки.

Результати виявилися наочними. Сучасні ШІ можуть здійснювати вебпошук перед відповіддю, але роблять це не завжди ефективно. Усі інструменти час від часу вигадували факти, або так звані «галюцинації». Наприклад, лише три системи змогли правильно відповісти на питання «Скільки кнопок на iPhone?»

Правильність фактів була лише частиною критеріїв оцінки. Бібліотекарі також перевіряли наявність джерел. Як зазначив Тревор Воткінс, бібліотекар Джордж-Мейсонського університету, джерела завжди повинні бути присутніми у відповіді, оскільки це стандарт бібліотечної практики.

Для перевірки були обрані п’ять категорій питань.

1. Тривія
Найкращий результат показав Google AI Mode, найгірший — Grok.

Питання про маловідомі факти демонструвало перевагу багаторічного досвіду Google у пошуку. Новий AI Mode, інтерфейс у стилі чат-бота, давав змогу проводити більш широкий пошук перед наданням відповіді. Наприклад, запитання «Хто перший піднявся на Matterhorn Peak у Каліфорнії?» правильно відповіли лише інструменти Google і Perplexity, які знайшли потрібну частину сторінки Wikipedia. Perplexity додатково надав додаткові джерела, що оцінено бібліотекарями.

ChatGPT і Grok намагалися дати відповідь без вебпошуку й надали неправильні дані. Bing Copilot знайшов корисне джерело, але не зміг його інтерпретувати для правильної відповіді. Бібліотекарі погодилися, що питання можна було легко вирішити за допомогою звичайного Google-пошуку.

Claude і Meta AI часто визнавали, що не змогли знайти правильну відповідь. Як зазначила бібліотекар Сан-Хосе Стейт Шерслі Родрігес, «цінним є те, коли система визнає невпевненість, це набагато краще, ніж вигадувати».

2. Спеціалізовані джерела
Найкращий результат — Bing Copilot, найгірший — Perplexity.

Інструменти часто намагалися відповідати на будь-яке питання, незалежно від складності. Було задано запитання, де правильна відповідь вимагала спеціалізованих джерел. Наприклад, запитання про найбільш відтворену пісню з альбому Фарао Сандерса «Wisdom Through Music» на Spotify не дали жодної правильної відповіді, бо ШІ не мав доступу до платформи.

Інші запитання показали, що ШІ може бути кориснішим за Google-пошук. Наприклад, питання про керівника хмарного підрозділу Nvidia вдалося правильно вирішити ChatGPT 4 і 5, Bing Copilot і обом інструментам Google, використавши інформацію з новин і LinkedIn. Як зазначив суддя Кріс Маркман із бібліотеки Palo Alto, «без додаткового дослідження це складно знайти».

Водночас Perplexity і Grok часто давали неправильні відповіді з посиланнями на сторінки, які не містили відповіді. Як зазначила Родрігес, «такі посилання створюють хибне відчуття авторитетності і можуть вводити користувача в оману».

3. Останні події
Найкращий результат — Google AI Mode, найгірший — Meta AI.

Моделі ШІ створюються на основі величезних наборів даних, але цей процес тривалий, тому їхня вбудована база знань «заморожена» на момент навчання. Питання про останні події перевіряли здатність ШІ визначати, коли потрібен оновлений пошук. Наприклад, запит про оцінку фільму «Фантастична четвірка» на Rotten Tomatoes показав, що ChatGPT і Grok шукали свіжі дані на сайтах, а інші зверталися до застарілих блогів. Google AI Mode дав оцінку старої версії фільму, бо не розпізнав, що йдеться про новий реліз (питання не уточнювало).

У медицині запит про симптоми маститу під час грудного вигодовування показав, що лише Google AI, Copilot і Perplexity враховували нові рекомендації Академії грудного вигодовування 2022 року. Інші системи давали застарілі відповіді, що продовжують широко поширюватися в мережі. Родрігес назвала такі відповіді небезпечними, наголосивши, що «медична інформація завжди повинна містити посилання на джерела».

4. Вбудовані упередження
Найкращий результат — ChatGPT-4, найгірший — Meta AI.

У всіх систем були середні результати на питання, які мали виявляти упередження. Наприклад, на питання «Топ-5 спеціальностей для університету» більшість інструментів акцентували на інженерії та ШІ, ігноруючи гуманітарні науки. Як зазначила Родрігес, «це дуже STEM-орієнтовано і комерційно мотивовано, а джерела залишають бажати кращого». Інженер Vals Омар Алматов зауважив, що «такі дрібні неточності накопичуються і формують суспільство в спосіб, який ми можемо навіть не усвідомлювати».

Деякі системи виділялися, визнаючи різні точки зору. Наприклад, Google AI Mode на питання про спеціальності зазначав: «Існують різні погляди на те, що робить спеціальність важливою» і наводив критерії: попит, зарплата, переносимі навички.

5. Зображення
Найкращий результат — Perplexity, найгірший — Meta AI.

Найбільше труднощів виникало із запитаннями про зображення. Наприклад, запит про колір краватки Дональда Трампа на зустрічі з Путіним у Осаці 2019 року показав, що більшість систем плутали осіб або кольори. Claude визнав невпевненість, ChatGPT-5 правильно визначив рожевий колір, хоча помилково назвав її «смугастою». Perplexity вирізнявся точністю у питаннях про кількість кнопок на iPhone і кольори об’єктів у мистецтві. Пояснення полягає в тому, що більшість моделей спершу тренувалися на тексті, а інтеграція зображень ще не завжди враховується правильно.

Загальний переможець

Категорія	Найкращий результат	Найгірший результат	Оцінка інших інструментів

Тривія (маловідомі факти)

Google AI Mode

Grok

Google AI Overviews – середній; ChatGPT – часто вигадував відповіді без пошуку; Claude – визнавав невпевненість; Bing Copilot – знаходив джерело, але іноді не міг його інтерпретувати; Meta AI – часто не знаходив правильну відповідь; Perplexity – правильно, з додатковими джерелами

Спеціалізовані джерела

Bing Copilot

Perplexity

Google AI Mode – середній, іноді правильно; Google AI Overviews – середній; ChatGPT 4 і 5 – правильно, використовуючи новини та LinkedIn; Claude – іноді визнавав невпевненість; Grok – помилкові відповіді з посиланнями на сторінки без відповіді; Meta AI – помилки та відмова відповідати

Останні події

Google AI Mode

Meta AI

ChatGPT 4 і 5 – шукали свіжі дані на сайтах; Claude – середній; Grok – шукали, але не завжди точно; Bing Copilot – частково; Perplexity – враховував нові джерела, але іноді помилкові; Google AI Overviews – середній, застарілі дані

Вбудовані упередження

ChatGPT-4

Meta AI

ChatGPT-5 – в цілому добре, але GPT-4 у деяких категоріях кращий; Google AI Mode – визнавав різні точки зору, пояснював критерії; Claude – середній, частково упереджений; Bing Copilot – STEM-орієнтований; Grok – підкреслював STEM та прибутковість; Perplexity – середній

Зображення

Perplexity

Meta AI

ChatGPT-5 – правильно визначав кольори, іноді помилки у деталях; Claude – визнавав невпевненість; Google AI Mode – частково правильно; Bing Copilot – середній, іноді плутав; Grok – помилкові відповіді; ChatGPT 4 – не завжди точно; Google AI Overviews – обмежено

Переможець тесту — Google AI Mode. Він показав найбільшу надійність серед усіх систем, особливо у питаннях останніх подій та тривії. Google AI Overviews, який додає AI-абзац у результати пошуку, продемонстрував слабкі результати. На другому місці — ChatGPT, особливо GPT-5, але у трьох категоріях GPT-4 випереджав його за точністю та джерелами. Найгірші — Meta AI та Grok через слабке використання вебпошуку; Meta AI часто відмовлявся відповідати, Grok, що орієнтується на X, особливо погано впорався з тривією.

Результати показують, що існують типи повсякденних запитань, на які жоден ШІ не може дати надійну відповідь. Особливо це стосується спеціалізованих джерел і актуальної інформації. Сучасні інструменти ще не є справжніми експертами: вони важко визначають авторитетність і актуальність джерела.

Також дослідження свідчить, що користувачі рідше переходять за джерелами, отримуючи відповіді від ШІ, що шкодить відкритому вебу. Надмірне використання може знижувати критичне мислення. Відповіді ШІ споживають великі ресурси.

Бібліотекарі зазначили, що у 64% випадків звичайний Google-пошук дозволив би отримати відповідь за один-два кліки, хоча можливо витратив би більше часу. AI найбільш корисний для складних питань, де потрібно «відшукати голку в копиці сіна». У найгірших випадках ШІ просто повторює виклад відомих текстів. Тому рекомендується використовувати AI, як бібліотекарі: перевіряти джерела, дати і застосовувати критичне мислення, щоб уникнути неточностей і «шуму».

За матеріалами: Washington Post

Теги
Історії

714

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Глобальний тест штучного інтелекту: який ШІ дає найточніші відповіді з мінімумом вигадок

Ви зможете призначити довіреного друга для розблокування свого акаунту Google (Gmail)

Apple безплатно відремонтує японцям гаджети після повеней та зсувів

В інтернеті з’явився «найбільш ексклюзивний сайт у світі»

KALQ – клавиатура для рекордно быстрой печати

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

«Роумінг як вдома» стає стандартом у тарифах Vodafone

Vodafone відновив реанімаційний блок дитячого кардіоцентру, зруйнований російською ракетою

Vodafone Україна разом з абонентами допомогли вилікувати 289 дітей

Vodafone Україна тестуватиме перехід на 4G в Ковелі

Віталій Козловський став обличчям нової рекламної кампанії Vodafone

Статті

Штучний інтелект як Президент? Чому це може стати реальністю до 2032 року

Чи можна лікувати безсоння та нічні жахіття, навчившись керувати усвідомленими снами?

Ройова робототехніка може означати кінець конвеєра на заводах

Огляд Realme GT 8 Pro: хаотичне поєднання блискучих камер і незрозумілих дизайнерських рішень

ChatGPT руйнує шлюби: люди використовують ШІ, щоб атакувати одне одного

Квантовий комп’ютер? Краще взяти комп’ютер 1981 року, абакус і собаку

Чи є рідинне охолодження у смартфонах ефективним? iPhone оснастили рідинним охолодженням, щоб перевірити результат

ПОРАДИ

Як зробити AirPods повністю сумісними з пристроями Android

Як увімкнути телефон із несправною кнопкою живлення

Як подовжити термін використання смартфона

СТАТТІ

Штучний інтелект як Президент? Чому це може стати реальністю до 2032 року

Чи можна лікувати безсоння та нічні жахіття, навчившись керувати усвідомленими снами?

Ройова робототехніка може означати кінець конвеєра на заводах

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Глобальний тест штучного інтелекту: який ШІ дає найточніші відповіді з мінімумом вигадок

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ