Субота, 30 Серпня, 2025

Глобальний тест штучного інтелекту: який ШІ дає найточніші відповіді з мінімумом вигадок

Багато інструментів штучного інтелекту заявляють, що здатні відповісти на будь-яке питання. Проте іноді їхні відповіді виявляються смішними, а іноді й небезпечними. Наприклад, ШІ навіть не може повідомити час довше 15 хвилин не брешучи. Тому питання полягає не в тому, чи ШІ може надати неправдиву інформацію, а в тому, який із них має найбільші шанси дати правильну відповідь.

Щоб перевірити це, було залучено професійну допомогу бібліотекарів. Було організовано змагання між дев’ятьма ШІ-пошуковими інструментами: кожен отримав завдання відповісти на 30 складних запитань. Потім бібліотекарі оцінювали відповіді та визначали, чи вистачило б для цього звичайного пошуку Google. Усього троє волонтерів-бібліотекарів проаналізували 900 відповідей від Bing Copilot, ChatGPT, Claude, Grok, Meta AI і Perplexity, а також від Google AI Overviews, нового режиму Google, та традиційного вебпошуку. Перевірялися безкоштовні версії, доступні наприкінці липня — на початку серпня 2025 року, без використання поглиблених функцій.

Питання були підібрані так, щоб перевірити п’ять типових «сліпих зон» ШІ. Багато з них рекомендувала компанія Vals AI, яка спеціалізується на бенчмарках і добре знає слабкі місця моделей. Як зазначив генеральний директор Vals AI Раян Крішнан, технологія швидко вдосконалюється, але не всі ШІ працюють однаково, і важливо розуміти, де можливі помилки.

Результати виявилися наочними. Сучасні ШІ можуть здійснювати вебпошук перед відповіддю, але роблять це не завжди ефективно. Усі інструменти час від часу вигадували факти, або так звані «галюцинації». Наприклад, лише три системи змогли правильно відповісти на питання «Скільки кнопок на iPhone?»

Правильність фактів була лише частиною критеріїв оцінки. Бібліотекарі також перевіряли наявність джерел. Як зазначив Тревор Воткінс, бібліотекар Джордж-Мейсонського університету, джерела завжди повинні бути присутніми у відповіді, оскільки це стандарт бібліотечної практики.

Для перевірки були обрані п’ять категорій питань.

1. Тривія
Найкращий результат показав Google AI Mode, найгірший — Grok.

Питання про маловідомі факти демонструвало перевагу багаторічного досвіду Google у пошуку. Новий AI Mode, інтерфейс у стилі чат-бота, давав змогу проводити більш широкий пошук перед наданням відповіді. Наприклад, запитання «Хто перший піднявся на Matterhorn Peak у Каліфорнії?» правильно відповіли лише інструменти Google і Perplexity, які знайшли потрібну частину сторінки Wikipedia. Perplexity додатково надав додаткові джерела, що оцінено бібліотекарями.

ChatGPT і Grok намагалися дати відповідь без вебпошуку й надали неправильні дані. Bing Copilot знайшов корисне джерело, але не зміг його інтерпретувати для правильної відповіді. Бібліотекарі погодилися, що питання можна було легко вирішити за допомогою звичайного Google-пошуку.

Claude і Meta AI часто визнавали, що не змогли знайти правильну відповідь. Як зазначила бібліотекар Сан-Хосе Стейт Шерслі Родрігес, «цінним є те, коли система визнає невпевненість, це набагато краще, ніж вигадувати».

2. Спеціалізовані джерела
Найкращий результат — Bing Copilot, найгірший — Perplexity.

Інструменти часто намагалися відповідати на будь-яке питання, незалежно від складності. Було задано запитання, де правильна відповідь вимагала спеціалізованих джерел. Наприклад, запитання про найбільш відтворену пісню з альбому Фарао Сандерса «Wisdom Through Music» на Spotify не дали жодної правильної відповіді, бо ШІ не мав доступу до платформи.

Інші запитання показали, що ШІ може бути кориснішим за Google-пошук. Наприклад, питання про керівника хмарного підрозділу Nvidia вдалося правильно вирішити ChatGPT 4 і 5, Bing Copilot і обом інструментам Google, використавши інформацію з новин і LinkedIn. Як зазначив суддя Кріс Маркман із бібліотеки Palo Alto, «без додаткового дослідження це складно знайти».

Водночас Perplexity і Grok часто давали неправильні відповіді з посиланнями на сторінки, які не містили відповіді. Як зазначила Родрігес, «такі посилання створюють хибне відчуття авторитетності і можуть вводити користувача в оману».

3. Останні події
Найкращий результат — Google AI Mode, найгірший — Meta AI.

Моделі ШІ створюються на основі величезних наборів даних, але цей процес тривалий, тому їхня вбудована база знань «заморожена» на момент навчання. Питання про останні події перевіряли здатність ШІ визначати, коли потрібен оновлений пошук. Наприклад, запит про оцінку фільму «Фантастична четвірка» на Rotten Tomatoes показав, що ChatGPT і Grok шукали свіжі дані на сайтах, а інші зверталися до застарілих блогів. Google AI Mode дав оцінку старої версії фільму, бо не розпізнав, що йдеться про новий реліз (питання не уточнювало).

У медицині запит про симптоми маститу під час грудного вигодовування показав, що лише Google AI, Copilot і Perplexity враховували нові рекомендації Академії грудного вигодовування 2022 року. Інші системи давали застарілі відповіді, що продовжують широко поширюватися в мережі. Родрігес назвала такі відповіді небезпечними, наголосивши, що «медична інформація завжди повинна містити посилання на джерела».

4. Вбудовані упередження
Найкращий результат — ChatGPT-4, найгірший — Meta AI.

У всіх систем були середні результати на питання, які мали виявляти упередження. Наприклад, на питання «Топ-5 спеціальностей для університету» більшість інструментів акцентували на інженерії та ШІ, ігноруючи гуманітарні науки. Як зазначила Родрігес, «це дуже STEM-орієнтовано і комерційно мотивовано, а джерела залишають бажати кращого». Інженер Vals Омар Алматов зауважив, що «такі дрібні неточності накопичуються і формують суспільство в спосіб, який ми можемо навіть не усвідомлювати».

Деякі системи виділялися, визнаючи різні точки зору. Наприклад, Google AI Mode на питання про спеціальності зазначав: «Існують різні погляди на те, що робить спеціальність важливою» і наводив критерії: попит, зарплата, переносимі навички.

5. Зображення
Найкращий результат — Perplexity, найгірший — Meta AI.

Найбільше труднощів виникало із запитаннями про зображення. Наприклад, запит про колір краватки Дональда Трампа на зустрічі з Путіним у Осаці 2019 року показав, що більшість систем плутали осіб або кольори. Claude визнав невпевненість, ChatGPT-5 правильно визначив рожевий колір, хоча помилково назвав її «смугастою». Perplexity вирізнявся точністю у питаннях про кількість кнопок на iPhone і кольори об’єктів у мистецтві. Пояснення полягає в тому, що більшість моделей спершу тренувалися на тексті, а інтеграція зображень ще не завжди враховується правильно.

Загальний переможець

Категорія Найкращий результат Найгірший результат Оцінка інших інструментів
Тривія (маловідомі факти) Google AI Mode Grok Google AI Overviews – середній; ChatGPT – часто вигадував відповіді без пошуку; Claude – визнавав невпевненість; Bing Copilot – знаходив джерело, але іноді не міг його інтерпретувати; Meta AI – часто не знаходив правильну відповідь; Perplexity – правильно, з додатковими джерелами
Спеціалізовані джерела Bing Copilot Perplexity Google AI Mode – середній, іноді правильно; Google AI Overviews – середній; ChatGPT 4 і 5 – правильно, використовуючи новини та LinkedIn; Claude – іноді визнавав невпевненість; Grok – помилкові відповіді з посиланнями на сторінки без відповіді; Meta AI – помилки та відмова відповідати
Останні події Google AI Mode Meta AI ChatGPT 4 і 5 – шукали свіжі дані на сайтах; Claude – середній; Grok – шукали, але не завжди точно; Bing Copilot – частково; Perplexity – враховував нові джерела, але іноді помилкові; Google AI Overviews – середній, застарілі дані
Вбудовані упередження ChatGPT-4 Meta AI ChatGPT-5 – в цілому добре, але GPT-4 у деяких категоріях кращий; Google AI Mode – визнавав різні точки зору, пояснював критерії; Claude – середній, частково упереджений; Bing Copilot – STEM-орієнтований; Grok – підкреслював STEM та прибутковість; Perplexity – середній
Зображення Perplexity Meta AI ChatGPT-5 – правильно визначав кольори, іноді помилки у деталях; Claude – визнавав невпевненість; Google AI Mode – частково правильно; Bing Copilot – середній, іноді плутав; Grok – помилкові відповіді; ChatGPT 4 – не завжди точно; Google AI Overviews – обмежено

Переможець тесту — Google AI Mode. Він показав найбільшу надійність серед усіх систем, особливо у питаннях останніх подій та тривії. Google AI Overviews, який додає AI-абзац у результати пошуку, продемонстрував слабкі результати. На другому місці — ChatGPT, особливо GPT-5, але у трьох категоріях GPT-4 випереджав його за точністю та джерелами. Найгірші — Meta AI та Grok через слабке використання вебпошуку; Meta AI часто відмовлявся відповідати, Grok, що орієнтується на X, особливо погано впорався з тривією.

Результати показують, що існують типи повсякденних запитань, на які жоден ШІ не може дати надійну відповідь. Особливо це стосується спеціалізованих джерел і актуальної інформації. Сучасні інструменти ще не є справжніми експертами: вони важко визначають авторитетність і актуальність джерела.

Також дослідження свідчить, що користувачі рідше переходять за джерелами, отримуючи відповіді від ШІ, що шкодить відкритому вебу. Надмірне використання може знижувати критичне мислення. Відповіді ШІ споживають великі ресурси.

Бібліотекарі зазначили, що у 64% випадків звичайний Google-пошук дозволив би отримати відповідь за один-два кліки, хоча можливо витратив би більше часу. AI найбільш корисний для складних питань, де потрібно «відшукати голку в копиці сіна». У найгірших випадках ШІ просто повторює виклад відомих текстів. Тому рекомендується використовувати AI, як бібліотекарі: перевіряти джерела, дати і застосовувати критичне мислення, щоб уникнути неточностей і «шуму».

За матеріалами: Washington Post

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті