Суббота, 20 сентября, 2025

Глобальный тест искусственного интеллекта: какой ИИ дает наиболее точные ответы с минимумом выдумок

Многие инструменты искусственного интеллекта заявляют, что способны ответить на любой вопрос. Однако иногда их ответы оказываются смешными, а иногда и опасными. Например, ИИ даже не может сообщить время дольше 15 минут не лгая. Поэтому вопрос не в том, может ли ИИ предоставить ложную информацию, а в том, какой из них имеет наибольшие шансы дать правильный ответ.

Чтобы проверить это, была привлечена профессиональная помощь библиотекарей. Было организовано соревнование между девятью ИИ — поисковыми инструментами: каждый получил задание ответить на 30 сложных вопросов. Затем библиотекари оценили ответы и определили, будет ли достаточно для этого обычного поиска Google. Всего трое волонтеров-библиотекарей проанализировали 900 ответов от Bing Copilot, ChatGPT, Claude, Grok, Meta AI и Perplexity, а также от Google AI Overviews, нового режима Google, и традиционного веб-поиска. Были протестированы бесплатные версии, доступные в конце июля-начале августа 2025 года, без использования расширенных функций.

Вопросы были выбраны для проверки пяти типичных «слепых зон» ИИ. Многие из них рекомендовали компания Vals AI, которая специализируется на бенчмарках и хорошо знает слабые места моделей. Как отметил генеральный директор Vals AI Райан Кришнан, технология быстро совершенствуется, но не все ИИ работают одинаково, и важно понимать, где возможны ошибки.

Результаты оказались наглядными. Современные ИИ могут осуществлять веб-поиск перед ответом, но делают это не всегда эффективно. Все инструменты время от времени придумывали факты или так называемые «галлюцинации». Например, только три системы смогли правильно ответить на вопрос «сколько кнопок на iPhone?»

Правильность фактов была лишь частью критериев оценки. Библиотекари также проверяли наличие источников. Как отметил Тревор Уоткинс, библиотекарь университета Джордж-Мейсон, источники всегда должны присутствовать в ответе, поскольку это стандарт библиотечной практики.

Для проверки были выбраны пять категорий вопросов.

1. Тривия
Лучший результат показал Google AI Mode, худший-Grok.

Вопрос о малоизвестных фактах показал преимущество многолетнего опыта Google в поиске. Новый AI Mode, интерфейс в стиле чат-бота, позволял проводить более широкий поиск перед предоставлением ответа. Например, вопрос » кто первым поднялся на Matterhorn Peak в Калифорнии?»правильно ответили только инструменты Google и Perplexity, которые нашли нужную часть страницы Википедии. Perplexity дополнительно предоставил дополнительные источники, оцененные библиотекарями.

ChatGPT и Grok пытались дать ответ без веб-поиска и предоставили неверные данные. Bing Copilot нашел полезный источник, но не смог его интерпретировать для правильного ответа. Библиотекари согласились с тем, что вопрос можно было легко решить с помощью обычного поиска в Google.

Клауд и мета ИИ часто признавали, что не смогли найти правильный ответ. Как отметил библиотекарь штата Сан-Хосе Шерсли Родригес:»когда система признает неуверенность, это намного лучше, чем изобретать».

2. специализированные источники
Лучший результат — Bing Copilot, худший-Perplexity.

Инструменты часто пытались ответить на любой вопрос, независимо от сложности. Был задан вопрос, где правильный ответ требовал специализированных источников. Например, вопросы о наиболее воспроизводимой песне из альбома Фарао Сандерса «Wisdom Through Music» на Spotify не дали правильного ответа, потому что ИИ не имел доступа к платформе.

Другие вопросы показали, что ИИ может быть более полезным, чем поиск в Google. Например, вопрос о руководителе облачного подразделения Nvidia удалось правильно решить ChatGPT 4 и 5, Bing Copilot и обоим инструментам Google, использовав информацию из новостей и LinkedIn. Как отметил судья Крис Маркман из библиотеки Пало-Альто,»без дополнительных исследований это сложно найти».

В то же время Perplexity и Grok часто давали неправильные ответы со ссылками на страницы, которые не содержали ответа. Как отметила Родригес,»такие ссылки создают ложное чувство авторитетности и могут вводить пользователя в заблуждение».

3. последние события
Лучший результат — Google AI Mode, худший-Meta AI.

Модели ИИ создаются на основе огромных наборов данных, но этот процесс длительный, поэтому их встроенная база знаний «заморожена» во время обучения. Вопросы о последних событиях проверяли способность ИИ определять, когда требуется обновленный поиск. Например, запрос на оценку фильма «Фантастическая четверка» на Rotten Tomatoes показал, что ChatGPT и Grok искали свежие данные на сайтах, в то время как другие обращались к устаревшим блогам. Google AI Mode дал оценку старой версии фильма, потому что не распознал, что речь идет о новом релизе (вопрос не уточнял).

В медицине запрос о симптомах мастита во время грудного вскармливания показал, что только Google AI, Copilot и Perplexity приняли во внимание новые рекомендации Академии грудного вскармливания 2022 года. Другие системы дали устаревшие ответы, которые продолжают широко распространяться в сети. Родригес назвала такие ответы опасными, подчеркнув, что»медицинская информация всегда должна содержать ссылки на источники».

4. встроенные предубеждения
Лучший результат — ChatGPT-4, худший — Meta AI.

У всех систем были средние результаты на вопросы, которые должны были выявлять предубеждения. Например, на вопрос «Топ-5 специальностей для университета» большинство инструментов акцентировали на инженерии и ИИ, игнорируя гуманитарные науки. Как отметила Родригес,»это очень ориентировано на STEM и коммерчески мотивировано, а источники оставляют желать лучшего». Инженер Vals Омар Алматов заметил, что»такие мелкие неточности накапливаются и формируют общество так, как мы можем даже не осознавать».

Некоторые системы выделялись, признавая разные точки зрения. Например, Google AI Mode на вопрос о специальностях отмечал:» существуют разные взгляды на то, что делает специальность важной » и приводил критерии: спрос, зарплата, переносимые навыки.

5. изображение
Лучший результат — Perplexity, худший-Meta AI.

Больше всего трудностей возникало с вопросами об изображении. Например, запрос цвета галстука Дональда Трампа на встрече с Путиным в Осаке в 2019 году показал, что большинство систем путают людей или цвета. Клауд признал неуверенность, ChatGPT-5 правильно определил розовый цвет, хотя ошибочно назвал его «полосатым». Perplexity отличался точностью в вопросах о количестве кнопок на iPhone и цвета объектов в искусстве. Объяснение состоит в том, что большинство моделей сначала обучались тексту, а интеграция изображений еще не всегда учитывается правильно.

Общий победитель

Категория Лучший результат Худший результат Оценка других инструментов
Тривия (малоизвестные факты) Google AI Mode Grok Google AI Overviews-средний; ChatGPT-часто придумывал ответы без поиска; Claude-признавал неуверенность; Bing Copilot-находил источник, но иногда не мог его интерпретировать; Meta AI-часто не находил правильный ответ; Perplexity-правильно, с дополнительными источниками
Специализированные источники Bing Copilot Perplexity Google AI Mode – средний, иногда правильно; Google AI Overviews – средний; ChatGPT 4 и 5 – правильно, используя новости и LinkedIn; Claude-иногда признавал неуверенность; Grok-ложные ответы со ссылками на страницы без ответа; Meta AI-ошибки и отказ отвечать
Последние события Google AI Mode Meta AI ChatGPT 4 и 5 – искали свежие данные на сайтах; Claude-средний; Grok-искали, но не всегда точно; Bing Copilot-частично; Perplexity-учитывал новые источники, но иногда ошибочные; Google AI Overviews-средний, устаревшие данные
Встроенные предубеждения ChatGPT-4 Meta AI ChatGPT-5-в целом хорошо, но GPT-4 в некоторых категориях лучше; Google AI Mode-признавал разные точки зрения, объяснял критерии; Claude-средний, частично предвзятый; Bing Copilot – STEM-ориентированный; Grok-подчеркивал STEM и прибыльность; Perplexity – средний
Изображение Perplexity Meta AI ChatGPT-5 — правильно определял цвета, иногда ошибки в деталях; Claude-признавал неуверенность; Google AI Mode – частично правильно; Bing Copilot – средний, иногда путал; Grok – ложные ответы; ChatGPT 4-не всегда точно; Google AI Overviews-ограничено

Победитель теста — Google AI Mode. Он показал наибольшую надежность среди всех систем, особенно в вопросах последних событий и тривии. Google AI Overviews, который добавляет абзац AI в Результаты поиска, показал слабые результаты. На втором месте ChatGPT, особенно GPT-5, но в трех категориях GPT-4 опережал его по точности и источникам. Худшие из них-Meta AI и Grok из-за слабого использования веб-поиска; Meta AI часто отказывался отвечать, Grok, ориентированный на X, особенно плохо справлялся с тривией.

Результаты показывают, что существуют типы повседневных вопросов, на которые ни один ИИ не может дать надежный ответ. Особенно это касается специализированных источников и актуальной информации. Современные инструменты еще не являются настоящими экспертами: они трудно определяют авторитетность и актуальность источника.

Также исследование свидетельствует, что пользователи реже переходят по источникам, получая ответы от ИИ, что вредит открытому ВЭБу. Чрезмерное использование может снизить критическое мышление. Ответы ИИ потребляют большие ресурсы.

Библиотекари отметили, что в 64% случаев обычный Google-поиск позволил бы получить ответ за один-два клика, хотя возможно потратил бы больше времени. AI наиболее полезен для сложных вопросов, где нужно «отыскать иголку в стоге сена». В худших случаях ИИ просто повторяет изложение известных текстов. Поэтому рекомендуется использовать ИИ, как библиотекари: проверять источники, даты и применять критическое мышление, чтобы избежать неточностей и «шума».

По материалам: Вашингтон Пост

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті