Останнім часом вірусні публікації незмінно дивують людей, демонструючи, як найсучасніші чат-боти, такі як ChatGPT та Claude, здатні розв’язувати надзвичайно складні рівняння, але водночас відчайдушно плутаються у простих завданнях. Зокрема, йдеться про підрахунок кількості літер “р” у слові “полуниця”. Однак, схоже, цьому протистоянню між людською простотою та машинною складністю нарешті настав кінець, принаймні так стверджували розробники.

З гордістю, яка відчувалася навіть через екран, офіційний акаунт ChatGPTapp у соціальній мережі X оголосив: “Нарешті!” За їхніми словами, ChatGPT тепер здатен порахувати всі літери “р” у слові “полуниця” – завдання, яке для людини є сміховинно легким, але традиційно створювало значні труднощі для систем штучного інтелекту. Ця заява мала б ознаменувати нову еру в логічних здібностях ШІ, проте ентузіазм швидко змінився скепсисом.
Проте радість розробників була дещо передчасною, адже користувачі не забарилися виявити прогалини у цих нових “здібностях”. Варто було лише замінити “полуницю” на “журавлину”, як система знову забувала про свою новонабуту майстерність.
Причина, чому “полунична проблема” існує, полягає в особливості обробки мови великими мовними моделями (LLM). Вони побудовані на архітектурі трансформерів, які перетворюють слова, такі як “полуниця”, на числові представлення. Ці представлення чудово вловлюють значення та контекст, але вони не зберігають чіткого усвідомлення окремих літер, що складають слово. Тому для ШІ це не просто літери, а складна послідовність абстрактних даних.
Той факт, що ChatGPT продовжує спотикатися на “журавлині”, незважаючи на “вирішення” “полуничної” проблеми, наштовхує на думку. Можливо, це “вирішення” було не системним покращенням розуміння LLM принципу підрахунку літер, а швидше “заплатою” або “жорстко закодованим” рішенням для конкретних, відомих випадків. Це не відображає ширшого прогресу в тому, як модель обробляє подібні лінгвістичні завдання.
Окрім літерних головоломок, у дописі ChatGPTapp також йшлося про вирішення так званої “проблеми автомийки”. Це завдання експлуатує прогалини в логіці LLM, ставлячи запитання: що буде швидше – пройти пішки до автомийки чи доїхати на машині, якщо вона “лише за 50 метрів”? Більшість ранніх моделей відповідали, що швидше пройтися, повністю ігноруючи очевидний факт: аби помити авто, його необхідно привезти із собою.
ChatGPTapp урочисто заявляє, що ChatGPT тепер здатен виявляти цю логічну помилку та вказувати на неї. Проте, коли я спробував це за допомогою останньої моделі GPT-5.5, вона все одно рекомендувала йти пішки, так само як і Claude, використовуючи модель Sonnet 4.6. Здається, навіть “вирішення” відомих проблем не завжди гарантує очікуваний результат.
Однак не всі ШІ такі забудькуваті. Під час тестування Gemini, ця модель вказала, що хоча пішки було б швидше, для виконання завдання (миття машини) необхідно мати її при собі. Grok справився ще краще: він не лише відзначив проблему відсутності автомобіля, а й додав, що “це запитання стало популярним тестом на те, чи хтось (або ШІ) розуміє справжню мету, замість того, щоб давати загальні поради типу ‘ходьба корисніша/коротша/екологічніша’, які ігнорують контекст”.
Отже, принаймні на даний момент, це беззаперечна перемога для Gemini та Grok у цьому логічному змаганні. Якщо ж виправлення “полуниці” не здатне вирішити “журавлину”, це викликає значно ширше і глибше запитання: чи справді ці моделі стають розумнішими, чи вони просто навчаються краще проходити ті конкретні тести, які ми їм постійно підкидаємо, не розвиваючи при цьому справжнього, адаптивного мислення?


