Четвер, 28 Травня, 2026

Чому штучний інтелект Google не вміє писати правильно

Скільки літер «p» у слові Google? За версією Google — дві.

Чому штучний інтелект Google не вміє писати правильно

«Також є рівно одна літера ‘r’ у слові ‘poop’», — стверджує AI Overview від Google. Водночас система вважає, що у слові journalism дві літери ‘d’, але пише його так: j-o-u-r-n-a-d-i-s-m. Щодо прізвища президента США Google AI правильно визначає наявність однієї літери P, але видає написання t-r-p-u-m.

Не потрібно було бути пророком, щоб передбачити: масштабна перебудова пошуку Google з фокусом на ШІ буде сприйнята неоднозначно. Ми це вже проходили. Коли Google вперше додав AI Overviews до Пошуку, функція посилалася на сатиричні пости з The Onion та Reddit, радячи людям їсти каміння та мазати піцу клеєм.

Тепер, коли Google подвоює свої зусилля, роблячи генеративний ШІ центральним елементом свого 29-річного флагманського продукту, не дивно, що компанія знову спотикається.

«Підрахунок літер усередині слів давно відомий як проблема для LLM, і ми працюємо над виправленням саме цього недоліку», — повідомили в Google у коментарі для TechCrunch.

Такі базові орфографічні помилки можуть здаватися знайомими. LLM — великі мовні моделі, що лежать в основі чат-ботів та інших генераторів тексту, — з самого початку не створювалися для розуміння правопису. Вже кілька років жартують: коли компанія показує нову ШІ-модель, запитайте її, скільки літер ‘r’ у слові strawberry. Ці моделі, здатні за секунди написати застосунок чи розв’язати задачі, які десятиліттями не піддавалися математикам, у питаннях орфографії часто не кращі за дошкільнят.

Проблеми AI Overview Google не обмежуються лише кумедними помилками правопису. Компанія вже виправила недолік минулого тижня, коли пошук за словом “disregard” видавав щось на кшталт словникового визначення, але замість нього показував фразу: «Understood. Let me know whenever you have a new prompt or question!» («Зрозуміло. Дайте знати, коли у вас буде новий запит чи запитання!»). Водночас орфографічні збої залишаються й досі — і частково тому, що їх дуже важко викорінити.

Як неодноразово пояснювали дослідники, коли їх запитували про ці орфографічні парадокси, ШІ не сприймає речення як мовні одиниці, що складаються зі слів і літер. Багато LLM побудовані на архітектурі трансформерів, які розбивають текст на токени — це можуть бути цілі слова, склади або навіть окремі літери, залежно від моделі. Замість того щоб «читати» як людина, ШІ перетворює текст у числові представлення, які потім контекстуалізуються, допомагаючи моделі згенерувати логічну відповідь.

«LLM базуються на архітектурі трансформерів, яка, що важливо, насправді не “читає” текст. Коли ви вводите запит, він перекладається в кодування, — пояснює Меттью Гуздіал, дослідник ШІ та доцент Університету Альберти, в коментарі TechCrunch. — Коли модель бачить слово ‘the’, у неї є одне конкретне кодування того, що означає ‘the’, але вона нічого не знає про окремі літери ‘T’, ‘H’, ‘E’.»

Токен-орієнтована архітектура, на якій працюють LLM на кшталт Google AI Overview, має вбудовані обмеження, і дослідники не надто оптимістичні щодо повного вирішення проблеми орфографії.

«Важко обійти питання, що саме має вважатися “словом” для мовної моделі, — каже Шерідан Фойхт, аспірантка Північно-Східного університету, яка вивчає інтерпретованість великих мовних моделей. — І навіть якби ми змусили експертів-людей погодитися на ідеальний словник токенів, моделям, ймовірно, все одно було б корисно “дробити” все ще дрібніше. Моя здогадка — ідеального токенізатора просто не існує через таку нечіткість».

Це не те питання, яке дослідники вважають першочерговим, адже корисність LLM не в умінні писати без помилок. Але такі очевидні збої нагадують, що ШІ далеко не досконалий, навіть якщо іноді здається всезнаючою силою поза нашим розумінням. Ми не можемо сліпо довіряти відповідям ШІ, не перевіривши їхню точність.

Джерело

TechCrunch

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті