Четвер, 11 Червня, 2026

Чому веб‑пошук робить AI‑агентів нестерпно дорогими

У подкасті Super Data Science AI‑інженерка та авторка бестселера «AI Engineering» Чіп Хюєн обговорює практичні пастки запуску LLM‑систем у продакшн. Один з найяскравіших фрагментів розмови — про те, чому саме веб‑пошук перетворює AI‑агентів на фінансову чорну діру, навіть коли сама «розумова робота» моделі коштує відносно недорого.

Цей текст розбирає її аргументи: як саме агенти спалюють токени на безглуздих повторних запитах, чому простий кеш не рятує, що видно в системних промптах сучасних сервісів — і де тут шанс для інженерів та нових продуктів.


«Боляче дорого»: коли веб‑пошук дорожчий за мислення моделі

Чіп Хюєн прямо формулює проблему: веб‑пошук у зв’язці з LLM «extremely expensive… painfully expensive… it makes me scared to run my model because of token consumption». Йдеться не про самі виклики моделі, а про те, що відбувається, коли до неї додають агента з доступом до інтернету.

У своєму експерименті вона досліджувала, чи можуть AI‑агенти аналізувати ринок. Запит був типовий для «розумного» агента: «Given this market do a bunch of research… and make predictions on the outcome of this market». Результат — шокуючий навіть для досвідченої інженерки:

  • кожен запит обходився орієнтовно в долар,
  • іноді «Claude was like $2» за одну дослідницьку задачу.

Для людини, яка запускає десятки чи сотні таких запитів, це миттєво масштабуються в рахунки, які важко пояснити керівництву або інвесторам — особливо якщо результати виявляються банально неефективними.

При цьому, як підкреслює Хюєн, «the actual reasoning [is] a lot cheaper», а головний драйвер вартості — «use new tokens»: веб‑пошук, файловий пошук, інтеграції з сервісами на кшталт пошти чи месенджерів. Саме вони роздувають токенні рахунки, а не те, що модель формує відповідь.


Тисяча URL‑ів, з яких унікальних — лише двадцять

Справжній масштаб марнотратства відкрився, коли Хюєн подивилася на те, що саме роблять агенти «під капотом». В одному з запитів агент, досліджуючи ринок, «visited like a thousand URLs… a thousand web page». Здавалося б, ґрунтовне дослідження. Але аналіз показав інше:

«Out of this thousand web pages only 20 of them are unique».

Інакше кажучи, близько 980 звернень пішли на сторінки, які агент уже відкривав. Далі — ще гірше: «this agent like keep revisiting a web page over and over again». Причина тривіальна, але дорога: для одного й того самого завдання агент генерує багато пошукових запитів:

спочатку, умовно, «Super Data Science podcast», потім «Super Data Science podcast guests» тощо. Різні формулювання повертають той самий набір URL‑ів, але агент це не усвідомлює й «might visit… over and over».

Кожне таке «повторне відкриття» — це:
– запит до пошукового API,
– парсинг фрагменту сторінки,
– додаткові токени для аналізу.

На рахунку користувача або компанії це відображається як десятки центів за те, щоб модель знову прочитала те, що вже читала.


Кеш не рятує: як пошукові системи ріжуть веб‑сторінки на шматки

На перший погляд, ситуація кричить: «це ж ідеальна задача для кешування». Хюєн сама пройшла цей логічний крок: «it sounds like an opportunity for caching». Але, коли вона глибше подивилася на те, як влаштовано веб‑пошук, виявилось, що все складніше.

Пошукові системи, пояснює вона, організують дані «based on data chunk». Коли ви надсилаєте запит, движок:
– знаходить релевантний сайт,
– але «surface the part of the website that is most related to the query».

Тобто «when you do search you don’t retrieve the whole web page, you retrieve the part of the web page that’s relevant to you». Два різні запити до тієї самої сторінки можуть повертати зовсім різні текстові фрагменти. І з погляду кешу це вже не «той самий ресурс», а інший шматок контенту з іншою семантикою.

Додайте сюди ще один шар складності, на який звертає увагу Хюєн: «there’s a whole part about… how you decide the freshness [of] information». Для новинної теми сторінка дворічної давнини практично марна, а запит типу «what is an embedding» може спокійно опиратися на матеріал п’ятирічної давнини. Це означає, що:

  • десь кеш застаріває критично швидко,
  • десь — майже не старіє,
  • але універсальної політики для всіх сценаріїв немає.

Тож простий кеш URL‑ів, який добре працював би в класичних веб‑застосунках, в епоху агентів і семантичних «чанків» виявляється недостатнім. Агент продовжує множити запити, а розробник — рахунки.


Системні промпти як дзеркало хаосу веб‑пошуку

Ще одна цікава оптика Хюєн — погляд на системні промпти популярних сервісів. Вона спеціально дивилася «at a system prompt of a lot of these services… like GPT or Claude» і звернула увагу:

«You will see that they have like a really really big section just trying to get the model to do web search».

Тобто значна частина «мозку» агента — навіть не про саму задачу користувача, а про інструкції:
– як формулювати пошукові запити,
– як оцінювати «свіжість» результатів,
– коли вважати, що старий матеріал ще годиться,
– а коли обов’язково йти за новими джерелами.

У цих промптах, за її словами, вручну прописано, що для одних типів запитів можна використовувати дані тижневої давнини, для інших — лише найновіші. «It is very… still very much manual», резюмує вона. Це не акуратна, елегантна система правил, а радше наростаючий шар патчів, яким намагаються компенсувати слабкі місця моделей у роботі з вебом.

Це хороший індикатор того, де насправді знаходиться зрілість технології: фронтенд може виглядати як «магічний» агент, але всередині інженери досі вручну вмовляють модель шукати так, щоб не розорити користувачів на токенах.


Вартість токенів як новий простір для інновацій

На фоні всіх цих проблем Хюєн не звучить фаталістично. Навпаки, вона вважає, що «there’s still a lot of room for improvement in how to make web search more efficient». І чітко розводить два типи витрат:

  • обчислення для reasoning — порівняно дешеві;
  • все, що стосується «use new tokens» — основне джерело болю.

До «нових токенів» вона відносить не лише веб‑пошук, а й широкий клас «productivity tools», які інтегруються з Gmail, Slack, Asana й іншими сервісами. Кожен виклик API, кожне читання листа чи повідомлення, кожен розбір результатів — це нові токени, які потрібно оплатити.

Її теза проста: сьогоднішні системи витрачають на «данинні» операції набагато більше, ніж на власне інтелектуальну роботу. І саме тут відкривається поле для оптимізації та нових продуктів:

  • зменшення кількості дубльованих звернень,
  • кращі стратегії формування та пере‑використання пошукових запитів,
  • більш розумні політики кешування на рівні семантичних чанків, а не просто URL‑ів,
  • автоматизовані системні промпти, що еволюціонують, а не розростаються хаотично.

Поки цього немає, компанії змушені миритися з тим, що «each of the requests cost… like a dollar», а агенти знову й знову відвідують ті самі сторінки — часто навіть не усвідомлюючи цього.


Висновок: де цінність для інженерів, коли пошук все з’їдає

Розмова з Чіп Хюєн показує: найбільший ворог економіки AI‑агентів сьогодні — не глибина моделей, а банальна неефективність у роботі з вебом. Веб‑пошук:

  • генерує лавину повторних запитів,
  • погано масштабується через фрагментовані «чанки» сторінок,
  • вимагає гігантських, ручно написаних системних промптів,
  • і врешті робить розумних агентів «painfully expensive».

Саме тому оптимізація веб‑пошуку й контексту навколо нього стає однією з найперспективніших зон для AI‑інженерів. Поки індустрія захоплено міряється якістю reasoning, справжня різниця в собівартості йде там, де агенти вирішують, що шукати, як це читати і як не читати одне й те саме по сто разів.


Джерело

Подкаст Super Data Science, епізод 999, «What’s Left to Build When Software Is Free (with Chip Huyen)»
https://www.youtube.com/watch?v=vi6UILzThgo

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті