По всій індустрії компанії починають обурюватися вартістю штучного інтелекту. Uber вичерпав увесь свій бюджет на AI‑кодинг на 2026 рік уже в квітні. Microsoft забрала у розробників ліцензії Claude Code через кілька місяців після їх видачі. Співробітник Priceline розповів TechCrunch, що рутинне продовження контракту з Cursor раптом подорожчало у 4–5 разів.

Попри те, що ціна за токен знижується, тиск на ширше впровадження AI та перехід до дедалі автономніших агентів різко збільшили споживання токенів. Компанії, які в першій половині 2025 року накидалися на безлімітні підписки, тепер гарячково намагаються зрозуміти, куди йдуть гроші, урізати витрати й зрозуміти, чи взагалі вдасться витягти якийсь ROI з руїн своїх бюджетів.
Тим часом формується новий ринок рішень під цю проблему. Стартапи, усталені вендори та новий орган зі стандартизації змагаються за те, щоб дати компаніям інструменти й спільну мову для обліку витрат.
“Шість місяців тому, коли я розмовляв з клієнтами, все крутилося навколо питання: ‘Що це може? Воно вже достатньо якісне?’” — розповів Александр Ембірікос, голова підрозділу enterprise в OpenAI, на заході в Нью-Йорку цього тижня. — “Зараз ми взагалі про це не говоримо. Зараз розмова про інше: ‘Ми витрачаємо надто багато. Яку видимість ви даєте? Яка аудитованість? Які є обмеження за токенами? Яка ефективність ваших моделей?’”
На цьому тлі Linux Foundation цього тижня представив плани зі створення Tokenomics Foundation — нового органу зі стандартизації, який має прищепити таку саму фінансову дисципліну навколо AI‑токенів, яку FinOps свого часу приніс у сферу хмарних витрат.
“У квітні й травні я почав чути від компаній: ‘Боже мій, ми вже втричі перевищили весь токен‑бюджет на 2026 рік, а ще тільки квітень’,” — сказав Дж. Р. Стормент, виконавчий директор FinOps Foundation, проєкту під егідою Linux Foundation, в коментарі TechCrunch. — “Ми почали чути про екзистенційні кризи, і вся розмова різко змінилася: від ‘tokenmaxxing’ і ‘їдь швидко’ до ‘нам потрібні запобіжники, як це контролювати?’”
Ці крики лунали на тлі палких вимог CEO, які змушували команди використовувати найкращі моделі й рухатися якомога швидше, не зважаючи на витрати. Нові моделі, що з’явилися в листопаді — такі як Claude Opus 4.5 від Anthropic, GPT‑5.1 від OpenAI та Gemini 3 Pro від Google — суттєво покращили “агентні” інструменти, які багаторазово збільшують споживання. Так, одна компанія нібито отримала рахунок на $500 млн за Claude після того, як забула встановити ліміти використання для співробітників.
“Це як епідемія крек-кокаїну”, — каже Кріс Рід, старший директор з IT‑фінансів у Priceline, зазначаючи, що компанія вже почала накладати ліміти за токенами для окремих груп. — “Вам дають спробувати, щоб підсадити, а потім ви вже залежні”.
Віталій Гордон, CEO платформи для управління інженерними командами Faros AI, розповів, що нещодавно говорив з одним CTO: “Один з моїх інженерів витратив $40 000 на токени за минулий місяць, і я щиро не розумію, чи мені його зупинити, чи піти й сказати всім іншим: будьте як він”.
Дворічне дослідження 20 000 розробників, яке Faros оприлюднив у квітні, показало: продуктивність зростає, але разом з нею росте й кількість багів і переробок. Платформа для управління розробкою Jellyfish також виявила, що інженери, які споживають найбільше токенів, приблизно вдвічі продуктивніші за тих, хто менше користується AI, але для цього вони витрачають у десять разів більше токенів.
Ніколас Арколано, керівник досліджень у Jellyfish, повідомив TechCrunch електронною поштою, що вибухове зростання витрат на AI значною мірою пов’язане з агентними можливостями: середнє споживання на одного розробника за дев’ять місяців зросло приблизно в 18,6 раза. Загалом ці цифри роблять аргументи щодо продуктивності набагато менш однозначними, ніж це випливає з обсягів витрат.
“Чи окупиться екстремальне споживання, зрештою залежить від кінцевої бізнес‑цінності відвантаженого коду (наприклад, доходу), а більшість компаній досі не вміють її вимірювати”, — каже Арколано.
Принаймні частково проблема вимірювання пояснюється масштабами нинішнього використання AI.
“Відстеження хмарних витрат — це завдання з обробки сотень мільйонів рядків даних на місяць”, — говорить Стормент. — “Відстеження витрат на токени — це вже трильйони рядків на місяць. Ви не можете просто закинути це в будь-яку таблицю чи базовий інструмент. Потрібно радикально переосмислити свої засоби, специфікації та облікові системи”.
У Priceline Рід уже бачить розбіжності: він зазначає проблеми між звітами постачальника щодо використання та внутрішніми даними компанії.
“Я розпочав кар’єру в управлінні телеком‑витратами, і зараз бачу ті самі паралелі — від телекомів до хмари й тепер до AI”, — каже він. — “Щоразу, коли з’являється щось нове, це благодатний ґрунт для помилок у білінгу, аудитів і можливостей оптимізації”.
Навколо цієї проблеми формується ринок. Є вузькоспеціалізовані компанії, як‑от Pay‑i, що відстежує, вимірює та оптимізує витрати й продуктивність інвестицій у генеративний AI. Платформа Paid, своєю чергою, дає розробникам змогу відслідковувати витрати, вимірювати використання й виставляти рахунки користувачам, спираючись на реальну цінність, а не фіксовану підписку.
Є й такі гравці, як Jellyfish, Waydev і Faros AI, які пропонують моніторинг AI‑агентів, щоб доводити окупність інструментів для розробників. За словами Стормента, більшість із 180 вендорів, що входять до FinOps Foundation, рухаються в цей простір.
Компанії з уже вибудуваною дистрибуцією також додають нові функції, щоб заробити на цьому новому ринку. Ramp нещодавно вийшла в сегмент управління витратами на AI; Datadog і New Relic додали сервіси для менеджменту хмарних витрат, спостережуваності на рівні токенів і моніторингу GPU. На конференції FinOps X наступного тижня від AWS очікують анонсу нових можливостей фінансового управління, орієнтованих на витрати підприємств на AI.
Партнерка NEA Тіффані Лак вважає, що ефективність і спостережуваність за токенами найімовірніше з’являться на рівні “harness” або застосункового шару. Вона вказує на Factory — стартап, що створює AI‑агентів для корпоративних клієнтів і цього тижня запустив роутер моделей, який автоматично обирає найкращу модель для кожного завдання.
Гордон очікує, що розробники передових моделей і інші постачальники будуть дедалі активніше впроваджувати оптимізацію в стилі OpenRouter, спрямовуючи запити до найдешевших моделей — тренд, який уже помітний у рахунках корпоративних клієнтів Claude.
“Фінансовий звіт про те, скільки ви витрачаєте на Anthropic, навіть якщо ви звертаєтеся до моделі Opus, частково буде про Sonnet чи Haiku, бо вони достатньо розумні, щоб це робити”, — каже Гордон. — “Гадаю, це ставатиме дедалі поширенішим”.
Однак усі ці інструменти будуються без спільної мови чи єдиних визначень того, скільки насправді коштує токен, що він виробляє та як порівнювати витрати між вендорами. Тут і має стати в пригоді Tokenomics Foundation.
Фонд працює над канонічним визначенням і рамкою для “tokenomics”; відкритими стандартами, специфікаціями й метриками для обліку використання AI‑токенів і білінгу; а також над новими метриками AI‑економіки — на кшталт вартість‑за‑інтелект або токени‑на‑ват. Також планується визначити показники ефективності “фабрики токенів” і ефективності споживання. Формальний запуск групи заплановано на липень, а вже наступного тижня на конференції FinOps X мають оголосити про нових учасників.
“Економіка токенів за своєю суттю набагато абстрактніша й непрозоріша, ніж будь‑що, чим ми керували в таких масштабах раніше”, — сказав у заяві Нішант Гупта, директор з доступності сервісів у Salesforce. — “Вона потребує зовсім іншого операційного м’яза, ніж той, який індустрія вибудувала для хмари”.
Разом із тим, за прогнозом Goldman Sachs, глобальне використання токенів до 2030 року зросте у 24 рази. Компаніям, які вже перевищили бюджети, рішення потрібні зараз, а перші результати роботи фонду з’являться лише за кілька місяців.
“Можливо, ми вже створили парову машину, але досі не вигадали конвеєр”, — каже Гордон.
За словами Арколано, найрозумніша стратегія — широке, але помірне впровадження.
“Найкращий ROI дає переведення широкої середньої групи користувачів з низького рівня використання на помірний, а не подальше розкручування найактивніших”, — зазначає він.
У підготовці матеріалу також брали участь Рассел Брандом і Тім Фернгольц.


