У новому випуску подкасту IBM Mixture of Experts ведучий Тім Хван разом з Абрагамом Деніелсом, Гейбом Гудхартом і Мартіном Кіном обговорюють, як змінюється культура використання AI у компаніях. Після періоду майже безоглядного «спалювання» токенів бізнес починає рахувати гроші й переходити від tokenmaxxing до tokenminning — спроби отримати максимальний результат із мінімально можливої кількості токенів.

Це не зміна модної термінології, а симптом глибшого зсуву в економіці AI: інференс стає дорожчим за тренування, метрики використання починають викривляти поведінку команд, а місце «одного великого моделя в хмарі» поступово займають оркестрація та локальні моделі.
Епоха tokenmaxxing: коли «більше токенів» здавалося прогресом
У перші хвилі корпоративного захоплення генеративним AI все було дуже просто: чим більше токенів споживає компанія, тим успішніше вона «адаптує AI».
Як описує Хван, багато організацій буквально вимірювали успіх упровадження за споживанням: більше токенів означало, що більше людей користуються AI. Це прямо лягало у звичну управлінську логіку: якщо хочеш, щоб люди масово освоїли новий інструмент, — міряй активність і стимулюй зростання.
Але в такій метриці була закладена пастка. Вона ніде не враховувала, що:
- токени коштують грошей;
- не кожен запит до моделі створює реальну цінність;
- розрив між «корисними» й «марними» токенами з часом лише росте.
Коли компаніям потрібно було показати, що вони «на передовій AI», tokenmaxxing виглядав невинним: простий, кількісний, легкий для порівняння показник. Але саме ця простота зробила його небезпечним.
Коли рахунок приходить за інференс: токени виявилися «колосально дорогими»
Деніелс говорить прямо: проблема в тому, що токени дорогі, дуже дорогі, і іноді колосально дорогі.
У корпоративній практиці це вже не теорія. Хван згадує загальний сюжет: великі компанії — від технологічних гігантів до сервісних платформ — за кілька місяців вибивали річні бюджети на хмарні моделі. У відповідь з’являлися ліміти, обмеження доступу до API, жорсткі політики використання.
Ключовий момент, який артикулює Деніелс: інференс коштує експоненційно більше для організацій, ніж тренування моделей. Для багатьох саме інференс є регулярною статтею витрат, яка масштабно росте разом з користувацькими сценаріями, тоді як тренування — разова чи рідкісна подія.
Це розвертає фокус дискусії: питання вже не в тому, скільки коштує побудувати модель, а в тому, як жити з її використанням щодня, коли ти зав’язаний на платні токени.
Від «чим більше, тим краще» до «скільки цінності на один токен»
На цьому тлі Хван формулює «фундаментальний зсув»: від token maxing до token minning. Якщо перший підхід зводився до гасла «більше токенів — більше продуктивності», то новий акцент звучить інакше: як отримати найкращий результат за юніт-економікою одного токена.
Tokenminning описують як спробу мінімізувати витрати токенів на одиницю корисного результату. Але тут є важливе застереження, яке наголошує Гудхарт: tokenmaxing на 100% неправильне, та «маніфест token mining» хоч і стверджує, що вимірювати результати — найважливіше, проте майже не пояснює, як саме це робити.
Причина проста: бізнес-цінність неймовірно складно звести до єдиної формули. Для різних компаній:
- цінність може бути грошовою, репутаційною, часовою або пов’язаною з ризиками;
- ланцюжок від одного токена до реального впливу проходить через безліч проміжних кроків — від коду до процесів, від людей до клієнтів;
- сама продуктивність часто вимірюється по-різному навіть у межах однієї організації.
Тому tokenminning у поточному вигляді радше декларує правильний напрям думки, ніж пропонує готові KPI.
Коли метрика ламається: як tokenmaxxing перетворюється на гру
Гудхарт посилається на ідею, яку розбирає Стів Єгге у своєму есе про «плоску криву»: до певного порогу загальні витрати токенів можуть бути доволі прийнятною наближеною оцінкою вихідної продуктивності. Він згадує діапазон, де «до певного рівня» — умовно до мільйонів токенів на день — tokenmaxing є непоганим предиктором загального output.
Але після цього порогу починає працювати інший механізм: гейміфікація метрики. Витрати токенів продовжують зростати, а реальна цінність виходу стає все менш пов’язаною з цим числом. Люди вчаться «грати» показник: робити більше запитів, тримати сесії відкритими, ганяти великі контексти — не тому, що це потрібно, а тому, що так виглядає «активне використання AI».
Тут і проявляється те, що Гудхарт називає помилковим вибором метрики. Легко міряти те, що рахується (токени), і набагато складніше те, що реально важить (цінність результату, зміни в бізнес-процесах, довгостроковий вплив).
Чому «tokenminning» — слабка метафора і що насправді важливо
Попри вдалий контраст із «maxxing», Гудхарт вважає, що «minning» — не зовсім коректна метафора. Вона натякає на майнінг як на процес видобутку цінності з обмеженого ресурсу, тоді як реальна проблема лежить в іншій площині — ефективності.
На його думку, ключовим поняттям має стати саме ефективність, причому в двох сенсах одночасно:
- «використовувати менше» там, де немає необхідності в дорогих моделях;
- «використовувати більше» дешевих і локальних варіантів, які знімають навантаження з дорогого шару.
І тут пролунає одна з найважливіших тез розмови: не всі токени створені рівними.
Гудхарт формулює це дуже чітко: токени, які я можу запускати на своєму ноутбуці, по суті безкоштовні. А токени дорогих frontier-моделей — зовсім інша історія. Вони несуть не тільки пряму грошову вартість, а й екологічний слід і сумарні інфраструктурні витрати.
У підсумку «правильна» стратегія не зводиться ні до чистого maxxing, ні до абстрактного minning. Радше йдеться про перерозподіл навантаження: дорогі моделі — для справді складних, frontier-завдань, усе інше — на локальні чи дешевші моделі.
Оркестрація й локальні моделі: як знизити ціну за корисний токен
Тут органічно змикається інша велика тема епізоду — оркестрація моделей. На початку випуску панель обговорює багатомодельні системи на кшталт Sakana Fugu, але наприкінці ця логіка повертається вже в контексті витрат.
Гудхарт описує власну практику: у щоденній роботі він витрачає до половини токенів на локальні моделі. Він визнає, що має потужне залізо, недоступне всім, але принцип залишається універсальним: у діапазоні середніх за розміром моделей можна виконати величезну частину рутини — від інтернет-досліджень до базового коду — без залучення найдорожчих систем.
У цьому сценарії оркестрація працює як «розумний диспетчер» запитів:
- прості задачі йдуть на локальні чи недорогі моделі;
- найскладніші, критичні запити можуть ескалюватися до frontier-рішень;
- загальна якість підтримується за рахунок того, що правильна модель застосовується до правильного підзавдання.
Саме така багатошарова архітектура, на думку учасників дискусії, найкраще відповідає і логіці tokenminning, і вимогам реального бізнесу до керованих витрат.
Люди, а не токени: як змінюється крива навчання користувачів
Ще одна важлива точка зору, яку піднімає Хван: поріг, до якого tokenmaxing корелює з продуктивністю, може бути свого роду індикатором того, наскільки ефективно люди користуються AI.
Якщо більшість користувачів новачки, їм потрібно багато запитів, щоб дійти до потрібного результату — відповідно «корисний» діапазон tokenmaxxing вищий. У міру того як користувачі навчаються, цей поріг має знижуватися: вони формулюють запити точніше, менше «стріляють навмання», більше отримують із кожного токена.
У цьому сенсі очікувана «дефляція токенів» — позитивний сценарій: не занепад AI, а показник того, що команди краще опановують інструменти й менше перевитрачають ресурси.
Мартін Кін ілюструє зміну ставлення до ресурсів старою історією про офісні принтери: у великій компанії друк «максимізували», створюючи видимість активної роботи, у маленькому стартапі діяв простий принцип — друкуєш, але мусиш прочитати все надруковане. Перенесений на AI, цей контраст демонструє абсурдність «токенового показушництва»: лічильник витрат не дорівнює лічильнику цінності.
Що далі: від простих метрик до складних систем
На фінальному відрізку дискусії учасники сходяться в кількох тезах.
По-перше, етап «наївних» метрик типу «скільки токенів ми спалили» добігає кінця. Він був неминучим на ранній стадії масового впровадження AI, але тепер радше заважає, ніж допомагає.
По-друге, нова економіка AI вимагає набагато складніших вимірювань: потрібно враховувати типи моделей, місце виконання (локально чи в хмарі), реальні бізнес-результати й навіть навчання користувачів.
По-третє, технологічна відповідь, яка вже формується, — це оркестрація, віртуальні «ендпоінти», що ховають за єдиним API цілу екосистему моделей різної вартості й можливостей. У такій архітектурі tokenminning перестає бути абстрактною ідеєю й перетворюється на практичну задачу дизайну системи.
І нарешті, найважливіше — компаніям доведеться визнати: токен — не універсальна валюта цінності. Він лише один із ресурсів у складній екосистемі, де реальний прогрес визначається не обсягом споживання, а тим, наскільки розумно поєднані моделі, інфраструктура й навички людей, які цим користуються.
Джерело
Mixture of Experts — New AI models, token minimization and IBM’s new sub-1nm chip


