Неділя, 28 Червня, 2026

Від tokenmaxxing до tokenminning: як бізнес переосмислює вартість токенів

У новому випуску подкасту IBM Mixture of Experts ведучий Тім Хван разом з Абрагамом Деніелсом, Гейбом Гудхартом і Мартіном Кіном обговорюють, як змінюється культура використання AI у компаніях. Після періоду майже безоглядного «спалювання» токенів бізнес починає рахувати гроші й переходити від tokenmaxxing до tokenminning — спроби отримати максимальний результат із мінімально можливої кількості токенів.

Це не зміна модної термінології, а симптом глибшого зсуву в економіці AI: інференс стає дорожчим за тренування, метрики використання починають викривляти поведінку команд, а місце «одного великого моделя в хмарі» поступово займають оркестрація та локальні моделі.


Епоха tokenmaxxing: коли «більше токенів» здавалося прогресом

У перші хвилі корпоративного захоплення генеративним AI все було дуже просто: чим більше токенів споживає компанія, тим успішніше вона «адаптує AI».

Як описує Хван, багато організацій буквально вимірювали успіх упровадження за споживанням: більше токенів означало, що більше людей користуються AI. Це прямо лягало у звичну управлінську логіку: якщо хочеш, щоб люди масово освоїли новий інструмент, — міряй активність і стимулюй зростання.

Але в такій метриці була закладена пастка. Вона ніде не враховувала, що:

  • токени коштують грошей;
  • не кожен запит до моделі створює реальну цінність;
  • розрив між «корисними» й «марними» токенами з часом лише росте.

Коли компаніям потрібно було показати, що вони «на передовій AI», tokenmaxxing виглядав невинним: простий, кількісний, легкий для порівняння показник. Але саме ця простота зробила його небезпечним.


Коли рахунок приходить за інференс: токени виявилися «колосально дорогими»

Деніелс говорить прямо: проблема в тому, що токени дорогі, дуже дорогі, і іноді колосально дорогі.

У корпоративній практиці це вже не теорія. Хван згадує загальний сюжет: великі компанії — від технологічних гігантів до сервісних платформ — за кілька місяців вибивали річні бюджети на хмарні моделі. У відповідь з’являлися ліміти, обмеження доступу до API, жорсткі політики використання.

Ключовий момент, який артикулює Деніелс: інференс коштує експоненційно більше для організацій, ніж тренування моделей. Для багатьох саме інференс є регулярною статтею витрат, яка масштабно росте разом з користувацькими сценаріями, тоді як тренування — разова чи рідкісна подія.

Це розвертає фокус дискусії: питання вже не в тому, скільки коштує побудувати модель, а в тому, як жити з її використанням щодня, коли ти зав’язаний на платні токени.


Від «чим більше, тим краще» до «скільки цінності на один токен»

На цьому тлі Хван формулює «фундаментальний зсув»: від token maxing до token minning. Якщо перший підхід зводився до гасла «більше токенів — більше продуктивності», то новий акцент звучить інакше: як отримати найкращий результат за юніт-економікою одного токена.

Tokenminning описують як спробу мінімізувати витрати токенів на одиницю корисного результату. Але тут є важливе застереження, яке наголошує Гудхарт: tokenmaxing на 100% неправильне, та «маніфест token mining» хоч і стверджує, що вимірювати результати — найважливіше, проте майже не пояснює, як саме це робити.

Причина проста: бізнес-цінність неймовірно складно звести до єдиної формули. Для різних компаній:

  • цінність може бути грошовою, репутаційною, часовою або пов’язаною з ризиками;
  • ланцюжок від одного токена до реального впливу проходить через безліч проміжних кроків — від коду до процесів, від людей до клієнтів;
  • сама продуктивність часто вимірюється по-різному навіть у межах однієї організації.

Тому tokenminning у поточному вигляді радше декларує правильний напрям думки, ніж пропонує готові KPI.


Коли метрика ламається: як tokenmaxxing перетворюється на гру

Гудхарт посилається на ідею, яку розбирає Стів Єгге у своєму есе про «плоску криву»: до певного порогу загальні витрати токенів можуть бути доволі прийнятною наближеною оцінкою вихідної продуктивності. Він згадує діапазон, де «до певного рівня» — умовно до мільйонів токенів на день — tokenmaxing є непоганим предиктором загального output.

Але після цього порогу починає працювати інший механізм: гейміфікація метрики. Витрати токенів продовжують зростати, а реальна цінність виходу стає все менш пов’язаною з цим числом. Люди вчаться «грати» показник: робити більше запитів, тримати сесії відкритими, ганяти великі контексти — не тому, що це потрібно, а тому, що так виглядає «активне використання AI».

Тут і проявляється те, що Гудхарт називає помилковим вибором метрики. Легко міряти те, що рахується (токени), і набагато складніше те, що реально важить (цінність результату, зміни в бізнес-процесах, довгостроковий вплив).


Чому «tokenminning» — слабка метафора і що насправді важливо

Попри вдалий контраст із «maxxing», Гудхарт вважає, що «minning» — не зовсім коректна метафора. Вона натякає на майнінг як на процес видобутку цінності з обмеженого ресурсу, тоді як реальна проблема лежить в іншій площині — ефективності.

На його думку, ключовим поняттям має стати саме ефективність, причому в двох сенсах одночасно:

  • «використовувати менше» там, де немає необхідності в дорогих моделях;
  • «використовувати більше» дешевих і локальних варіантів, які знімають навантаження з дорогого шару.

І тут пролунає одна з найважливіших тез розмови: не всі токени створені рівними.

Гудхарт формулює це дуже чітко: токени, які я можу запускати на своєму ноутбуці, по суті безкоштовні. А токени дорогих frontier-моделей — зовсім інша історія. Вони несуть не тільки пряму грошову вартість, а й екологічний слід і сумарні інфраструктурні витрати.

У підсумку «правильна» стратегія не зводиться ні до чистого maxxing, ні до абстрактного minning. Радше йдеться про перерозподіл навантаження: дорогі моделі — для справді складних, frontier-завдань, усе інше — на локальні чи дешевші моделі.


Оркестрація й локальні моделі: як знизити ціну за корисний токен

Тут органічно змикається інша велика тема епізоду — оркестрація моделей. На початку випуску панель обговорює багатомодельні системи на кшталт Sakana Fugu, але наприкінці ця логіка повертається вже в контексті витрат.

Гудхарт описує власну практику: у щоденній роботі він витрачає до половини токенів на локальні моделі. Він визнає, що має потужне залізо, недоступне всім, але принцип залишається універсальним: у діапазоні середніх за розміром моделей можна виконати величезну частину рутини — від інтернет-досліджень до базового коду — без залучення найдорожчих систем.

У цьому сценарії оркестрація працює як «розумний диспетчер» запитів:

  • прості задачі йдуть на локальні чи недорогі моделі;
  • найскладніші, критичні запити можуть ескалюватися до frontier-рішень;
  • загальна якість підтримується за рахунок того, що правильна модель застосовується до правильного підзавдання.

Саме така багатошарова архітектура, на думку учасників дискусії, найкраще відповідає і логіці tokenminning, і вимогам реального бізнесу до керованих витрат.


Люди, а не токени: як змінюється крива навчання користувачів

Ще одна важлива точка зору, яку піднімає Хван: поріг, до якого tokenmaxing корелює з продуктивністю, може бути свого роду індикатором того, наскільки ефективно люди користуються AI.

Якщо більшість користувачів новачки, їм потрібно багато запитів, щоб дійти до потрібного результату — відповідно «корисний» діапазон tokenmaxxing вищий. У міру того як користувачі навчаються, цей поріг має знижуватися: вони формулюють запити точніше, менше «стріляють навмання», більше отримують із кожного токена.

У цьому сенсі очікувана «дефляція токенів» — позитивний сценарій: не занепад AI, а показник того, що команди краще опановують інструменти й менше перевитрачають ресурси.

Мартін Кін ілюструє зміну ставлення до ресурсів старою історією про офісні принтери: у великій компанії друк «максимізували», створюючи видимість активної роботи, у маленькому стартапі діяв простий принцип — друкуєш, але мусиш прочитати все надруковане. Перенесений на AI, цей контраст демонструє абсурдність «токенового показушництва»: лічильник витрат не дорівнює лічильнику цінності.


Що далі: від простих метрик до складних систем

На фінальному відрізку дискусії учасники сходяться в кількох тезах.

По-перше, етап «наївних» метрик типу «скільки токенів ми спалили» добігає кінця. Він був неминучим на ранній стадії масового впровадження AI, але тепер радше заважає, ніж допомагає.

По-друге, нова економіка AI вимагає набагато складніших вимірювань: потрібно враховувати типи моделей, місце виконання (локально чи в хмарі), реальні бізнес-результати й навіть навчання користувачів.

По-третє, технологічна відповідь, яка вже формується, — це оркестрація, віртуальні «ендпоінти», що ховають за єдиним API цілу екосистему моделей різної вартості й можливостей. У такій архітектурі tokenminning перестає бути абстрактною ідеєю й перетворюється на практичну задачу дизайну системи.

І нарешті, найважливіше — компаніям доведеться визнати: токен — не універсальна валюта цінності. Він лише один із ресурсів у складній екосистемі, де реальний прогрес визначається не обсягом споживання, а тим, наскільки розумно поєднані моделі, інфраструктура й навички людей, які цим користуються.


Джерело

Mixture of Experts — New AI models, token minimization and IBM’s new sub-1nm chip

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті