Від tokenmaxxing до tokenminning: як бізнес переосмислює вартість токенів

28 Червня 2026

У новому випуску подкасту IBM Mixture of Experts ведучий Тім Хван разом з Абрагамом Деніелсом, Гейбом Гудхартом і Мартіном Кіном обговорюють, як змінюється культура використання AI у компаніях. Після періоду майже безоглядного «спалювання» токенів бізнес починає рахувати гроші й переходити від tokenmaxxing до tokenminning — спроби отримати максимальний результат із мінімально можливої кількості токенів.

Це не зміна модної термінології, а симптом глибшого зсуву в економіці AI: інференс стає дорожчим за тренування, метрики використання починають викривляти поведінку команд, а місце «одного великого моделя в хмарі» поступово займають оркестрація та локальні моделі.

Епоха tokenmaxxing: коли «більше токенів» здавалося прогресом

У перші хвилі корпоративного захоплення генеративним AI все було дуже просто: чим більше токенів споживає компанія, тим успішніше вона «адаптує AI».

Як описує Хван, багато організацій буквально вимірювали успіх упровадження за споживанням: більше токенів означало, що більше людей користуються AI. Це прямо лягало у звичну управлінську логіку: якщо хочеш, щоб люди масово освоїли новий інструмент, — міряй активність і стимулюй зростання.

Але в такій метриці була закладена пастка. Вона ніде не враховувала, що:

токени коштують грошей;
не кожен запит до моделі створює реальну цінність;
розрив між «корисними» й «марними» токенами з часом лише росте.

Коли компаніям потрібно було показати, що вони «на передовій AI», tokenmaxxing виглядав невинним: простий, кількісний, легкий для порівняння показник. Але саме ця простота зробила його небезпечним.

Коли рахунок приходить за інференс: токени виявилися «колосально дорогими»

Деніелс говорить прямо: проблема в тому, що токени дорогі, дуже дорогі, і іноді колосально дорогі.

У корпоративній практиці це вже не теорія. Хван згадує загальний сюжет: великі компанії — від технологічних гігантів до сервісних платформ — за кілька місяців вибивали річні бюджети на хмарні моделі. У відповідь з’являлися ліміти, обмеження доступу до API, жорсткі політики використання.

Ключовий момент, який артикулює Деніелс: інференс коштує експоненційно більше для організацій, ніж тренування моделей. Для багатьох саме інференс є регулярною статтею витрат, яка масштабно росте разом з користувацькими сценаріями, тоді як тренування — разова чи рідкісна подія.

Це розвертає фокус дискусії: питання вже не в тому, скільки коштує побудувати модель, а в тому, як жити з її використанням щодня, коли ти зав’язаний на платні токени.

Від «чим більше, тим краще» до «скільки цінності на один токен»

На цьому тлі Хван формулює «фундаментальний зсув»: від token maxing до token minning. Якщо перший підхід зводився до гасла «більше токенів — більше продуктивності», то новий акцент звучить інакше: як отримати найкращий результат за юніт-економікою одного токена.

Tokenminning описують як спробу мінімізувати витрати токенів на одиницю корисного результату. Але тут є важливе застереження, яке наголошує Гудхарт: tokenmaxing на 100% неправильне, та «маніфест token mining» хоч і стверджує, що вимірювати результати — найважливіше, проте майже не пояснює, як саме це робити.

Причина проста: бізнес-цінність неймовірно складно звести до єдиної формули. Для різних компаній:

цінність може бути грошовою, репутаційною, часовою або пов’язаною з ризиками;
ланцюжок від одного токена до реального впливу проходить через безліч проміжних кроків — від коду до процесів, від людей до клієнтів;
сама продуктивність часто вимірюється по-різному навіть у межах однієї організації.

Тому tokenminning у поточному вигляді радше декларує правильний напрям думки, ніж пропонує готові KPI.

Коли метрика ламається: як tokenmaxxing перетворюється на гру

Гудхарт посилається на ідею, яку розбирає Стів Єгге у своєму есе про «плоску криву»: до певного порогу загальні витрати токенів можуть бути доволі прийнятною наближеною оцінкою вихідної продуктивності. Він згадує діапазон, де «до певного рівня» — умовно до мільйонів токенів на день — tokenmaxing є непоганим предиктором загального output.

Але після цього порогу починає працювати інший механізм: гейміфікація метрики. Витрати токенів продовжують зростати, а реальна цінність виходу стає все менш пов’язаною з цим числом. Люди вчаться «грати» показник: робити більше запитів, тримати сесії відкритими, ганяти великі контексти — не тому, що це потрібно, а тому, що так виглядає «активне використання AI».

Тут і проявляється те, що Гудхарт називає помилковим вибором метрики. Легко міряти те, що рахується (токени), і набагато складніше те, що реально важить (цінність результату, зміни в бізнес-процесах, довгостроковий вплив).

Чому «tokenminning» — слабка метафора і що насправді важливо

Попри вдалий контраст із «maxxing», Гудхарт вважає, що «minning» — не зовсім коректна метафора. Вона натякає на майнінг як на процес видобутку цінності з обмеженого ресурсу, тоді як реальна проблема лежить в іншій площині — ефективності.

На його думку, ключовим поняттям має стати саме ефективність, причому в двох сенсах одночасно:

«використовувати менше» там, де немає необхідності в дорогих моделях;
«використовувати більше» дешевих і локальних варіантів, які знімають навантаження з дорогого шару.

І тут пролунає одна з найважливіших тез розмови: не всі токени створені рівними.

Гудхарт формулює це дуже чітко: токени, які я можу запускати на своєму ноутбуці, по суті безкоштовні. А токени дорогих frontier-моделей — зовсім інша історія. Вони несуть не тільки пряму грошову вартість, а й екологічний слід і сумарні інфраструктурні витрати.

У підсумку «правильна» стратегія не зводиться ні до чистого maxxing, ні до абстрактного minning. Радше йдеться про перерозподіл навантаження: дорогі моделі — для справді складних, frontier-завдань, усе інше — на локальні чи дешевші моделі.

Оркестрація й локальні моделі: як знизити ціну за корисний токен

Тут органічно змикається інша велика тема епізоду — оркестрація моделей. На початку випуску панель обговорює багатомодельні системи на кшталт Sakana Fugu, але наприкінці ця логіка повертається вже в контексті витрат.

Гудхарт описує власну практику: у щоденній роботі він витрачає до половини токенів на локальні моделі. Він визнає, що має потужне залізо, недоступне всім, але принцип залишається універсальним: у діапазоні середніх за розміром моделей можна виконати величезну частину рутини — від інтернет-досліджень до базового коду — без залучення найдорожчих систем.

У цьому сценарії оркестрація працює як «розумний диспетчер» запитів:

прості задачі йдуть на локальні чи недорогі моделі;
найскладніші, критичні запити можуть ескалюватися до frontier-рішень;
загальна якість підтримується за рахунок того, що правильна модель застосовується до правильного підзавдання.

Саме така багатошарова архітектура, на думку учасників дискусії, найкраще відповідає і логіці tokenminning, і вимогам реального бізнесу до керованих витрат.

Люди, а не токени: як змінюється крива навчання користувачів

Ще одна важлива точка зору, яку піднімає Хван: поріг, до якого tokenmaxing корелює з продуктивністю, може бути свого роду індикатором того, наскільки ефективно люди користуються AI.

Якщо більшість користувачів новачки, їм потрібно багато запитів, щоб дійти до потрібного результату — відповідно «корисний» діапазон tokenmaxxing вищий. У міру того як користувачі навчаються, цей поріг має знижуватися: вони формулюють запити точніше, менше «стріляють навмання», більше отримують із кожного токена.

У цьому сенсі очікувана «дефляція токенів» — позитивний сценарій: не занепад AI, а показник того, що команди краще опановують інструменти й менше перевитрачають ресурси.

Мартін Кін ілюструє зміну ставлення до ресурсів старою історією про офісні принтери: у великій компанії друк «максимізували», створюючи видимість активної роботи, у маленькому стартапі діяв простий принцип — друкуєш, але мусиш прочитати все надруковане. Перенесений на AI, цей контраст демонструє абсурдність «токенового показушництва»: лічильник витрат не дорівнює лічильнику цінності.

Що далі: від простих метрик до складних систем

На фінальному відрізку дискусії учасники сходяться в кількох тезах.

По-перше, етап «наївних» метрик типу «скільки токенів ми спалили» добігає кінця. Він був неминучим на ранній стадії масового впровадження AI, але тепер радше заважає, ніж допомагає.

По-друге, нова економіка AI вимагає набагато складніших вимірювань: потрібно враховувати типи моделей, місце виконання (локально чи в хмарі), реальні бізнес-результати й навіть навчання користувачів.

По-третє, технологічна відповідь, яка вже формується, — це оркестрація, віртуальні «ендпоінти», що ховають за єдиним API цілу екосистему моделей різної вартості й можливостей. У такій архітектурі tokenminning перестає бути абстрактною ідеєю й перетворюється на практичну задачу дизайну системи.

І нарешті, найважливіше — компаніям доведеться визнати: токен — не універсальна валюта цінності. Він лише один із ресурсів у складній екосистемі, де реальний прогрес визначається не обсягом споживання, а тим, наскільки розумно поєднані моделі, інфраструктура й навички людей, які цим користуються.

Джерело

Mixture of Experts — New AI models, token minimization and IBM’s new sub-1nm chip

67

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Від tokenmaxxing до tokenminning: як бізнес переосмислює вартість токенів

Епоха tokenmaxxing: коли «більше токенів» здавалося прогресом

Коли рахунок приходить за інференс: токени виявилися «колосально дорогими»

Від «чим більше, тим краще» до «скільки цінності на один токен»

Коли метрика ламається: як tokenmaxxing перетворюється на гру

Чому «tokenminning» — слабка метафора і що насправді важливо

Оркестрація й локальні моделі: як знизити ціну за корисний токен

Люди, а не токени: як змінюється крива навчання користувачів

Що далі: від простих метрик до складних систем

Джерело

Самокероване авто можна створити за місяць

Видеопередача о телефонах Vertu

Эксклюзивные возможности Chrome

Nokia анонсировала новые смартфоны

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Vodafone Україна залучив €30 млн фінансування для розвитку мережі у співпраці з Nokia, ING та Finnvera

Інтернет Vodafone, що працює без електрики, охопив 2 млн домогосподарств

Vodafone додав сонячну генерацію на перші 100 базових станцій

Vodafone у 1 кв. 2026 року: стабільність бізнесу та інвестиції у телеком-інфраструктуру України

Vodafone запускає 5G у міжнародному роумінгу

Статті

Чи можна зупинити розплавлення ядерного реактора?

Здається, пари почали використовувати чат-ботів як заміну реальним стосункам

Імперія спостереження, яка відстежувала світових лідерів, ворога Ватикану і, можливо, вас

Виробники приховують справжню швидкість USB-C на ноутбуці

Які недоліки у шістнадцятидюймових ноутбуків

45 “землеподібних” планет виявили – чи означає це, що ми вже не самотні у Всесвіті

NASA спростувало п’ять популярних міфів про космос на основі наукових спостережень та даних

ПОРАДИ

Червоні лінії на екрані Android: чи допоможе постукування?

Як керувати конфіденційністю на iPhone та iPad

Як зменшити розряджання смартфона під час використання бездротового Android Auto

СТАТТІ

Чи можна зупинити розплавлення ядерного реактора?

Здається, пари почали використовувати чат-ботів як заміну реальним стосункам

Імперія спостереження, яка відстежувала світових лідерів, ворога Ватикану і, можливо, вас

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Від tokenmaxxing до tokenminning: як бізнес переосмислює вартість токенів

Епоха tokenmaxxing: коли «більше токенів» здавалося прогресом

Коли рахунок приходить за інференс: токени виявилися «колосально дорогими»

Від «чим більше, тим краще» до «скільки цінності на один токен»

Коли метрика ламається: як tokenmaxxing перетворюється на гру

Чому «tokenminning» — слабка метафора і що насправді важливо

Оркестрація й локальні моделі: як знизити ціну за корисний токен

Люди, а не токени: як змінюється крива навчання користувачів

Що далі: від простих метрик до складних систем

Джерело

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ