Claude Code від Anthropic стрімко стає одним із головних інструментів для розробників, які хочуть делегувати ШІ частину рутини: від рефакторингу до проєктування архітектури. Але разом із зручністю приходить і проблема: ліміти «згорають» за кілька сесій, а рахунки за токени ростуть швидше, ніж сам проєкт. Україномовний розробник і автор каналу KODARIK на конкретних прикладах показує, як поводитися з Claude Code так, щоб не переплачувати за кожен рядок коду.

Ключ до економії — не магічні налаштування тарифів, а щоденні звички: яку модель ви обираєте, якою мовою пишете промпти, як працюєте з контекстом і коли вчасно «прибираєте» пам’ять сесії. Саме ці три площини — моделі, мова та контекст — найбільше впливають на витрати токенів, а отже й грошей.
Чому вибір моделі в Claude Code — це фактично вибір рахунку за місяць
Claude Code підтримує три основні сімейства моделей: Haiku, Sonnet і Opus. На перший погляд, це просто різні «рівні розумності», але для гаманця важливіше інше: кожна з них по‑своєму споживає токени для одних і тих самих завдань.
Haiku — це найтокен-ефективніша модель у лінійці. Вона створена для простих, локальних задач, де не потрібна глибока аналітика чи складне міркування. Типовий приклад — змінити колір кнопки на сайті, підправити один компонент, виправити дрібну помилку в коді. Там, де контекст невеликий, а завдання чітке й вузьке, Haiku дає майже ту саму корисність, що й старші моделі, але за значно меншу «ціну» в токенах.
Sonnet — це «золота середина» й фактичний робочий кінь Claude Code. Розробники Anthropic прямо рекомендують використовувати Sonnet приблизно для 90% повсякденних завдань. Вона достатньо потужна, щоб тримати в голові структуру проєкту, розуміти складні вимоги, працювати з архітектурою й бізнес-логікою, але при цьому не так агресивно спалює токени, як Opus. Для більшості команд, які будують невеликі й середні продукти, Sonnet — оптимальний баланс між якістю й вартістю.
Opus — найпотужніша модель у Claude Code. Вона краще міркує, глибше аналізує, краще тримає складний контекст і підходить для завдань на кшталт проєктування архітектури великого сервісу, продумування складних інтеграцій чи нетривіальних алгоритмів. Але за це доводиться платити: для тієї самої задачі Opus споживає приблизно утричі більше токенів, ніж Sonnet. Якщо бездумно використовувати Opus «на все», рахунок за місяць легко перетворюється на неприємний сюрприз.
Практичний висновок простий, але критичний: модель потрібно підбирати не «за звичкою», а за складністю задачі. Прості правки — Haiku. Повсякденна робота над проєктом — Sonnet. Справді складні, стратегічні завдання — Opus, і то точково, а не як модель за замовчуванням. Кожен перехід «угору» по лінійці моделей — це не лише краща якість, а й відчутно більша витрата токенів.
Мільйон токенів контексту: коли «більше» означає «дорожче»
Окремий пласт економії — це не лише вибір сімейства моделі, а й вибір розміру контекстного вікна. Claude Code надає парні моделі Sonnet і Opus з різними розмірами контексту: приблизно 200 000 і близько 1 000 000 токенів.
Ці моделі можна побачити через команду model: у списку з’являються дві версії Sonnet, дві версії Opus і одна Haiku. Парні Sonnet і Opus відрізняються саме тим, скільки токенів контексту вони здатні тримати в пам’яті. Мільйон токенів — це фактично можливість «згодувати» моделі величезний репозиторій, довгі специфікації, документацію й вести тривалу розмову без втрати історії.
Але в Claude Code за таку розкіш доводиться платити окремо. Використання моделей із контекстом на 1 000 000 токенів завжди генерує додаткові платні токени понад підписку. Ці витрати йдуть у так званий extra usage, який оплачується окремо від базового тарифу. Інакше кажучи, навіть якщо ви вже платите за підписку, мільйонний контекст — це завжди додатковий рахунок.
Якщо завдання не вимагає настільки гігантського контексту, використання моделей на 1 000 000 токенів стає економічно невиправданим. Для більшості робочих сценаріїв — від розробки фіч до рефакторингу — цілком достатньо 200 000 токенів. Перехід на мільйонний контекст має сенс лише тоді, коли ви свідомо плануєте працювати з дуже великими обсягами коду чи тексту в межах однієї сесії й розумієте, що за це доведеться платити окремо.
Звідси ще один практичний принцип: не обирати моделі з мільйонним контекстом «про всяк випадок». Якщо немає чіткої причини, краще залишатися на 200-тисячному вікні — це дозволяє тримати витрати в межах підписки й не заходити в extra usage без потреби.
Англійська як інструмент оптимізації: як мова промптів впливає на рахунок
Токени — це не слова й не символи в прямому сенсі, а одиниці, на які модель розбиває текст. Різні мови токенізуються по‑різному, і це безпосередньо впливає на те, скільки токенів ви витрачаєте на один і той самий запит.
У Claude Code використання англійської мови в промптах дозволяє зменшити витрати токенів приблизно на 10–30% порівняно з іншими мовами. Причина в тому, що англійська токенізується більш ефективно: багато слів і конструкцій вкладаються в меншу кількість токенів, ніж їхні аналоги в інших мовах.
Це не означає, що потрібно повністю відмовлятися від рідної мови в роботі. Але якщо завдання — технічне, а ви й так комфортно почуваєтеся з англійською, перехід на англомовні промпти стає прямим способом економії. Особливо це помітно в довгих інструкціях, описах архітектури, складних вимогах до функціоналу — там, де кожне зайве речення множиться на десятки чи сотні токенів.
Важливий нюанс: економія на токенах не означає, що промпти мають бути «телеграфними» й незрозумілими. Навпаки, базове правило залишається тим самим: чим конкретніше й чіткіше сформульоване завдання, тим краще. Але замість розмовного стилю на кшталт «давай цього разу зробимо ось так, я думаю, що краще буде…» варто переходити до прямої постановки задачі: «Do X, under these constraints, using Y». Менше «води» — менше токенів, швидша й точніша відповідь.
У підсумку англійська в Claude Code — це не лише про глобальність чи «правильність», а й про економіку. Для тих, хто активно працює з ШІ-інструментами, знання мови перетворюється на дуже практичну навичку, яка безпосередньо впливає на витрати.
Контекст як головне джерело витрат: як працює пам’ять Claude Code
Найменш очевидний, але найважливіший фактор витрат у Claude Code — це контекст. Сервіс підтримує постійний контекст діалогу, який щоразу повністю пересилається в модель разом із новим запитом. Фактично це «пам’ять» сесії: усе, що ви написали, й усе, що модель відповіла, зберігається й додається до кожного наступного звернення.
На практиці це означає, що кожен новий запит стає дорожчим, ніж попередній. Чим довше триває сесія, чим більше ви обговорюєте деталей, тим більшим стає контекст, який потрібно знову й знову передавати моделі. Кожен зайвий абзац, кожна неактуальна вже відповідь — це додаткові токени, які спалюються щоразу, коли ви натискаєте Enter.
Саме тому контекст — ключова точка для економії. Надмірно роздутий контекст прямо збільшує витрати токенів і водночас погіршує якість роботи моделі: їй доводиться «тримати в голові» все більше інформації, серед якої багато вже неактуальної. У певний момент це починає нагадувати людину, яка намагається одночасно пам’ятати всі деталі багатогодинної розмови — помилки й «тупняки» неминучі.
Claude Code намагається боротися з цим автоматично. Коли контекст стає надто великим, сервіс запускає механізм стиснення: контекст не видаляється повністю, а стискається й підсумовується. Модель вибирає найважливіші моменти розмови, формує з них коротший опис, а «воду» й другорядні деталі відкидає. Це дозволяє зберегти суть діалогу, але зменшити кількість токенів, які потрібно передавати щоразу.
Цей механізм працює у фоновому режимі, але покладатися лише на нього — не найкраща стратегія. Автостиснення спрацьовує тоді, коли контекст уже став великим, а отже, ви вже встигли витратити чимало токенів. Значно ефективніше — керувати контекстом свідомо.
Один із практичних прийомів — розбивати роботу на окремі сесії. Наприклад, в одній сесії ви обговорюєте загальну архітектуру, в іншій — реалізуєте регулярні платежі, у третій — працюєте над фронтенд-дизайном. Кожна нова сесія стартує з чистим контекстом, без історії попередніх обговорень, які вже не мають відношення до поточного завдання. Це одночасно зменшує витрати токенів і покращує фокус моделі.
Як вручну керувати стисненням контексту: команда compact і налаштування автокомпакту
Автоматичне стиснення — корисна функція, але в Claude Code є й ручні інструменти для більш тонкого контролю над контекстом. Центральний із них — команда compact.
Команда compact дозволяє вручну запустити процес стиснення контексту в поточній сесії. Коли ви її викликаєте, Claude Code підсумовує розмову, залишає найважливіші моменти й видаляє другорядні деталі. Це особливо корисно в довгих сесіях, де ви вже пройшли етап обговорення, узгодили підхід і тепер хочете перейти до реалізації, не тягнучи за собою всю історію проміжних рішень.
Важлива деталь: compact можна доповнити власними інструкціями. Після команди через пробіл ви можете описати, що саме вважаєте критично важливим і що обов’язково потрібно зберегти. Наприклад, попросити не видаляти затверджену структуру папок, ключові бізнес-вимоги чи специфікацію API. Це дозволяє уникнути ситуації, коли автоматичне стиснення випадково «викине» те, що вам ще потрібно.
Ще один рівень контролю — налаштування порогу автокомпакту. За замовчуванням Claude Code сам вирішує, коли контекст став «надто великим», але це не завжди оптимально з точки зору економії. У багатьох випадках вигідніше почати стискати контекст раніше, не чекаючи, поки він заповнить усе доступне вікно.
Для цього в Claude Code можна задати власний поріг через змінну CLAUDE_AUTOCOMPACT_CONTEXT_OVERWRITE у файлі settings.json. Файл розташований у папці .claude вашого проєкту. Якщо такої папки немає, її можна створити вручну. Усередині settings.json змінна має бути оголошена в об’єкті ENV, де зберігаються глобальні налаштування середовища.
Наприклад, якщо задати значення 50, це означатиме, що автокомпакт запускатиметься, коли контекст заповниться на 50%. Тобто модель ніколи не працюватиме з «переповненою» пам’яттю, а ви не витрачатимете токени на передачу величезних шматків історії, які вже мало впливають на поточну задачу.
Практичний ефект такого налаштування подвійний. По‑перше, зменшується середній розмір контексту, а отже й кількість токенів, які відправляються в модель із кожним запитом. По‑друге, модель працює стабільніше й менше «тупить», оскільки їй не доводиться щоразу аналізувати надмірний обсяг інформації.
У поєднанні з розумним поділом роботи на окремі сесії й свідомим вибором моделі це перетворює Claude Code з «ненажерливого» інструменту на керований ресурс, де ви самі визначаєте, за що готові платити, а за що — ні.
Висновок: економія токенів — це насамперед дисципліна
Claude Code дає розробникам потужний інструмент, але водночас вимагає нової дисципліни. Витрати токенів — це не щось абстрактне, що «якось рахується на бекенді», а прямий наслідок щоденних рішень: яку модель ви обираєте, якою мовою формулюєте запити, як довго тягнете одну й ту саму сесію й чи стежите за тим, що відбувається з контекстом.
Haiku, Sonnet і Opus — це не просто різні «рівні інтелекту», а різні економічні профілі. Haiku — для дрібних задач, Sonnet — для 90% щоденної роботи, Opus — для справді складних кейсів, де додаткові витрати виправдані. Моделі з мільйонним контекстом — інструмент для особливих випадків, а не стандарт за замовчуванням, оскільки кожен такий запит неминуче виводить вас у зону додаткових платних токенів.
Англійська мова промптів дає відчутну економію — до 10–30% токенів — і стає практичним інструментом оптимізації, а не лише мовним вибором. Контекст, який Claude Code щоразу повністю пересилає в модель, перетворюється на головне джерело витрат, якщо за ним не стежити. Автоматичне стиснення, команда compact і налаштування CLAUDE_AUTOCOMPACT_CONTEXT_OVERWRITE у settings.json дозволяють тримати цю «пам’ять» під контролем.
У підсумку економія токенів у Claude Code — це не про жорсткі обмеження, а про усвідомлене використання інструменту. Той самий проєкт можна реалізувати, витративши в рази менше токенів, якщо правильно підібрати модель, перейти на англійські промпти там, де це зручно, і не дозволяти контексту перетворюватися на бездонний архів усіх попередніх розмов.
Джерело
YouTube: Claude Code жере токени? Ось 14 лайфхаків як зупинити це!


