Середа, 10 Червня, 2026

Чи зможе індустрія полюбити дешевші AI‑моделі

Бум штучного інтелекту будувався на базовому припущенні: що більші моделі потужніші, а найпотужніші моделі перемагають. Тепер індустрія має з’ясувати, що станеться, якщо це припущення почне руйнуватися.

Чи зможе індустрія полюбити дешевші AI‑моделі

Зростання витрат уже змусило користувачів уважніше придивитися до менших і дешевших моделей. Такий підхід до «шопінгу моделей» з огляду на їхню вартість є новим, і поки незрозуміло, як він вплине на ринок, але наслідки, ймовірно, будуть значними.

Одне з прогнозів, найчіткіше сформульоване співзасновником Coinbase Браяном Армстронгом, полягає в тому, що переважна більшість завдань перейде на дешевші моделі.

«Попит на інтелект майже нескінченний, але 80% робочих навантажень працюватимуть на моделях, які на 99% дешевші, протягом 12–18 місяців, — написав Армстронг в X. — 20% навантажень усе ще будуть виконуватися на моделях останнього покоління, де максимізація “IQ” має вирішальне значення».

Важко переоцінити, наскільки суттєвим буде зсув для індустрії ШІ, якщо прогноз Армстронга справдиться.

До цього часу більшість AI‑компаній конкурували за якістю, що фактично означало використання найпросунутішої доступної моделі «за замовчуванням». Якщо ті самі завдання може виконувати дешевша модель без втрати якості, це призведе до масового перегляду економіки ШІ. І принципово важливо те, що значна частина економії коштів припадатиме на великі лабораторії, завдаючи фінансового удару по OpenAI та Anthropic саме тоді, коли вони готуються до IPO.

Це потенційно сейсмічні зміни в індустрії, які спираються на одне базове питання: чи готові компанії перейти на менші моделі?

Початкові тести свідчать, що за правильної організації системи дешевші моделі можуть підміняти дорожчі без жодної втрати якості. У нещодавньому тесті компанії Harvey, яка розробляє юридичні AI‑інструменти, вдалося зменшити витрати на інференс у три рази без зниження якості. Тест, проведений у партнерстві з платформою інференсу Fireworks AI, поєднував Claude Opus і GLM 5.1 від Fireworks, переключаючись на Opus для найскладніших завдань. У результаті навантаження на серверний час і загальні витрати суттєво зменшилися.

«Якість на першому місці, і в юридичній сфері так буде завжди, — сказав у коментарі TechCrunch співзасновник Harvey Гейб Перейра, маючи на увазі юридичні послуги на базі ШІ, які надає його стартап. — Однак саме визначення якості змінюється: від простого використання найпотужнішої моделі для всього — до використання найкращої моделі, яка дає правильну відповідь з максимальною ефективністю».

Часто ця тенденція подається як протистояння великих лабораторій і китайських моделей або моделей з відкритими вагами, але це відволікає від головного. Справжній вододіл проходить не між закритими та відкритими моделями, а між великими та малими. Можна заощадити, переключившись з GPT‑5.5 на V4 Flash від DeepSeek, але перехід на GPT‑5.4‑mini дасть подібний ефект.

Зараз відбувається справжня «цінова війна» між інференсом «у домі» від великих лабораторій і відкритими моделями з незалежним хостингом. Для більш широкого питання «малі проти великих» не так важливо, яка саме мала модель у підсумку переможе.

Все це може здаватися очевидним — звісно, не варто використовувати більше обчислювальних ресурсів, ніж потрібно, — але на практиці це суперечить підходу «спершу масштабування», який домінував у галузі донині. Натхненні так званим «гірким уроком», лабораторії максимально вкладалися в тренування найбільш ресурсоємних моделей, розсовуючи межі можливостей ШІ. Завдяки щедрим інвестиційним дотаціям клієнти не мали причин обирати щось інше, окрім найпросунутіших моделей.

Зі зростанням цін на токени та згортанням субсидій користувачі вперше відчувають реальний тиск витрат. Невідомо, чи змусить це підприємства масово переходити на менші моделі. Так само ймовірно, що вони почнуть економити, роблячи менше запитів, скорочуючи контекст або просто відмовляючись від найменш перспективних проєктів.

Але якщо виявиться, що більшість застосувань можна так само ефективно реалізувати на меншій моделі, це може серйозно охолодити зростаючий попит на інференс — і поставити нові запитання щодо того, як виправдати витрати на тренування фронтир‑моделей.

Джерело

TechCrunch

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті