П’ятниця, 19 Червня, 2026

Фронтирні моделі проти малих: новий статус‑кво в AI

На подкасті Mixture of Experts від IBM Technology ведучий Тім Хван разом із дослідниками Каутар Ель Маграуі та Фолькмаром Улігом розбирають одразу два гучні сюжети: угоду Apple з Nvidia та трансформацію інфраструктури Anthropic. За їхніми спостереженнями, ці кейси разом малюють однозначну картину: за два роки індустрія пройшла шлях від віри в «маленькі fine‑tuned моделі всюди» до домінування фронтирних гігантів і складних tiered‑архітектур із роутерами.

Як змінилася інтуїція ринку за два роки

Фолькмар Уліг нагадує, що ще зовсім недавно консенсус виглядав інакше. Приблизно «рік чи два тому ми всі думали: хей, маленькі моделі — це те, що переможе. Ви їх fine‑tune‑ите тощо». Ідея була проста: узяти відносно компактну модель, навчити її під конкретний домен і отримати прийнятну якість без шаленої інфраструктури.

Сьогодні, за його оцінкою, історія переписана фронтирними системами. «Фронтирні моделі, дійсно великі моделі, наразі є тими, що виграють, тими, що мають найвищу якість». Саме вони задають планку складності завдань, які можна розв’язувати, і змушують усю екосистему — від виробників чипів до великих платформ — підлаштовуватися під їхні вимоги.

Цей зсув не означає зникнення малих моделей. Вони залишаються корисними, але радше як елемент багаторівневої системи, а не як універсальний двигун для всього.

Чому фронтирні моделі витіснили «малих фаворитів»

Ключ, на який звертають увагу учасники дискусії, — апаратні вимоги великих моделей, насамперед пропускна здатність пам’яті. Щоб фронтирна модель могла працювати оперативно, їй потрібно постійно підвантажувати ваги з пам’яті до обчислювального блока, і саме на цій операції все або летить, або гальмує.

Уліг порівнює дві лінії чипів: Apple Silicon із «верхньою стелею» пропускної здатності пам’яті на рівні сотень гігабайт за секунду і GPU Nvidia з високошвидкісною пам’яттю, які дають порядок виграшу за швидкістю доступу до ваг. У підсумку затримка «до наступного токена» для фронтирної моделі на таких GPU в рази менша, а отже, і користувацький досвід, і економіка виглядають набагато привабливіше.

Саме цей розрив і привів до того, що «фронтирні моделі перемогли для всього, що є складним», підсумовує Уліг. Для серйозних завдань тепер потрібні як моделі екстремального масштабу, так і апаратні платформи, спеціально заточені під їхню пам’яттєву ненажерливість.

Кейс Apple: поразка ідеї «все на пристрої»

WWDC принесла публічне визнання того, що Apple більше не може триматися старої обіцянки повністю «on‑device» AI. Компанія, яка багато років продавала користувачам образ: «ми робимо власні чипи, усе працює на вашому пристрої, тому це швидко й приватно», вимушена перевести частину навантажень у хмару.

Уліг нагадує, що початкова архітектура Apple була симетричною: одна й та сама логіка на телефоні й у хмарі, причому в дата‑центрах також стояли Apple‑чипи. Але без високошвидкісної пам’яті ці процесори виявилися непридатними для справжніх фронтирних моделей. Вставити HBM у споживчі девайси Apple складно як з точки зору енергоспоживання, так і з точки зору вартості й конструкції, а вся лінійка продуктів компанії просто не розрахована на «200‑ватні монстри».

Результат — логічний, каже він: Apple іде до Nvidia, яка не лише дає потрібну продуктивність, а й підтримує конфіденційні обчислення. Дані шифруються «по всьому шляху» — включно з шиною та самою картою, — що дозволяє створити довірене середовище обробки й при цьому не проектувати власні HBM‑чипи спеціально під фронтирні моделі.

Каутар Ель Маграуі додає ще одну грань до цієї історії: рішення Apple — це не тільки про швидкість, а й про доведений рівень приватності на стороні Nvidia. На її думку, «рів, який захищає AI‑чипи, зміщується від чистої швидкості до довіри». Тепер конкурентоспроможність прискорювачів визначається не лише сирою продуктивністю, а й здатністю довести, що дані, які проходять через чип, залишаються приватними.

Те, що навіть Apple «не змогла це зробити на самоті», Ель Маграуі називає сигналом жорстокості фронтирного AI‑заліза: якщо такий гравець змушений орендувати хмарну інфраструктуру для «важких» моделей, масштаб виклику стає очевидним.

Три рівні замість одного: як працює нова архітектура Apple

Найцікавіше, що у підсумку побудувала Apple, — це класичну tiered‑архітектуру, у якій кожен клас завдань іде на свій шар моделей та заліза. Ель Маграуі описує цю систему як «трирівневу»:

простий запит залишається на iPhone й обробляється малими моделями Apple на самому пристрої; це дозволяє зберегти частину початкового «on‑device» меседжу;

завдання середньої складності відправляються до приватної хмари Apple на базі її власних чипів;

найважчі навантаження йдуть у хмару Google, де крутиться кастомна фронтирна модель Gemini з трильйонним масштабом параметрів на GPU Nvidia Blackwell, тобто на зовсім іншій, нефірмовій для Apple архітектурі.

Ця схема показує, як саме «розходяться ролі» між типами моделей. Смартфонні малі моделі залишаються там, де «пропускна здатність пам’яті вже не настільки критична», формулює Уліг. Усе, що виходить за рамки простих сценаріїв, перемикається на дедалі потужніші, але й дедалі дорожчі ресурси.

Так Apple фактично підтверджує формулу, яку Уліг виводить у кінці розмови: «фронтирні моделі перемогли для всього складного, а малі моделі йдуть на пристрій — і це нормально». Важливе тут не те, що одна парадигма «перемогла» іншу, а те, як обидві вбудовуються в багатошарову екосистему.

Tiered‑майбутнє: від мрії про «одну модель» до перемоги роутерів

Обговорення Apple перегукується з аналізом Fable 5 від Anthropic у тій же розмові. Там Каутар Ель Маграуі звертає увагу на те, що «найважливіший дизайн‑вибір у цьому релізі — це не модель, а роутер перед нею, який по кожному запиту вирішує, чи використовувати великий дорогий мозок, чи тихо перейти на дешевший і безпечніший».

Хоча конкретні технічні деталі архітектури Fable 5 залишаються за межами цієї статті, сама логіка виявляється однаковою і для Anthropic, і для Apple: одна гігантська модель «на всі випадки життя» виявилась занадто дорогою і ризикованою, щоб просто віддати її користувачеві. Замість цього починається «перегони роутерів», коли ключова конкуренція зсувається з площини «чия модель розумніша» до питання «хто краще вміє вирішувати, яку модель, де й коли запускати».

Це стосується і якості, і безпеки, і економіки. Уліг прямо говорить про те, що ми виходимо з «силіконової Ла‑ла‑ленд» із субсидованими токенами до світу, де стає видно реальну вартість інференсу. Саме вона змушує компанії вводити маршрутизацію між дорогими й дешевшими моделями.

На горизонті можливий і новий розворот, припускає Ель Маграуі: якщо вдасться зробити моделі «меншими, але потужнішими», а чипи — істотно енергоефективнішими, може статися «зсув назад» у бік більших можливостей на пристрої. Але одразу застерігає: «з поточними стандартами апаратури та тим, як ці чипи спроєктовані, це дуже складно».

Висновок: нова «норма» AI — це ієрархія, а не один чемпіон

Слухаючи дискусію, стає очевидно, що головна зміна останніх років — не просто зростання розміру моделей. Індустрія вийшла з етапу, коли можна було щиро сперечатися, переможуть малі fine‑tuned системи чи одна універсальна фронтирна модель. Новий консенсус виглядає інакше: переможе ієрархія з кількох рівнів, де фронтирні гіганти беруть на себе максимум складності, а малі моделі заповнюють нішу «легких» завдань на периферії — від смартфона до внутрішніх сервісів.

Apple зі своєю трирівневою схемою, й Anthropic зі ставкою на роутер перед Mythos‑класом — лише перші публічні ілюстрації цього тренду. Далі боротьба піде не за те, хто побудує ще один найбільший мозок, а за те, хто зможе зробити всю цю багатошарову систему достатньо швидкою, надійною, безпечною і, головне, економічно виправданою.

Джерело

Mixture of Experts — Claude Fable 5 & Apple’s NVIDIA deal

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті