Шоу Mixture of Experts від IBM Technology цього разу зібрало дослідників і архітекторів IBM, аби поговорити про те, що відбувається на справжньому «залізному» фронті штучного інтелекту: від вартості токенів і вибору моделей в ентерпрайзі до того, як нові методи на кшталт DiLoCo від Google DeepMind можуть перелаштувати саму географію дата-центрів. На тлі запуску нової лінійки спеціалізованих моделей Granite 4.1 і системного асистента IBM Bob панель обговорює ширший зсув: великі універсальні моделі стають комодіті, а справжня диференціація зміщується в бік системного дизайну, інфраструктури та спеціалізації.

Коли «великий LLM» стає комодіті
За останні два роки ринок звик мислити в категоріях «фронтирних» моделей: більше параметрів, більше GPU, більші дата-центри. Але всередині індустрії дедалі чіткіше звучить інша теза: великі загального призначення моделі поступово перетворюються на комодіті — базову можливість, доступну від кількох провайдерів у схожій якості.
Логіка проста. Якщо на ринку одночасно існує п’ять–шість дуже подібних за можливостями великих моделей, сенс «змагатися розміром» для більшості корпоративних користувачів зникає. Питання вже не в тому, чи є у вас доступ до «чогось на рівні frontier», а в тому, як саме ви вбудовуєте цю потужність у свої процеси, як керуєте вартістю та ризиками, і які спеціалізовані компоненти додаєте зверху.
У корпоративному контексті це особливо помітно. Більшість завдань у великих організаціях — рутинні, повторювані, добре формалізовані. Для них не потрібна «креативна поведінка» чи максимально широкий світогляд моделі. Потрібні надійність, передбачувана вартість і точність на конкретному типі даних: таблицях, коді, документах, внутрішніх форматах.
У такій картині великі універсальні моделі залишаються важливими, але радше як «ядро» для складного міркування, планування чи оркестрації. Усе інше — від розпізнавання мовлення до аналізу таблиць — вигідніше віддати на відкуп меншим, спеціалізованим моделям, які краще оптимізовані під конкретні задачі й апаратні обмеження.
Плюралістичний ентерпрайз: малі спеціалісти проти одного «суперагента»
У корпоративному AI дедалі чіткіше вимальовується плюралістична картина. Замість одного «всезнаючого» агента, який робить усе — від транскрипції до безпекового аудиту коду, — формується екосистема з багатьох моделей, кожна з яких добре робить свою вузьку справу.
Це видно навіть на прикладі нових продуктів IBM. Granite 4.1 виходить не як один «флагманський» LLM, а як сімейство: мовні моделі трьох розмірів (від 3 до 30 мільярдів параметрів), окремі візуальні моделі, сфокусовані на розумінні таблиць і графіків, компактні моделі мовлення для транскрипції й перекладу, нове покоління embedding-моделей. Усі вони спроєктовані не як «конкурент одному гіганту», а як набір функцій, які можна вбудовувати в більші агентні чи робочі потоки.
Паралельно IBM Bob позиціонується не як «ще один чат-бот», а як системний AI-партнер для розробки, який уміє маршрутизувати завдання між різними моделями. Дорогі, потужні моделі резервуються для ядра логіки й складного міркування. Усе, що можна, Bob намагається віддати дешевшим, спеціалізованим моделям — наприклад, для безпекового рев’ю коду чи рутинних автодоповнень.
За цим стоїть проста економіка. У споживчому світі підписка на AI-сервіс легко «розчиняється» в щомісячному бюджеті, і мало хто рахує кожен токен. В ентерпрайзі ситуація інша: є реальні кейси, коли компанії встигають «спалити» річний бюджет на токени за квартал, просто тому що всі всередині організації намагаються максимально «оцифруватися» й довести свою AI-активність. Усередині індустрії це вже отримало іронічну назву «token maxing».
Відповідь — не відмова від AI, а «token squeezing»: свідоме проєктування систем так, щоб кожен дорогий токен великої моделі працював там, де він справді потрібен, а все інше виконували дешевші й менші моделі. Це не лише про економію, а й про стійкість: системи, які залежать від одного гігантського агента, виявляються і дорожчими, і менш передбачуваними.
DiLoCo: як розв’язати AI від гігаватних дата-центрів
Якщо на рівні застосунків відбувається перехід до множинних спеціалізованих моделей, то на рівні інфраструктури назріває не менш радикальний зсув. Google DeepMind запропонувала підхід до розподіленого навчання під назвою DiLoCo — Distributed Low Communication, який напряму кидає виклик нинішній парадигмі «один гігантський кластер для frontier-моделі».
Класична картина навчання великих моделей передбачає тісно зв’язаний дата-центр із тисячами GPU, об’єднаних високошвидкісними мережами. Така архітектура чутлива до збоїв: падіння частини вузлів чи мережеві проблеми різко знижують ефективність, оскільки всі компоненти мають синхронізуватися на кожному кроці.
DiLoCo пропонує інший підхід: декуплінг, або розв’язування компонентів. Ідея в тому, щоб зменшити обсяг обов’язкової синхронної комунікації між різними частинами розподіленої системи, дозволивши їм працювати більш автономно й обмінюватися інформацією рідше або в інший спосіб. Це не просто інженерний трюк, а спроба змінити самі вимоги до інфраструктури для навчання.
У своїй роботі DeepMind показує вражаючу різницю в так званому goodput — корисній пропускній здатності системи за реалістичних умов із відмовами. Для класичного, тісно зв’язаного дата-центру goodput у таких сценаріях становить близько 27%. Тобто майже три чверті потенційної потужності втрачається через затримки, простої, повторні обчислення й інші накладні витрати.
DiLoCo, за тими ж умовами, демонструє близько 88% goodput. Це означає, що система зберігає левову частку своєї теоретичної продуктивності навіть тоді, коли частина вузлів виходить із ладу або працює нестабільно. Для індустрії, яка витрачає мільярди доларів на GPU й енергію, така різниця — не косметична, а стратегічна.
Головний наслідок: якщо навчання frontier-моделей більше не вимагає одного гігантського, ідеально синхронізованого кластера, то й вимоги до фізичної інфраструктури можуть змінитися. Замість того щоб будувати один гігаватний дата-центр, можна розподіляти навчання між кількома меншими майданчиками, потенційно в різних регіонах і навіть на різних типах обладнання.
Енергетичні межі AI: коли дата-центр потребує власної підстанції
Поточна хвиля AI-будівництва вже впирається в дуже матеріальні обмеження. Дата-центри гігаватного масштабу — це не просто «великий склад із серверами». Це об’єкти, які фактично потребують власної електропідстанції, інтегрованої в регіональну енергосистему. Їхнє будівництво — це роки дозволів, узгоджень, інвестицій в інфраструктуру.
Показовий приклад — Північна Вірджинія, один із найбільших у світі хабів дата-центрів. Місцева енергомережа вже настільки навантажена існуючими об’єктами, що можливості для підключення нових великих майданчиків сильно обмежені. Для AI-компаній це не абстрактна проблема, а реальний фактор планування: навіть маючи гроші й обладнання, не завжди можна просто «поставити ще один дата-центр» там, де хочеться.
У такій ситуації DiLoCo виглядає не лише як алгоритмічне вдосконалення, а як інфраструктурний хедж. Якщо навчання можна ефективно розподілити між кількома меншими майданчиками, кожен із яких споживає менше потужності й легше вписується в локальну енергосистему, це знижує залежність від одиничних гігаватних об’єктів.
Крім енергетики, є ще й регуляторний вимір. Великі дата-центри часто стикаються з опором місцевих громад, питаннями землекористування, екологічними обмеженнями. Мережа менших, більш гнучких майданчиків може виявитися політично й соціально прийнятнішою, особливо якщо їх можна розміщувати ближче до джерел відновлюваної енергії чи в регіонах із надлишком потужностей.
У підсумку DiLoCo можна розглядати як технологічний інструмент, який дає індустрії більше варіантів у грі з дедалі жорсткішими обмеженнями енергетики, дозволів і ланцюжків постачання.
Від монолітів до систем: нова стратегія масштабування AI
Якщо скласти докупи дві лінії змін — плюралістичні, спеціалізовані моделі на рівні застосунків і декуплінг на рівні інфраструктури — вимальовується нова стратегія масштабування AI.
По-перше, зникає ілюзія, що «одна гігантська модель» може й повинна робити все. В ентерпрайзі це виявляється не лише економічно невигідним, а й організаційно незручним. Натомість з’являється архітектура, де великий універсальний LLM — це лише один із компонентів, відповідальний за складне міркування, планування чи інтеграцію результатів. Навколо нього працює цілий «зоопарк» менших моделей, кожна з яких оптимізована під свою задачу й апаратні обмеження.
По-друге, сама інфраструктура для навчання й розгортання таких систем стає більш розподіленою й стійкою. Замість того щоб покладатися на один гігантський дата-центр, індустрія отримує можливість розподіляти навантаження між кількома майданчиками, краще пристосованими до локальних енергетичних і регуляторних умов. DiLoCo в цьому сенсі — не просто «ще один протокол», а спроба зробити frontier-навчання менш залежним від вузького класу гігантських об’єктів.
По-третє, диференціація зміщується з «розміру моделі» до «якості системного дизайну». Для ентерпрайз-клієнта дедалі важливішими стають не сирі бенчмарки LLM, а відповіді на інші питання: як система управляє вартістю токенів, як вона маршрутизує завдання між моделями, як поводиться в умовах збоїв інфраструктури, як інтегрується з існуючими кодовими базами й бізнес-процесами.
У цьому контексті навіть такі, на перший погляд, «вузькі» речі, як підтримка COBOL і mainframe-коду в IBM Bob, перетворюються на стратегічний актив. Для банків і великих фінансових інститутів, де в продакшені працюють трильйони рядків коду на старих мовах, можливість залучити AI до модернізації без повної заміни інфраструктури — це не просто фіча, а реальний місток між минулим і майбутнім.
Висновок: AI входить у епоху інфраструктурного реалізму
Перші хвилі захоплення великими мовними моделями будувалися на враженні «чарівного мозку в хмарі», який раптом уміє все. Сьогодні, коли перші ентерпрайз-експерименти перетворюються на масштабні впровадження, на перший план виходить інший настрій — інфраструктурний реалізм.
Великі універсальні моделі нікуди не зникають, але стають базовим ресурсом, подібним до електрики чи хмарних обчислень. Справжня інновація зміщується в площину того, як саме цей ресурс використовується: які спеціалізовані моделі його доповнюють, як системи керують вартістю токенів, як навчання розподіляється між дата-центрами, обмеженими реальною енергетикою й регуляціями.
DiLoCo від Google DeepMind у цій картині — один із перших явних сигналів, що індустрія готується до життя в умовах жорстких інфраструктурних обмежень. А тренд на спеціалізовані моделі й системи оркестрації на кшталт IBM Bob показує, як цей зсув уже змінює архітектуру корпоративних AI-рішень.
Наступна фаза розвитку AI, схоже, буде визначатися не стільки тим, у кого модель більша, скільки тим, у кого система — розумніша, дешевша в експлуатації й стійкіша до реальних обмежень світу за межами дата-центрів.
Джерело
Granite 4.1, IBM Bob & building a quantum ecosystem — IBM Technology


