На новому випуску подкасту Mixture of Experts від IBM Technology ведучий Тім Хван разом із фахівцями Гейбом Гудхартом, Абрагамом Даніелсом і Мартіном Кіном обговорює двох нових гравців у світі великих мовних моделей: Sakana Fugu та GLM 5.2 від Z.ai. Однак розмова швидко виходить далеко за рамки «чергових бенчмарків» і перетворюється на дискусію про те, як оркестрація кількох моделей змінює саме поняття «продукту» в AI, і чому китайські лабораторії дедалі агресивніше наздоганяють пропрієтарних лідерів.

Sakana Fugu: не «ще одна модель», а вітрина оркестрації
Sakana Fugu походить з японської лабораторії Sakana і подається як «щось на кшталт агентної моделі». Проте учасники дискусії пропонують дивитися на неї зовсім інакше: не як на ще один великий LLM, а як на приклад того, що стає справжнім продуктом — оркестрації.
Sakana AI описується як платформа multi orchestration. Користувач відправляє один запит на єдину API-крапку, а далі всередині платформи запит може бути спрямований до однієї з кількох моделей. Ці моделі можуть змінюватися з часом: якщо якась зникає, з’являється краща або просто краще підходить під конкретний підтип задачі, платформа «перешиває» маршрут.
Ключовий момент у тому, що ядром інновації тут є не новий гігантський LLM. Всередині оркестратора працюють уже наявні моделі провідних лабораторій. Справжня робота Sakana — не створити «абсолютно нову модель», а «з’ясувати, як отримати найкращі результати з уже існуючих моделей і зшити їх у щось осмислене для розв’язання задач».
Таке бачення кардинально змінює фокус: модель як така відходить на другий план, а в центрі опиняється маршрутизація, вибір правильної моделі під конкретний запит, розбиття задачі на підзадачі й збирання відповіді в єдиний результат.
Переваги й ціна multi-model-підходу
Підхід Sakana дає бізнесу дуже привабливу властивість — стійкість до турбулентності на ринку моделей. Якщо якась «зірка» зникає, змінює ліцензію або поступається місцем більш сильному конкуренту, це не означає переписування продукту з нуля. У платформи просто оновлюється склад «бекенду» за оркестратором.
Учасники подкасту описують це як «стійкість до флуктуацій і змін моделей» для підприємств. Але разом із цим з’являється інша сторона медалі: «це також означає, що ваша якість може сильно змінюватися».
Причин тут кілька.
По-перше, додається ще один шар недетермінізму. Якщо у випадку з однією моделлю вже існує розкид відповідей при повторних запитах, то у випадку оркестрації додається невизначеність того, до якої саме моделі (або набору моделей) узагалі потрапить запит. Якість буде залежати й від того, наскільки добре спрацював роутер, і від того, яка комбінація моделей обслуговує конкретний сценарій.
По-друге, бенчмарки, які сьогодні виглядають вражаюче, отримані в «ідеальних умовах» маршрутизації. Учасники розмови погоджуються, що в такому режимі система справді може перевершити будь-яку з окремих моделей-«цеглинок». Але це не означає, що такий рівень буде «підлогою якості» в реальному використанні: на практиці розкид результатів буде значно ширшим.
У підсумку Fugu виступає радше демонстрацією того, яке «стельове» значення якості можна отримати, грамотно поєднуючи вже наявні моделі, а не доказом стрибка в самій архітектурі LLM. В аналітичному ключі дискусія сходиться до тези: «ми рухаємося до того, що саме оркестрація є продуктом».
Оркестрація як новий UX для AI
Ще один аспект, на який звертають увагу, — це користувацький досвід. Sakana ховає всю складність за одним API: користувачеві не потрібно знати, яка саме модель обробляє запит, як влаштована маршрутизація, чи змінюється склад «ансамблю» з часом.
Учасники розмови бачать у цьому передвісник більш ширшого тренду: «орchestration as a product». Замість того, щоб продавати доступ до конкретної моделі, платформи будуть пропонувати віртуальний «ендпоінт-модель», за яким стоїть гнучка система з кількох LLM, різних розмірів і спеціалізацій.
У такому підході закладено ще одну можливість: перенос цього принципу з «фронтиру» в менший масштаб. Якщо сьогодні Sakana намагається скласти з кількох потужних моделей «суперсервіс», то в майбутньому схожу логіку можна застосувати до компактних моделей, які запускаються на смартфоні або звичайному ноутбуці. В такому варіанті оркестрація вже не стільки штовхає якість уперед, скільки допомагає вичавити максимальний результат із менших, доступних за ресурсами моделей.
GLM 5.2: китайські open-weights знову наздоганяють фронтир
Другий герой випуску — GLM 5.2 від китайської лабораторії Z.ai. Це нова велика модель для програмування з відкритими вагами, і вона вже потрапляє в один ряд із топовими пропрієтарними системами. Учасники дискусії описують GLM 5.2 як «приблизно того ж розміру, що Claude Sonnet 4.6. Вона гігантська».
Сам факт появи ще однієї китайської лабораторії, здатної випустити модель такого класу, вказує на зміну ландшафту. Один з експертів відверто зізнається, що раніше взагалі не стежив за лінійкою GLM, і 5.2 виглядає «чимось, що вилетіло з-за куліс», хоча по суті це «не їхній перший родео» — лінійка розвивалася вже давно.
На цьому тлі озвучується знайома для останніх років історія: «ми отримуємо великі стрибки якості від пропрієтарних лабораторій, а потім open weights-моделі, часто з Китаю, наздоганяють». При цьому мова йде вже не про невеликі, «домашні» моделі, які можна запустити на одній GPU-карті, а про системи масштабів «сонет-класу», які самостійно розгорнути майже нереально.
Це зміщує дискусію з «можу запустити локально» до питань доступу та довіри: де модель хоститься, чи дозволено компанії відправляти туди свій код, що з відповідністю політикам безпеки. Відкриті ваги вже не означають автоматично «іграшку для ентузіаста в гаражі» — все більше це інструмент, який так само вимагає потужної інфраструктури, як і пропрієтарні аналоги.
Якість, архітектура й «відкрите наздоганяння»
Для GLM 5.2 у подкасті важливе не тільки місце на рейтингах, а й спосіб, яким вона туди потрапляє. Архітектурно модель «сильно натхненна останньою архітектурою DeepSeek», поєднуючи швидкість і якість на дуже довгому контексті в дуже великому розмірі.
Показовою є й сама динаміка ринку: це вже не історія про «одну китайську лабораторію, яка всіх здивувала». Тепер «це не черговий раунд DeepSeek або Qwen» — GLM 5.2 додає ще одного гравця, здатного хоча б «випереджати на корпус» у перегонах якості.
При цьому учасники обговорення звертають увагу на «порог корисності» подібних моделей. Для багатьох інженерів, що працюють у корпоративному середовищі, використання GLM 5.2 у робочих задачах обмежено не тільки апаратно, а й політиками: модель занадто велика для локального запуску, а відсилати робочий код у зовнішній сервіс може бути заборонено.
Незважаючи на це, сама поява таких відкритих гігантів підвищує «температуру» в галузі: архітектурні прийоми, які використовують пропрієтарні лідери, швидко публікуються в відкритих моделях, а отже, скорочують відставання між «закритим» і «відкритим» фронтиром.
Перегони зміщуються з моделей на системи
Разом Sakana Fugu і GLM 5.2 вимальовують важливий зсув у гонці LLM. З одного боку, відкриті моделі з Китаю знову наздоганяють пропрієтарних лідерів за якістю та масштабом. З іншого — на передній план виходять не окремі LLM, а те, як вони поєднуються в системи.
Учасники Mixture of Experts прямо формулюють це як тренд: оркестрація стає продуктом. Для одних це означає багатомодельні платформи з «розумним роутингом» на кшталт Sakana. Для інших — віртуальні ендпоінти, за якими стоїть комплексна логіка роботи з кількома моделями, включно з меншими локальними, дешевшими хмарними й найпотужнішими «фронтирними».
На цьому тлі питання «чия модель краща» поступово зміщується до іншого: «хто краще збере з цих моделей систему, яка дає передбачуваний результат для бізнесу». І саме за цю роль тепер розгортається нова, менш очевидна, але не менш запекла гонка.
Джерело
Mixture of Experts — New AI models, token minimization and IBM’s new sub-1nm chip


