Команда Google DeepMind представила нове покоління відкритих моделей Gemma 4, зосередившись на поєднанні високої якості, компактних розмірів і можливості запуску як у хмарі, так і безпосередньо на пристроях. У доповіді для каналу AI Engineer дослідниця Кессіді Гарден детально розібрала архітектурні рішення, що стоять за Gemma 4, та їхні наслідки для розробників.
![]()
Лінійка Gemma 4: від «кишенькових» моделей до потужних мультимодальних систем
Gemma 4 — це сімейство з чотирьох відкритих моделей, орієнтованих на різні сценарії використання:
- Дві «effective» моделі для on-device:
- ефективна 2B (E2B)
-
ефективна 4B (E4B)
Вони спроєктовані так, щоб працювати локально на телефонах, планшетах і ноутбуках, підтримуючи текст, зображення та аудіо на вході (вихід — текст). -
Дві старші моделі для складних задач:
- 26B Mixture-of-Experts (MoE) — перша MoE-модель у сімействі Gemma, яка під час інференсу активує лише 3,8–3,9 млрд параметрів із загального пулу експертів.
- 31B Dense — щільна (dense) мультимодальна модель, орієнтована на просунуте міркування, кодування та агентні (agentic) робочі процеси.
Обидві старші моделі увійшли до топ-6 відкритих моделей на платформі LLM Arena, а 31B посіла третє місце у глобальному рейтингу, перевершуючи системи, що більш ніж у 20 разів більші за розміром.
Важлива зміна для спільноти — перехід Gemma 4 на ліцензію Apache 2.0, що спрощує інтеграцію в комерційні продукти та внутрішні розробки без складних юридичних обмежень.
Архітектура: локально-глобальна увага, MoE та «ефективні» параметри
Оптимізована увага: локальні й глобальні шари
В основі dense-моделей (31B, E2B, E4B) — стандартний декодерний блок трансформера, але з низкою оптимізацій у механізмі attention:
- Інтерливінг локальних і глобальних шарів:
- у більшості моделей використовується співвідношення 5:1 (п’ять локальних шарів на один глобальний),
- у найменшій E2B — 4:1.
- Локальні шари працюють зі «слiding window»:
- 512 токенів у менших моделях,
- 1024 токени — у більших.
- Глобальні шари завжди бачать усю попередню послідовність, а останній шар моделі завжди глобальний, щоб підсумувати повний контекст.
Такий підхід знижує обчислювальну вартість локальних шарів, але глобальні шари залишаються дорогими. Щоб це компенсувати, застосовано Grouped Query Attention (GQA):
- у локальних шарах дві query-групи ділять одні й ті самі key/value-голови;
- у глобальних — вісім query на одну пару key/value;
- щоб не втратити якість, у глобальних шарах подвоєно розмір key/value-векторів (512 проти 256 у локальних).
Це дозволяє суттєво зменшити пам’яткові витрати та вартість інференсу без помітної втрати якості.
Mixture-of-Experts: 128 експертів, один спільний «якір»
26B — перша MoE-модель у Gemma 4. Вона використовує:
- 128 експертів — невеликі feed-forward-мережі;
- 8 активних експертів на кожен forward-pass;
- один спільний (shared) експерт, який:
- активується завжди,
- утричі більший за звичайних експертів,
- слугує стабільною «базою» для представлень.
Фактично, стандартний feed-forward-блок у трансформері замінено на MoE-блок із роутером, який обирає 8 експертів із 128 для кожного кроку. Це дає змогу поєднати високу виразність моделі з помірною кількістю активних параметрів під час інференсу.
«Effective» моделі: більше представлень, менше активних параметрів
Позначення E2B та E4B означають не лише розмір, а й особливий баланс між:
- ефективними параметрами (які реально задіяні під час роботи),
- загальною «представницькою» потужністю моделі.
Наприклад:
- E2B:
- ~2,3 млрд ефективних параметрів,
- але 5,1 млрд параметрів, що формують представлення (representational depth).
Ці моделі спеціально оптимізовані для запуску на пристроях із жорсткими обмеженнями VRAM, без необхідності звертатися до віддалених API. Ключова технологія, що це забезпечує, — Per-Layer Embeddings (PLE).
Per-Layer Embeddings: як втиснути «велику» модель у пам’ять смартфона
У стандартних моделях токен-ембеддинги зберігаються в одній великій таблиці в GPU-пам’яті (VRAM). У Gemma 4 для E2B/E4B цей підхід доповнено перешаровими ембеддингами:
- Залишається звичайна основна embedding-таблиця:
- для E2B — розмір вектора 1536,
- для E4B — 2560.
- Додається per-layer embedding table:
- окрема таблиця для кожного шару моделі (35 шарів у E2B, 42 — у E4B),
- для кожного токена є окремий вектор на кожному шарі,
- розмір вектора — лише 256.
Ключовий момент:
per-layer embedding-таблиці зберігаються не у VRAM, а у flash-пам’яті пристрою. Це критично для телефонів і ноутбуків, де відеопам’ять — головне «вузьке місце».
Як це працює в обчисленні:
- Токен проходить через стандартний декодерний блок.
- Наприкінці шару для кожного токена виконується lookup у відповідній per-layer embedding-таблиці.
- Вектор розмірності 256 лінійно проєктується до повного розміру ембеддингу моделі.
- Таким чином модель отримує «багатші» представлення, не тримаючи всі великі таблиці у VRAM.
У результаті E2B та E4B суттєво перевершують попереднє покоління малих Gemma-моделей, залишаючись придатними для запуску на споживчих пристроях.
Мультимодальність: гнучкі зображення, аудіо та контроль токен-бюджету
Візуальний модуль: змінні роздільні здатності та співвідношення сторін
У Gemma 3 вперше з’явилася підтримка зору, але з обмеженнями: для зображень зі змінними аспектами й роздільними здатностями доводилося застосовувати pan-and-scan — розбивати картинку на кілька квадратів, доповнювати паддінгом і обробляти як кілька окремих зображень.
Gemma 4 переходить до більш гнучкої схеми:
- 31B і 26B використовують візуальний енкодер на 550 млн параметрів.
- E2B та E4B — компактний енкодер на 150 млн параметрів.
- Підтримуються:
- змінні співвідношення сторін (variable aspect ratios),
- змінні роздільні здатності (variable resolutions),
- п’ять варіантів «soft token budget» для зображень.
Механіка роботи:
- Зображення розбивається на патчі 16×16 пікселів.
- Кожен патч:
- «сплющується»,
- лінійно проєктується в patch-ембеддинг,
- доповнюється позиційним кодуванням.
- Патчі групуються у 3×3 блоки:
- кожен блок → один «soft token» (одна ембеддинг-«пулінг» одиниця).
- Якщо модель налаштована, наприклад, на 280 токенів для зображення, це відповідає 2520 патчам (280 × 9).
Завдяки змінному токен-бюджету розробник може сам вирішувати:
- для задач OCR, детекції об’єктів, просторового аналізу — обрати вищу роздільну здатність і більший бюджет (наприклад, 560 або 1120 токенів);
- для переважно текстових сценаріїв — зменшити бюджет для зображень і зекономити контекст для тексту.
Це суттєвий крок уперед порівняно з Gemma 3, де кожне «нестандартне» зображення перетворювалося на кілька квадратних фрагментів, що збільшувало довжину послідовності й ускладнювало обробку.
Аудіо: від сирого сигналу до токенів для розпізнавання мовлення
Аудіопідтримка додана в E2B та E4B з орієнтацією на:
- розпізнавання мовлення,
- переклад.
Архітектура складається з двох основних компонентів:
- Аудіо-токенайзер:
- на вхід подається сирий аудіосигнал;
- він перетворюється на MEL-спектрограму для виділення ознак;
- спектрограма розбивається на фрагменти (n MEL-chunks);
- далі йдуть дві згорткові (convolutional) шари для даунсемплінгу;
-
на виході — n/4 soft tokens (аудіо-ембеддинги).
-
Conformer-енкодер:
- модель на 35 млн параметрів;
- архітектурно подібна до dense/MoE-блоків Gemma, але з додатковим згортковим шаром;
- працює з ембеддингами, а не з «жорсткими» токенами.
Отримані аудіо-ембеддинги інтегруються в загальний мультимодальний потік моделі, що дозволяє обробляти мовлення поряд із текстом і зображеннями.
Як розробникам почати працювати з Gemma 4
Gemma 4 орієнтована на широкий спектр сценаріїв — від локальних застосунків до складних агентних систем у хмарі. Доступні два основні шляхи інтеграції:
- Самостійний хостинг (self-hosted):
- усі чотири моделі можна завантажити з:
- Hugging Face,
- Kaggle,
- Ollama.
-
це підходить для локальних інсталяцій, edge-пристроїв, кастомного донавчання.
-
Хмарні сервіси:
- для 31B та 26B доступні керовані варіанти через:
- AI Studio,
- Vertex AI.
- це дає змогу швидко прототипувати:
- агентні (agentic) робочі процеси,
- функціональні виклики (function calling),
- складні сценарії міркування та кодування без налаштування власної інфраструктури.
Завдяки поєднанню Apache 2.0, компактних on-device моделей і потужних мультимодальних систем у хмарі, Gemma 4 формує новий орієнтир для відкритих моделей, які одночасно придатні і для експериментів, і для реальних продуктів.
Джерело
Open Models at Google DeepMind — Cassidy Hardin, Google DeepMind (YouTube)


