Середа, 22 Квітня, 2026

Чому сучасні дифузійні моделі працюють у латентному просторі, а не з «сирими» пікселями

У Google DeepMind над системами на кшталт Veo та Nano Banana працює окрема команда генеративних медіа. Один із її ключових дослідників, Сандер Ділеман, понад десятиліття займається тим, як будувати масштабовані моделі для зображень і відео. Сьогодні майже всі такі системи спираються на дифузійні моделі — але критично важливо, що вони вже давно не працюють безпосередньо з пікселями. Замість цього в центрі опиняється «латентний простір» — стиснене, але структуроване представлення, яке спершу вчиться автоенкодером, а вже потім використовується для генерації.

A close up of a computer motherboard with two fans

Це рішення виглядає технічною деталлю, але на практиці саме перехід до латентних просторів зробив можливими сучасні генеративні системи зображень і особливо відео. Без нього масштабування до високих роздільностей і тривалих роликів було б просто неможливим через обмеження пам’яті й обчислень.

Від пікселів до латентів: чому «сирі» дані більше не працюють

Цифрові зображення й відео природно задаються як ґратки пікселів: двовимірна сітка для зображення, тривимірна (час + 2D) для відео. На ранніх етапах розвитку дифузійних моделей дослідники справді тренували їх безпосередньо на пікселях — і це працювало краще, ніж багато хто очікував. Але щойно зросли роздільність, тривалість і цільова якість, стало очевидно: пряме моделювання пікселів не масштабується.

Проблема в сирих тензорах. Візьмімо 30 секунд відео у 1080p при 30 кадрах за секунду. Це сотні кадрів, кожен — масив розміром приблизно 1920×1080×3. Якщо зібрати це в один тензор для тренування, обсяг даних для одного прикладу обчислюється гігабайтами. Для великих батчів, необхідних для стабільного навчання, це просто не поміщається в пам’ять навіть великих GPU-кластерів.

Тому сучасні системи переходять до стиснених представлень. Але використати готові стандарти на кшталт JPEG чи H.265 виявилося поганою ідеєю. Класичні кодеки оптимізовані під максимальне стиснення за збереження прийнятної візуальної якості для людини. Вони агресивно руйнують і приховують структуру даних, яка критично важлива для нейромережевих моделей. Після такого перетворення зображення стає «незручним» для генеративної моделі: топологія, локальні залежності, регулярність — усе це спотворюється.

Відповідь індустрії — навчати власні компресори, спеціально пристосовані до потреб дифузійних моделей. Так з’являється архітектура «латентної дифузії»: спочатку автоенкодер стискає зображення чи відео в латентний простір, а вже потім дифузійна модель працює з цими латентами, а не з пікселями.

Автоенкодер як «вхідні ворота» до латентного простору

Серцем цього підходу є автоенкодер — нейромережа з двох частин: енкодера та декодера, з «вузьким місцем» між ними. Завдання автоенкодера просте за формулюванням: відтворити вхід на виході. На практиці ж воно змушує модель навчитися компактному, але інформативному представленню.

Енкодер приймає зображення (або відео) й перетворює його на латентне представлення — тензор меншого розміру. Декодер намагається з цього латенту відновити початкове зображення. Між ними — «пляшкове горло», яке обмежує пропускну здатність: автоенкодер не може просто «скопіювати» дані, він змушений виділити найважливіші риси.

Саме цей латентний тензор стає робочим простором для дифузійної моделі. Після того як автоенкодер натреновано, його енкодер застосовують до всього тренувального набору, отримуючи латенти. Далі вже не пікселі, а ці латентні представлення подаються на вхід дифузійної моделі, яка вчиться моделювати їх розподіл.

Коли ж модель генерує новий зразок, вона видає не зображення, а латент. Потім декодер автоенкодера перетворює цей латент назад у піксельний простір. Уся генерація відбувається в стисненому просторі, а перехід до пікселів — лише фінальний крок.

Цей підхід не прив’язаний до конкретного типу генеративної моделі: поверх латентів можна будувати як дифузійні, так і авторегресивні моделі. Але для аудіовізуальних даних саме дифузія нині дає найкращий баланс якості й ефективності при заданому бюджеті параметрів, тому латентна дифузія стала де-факто стандартом.

Приклад Stable Diffusion: як виглядає латентний тензор

Найвідоміший приклад латентної дифузії — Stable Diffusion. У його оригінальній версії використовується автоенкодер, який перетворює зображення в компактний латентний простір, зберігаючи при цьому ключову просторову структуру.

Розглянемо конкретні числа. Маємо RGB-зображення 256×256. У піксельному вигляді це тензор розміром 256×256×3. Після проходження через енкодер автоенкодера воно перетворюється на латентний тензор приблизно 32×32 з більшою кількістю каналів.

Критично важливо, що зберігається топологія: латент — це все ще двовимірна ґратка, де кожен елемент відповідає певній області зображення. Просторова структура не руйнується, просто роздільність стає грубішою. Втрата роздільності компенсується збільшенням кількості каналів: замість трьох (R, G, B) модель має десятки латентних каналів, кожен з яких кодує певні риси зображення.

Якщо просто зменшити зображення до 32×32 звичайним ресайзом, зникне більшість високочастотних деталей — текстури, дрібні контури, тонкі лінії. Латентне представлення намагається зберегти частину цієї інформації в додаткових каналах. Компресія все одно залишається втратною: загальний розмір латентного тензора значно менший за оригінальний піксельний. Але компресія відбувається так, щоб зберегти саме ту структуру, яка важлива для подальшого генеративного моделювання.

Це добре видно на прикладах візуалізації латентів, зокрема в роботі EQ-VAE, де автори показують, як виглядає латентна ґратка, якщо її проєктувати в RGB-простір за допомогою головних компонент. На таких зображеннях усе ще легко впізнати, що саме зображено: силуети, об’єкти, загальна композиція зберігаються. Натомість дрібні текстури й дуже тонкі деталі згладжуються. Латентний простір, таким чином, абстрагує локальну «зернистість», але не семантику сцени.

Це не побічний ефект, а цільовий дизайн: дифузійна модель працює з латентами, які вже позбавлені надлишкових дрібниць, але зберігають всю глобальну структуру, необхідну для генерації змістовних зображень.

Чому латентні компресори «примітивніші» за JPEG і H.265 — і це добре

На перший погляд може здатися, що автоенкодер — це просто ще один кодек. Але між ним і стандартами на кшталт JPEG чи H.265 є принципова різниця в цілях.

Класичні кодеки оптимізуються під людину-спостерігача й під розмір файлу. Вони використовують складні перетворення, блокові структури, ентропійне кодування, щоб максимально зменшити кількість бітів. У процесі вони часто руйнують локальну топологію: сусідні пікселі в декодованому зображенні можуть бути результатом складних, нелокальних перетворень у закодованому представленні. Для людини це не проблема — головне, щоб картинка виглядала добре. Для нейромережі — навпаки: така «заплутаність» структури робить навчання значно складнішим.

Латентні компресори для дифузійних моделей навмисно простіші. Вони не прагнуть до максимально можливого стиснення. Натомість їхня головна мета — зберегти топологічну структуру, з якою зручно працювати сучасним архітектурам нейромереж, насамперед згортковим і U-Net-подібним.

Тому латентні тензори мають ту саму ґраткову організацію, що й пікселі, просто на грубішій сітці. Індуктивні упередження мереж — локальні згортки, багатомасштабні фільтри, скіп-зв’язки — залишаються релевантними. Модель «бачить» у латентному просторі приблизно ту саму геометрію сцени, що й у пікселях, але без надлишкового обсягу даних.

Це компроміс між стисненням і структурою. Латентний кодек не намагається виграти в JPEG за коефіцієнтом стиснення. Він намагається зробити так, щоб дифузійна модель могла ефективно вчитися й генерувати, не витрачаючи ресурси на моделювання дрібних текстур, які все одно можна «дорисувати» на етапі декодування.

У результаті ми отримуємо представлення, яке:

  • суттєво менше за піксельний тензор;
  • зберігає 2D-ґратку й локальність;
  • абстрагує дрібні деталі, але не семантику;
  • добре узгоджується з архітектурними упередженнями сучасних нейромереж.

Саме така комбінація робить латентний простір зручним «робочим середовищем» для дифузійних моделей.

Масштабування до відео: коли латентний простір рятує від колапсу пам’яті

Якщо для зображень перехід до латентів дає відчутний, але не критичний виграш, то для відео він стає питанням виживання. Додавання часової осі множить розмір тензора на кількість кадрів, і навіть помірна тривалість ролика перетворюється на гігантський масив.

У відео є ще більше надлишковості, ніж у статичних зображеннях: сусідні кадри часто дуже схожі, змінюється лише частина сцени. Латентні автоенкодери можуть агресивно використовувати цю надлишковість, стискаючи дані значно сильніше, ніж у випадку одиничних зображень, але знову ж таки — без руйнування корисної структури.

На практиці перехід до латентного простору для відео дозволяє зменшити розмір тензорів приблизно на два порядки. Тобто замість умовних 100 одиниць пам’яті для сирих пікселів модель працює з 1–2 одиницями для латентів. Це не просто оптимізація, а різниця між «можна тренувати» і «неможливо навіть завантажити один приклад у пам’ять».

Цей виграш критичний як для навчання, так і для інференсу. Під час тренування великі батчі з довгими відео стають досяжними без екстремальних інженерних трюків. Під час генерації модель може створювати триваліші й детальніші ролики, не виходячи за межі ресурсів користувацьких або хмарних GPU.

Водночас зберігається ключова властивість: латентні відеотензори все ще мають тривимірну ґраткову структуру (час × висота × ширина) з додатковими каналами. Це дозволяє використовувати ті самі архітектурні ідеї, що й для зображень, розширені на часовий вимір, і зберігати узгодженість об’єктів у часі.

Латентний простір як фундамент для дифузійних моделей нового покоління

Сьогодні, коли мова йде про великі генеративні системи зображень і відео, латентний простір — не просто технічна деталь, а базовий конструктивний елемент. Саме він дозволяє поєднати три вимоги, які раніше важко було задовольнити одночасно: високу візуальну якість, семантичну узгодженість і масштабованість до великих роздільностей та тривалостей.

Автоенкодер бере на себе завдання «розчистити» дані від надлишкових дрібниць, зберігши при цьому топологію сцени. Дифузійна модель, працюючи в цьому латентному просторі, може зосередитися на моделюванні глобальної структури, композиції, об’єктів і їхніх взаємодій, не витрачаючи ресурси на кожен окремий піксель. Декодер потім повертає результат у піксельний простір, дорисовуючи текстури й деталі настільки, наскільки це дозволяє навчений компресор.

Для зображень це означає можливість генерувати високоякісні кадри при помірних обчислювальних витратах. Для відео — можливість узагалі вийти за межі кількох секунд і невисоких роздільностей, які були типовими для ранніх підходів, що працювали безпосередньо з пікселями.

У міру того як індустрія рухається до ще більших моделей і складніших сценаріїв використання, роль латентних просторів лише зростатиме. Вони стають тим рівнем абстракції, на якому зручно будувати не лише дифузійні моделі, а й інші типи генеративних систем, що працюють із візуальними даними.

Висновок

Перехід від сирих пікселів до латентних просторів став одним із ключових кроків у розвитку сучасних генеративних моделей зображень і відео. Навчені автоенкодери створюють стиснені, але структуровані представлення, які зберігають 2D- або 3D-ґратку, абстрагують дрібні текстури, але не семантику, і дозволяють дифузійним моделям працювати ефективно й масштабовано.

Приклад Stable Diffusion показує, як 256×256 RGB-зображення може бути перетворене на 32×32 латентну ґратку з додатковими каналами, зберігаючи топологію сцени. Для відео використання латентів дає скорочення розміру тензорів до двох порядків, що робить можливим навчання й генерацію на практичних апаратних ресурсах.

Латентні компресори свідомо простіші за традиційні кодеки, оскільки їхня мета — не максимальне стиснення, а збереження структури, з якою можуть працювати нейромережі. У результаті латентний простір стає фундаментом, на якому будуються моделі нового покоління на кшталт Veo, Nano Banana та інших систем генеративних медіа.


Джерело

YouTube: Building Generative Image & Video models at Scale – Sander Dieleman (Veo and Nano Banana)

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті