Середа, 22 Квітня, 2026

Від U-Net до Veo: як Google DeepMind масштабує генеративні медіамоделі на дифузії

Генеративні моделі зображень і відео за останні два роки перетворилися з лабораторних прототипів на інструменти, що формують індустрію. За лаштунками цих систем — складна інженерія, де стикаються алгоритми, архітектури нейромереж, компресія даних і обмеження обчислювальних ресурсів.

A computer generated image of a brain surrounded by wires

Сандер Ділеман, дослідник Google DeepMind, понад десять років працює над генеративними медіамоделями й нині входить до команди, що розвиває системи на кшталт Veo та Nano Banana. У своїй доповіді він дає «бекстейдж» погляд на те, як будуються великомасштабні моделі зображень і відео, чому індустрія зробила ставку на дифузійні підходи замість автогресивних, і як еволюціонували архітектури — від класичних U-Net до сучасних систем для генеративних медіа.

Дифузія проти автогресії: чому медіа не поводяться як текст

У мовному моделюванні автогресія стала де-факто стандартом: модель бачить послідовність токенів і по одному передбачає наступні. Для тексту це природно — дані вже організовані як послідовність.

З візуальними та аудіовізуальними даними ситуація інша. Зображення — це двовимірна решітка пікселів, відео — тривимірна решітка (простір плюс час). Щоб застосувати автогресію, потрібно перетворити цю структуру на послідовність у деякому фіксованому порядку. Це штучне обмеження: модель змушена «думати» лінійно про об’єкт, який за своєю природою просторовий.

Ділеман підкреслює, що для зображень і відео сьогодні домінує інший підхід — дифузійні моделі. Вони працюють не як послідовні передбачувачі наступного елемента, а як системи, що вчаться відновлювати структуру з шуму.

Дифузійна модель визначає два процеси. Перший — прямий, або корупційний: до зображення чи відео поступово додається гаусівський шум, поки структура повністю не руйнується. Другий — зворотний: нейромережа-денойзер вчиться крок за кроком зменшувати шум і відновлювати дані.

Цей підхід виявився особливо ефективним саме для аудіовізуальних даних. На відміну від автогресії, дифузія не вимагає жорсткого порядку генерації пікселів і краще узгоджується з природною структурою зображень і відео. У межах заданого обчислювального бюджету дифузійні моделі часто дають вищу якість, і саме тому команда генеративних медіа DeepMind, працюючи над Veo, Nano Banana та подібними системами, робить ставку на дифузію як базову парадигму.

Витоки: U-Net як перші «двигуни» дифузійних денойзерів

Перші практичні дифузійні моделі для зображень спиралися на архітектури, які взагалі не створювалися для генерації. Класичний приклад — U-Net, розроблений для задач сегментації зображень у медичній візуалізації.

U-Net — це конволюційна мережа з симетричною структурою: енкодер поступово зменшує просторову роздільність, збільшуючи кількість каналів, а декодер відновлює розмір, комбінуючи високорівневі ознаки з низькорівневими через скіп-зв’язки. Така архітектура чудово підходить для задач, де потрібно одночасно враховувати глобальний контекст і локальні деталі — саме те, що потрібно для денойзингу.

Коли дифузійні моделі тільки почали набирати обертів, дослідники просто брали U-Net-подібні конволюційні мережі як денойзери. На вхід подавалося зашумлене зображення (або пізніше — латентне представлення), а мережа вчилася передбачати «чисту» версію або сам шум.

Цей вибір був радше прагматичним, ніж концептуальним проривом: U-Net уже довів свою ефективність у задачах відновлення структури зображень, тож його природно було використати як основу для дифузійних денойзерів. Але саме на цій архітектурі будувалися перші великомасштабні моделі, які продемонстрували, що дифузія може змагатися з GAN і автогресивними підходами за якістю зображень.

Сьогодні архітектури стали складнішими, але ідея залишається схожою: мережа повинна одночасно «бачити» і глобальну сцену, і локальні деталі, працюючи з даними, які зберігають топологію зображення. Це безпосередньо впливає на те, як організовано представлення даних у сучасних системах на кшталт Veo.

Від пікселів до латентів: чому Veo й подібні моделі не працюють напряму з зображеннями

На перших етапах розвитку дифузійних моделей дослідники справді тренували їх безпосередньо на пікселях. Для зображень це ще було відносно керовано: навіть якщо тензори великі, вони залишаються в межах можливостей сучасних GPU.

Але як тільки мова заходить про відео, масштаби змінюються радикально. Навіть 30 секунд відео у 1080p при 30 кадрах за секунду — це гігабайти даних для одного прикладу. Зберігати такі тензори в пам’яті й проганяти їх через великі моделі під час навчання стає практично неможливо.

Вихід — перейти від сирих пікселів до стиснених представлень. Здавалося б, можна було б використати стандартні кодеки: JPEG для зображень, H.265 чи інші для відео. Але ці формати оптимізовані під іншу мету — мінімізувати розмір файлу, а не зберегти структуру, з якою зручно працювати нейромережі. Вони агресивно руйнують локальну структуру й розкладають дані в простори, де топологія оригінального зображення стає непрозорою для моделей.

Тому сучасні генеративні системи, включно з Veo та Nano Banana, використовують інший підхід: вони вчать власні «кодеки» на базі автоенкодерів.

Автоенкодер складається з енкодера та декодера, між якими є вузьке «горлечко» — латентний простір. Мережа навчається відтворювати вхідне зображення на виході, але змушена стискати інформацію в компактне латентне представлення. Саме цей латент і стає робочим простором для дифузійної моделі.

Схема виглядає так: спочатку тренується автоенкодер відновлювати зображення з латентів; потім на латентних представленнях навчається дифузійна модель; під час генерації зразок спершу створюється в латентному просторі, а потім декодером перетворюється назад у пікселі.

Цей підхід добре ілюструє Stable Diffusion — один із перших масових прикладів латентної дифузії. Там стандартне зображення 256×256 RGB (трьохканальний тензор) стискається до латентної решітки 32×32 з більшою кількістю каналів. Просторова структура зберігається, але роздільність зменшується у вісім разів по кожній осі.

Додаткові канали компенсують втрату інформації, яка виникла б при простому ресайзі до 32×32. Автоенкодер навчається зберігати важливі деталі у цих каналах, хоча загальний розмір тензора все одно суттєво менший за оригінальний. Компресія залишається втратною, але контрольованою: модель відкидає переважно найдрібніші текстури, зберігаючи структуру сцени.

Для відео виграш ще більший. Додавання часової осі робить сирі тензори колосальними, але латентні представлення дозволяють скоротити їхній розмір до двох порядків. Це буквально різниця між «неможливо вмістити в пам’ять» і «можна тренувати модель на реальному кластері».

Чому «примітивніший» кодек — насправді кращий для нейромереж

Цікава деталь підходу DeepMind та інших команд полягає в тому, що їхні латентні компресори навмисно простіші за промислові кодеки на кшталт H.265 чи JPEG. На перший погляд це парадоксально: чому б не використати максимально ефективне стиснення?

Відповідь — у структурі даних, з якою працюють нейромережі. Сучасні архітектури для зображень і відео — від U-Net-подібних конволюційних мереж до більш складних гібридів — мають сильні індуктивні упередження щодо просторової топології. Вони очікують, що сусідні пікселі в тензорі відповідають сусіднім точкам у зображенні, а локальні патерни мають значення.

Стандартні кодеки, оптимізовані під бітрейт, часто перетворюють дані в простори, де ця топологія розмивається або стає непрямою. Для людини це непомітно — картинка виглядає майже так само. Але для нейромережі це означає, що локальні фільтри й згортки більше не відповідають зрозумілим просторовим структурам.

Латентні автоенкодери, які використовуються в генеративних медіамоделях, навпаки, зберігають ту саму решітчасту структуру, що й оригінальні пікселі, лише на грубішій сітці. Умовно кажучи, це все ще «зображення», просто з меншою роздільністю і більшою кількістю каналів.

Візуалізації з роботи EQ-VAE, на яку посилається Ділеман, добре показують цю ідею. Автори беруть латентні решітки, обчислюють головні компоненти по каналах і відображають їх у RGB, щоб отримати «картинку» латентів. На цих зображеннях усе ще чітко видно, що саме зображено — наприклад, яка тварина на фото. Семантичний зміст зберігається, тоді як дрібні текстури й локальний шум згладжуються.

Це саме те, чого прагнуть розробники генеративних моделей: латент має бути достатньо компактним, щоб зменшити обчислювальні витрати, але водночас достатньо структурованим, щоб нейромережа могла ефективно моделювати його за допомогою своїх просторових індуктивних упереджень.

У результаті латентні представлення стають своєрідним компромісом між класичним стисненням і «сирими» пікселями. Вони не такі компактні, як найкращі кодеки, але набагато зручніші для навчання великих дифузійних моделей.

Масштабування генеративних медіа: що стоїть за Veo та Nano Banana

Команда генеративних медіа Google DeepMind, де працює Сандер Ділеман, зосереджена саме на тому, щоб масштабувати ці підходи до рівня систем на кшталт Veo та Nano Banana.

Це означає не лише збільшення розміру моделей, а й побудову повного технологічного стеку: від підготовки даних до архітектури денойзерів, від вибору представлення до організації навчання на великих кластерах.

Ключовим елементом є саме дифузійний підхід у латентному просторі. Після того як автоенкодер навчився стискати зображення чи відео в компактні латенти, дифузійна модель працює вже не з гігантськими піксельними тензорами, а з набагато меншими масивами, які зберігають просторову структуру.

У цьому просторі модель вчиться реалізовувати зворотний процес дифузії: від повністю зашумленого латенту до структурованого представлення сцени. Завдяки тому, що латенти все ще мають вигляд решітки, архітектури, що походять від U-Net, можуть ефективно використовувати свої згорткові шари й скіп-зв’язки для поєднання глобального контексту й локальних деталей.

Ділеман описує свою доповідь як «закулісний» огляд усього, що потрібно, щоб такі моделі працювали на практиці. Це включає не лише моделювання й вибір архітектури, а й питання навчання на масштабі, організацію вибірки (sampling), дистиляцію для зменшення кількості кроків генерації та використання контрольних сигналів, які дозволяють змушувати моделі «робити те, що ми хочемо».

Хоча багато деталей залишаються закритими — зокрема, специфіка даних і внутрішні інженерні рішення DeepMind, — загальна картина зрозуміла: Veo, Nano Banana та подібні системи — це кульмінація еволюції від перших U-Net-денойзерів на пікселях до складних дифузійних моделей, що працюють у ретельно спроєктованих латентних просторах.

Висновок: дифузія як новий стандарт для генеративних медіа

За кілька років дифузійні моделі пройшли шлях від експериментальної альтернативи GAN до домінуючої парадигми для генерації зображень і відео. У той час як мовні моделі й далі покладаються переважно на автогресію, для аудіовізуальних даних саме дифузія виявилася природнішим і ефективнішим підходом.

Робота Сандера Ділемана та команди Google DeepMind демонструє, що успіх таких систем, як Veo та Nano Banana, тримається не на одному «чарівному» інгредієнті, а на поєднанні кількох ключових рішень. Це перехід від пікселів до латентних представлень через автоенкодери, збереження топології зображення в стисненому просторі, використання U-Net-подібних архітектур як основи денойзерів і масштабування дифузійних процесів до рівня, де вони можуть працювати з відео високої роздільності.

У сукупності ці кроки формують новий стандарт для генеративних медіамоделей. І хоча деталі реалізації залишаються предметом активних досліджень і внутрішніх розробок, загальний напрямок уже окреслено: майбутнє генеративного відео, схоже, належить дифузії в латентному просторі.


Джерело

YouTube: Building Generative Image & Video models at Scale – Sander Dieleman (Veo and Nano Banana)

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті