Середа, 22 Квітня, 2026

Від спектра до смислу: як частоти зображень пояснюють coarse-to-fine природу дифузії

У центрі сучасних генеративних моделей зображень і відео — не лише глибокі нейромережі, а й досить класична математика сигналів. Дослідник Google DeepMind Сандер Ділеман, який понад десятиліття працює над генеративними медіамоделями на кшталт Veo та Nano Banana, пропонує дивитися на дифузійні моделі через спектральну призму: як на процес, що відновлює зображення від грубих, низькочастотних структур до найдрібніших деталей.

Sandy desert surface with shadows and light streaks

Цей погляд поєднує властивості природних зображень у частотній області, поведінку гаусівського шуму та те, як влаштовані латентні простори автоенкодерів. У результаті coarse-to-fine характер дифузії — не магія й не лише емпіричний факт, а закономірність, яка добре узгоджується з тим, як розподілена інформація в зображеннях.

Природні зображення як степеневий закон: що показує Фур’є-спектр

Якщо взяти велику колекцію фотографій реального світу, перетворити кожну з них у частотну область за допомогою перетворення Фур’є й подивитися на середній спектр, виявиться доволі стійка закономірність. На логарифмічних осях «частота — енергія» спектр природних зображень приблизно підкоряється степеневому закону.

Це означає, що енергія сигналу зменшується зі зростанням частоти приблизно як обернений степінь частоти. Низькі частоти — великі плавні зміни яскравості та кольору, що відповідають глобальній структурі сцени, — мають значно більшу енергію, ніж високі частоти, які кодують дрібні деталі, текстури, різкі краї.

Такий спектр відображає базову властивість природних сцен: у них домінують великі об’єкти, плавні градієнти освітлення, великі області однорідного кольору. Тонкі текстури трави, шерсті, листя чи дрібні написи на вивісках — це вже високочастотні компоненти, які енергетично «дешевші» й легше губляться в шумі.

Ця приблизно степенева структура спектра важлива не лише для аналізу зображень, а й для розуміння того, чому дифузійні моделі так природно працюють у режимі «від грубого до детального».

Чому гаусівський шум руйнує зображення з високих частот

На противагу природним зображенням, гаусівський шум у середньому має майже плаский спектр. Якщо розглядати його в частотній області, енергія шуму розподілена приблизно рівномірно по всіх просторових частотах. Іншими словами, шум не «віддає перевагу» ні великим, ні дрібним структурам — він однаково заважає всім.

Коли до зображення додається гаусівський шум із невеликою дисперсією, співвідношення сигнал/шум виявляється різним для різних частот. На низьких частотах енергія сигналу значно вища, ніж енергія шуму, тому глобальна структура сцени зберігається: можна впізнати об’єкти, їхні контури, розташування. На високих частотах енергія сигналу вже порівнянна з енергією шуму, тож дрібні деталі швидко «тонуть» у випадкових коливаннях.

У міру збільшення рівня шуму процес відбувається поетапно. Спочатку зникають найтонші текстури й мікродеталі, потім розмиваються краї, далі спотворюється середньомасштабна структура, і лише на дуже високих рівнях шуму руйнується й глобальна семантика — стає неможливо розпізнати, що саме зображено.

Цей ефект можна описати як спектральне «затирання» зображення: гаусівський шум, маючи плаский спектр, поступово перекриває спадаючий за степеневим законом спектр природного зображення, починаючи з високих частот і рухаючись до низьких.

Саме так поводиться й прямий процес у дифузійних моделях: він по суті додає гаусівський шум із зростаючою дисперсією, поступово знищуючи спочатку дрібні деталі, а потім і всю структуру.

Дифузія як спектральна авторегресія: від низьких частот до високих

Зворотний процес у дифузійних моделях — це навчений денойзер, який крок за кроком перетворює зашумлене зображення назад на структурований сигнал. У спектральній інтерпретації цей процес можна розглядати як своєрідну авторегресію в частотній області.

Ділеман характеризує дифузію саме як форму спектральної авторегресії: модель ефективно «будує» зображення від грубих, низькочастотних компонентів до все вищих частот. На ранніх кроках відновлюється глобальна структура — розташування великих об’єктів, основні кольорові маси, загальна композиція. На пізніших кроках, коли рівень шуму нижчий, модель може дозволити собі уточнювати краї, додавати текстури, відтінки, дрібні елементи.

Це coarse-to-fine поводження не є штучним обмеженням, нав’язаним архітектурою; воно природно випливає з поєднання двох фактів: степеневого спектра природних зображень і плаского спектра шуму. Оскільки низькі частоти «виживають» довше в процесі зашумлення, саме вони залишаються доступними для моделі на ранніх етапах денойзингу. Високі частоти, які першими губляться в шумі, можуть бути надійно відновлені лише тоді, коли загальний рівень шуму вже достатньо низький.

У цьому сенсі дифузійний процес нагадує нелінійну траєкторію в просторі зображень або латентів, де кожен крок — це локальне уточнення, засноване на тому, які частотні компоненти ще можна відрізнити від шуму. На початку траєкторії модель оперує грубими, стійкими до шуму структурами; ближче до кінця — працює з тонкими, вразливими до шуму деталями.

Цей спектральний погляд добре узгоджується з інтуїтивним описом того, як дифузійні моделі «малюють» зображення: спочатку з’являється загальна сцена, силуети, перспектива, а вже потім — фактура шкіри, відблиски на металі, волокна тканини.

Від coarse-to-fine до семантики: як моделі збирають зміст і деталі

Coarse-to-fine динаміка дифузії має не лише математичний, а й перцептивний вимір. Людська система зору також сприймає сцени спочатку на глобальному рівні, а потім фокусує увагу на деталях. У генеративних моделях це проявляється як послідовне формування «сенсу» зображення.

На ранніх кроках денойзингу, коли шум ще домінує, модель може надійно відновити лише ті аспекти, які кодуються низькими частотами: загальну композицію, приблизні форми, розташування великих об’єктів. Це і є глобальна семантика: де небо, де земля, де людина, де будівля, який приблизно колір у кожної великої області.

У міру зменшення шуму з’являється можливість уточнювати локальну структуру. Модель додає краї, дрібні об’єкти, текстури поверхонь. На цьому етапі формується те, що ми сприймаємо як «реалістичність» або «фотореалізм»: відблиски, зморшки, пори, волокна, дрібні написи.

Ця логіка поширюється й на відео. У дифузійних відеомоделях coarse-to-fine поведінка означає, що спочатку встановлюється глобальна динаміка сцени: траєкторії руху, зміна ракурсів, загальний ритм. Лише потім модель додає високочастотні просторові й часові деталі — дрібні коливання текстур, мерехтіння світла, мікрорухи.

Таким чином, coarse-to-fine — це не просто технічний опис порядку відновлення частот, а й природний спосіб поєднання семантики й перцептивної якості. Спочатку — «що відбувається», потім — «як саме це виглядає».

Латентні простори як низькочастотні носії змісту

Сучасні дифузійні моделі рідко працюють безпосередньо з пікселями. Замість цього вони оперують у латентних просторах, які створюються автоенкодерами. Ці автоенкодери навчаються відтворювати вхідне зображення через вузьке «горлечко» — стиснену латентну репрезентацію, що зберігає основну структуру, але відкидає частину деталей.

У типових налаштуваннях, подібних до Stable Diffusion, зображення 256×256 з трьома каналами RGB перетворюється на латентну сітку 32×32 з більшою кількістю каналів. Просторова топологія зберігається: це все ще двовимірна решітка, але з нижчою роздільною здатністю. Додаткові канали компенсують втрату інформації, яка виникла б при простому масштабуванні зображення до 32×32, зокрема частину високочастотних компонентів.

Попри це, стиснення залишається втратним: загальний розмір тензора латентів значно менший за розмір вихідного зображення. Для відео виграш ще більший — іноді до двох порядків за обсягом даних. Це робить навчання великих моделей практично здійсненним.

Ключова особливість таких латентних представлень — вони навмисно простіші, ніж традиційні кодеки на кшталт JPEG чи H.265. Мета тут не максимальне стиснення, а збереження топологічної структури, з якою зручно працювати нейромережам. Латентні сітки залишаються «картами» сцени, а не перетворюються на складні, важко інтерпретовані бітові потоки.

Це має прямий зв’язок із coarse-to-fine природою дифузії: автоенкодер уже виконує певну фільтрацію, відкидаючи найдрібніші текстури й локальні варіації, але зберігаючи низькочастотну структуру, яка несе основний зміст.

EQ-VAE: як виглядає латентна сітка, коли її перетворити на «картинку»

Щоб зрозуміти, що саме зберігається в латентному просторі, корисно подивитися на спроби його візуалізації. Ділеман посилається на роботу EQ-VAE, де автори запропонували простий, але показовий спосіб «побачити» латенти.

Ідея полягає в тому, щоб узяти латентну сітку — багатоканальний тензор — і виконати аналіз головних компонент (PCA) по каналах. Перші кілька головних компонент відображають найбільш варіативні напрями в просторі каналів. Далі ці компоненти можна відобразити на канали RGB, отримавши псевдозображення, яке показує, як латентні ознаки розподілені в просторі.

Результат виявляється вражаюче інформативним. Навіть після такого грубого перетворення на RGB у латентних «картинках» усе ще легко впізнати семантичний зміст: можна побачити, де знаходиться тварина, де фон, де основні об’єкти. Контури, форми, розташування — усе це зберігається.

Водночас дрібна текстура значною мірою зникає. Поверхні виглядають більш однорідними, деталі шерсті, листя, дрібних візерунків згладжені. Це наочно демонструє, що латентні представлення автоенкодера справді кодують переважно низькочастотну, семантично насичену структуру, тоді як високочастотні деталі частково відкидаються або стискаються.

Таким чином, латентний простір можна розглядати як «каркас» зображення: він містить інформацію про те, що й де розташовано, але не обов’язково про те, як саме виглядає кожен мікродеталь. Це добре узгоджується з тим, як дифузійні моделі працюють у цьому просторі: вони спочатку формують глобальну структуру, а потім, через декодування назад у пікселі, додають високочастотні деталі.

Латенти, спектр і coarse-to-fine: як усе з’єднується

Якщо поєднати спектральні властивості природних зображень, поведінку гаусівського шуму та структуру латентних просторів, coarse-to-fine характер дифузії постає як логічний наслідок.

По-перше, природні зображення мають приблизно степеневий спектр: низькі частоти домінують, високі — слабші. По-друге, гаусівський шум має плаский спектр, тому при додаванні шуму високочастотні компоненти зображення першими стають невідрізними від шуму. По-третє, автоенкодери, які використовуються як латентні компресори, уже виконують певну «низькочастотну фільтрацію», зберігаючи глобальну структуру й абстрагуючись від найтонших текстур.

У такій конфігурації дифузійна модель, що працює в латентному просторі, фактично оперує зображенням, у якому низькочастотна, семантична інформація вже підкреслена, а високочастотна — приглушена. Прямий процес дифузії додає шум, поступово руйнуючи спочатку залишки високих частот, потім — середні масштаби, і лише в кінці — глобальну структуру. Зворотний процес, навпаки, відновлює спочатку те, що найбільш стійке до шуму, тобто низькі частоти, а потім — усе тонші деталі.

Це й є спектральна авторегресія: модель умовно «прогнозує» все більш високочастотні компоненти, спираючись на вже відновлену низькочастотну структуру. У просторі латентів це проявляється як побудова семантично осмисленої сцени, яку потім декодер перетворює на піксельне зображення з багатою текстурою.

Для відео цей механізм працює аналогічно, але з додатковим часовим виміром. Латентні представлення зберігають глобальну динаміку й структуру кадрів, тоді як дрібні просторово-часові деталі можуть бути відновлені на пізніших етапах або частково делеговані декодеру.

У підсумку coarse-to-fine поведінка дифузійних моделей виявляється не лише емпіричним фактом, а й природним наслідком того, як улаштовані зображення, шум і латентні простори. Це пояснює, чому дифузія так добре підходить для генерації складних візуальних сцен: вона узгоджується і з фізикою сигналів, і з людським сприйняттям, і з архітектурними упередженнями нейромереж.

Висновок: спектральна інтуїція як ключ до розуміння генеративної графіки

Розвиток генеративних моделей зображень і відео часто описують мовою масштабів, параметрів і FLOPs. Але за цими цифрами стоїть доволі елегантна інтуїція: природні зображення мають специфічну спектральну структуру, гаусівський шум руйнує її в передбачуваному порядку, а автоенкодери й дифузійні процеси вміють цю структуру відновлювати від грубого до детального.

Спектральний погляд на дифузію — як на форму авторегресії в частотній області — допомагає зрозуміти, чому моделі спочатку формують глобальну семантику, а потім додають текстури, чому латентні простори зберігають зміст, але абстрагуються від мікродеталей, і чому coarse-to-fine поведінка настільки стійко проявляється в генерації зображень і відео.

Для інженерів і дослідників це не просто красива метафора. Це робоча інтуїція, яка може підказувати, як проєктувати кращі автоенкодери, як налаштовувати шумові графіки, як інтерпретувати латентні простори й чому певні архітектурні рішення виявляються ефективними саме для візуальних даних.


Джерело

Building Generative Image & Video models at Scale – Sander Dieleman (Veo and Nano Banana)

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті