Середа, 22 Квітня, 2026

Як працює дифузія в генеративних моделях

У квітні 2026 року дослідник Google DeepMind Сандер Ділеман, який понад десятиліття працює над генеративними медіамоделями на кшталт Veo та Nano Banana, публічно розклав по поличках механіку дифузійних моделей для зображень і відео. На відміну від автогресивних підходів, що домінують у мовних моделях, сучасні системи генерації візуального контенту майже повсюдно спираються саме на дифузію.

Building Generative Image & Video models at Scale - Sander D

За зовнішньою простотою — «додаємо шум, потім його прибираємо» — стоїть доволі витончений процес. Він пояснює, чому ці моделі генерують зображення поетапно, чому однокрокове «очищення» дає розмиті результати, навіщо під час семплінгу знову додають шум і як усе це можна уявити як рух по складній траєкторії в просторі зображень чи латентів.

Дві половини дифузії: корупція та денойзинг

У серці дифузійних моделей — чітко визначена пара процесів: прямий (forward) і зворотний (reverse). Перший — це контрольоване псування даних, другий — навчена спроба це псування скасувати.

Прямий процес задається як поступове додавання гаусівського шуму до зображення або відео. На кожному кроці до поточного стану додається трохи шуму за заздалегідь визначеним розкладом. На початку зображення ще добре впізнається, але з кожним кроком структура розмивається, поки на високих рівнях шуму не залишається нічого, окрім майже чистого випадкового шуму.

Цей корупційний процес має важливу властивість: він добре формалізований і повністю відомий. Можна точно описати, як виглядає розподіл зашумленого зображення на будь-якому кроці, якщо відомий початковий чистий приклад. Це дає змогу будувати навчальну задачу для моделі: вона бачить зашумлену версію і має відновити інформацію про чистий сигнал.

Зворотний процес — це вже не фізика, а навчена апроксимація. Модель-денойзер отримує на вхід зашумлене зображення (або латентне представлення зображення) та рівень шуму й намагається передбачити, як виглядало б «чисте» зображення або, залежно від формулювання, сам шум, який потрібно відняти. У сукупності ці два процеси — відомий прямий шум і навчений зворотний денойзинг — і складають дифузійну модель.

Як шум руйнує зображення: спершу деталі, потім структура

Поведінка прямого процесу зашумлення не є хаотичною. На низьких рівнях шуму зображення втрачає передусім дрібні деталі: текстури, тонкі лінії, дрібний текст, мікроконтраст. Водночас глобальна структура — розташування об’єктів, великі форми, основні кольорові плями — ще добре зберігається.

У міру збільшення шуму ця глобальна структура теж починає руйнуватися. Контури розпливаються, об’єкти перестають бути впізнаваними, сцена втрачає геометрію. На високих кроках корупції зображення перетворюється на майже чистий гаусівський шум, де вже неможливо відрізнити, що там було спочатку — кіт, пейзаж чи портрет.

Цей перехід від «збереженої структури, але без деталей» до «повної відсутності структури» критично важливий для розуміння того, як працює зворотний процес. На проміжних рівнях шуму модель ще має за що «вчепитися»: вона бачить загальну композицію і може відновлювати деталі, спираючись на глобальну форму. На найвищих рівнях шуму, навпаки, завдання стає максимально невизначеним — з чистого шуму можна породити безліч різних зображень.

Саме тому дифузійні моделі не намагаються стрибнути одразу з чистого шуму до фінального результату. Вони рухаються дрібними кроками, поступово відновлюючи структуру й деталі, використовуючи те, що ще не встиг знищити шум.

Чому «відразу очистити» не працює: ілюзія одного кроку

На перший погляд може здатися, що якщо денойзер навчений передбачати чисте зображення з зашумленого, то під час генерації можна просто взяти випадковий шум, зробити один крок передбачення — і отримати готову картинку. На практиці це дає розмиті, нечіткі результати.

Причина в тому, що задача «відновити чисте зображення з зашумленого» фундаментально некоректно поставлена. Багато різних чистих зображень можуть призвести до одного й того ж зашумленого прикладу. Якщо до двох різних картинок додати достатньо сильний шум, вони можуть стати практично невідрізнюваними. Отже, з точки зору моделі, для одного й того ж вхідного шумового зразка існує ціла множина можливих «правильних» чистих відповідей.

Коли денойзер навчається на такій задачі, він фактично вчиться відтворювати умовне математичне сподівання: середнє по всіх можливих чистих зображеннях, які могли породити даний зашумлений приклад. А середнє по багатьох різних варіантах зазвичай виглядає як компроміс — згладжений, без різких деталей, із «усередненими» структурами.

Це добре видно на прикладах: якщо спробувати зробити однокрокове передбачення «чистого» зображення з сильно зашумленого, результат часто нагадує розмиту версію сцени, де контури є, але дрібні деталі та текстури зникають. Модель ніби намагається одночасно задовольнити всі можливі варіанти, які могли стояти за цим шумом.

Саме тому дифузійні моделі не використовують пряме однокрокове «очищення» як основний механізм генерації. Замість цього вони трактують передбачення денойзера як локальну підказку — напрямок, у якому варто трохи посунутися, а не як остаточну відповідь.

Багатокроковий семплінг: рух за локальними підказками

Реальний семплінг у дифузійних моделях побудований як послідовність невеликих кроків. На кожному кроці модель отримує поточний зашумлений стан і рівень шуму, робить прогноз — зазвичай у вигляді оцінки шуму, який потрібно відняти, або оцінки менш зашумленої версії — і на основі цього прогнозу оновлює зображення.

Ключовий момент: модель не «вірить» своєму передбаченню як ідеальній реконструкції. Вона використовує його як напрямок руху в просторі зображень чи латентів. Замість того, щоб стрибнути прямо до передбаченого чистого зображення, алгоритм робить невеликий крок у цьому напрямку, зменшуючи рівень шуму лише трохи.

У підсумку семплінг можна уявити як інтегрування траєкторії: починаючи з чистого шуму на найвищому рівні корупції, модель крок за кроком рухається до низьких рівнів шуму, кожного разу коригуючи курс відповідно до локального прогнозу денойзера. Кожен крок трохи покращує структуру, додає деталей, виправляє помилки попередніх кроків.

Такий підхід має кілька наслідків.

По-перше, він дозволяє уникнути розмитості, властивої однокроковому усередненню. Замість того, щоб одразу намагатися «вгадати» все з шуму, модель поступово уточнює зображення, використовуючи інформацію, яка зберігається на проміжних рівнях шуму.

По-друге, він робить процес стійкішим до помилок. Якщо на якомусь кроці модель трохи помилилася, наступні кроки можуть частково це компенсувати, оскільки кожен новий прогноз ґрунтується на оновленому стані.

По-третє, багатокроковий семплінг відкриває простір для різних чисельних схем: можна змінювати кількість кроків, їхню довжину, використовувати методи, схожі на інтегратори диференціальних рівнянь, і таким чином балансувати між швидкістю та якістю.

Навіщо знову додавати шум: боротьба з накопиченням помилок

На перший погляд здається парадоксальним: якщо мета — позбутися шуму, чому багато семплерів після кожного кроку денойзингу додають трохи нового шуму? Однак це один із ключових інженерних трюків, який робить дифузійні моделі практичними.

Жодна модель не є ідеальною. На кожному кроці денойзер робить невелику помилку в оцінці того, куди саме потрібно рухатися. Якщо просто послідовно застосовувати ці неточні оновлення без додаткового шуму, помилки будуть накопичуватися. Траєкторія може поступово відхилятися від тієї, яка відповідає справжньому зворотному процесу, і врешті-решт зображення «з’їде» в артефакти або стане неприродним.

Додавання невеликої кількості свіжого шуму після кожного кроку працює як механізм «перемішування» і регуляризації. Воно не дає моделі надто жорстко зафіксуватися на одній помилковій траєкторії, зберігає стохастичність процесу й частково відновлює статистичні властивості, які мав би справжній зворотний процес для заданого рівня шуму.

У математичних термінах багато популярних семплерів можна розглядати як дискретизацію стохастичних диференціальних рівнянь. У таких рівняннях випадковий шум — не дефект, а невід’ємна частина динаміки. Він допомагає системі досліджувати розподіл, а не просто сліпо рухатися за детермінованою траєкторією.

Практичний ефект очевидний: моделі, які на кожному кроці додають трохи шуму, зазвичай дають більш стійкі, різноманітні й візуально переконливі результати, особливо коли кількість кроків обмежена.

Нелінійна траєкторія в просторі зображень і латентів

Один із найцікавіших способів мислити про дифузійний семплінг — уявляти його як рух по складній, нелінійній траєкторії в просторі зображень або, частіше, у просторі латентних представлень. Початкова точка цієї траєкторії — випадковий шум на найвищому рівні корупції. Кінцева — згенероване зображення з низьким або нульовим рівнем шуму.

На кожному кроці денойзер дає локальну інформацію: «у цьому місці простору, при такому рівні шуму, ось у якому напрямку потрібно рухатися, щоб стати трохи менш зашумленим і трохи більш схожим на реальне зображення». Це можна інтерпретувати як локальний дотичний вектор до невідомої «маніфолди» реалістичних зображень у високовимірному просторі.

Якщо уявити, що існує гладка поверхня, на якій лежать усі правдоподібні зображення, то денойзер намагається на кожному кроці сказати, як із поточної точки шумового простору рухатися в напрямку цієї поверхні. Семплер, у свою чергу, інтегрує ці локальні дотичні підказки, крок за кроком наближаючись до маніфолди й ковзаючи вздовж неї до конкретного зображення, яке відповідає заданим умовам (наприклад, текстовому запиту).

Ця інтерпретація пояснює, чому дифузійні моделі такі чутливі до якості денойзера. Якщо локальні дотичні вектори погано апроксимовані, траєкторія буде «зриватися» з маніфолди, і результат виглядатиме неприродним. Водночас вона підкреслює, чому багатокроковий процес настільки потужний: навіть якщо кожен локальний прогноз неідеальний, послідовність дрібних корекцій може вивести систему до правдоподібного кінцевого стану.

У сучасних системах для зображень і відео цей рух зазвичай відбувається не в піксельному просторі, а в латентному, стисненому автоенкодером. Але геометрична картина залишається тією ж: модель простежує складну криву в багатовимірному просторі, використовуючи денойзер як локальний орієнтир.

Висновки: дифузія як керований рух від шуму до структури

Дифузійні моделі для зображень і відео часто описують як «додаємо шум — потім його прибираємо», але за цим стоїть набагато глибша конструкція. Прямий процес корупції систематично руйнує спершу дрібні деталі, а потім і глобальну структуру, перетворюючи зображення на шум. Зворотний процес, реалізований навченою моделлю-денойзером, намагається інвертувати це перетворення, хоча сама задача є принципово неоднозначною.

Однокрокове передбачення «чистого» зображення з шуму неминуче веде до розмитих, усереднених результатів, тому практичні системи використовують багатокроковий семплінг. На кожному кроці денойзер дає локальний напрямок руху, а семплер робить невеликий крок у цьому напрямку, часто додаючи трохи нового шуму, щоб уникнути накопичення помилок і зберегти стохастичність.

У підсумку генерація в дифузійних моделях виглядає як простежування нелінійної траєкторії в просторі зображень або латентів — від чистого шуму до структурованого, реалістичного зображення. Саме ця геометрична й поетапна природа процесу пояснює, чому дифузія так добре працює для складних візуальних даних і чому контроль над семплінгом став одним із головних важелів якості в сучасних генеративних медіасистемах.


Джерело

Building Generative Image & Video models at Scale – Sander Dieleman (Veo and Nano Banana)

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті