Як трансформери витіснили CNN з комп’ютерного зору

9 Травня 2026

Трансформери довго вважалися «чужинцями» у комп’ютерному зорі: надто дорогі обчислювально, без природних просторових упереджень, які так добре працювали в згорткових мережах. Та за кілька років баланс змінився. У доповіді на каналі AI Engineer дослідник Roboflow Айзек Робінсон пояснює, як саме трансформери «з’їли» візію — і чому це стало можливим лише тепер.

How Transformers Finally Ate Vision – Isaac Robinson, Roboflow

Від CNN до ViT: чому «гірша» архітектура перемагає

Класичні згорткові нейромережі (CNN) десятиліттями були стандартом для зору. Їхня сила — у вбудованих індуктивних упередженнях:

локальність: фільтри дивляться на невеликі області зображення;
трансляційна інваріантність: об’єкт розпізнається однаково, де б він не був — у куті чи в центрі;
ієрархія ознак: від простих країв до складних об’єктів (ResNet та інші глибокі архітектури).

Трансформер, навпаки, — це загальна «set-to-set» операція над токенами з квадратичною складністю по кількості токенів. У Vision Transformer (ViT) зображення розбивається на патчі (історично 16×16), кожен патч стає токеном, додається позиційне кодування — і далі чистий self-attention без вбудованої просторової структури.

Наслідки:

немає природного індуктивного упередження щодо локальності чи інваріантності;
обчислювальна складність по роздільній здатності масштабується як n⁴ (через кількість патчів по обох осях);
одна й та сама «людина» в різних частинах кадру може активувати зовсім різні патерни.

На папері CNN виглядають логічнішими: кращі упередження, менша складність. Але на практиці перемагає ViT. Ключ — у масштабному, спеціально заточеному під трансформери попередньому навчанні та в інфраструктурі, яку принесла ера LLM.

Еволюція архітектур: Swin, ConvNeXt, Hiera і повернення до простого ViT

Шлях до домінування трансформерів у зорі — це серія спроб «виправити» їхні недоліки, а потім поступове повернення до максимально простої форми, яка найкраще масштабується.

Swin: локальність і віконна увага

Swin Transformer намагався поєднати ідеї CNN і ViT:

зображення так само патчиться;
увага обмежується локальними вікнами, а не всіма патчами одразу;
між шарами вікна зсуваються, щоб токени з різних областей могли взаємодіяти.

Це:

знижує складність до O(n²), якщо розмір вікна не залежить від роздільної здатності;
вводить локальне індуктивне упередження, подібне до згорток.

Архітектура стає ближчою до CNN за духом, але залишається трансформером за формою.

ConvNeXt: «трансформерні» уроки для згорток

Наступний крок — спроба повернутися до чистих згорток, але з уроками від ViT:

використовується патчування (менші патчі, наприклад 4×4);
просторове змішування виконується згортками замість self-attention;
застосовується знайомий з трансформерів шаблон: «міксер (просторове змішування) — feed-forward — міксер — feed-forward»;
додаються сучасні трюки на кшталт layer norm та ієрархічної структури.

На ImageNet така архітектура перевершує як ViT, так і Swin. Здається, логіка перемагає: добре спроєктований CNN із сучасними прийомами кращий. Але виявляється, що він не настільки швидкий, як хотілося б, і гірше масштабується в нову реальність масового попереднього навчання.

Hiera і MAE: коли попереднє навчання відновлює втрачені упередження

Meta пішла іншим шляхом: замість того, щоб додавати упередження в архітектуру, їх почали «вчити» через попереднє навчання.

Ключова ідея:

взяти добре спроєктований трансформер із індуктивними упередженнями;
по одному видаляти ці упередження, спрощуючи архітектуру й отримуючи прискорення;
компенсувати втрату структури за рахунок потужного попереднього навчання.

Для цього використовують MAE (Masked Autoencoder):

зображення розбивається на патчі;
значна частина патчів маскується;
модель вчиться відновлювати відсутні патчі з контексту.

Це прямий аналог BERT для зображень — і критично, що MAE природно працює саме з ViT, а не з CNN: у згорткових мережах важко «випиляти» окремі патчі, не ламаючи інваріантність згорток.

Результат:

попереднє навчання повертає моделі ті самі індуктивні упередження, які раніше закладалися в архітектуру;
ViT отримує багаті, семантично осмислені ознаки «з коробки»;
у задачах із лінійним пробінгом (заморожені ознаки + лінійний класифікатор) самонавчальні ViT (DINOv2, DINOv3) наближаються до найкращих повністю супервізованих моделей.

CNN не можуть напряму скористатися такими VIT-специфічними техніками попереднього навчання — і це стає стратегічною перевагою трансформерів.

Прискорення з LLM-світу: flash attention і кінець аргументу про n⁴

Навіть із хорошими ознаками залишається проблема: self-attention у ViT формально масштабується як n⁴ по роздільній здатності. Але тут на допомогу приходить інфраструктура, розроблена для великих мовних моделей:

з’являються оптимізовані реалізації уваги, зокрема flash attention;
бібліотеки, апаратні оптимізації та фреймворки заточуються під трансформери.

У роботі над Hiera показували прискорення порівняно з базовим ViT за однакової точності, але без урахування flash attention. Якщо ж додати ці оптимізації, перевага складніших архітектур тане: простий ViT із правильним попереднім навчанням і сучасними оптимізаціями знову виходить уперед.

У підсумку еволюція виглядає так:

ViT — проста, але «неприродна» для зору архітектура.
Swin, ConvNeXt, Hiera — спроби поєднати найкраще з CNN і трансформерів.
Масштабне VIT-специфічне попереднє навчання + інфраструктура LLM → повернення до максимально простого ViT, який найкраще масштабується й виграє на практиці.

SAM і RF-DETR: як фундаментальні моделі стикаються з реальністю розгортання

Перевага трансформерів у точності та універсальності не означає, що проблема вирішена. Вона лише змістилася: від архітектури — до розгортання.

Лінійка SAM: від гібридів до «здачі позицій» перед ViT

Segment Anything Model (SAM) — одна з найпомітніших серій фундаментальних моделей у зорі. Її еволюція повторює загальну історію:

базові версії SAM використовують ViT, попередньо навчений за допомогою MAE;
MobileSAM намагається зробити модель легшою, замінюючи backbone на гібридну архітектуру TinyViT (змішання згорток і трансформера);
SAM 2 переходить до Hiera як backbone, знову ж таки з MAE-попереднім навчанням;
SAM 3 фактично відмовляється від подальших архітектурних експериментів і просто використовує масово попередньо навчений ViT, визнаючи, що це — найкращий доступний варіант.

Ціна цього підходу — гігантські моделі:

SAM 3 має близько 800 млн параметрів;
інференс займає приблизно 300 мс на GPU T4.

Для багатьох реальних сценаріїв комп’ютерного зору — особливо на edge-пристроях із обмеженими ресурсами — це надто повільно й надто важко.

Проблема гнучкості розгортання

Якщо продуктивність досягається лише завдяки:

відсутності індуктивних упереджень в архітектурі;
масивному попередньому навчанню, що «навчає» ці упередження;
величезним моделям із мільярдами параметрів,

то кожне нове розгортання стає дорогим:

важко адаптувати модель під конкретне «залізо»;
важко масштабувати на низькопотужні пристрої;
доводиться покладатися на «один розмір для всіх» — універсальні фундаментальні моделі без тонкого налаштування під задачі.

Підхід Roboflow: RF100VL, RF-DETR і NAS поверх фундаментальних моделей

Щоб повернути гнучкість, Roboflow пропонує працювати не проти фундаментальних моделей, а поверх них.

Ключові елементи:

RF100VL — датасет для вимірювання того, наскільки добре фундаментальні моделі переносяться на різноманітні downstream-задачі об’єктного детектування (одна з базових задач зору).
RF-DETR — лінійка моделей, що використовує один і той самий фундаментальний backbone, але модифікує його через нейроархітектурний пошук (NAS), щоб отримати ціле сімейство високопродуктивних моделей.

Результати:

близько 40× прискорення при тій самій точності порівняно з тонким налаштуванням SAM 3;
при 15× прискоренні вдається не лише зберегти, а й покращити точність;
на момент публікації RF-DETR перевершував найкращі реальні time-моделі інстанс-сегментації на базі згорток.

Технічно це досягається завдяки:

набору «гнучких ручок» (архітектурних модулів), сумісних із уже навченими фундаментальними моделями;
NAS, який підбирає комбінації цих модулів під конкретні дані й цільове «залізо»;
збереженню переваг попереднього навчання, але з можливістю масштабувати модель вгору чи вниз залежно від обмежень.

Таким чином, поєднання:

VIT-специфічного попереднього навчання (MAE, DINOv2, DINOv3),
оптимізацій із LLM-світу (flash attention та інші),
і NAS, сумісного з фундаментальними моделями,

стає «останнім цвяхом у труну» класичних CNN у реальному часі: навіть у сценаріях, де раніше згортки мали перевагу через швидкість, трансформерні рішення тепер можуть бути і точнішими, і достатньо швидкими.

Що далі: VLM, світові моделі та відео

Після того, як трансформери закріпилися в обробці статичних зображень, наступний фронт — мультимодальність і відео:

VLM (Vision-Language Models) поєднують зір і текст;
світові моделі (world models) прагнуть будувати узагальнені представлення середовища для фізичного ІІ;
відеомоделі (зокрема JEPA/V-JEPA) досліджують, як навчати представлення з урахуванням часової динаміки.

Уже зараз деякі системи, як-от SAM 3, включають відеоаспекти — наприклад, трекінг об’єктів у відео на основі масового попереднього навчання енкодера сприйняття й подальшого донавчання. Однак для відеоцентричних задач ще немає настільки ж усталеного, домінуючого підходу, як ViT+MAE для зображень.

Попри активні дослідження (JEPA, V-JEPA та інші), поки що немає чітких доказів, що ці підходи стабільно дають кращий перенос на downstream-задачі відео, як це сталося з DINO/MAE у статичному зорі. Це означає, що «довга дуга» еволюції архітектур для відео ще триває.

Джерело

How Transformers Finally Ate Vision – Isaac Robinson, Roboflow (AI Engineer)

161

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Як трансформери витіснили CNN з комп’ютерного зору

Від CNN до ViT: чому «гірша» архітектура перемагає

Еволюція архітектур: Swin, ConvNeXt, Hiera і повернення до простого ViT

Swin: локальність і віконна увага

ConvNeXt: «трансформерні» уроки для згорток

Hiera і MAE: коли попереднє навчання відновлює втрачені упередження

Прискорення з LLM-світу: flash attention і кінець аргументу про n⁴

SAM і RF-DETR: як фундаментальні моделі стикаються з реальністю розгортання

Лінійка SAM: від гібридів до «здачі позицій» перед ViT

Проблема гнучкості розгортання

Підхід Roboflow: RF100VL, RF-DETR і NAS поверх фундаментальних моделей

Що далі: VLM, світові моделі та відео

Джерело

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ