Субота, 9 Травня, 2026

Як трансформери витіснили CNN з комп’ютерного зору

Трансформери довго вважалися «чужинцями» у комп’ютерному зорі: надто дорогі обчислювально, без природних просторових упереджень, які так добре працювали в згорткових мережах. Та за кілька років баланс змінився. У доповіді на каналі AI Engineer дослідник Roboflow Айзек Робінсон пояснює, як саме трансформери «з’їли» візію — і чому це стало можливим лише тепер.

How Transformers Finally Ate Vision – Isaac Robinson, Roboflow


Від CNN до ViT: чому «гірша» архітектура перемагає

Класичні згорткові нейромережі (CNN) десятиліттями були стандартом для зору. Їхня сила — у вбудованих індуктивних упередженнях:

  • локальність: фільтри дивляться на невеликі області зображення;
  • трансляційна інваріантність: об’єкт розпізнається однаково, де б він не був — у куті чи в центрі;
  • ієрархія ознак: від простих країв до складних об’єктів (ResNet та інші глибокі архітектури).

Трансформер, навпаки, — це загальна «set-to-set» операція над токенами з квадратичною складністю по кількості токенів. У Vision Transformer (ViT) зображення розбивається на патчі (історично 16×16), кожен патч стає токеном, додається позиційне кодування — і далі чистий self-attention без вбудованої просторової структури.

Наслідки:

  • немає природного індуктивного упередження щодо локальності чи інваріантності;
  • обчислювальна складність по роздільній здатності масштабується як n⁴ (через кількість патчів по обох осях);
  • одна й та сама «людина» в різних частинах кадру може активувати зовсім різні патерни.

На папері CNN виглядають логічнішими: кращі упередження, менша складність. Але на практиці перемагає ViT. Ключ — у масштабному, спеціально заточеному під трансформери попередньому навчанні та в інфраструктурі, яку принесла ера LLM.


Еволюція архітектур: Swin, ConvNeXt, Hiera і повернення до простого ViT

Шлях до домінування трансформерів у зорі — це серія спроб «виправити» їхні недоліки, а потім поступове повернення до максимально простої форми, яка найкраще масштабується.

Swin: локальність і віконна увага

Swin Transformer намагався поєднати ідеї CNN і ViT:

  • зображення так само патчиться;
  • увага обмежується локальними вікнами, а не всіма патчами одразу;
  • між шарами вікна зсуваються, щоб токени з різних областей могли взаємодіяти.

Це:

  • знижує складність до O(n²), якщо розмір вікна не залежить від роздільної здатності;
  • вводить локальне індуктивне упередження, подібне до згорток.

Архітектура стає ближчою до CNN за духом, але залишається трансформером за формою.

ConvNeXt: «трансформерні» уроки для згорток

Наступний крок — спроба повернутися до чистих згорток, але з уроками від ViT:

  • використовується патчування (менші патчі, наприклад 4×4);
  • просторове змішування виконується згортками замість self-attention;
  • застосовується знайомий з трансформерів шаблон: «міксер (просторове змішування) — feed-forward — міксер — feed-forward»;
  • додаються сучасні трюки на кшталт layer norm та ієрархічної структури.

На ImageNet така архітектура перевершує як ViT, так і Swin. Здається, логіка перемагає: добре спроєктований CNN із сучасними прийомами кращий. Але виявляється, що він не настільки швидкий, як хотілося б, і гірше масштабується в нову реальність масового попереднього навчання.

Hiera і MAE: коли попереднє навчання відновлює втрачені упередження

Meta пішла іншим шляхом: замість того, щоб додавати упередження в архітектуру, їх почали «вчити» через попереднє навчання.

Ключова ідея:

  • взяти добре спроєктований трансформер із індуктивними упередженнями;
  • по одному видаляти ці упередження, спрощуючи архітектуру й отримуючи прискорення;
  • компенсувати втрату структури за рахунок потужного попереднього навчання.

Для цього використовують MAE (Masked Autoencoder):

  • зображення розбивається на патчі;
  • значна частина патчів маскується;
  • модель вчиться відновлювати відсутні патчі з контексту.

Це прямий аналог BERT для зображень — і критично, що MAE природно працює саме з ViT, а не з CNN: у згорткових мережах важко «випиляти» окремі патчі, не ламаючи інваріантність згорток.

Результат:

  • попереднє навчання повертає моделі ті самі індуктивні упередження, які раніше закладалися в архітектуру;
  • ViT отримує багаті, семантично осмислені ознаки «з коробки»;
  • у задачах із лінійним пробінгом (заморожені ознаки + лінійний класифікатор) самонавчальні ViT (DINOv2, DINOv3) наближаються до найкращих повністю супервізованих моделей.

CNN не можуть напряму скористатися такими VIT-специфічними техніками попереднього навчання — і це стає стратегічною перевагою трансформерів.

Прискорення з LLM-світу: flash attention і кінець аргументу про n⁴

Навіть із хорошими ознаками залишається проблема: self-attention у ViT формально масштабується як n⁴ по роздільній здатності. Але тут на допомогу приходить інфраструктура, розроблена для великих мовних моделей:

  • з’являються оптимізовані реалізації уваги, зокрема flash attention;
  • бібліотеки, апаратні оптимізації та фреймворки заточуються під трансформери.

У роботі над Hiera показували прискорення порівняно з базовим ViT за однакової точності, але без урахування flash attention. Якщо ж додати ці оптимізації, перевага складніших архітектур тане: простий ViT із правильним попереднім навчанням і сучасними оптимізаціями знову виходить уперед.

У підсумку еволюція виглядає так:

  1. ViT — проста, але «неприродна» для зору архітектура.
  2. Swin, ConvNeXt, Hiera — спроби поєднати найкраще з CNN і трансформерів.
  3. Масштабне VIT-специфічне попереднє навчання + інфраструктура LLM → повернення до максимально простого ViT, який найкраще масштабується й виграє на практиці.

SAM і RF-DETR: як фундаментальні моделі стикаються з реальністю розгортання

Перевага трансформерів у точності та універсальності не означає, що проблема вирішена. Вона лише змістилася: від архітектури — до розгортання.

Лінійка SAM: від гібридів до «здачі позицій» перед ViT

Segment Anything Model (SAM) — одна з найпомітніших серій фундаментальних моделей у зорі. Її еволюція повторює загальну історію:

  • базові версії SAM використовують ViT, попередньо навчений за допомогою MAE;
  • MobileSAM намагається зробити модель легшою, замінюючи backbone на гібридну архітектуру TinyViT (змішання згорток і трансформера);
  • SAM 2 переходить до Hiera як backbone, знову ж таки з MAE-попереднім навчанням;
  • SAM 3 фактично відмовляється від подальших архітектурних експериментів і просто використовує масово попередньо навчений ViT, визнаючи, що це — найкращий доступний варіант.

Ціна цього підходу — гігантські моделі:

  • SAM 3 має близько 800 млн параметрів;
  • інференс займає приблизно 300 мс на GPU T4.

Для багатьох реальних сценаріїв комп’ютерного зору — особливо на edge-пристроях із обмеженими ресурсами — це надто повільно й надто важко.

Проблема гнучкості розгортання

Якщо продуктивність досягається лише завдяки:

  • відсутності індуктивних упереджень в архітектурі;
  • масивному попередньому навчанню, що «навчає» ці упередження;
  • величезним моделям із мільярдами параметрів,

то кожне нове розгортання стає дорогим:

  • важко адаптувати модель під конкретне «залізо»;
  • важко масштабувати на низькопотужні пристрої;
  • доводиться покладатися на «один розмір для всіх» — універсальні фундаментальні моделі без тонкого налаштування під задачі.

Підхід Roboflow: RF100VL, RF-DETR і NAS поверх фундаментальних моделей

Щоб повернути гнучкість, Roboflow пропонує працювати не проти фундаментальних моделей, а поверх них.

Ключові елементи:

  • RF100VL — датасет для вимірювання того, наскільки добре фундаментальні моделі переносяться на різноманітні downstream-задачі об’єктного детектування (одна з базових задач зору).
  • RF-DETR — лінійка моделей, що використовує один і той самий фундаментальний backbone, але модифікує його через нейроархітектурний пошук (NAS), щоб отримати ціле сімейство високопродуктивних моделей.

Результати:

  • близько 40× прискорення при тій самій точності порівняно з тонким налаштуванням SAM 3;
  • при 15× прискоренні вдається не лише зберегти, а й покращити точність;
  • на момент публікації RF-DETR перевершував найкращі реальні time-моделі інстанс-сегментації на базі згорток.

Технічно це досягається завдяки:

  • набору «гнучких ручок» (архітектурних модулів), сумісних із уже навченими фундаментальними моделями;
  • NAS, який підбирає комбінації цих модулів під конкретні дані й цільове «залізо»;
  • збереженню переваг попереднього навчання, але з можливістю масштабувати модель вгору чи вниз залежно від обмежень.

Таким чином, поєднання:

  • VIT-специфічного попереднього навчання (MAE, DINOv2, DINOv3),
  • оптимізацій із LLM-світу (flash attention та інші),
  • і NAS, сумісного з фундаментальними моделями,

стає «останнім цвяхом у труну» класичних CNN у реальному часі: навіть у сценаріях, де раніше згортки мали перевагу через швидкість, трансформерні рішення тепер можуть бути і точнішими, і достатньо швидкими.


Що далі: VLM, світові моделі та відео

Після того, як трансформери закріпилися в обробці статичних зображень, наступний фронт — мультимодальність і відео:

  • VLM (Vision-Language Models) поєднують зір і текст;
  • світові моделі (world models) прагнуть будувати узагальнені представлення середовища для фізичного ІІ;
  • відеомоделі (зокрема JEPA/V-JEPA) досліджують, як навчати представлення з урахуванням часової динаміки.

Уже зараз деякі системи, як-от SAM 3, включають відеоаспекти — наприклад, трекінг об’єктів у відео на основі масового попереднього навчання енкодера сприйняття й подальшого донавчання. Однак для відеоцентричних задач ще немає настільки ж усталеного, домінуючого підходу, як ViT+MAE для зображень.

Попри активні дослідження (JEPA, V-JEPA та інші), поки що немає чітких доказів, що ці підходи стабільно дають кращий перенос на downstream-задачі відео, як це сталося з DINO/MAE у статичному зорі. Це означає, що «довга дуга» еволюції архітектур для відео ще триває.


Джерело

How Transformers Finally Ate Vision – Isaac Robinson, Roboflow (AI Engineer)

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті