Трансформери довго вважалися «чужинцями» у комп’ютерному зорі: надто дорогі обчислювально, без природних просторових упереджень, які так добре працювали в згорткових мережах. Та за кілька років баланс змінився. У доповіді на каналі AI Engineer дослідник Roboflow Айзек Робінсон пояснює, як саме трансформери «з’їли» візію — і чому це стало можливим лише тепер.
![]()
Від CNN до ViT: чому «гірша» архітектура перемагає
Класичні згорткові нейромережі (CNN) десятиліттями були стандартом для зору. Їхня сила — у вбудованих індуктивних упередженнях:
- локальність: фільтри дивляться на невеликі області зображення;
- трансляційна інваріантність: об’єкт розпізнається однаково, де б він не був — у куті чи в центрі;
- ієрархія ознак: від простих країв до складних об’єктів (ResNet та інші глибокі архітектури).
Трансформер, навпаки, — це загальна «set-to-set» операція над токенами з квадратичною складністю по кількості токенів. У Vision Transformer (ViT) зображення розбивається на патчі (історично 16×16), кожен патч стає токеном, додається позиційне кодування — і далі чистий self-attention без вбудованої просторової структури.
Наслідки:
- немає природного індуктивного упередження щодо локальності чи інваріантності;
- обчислювальна складність по роздільній здатності масштабується як n⁴ (через кількість патчів по обох осях);
- одна й та сама «людина» в різних частинах кадру може активувати зовсім різні патерни.
На папері CNN виглядають логічнішими: кращі упередження, менша складність. Але на практиці перемагає ViT. Ключ — у масштабному, спеціально заточеному під трансформери попередньому навчанні та в інфраструктурі, яку принесла ера LLM.
Еволюція архітектур: Swin, ConvNeXt, Hiera і повернення до простого ViT
Шлях до домінування трансформерів у зорі — це серія спроб «виправити» їхні недоліки, а потім поступове повернення до максимально простої форми, яка найкраще масштабується.
Swin: локальність і віконна увага
Swin Transformer намагався поєднати ідеї CNN і ViT:
- зображення так само патчиться;
- увага обмежується локальними вікнами, а не всіма патчами одразу;
- між шарами вікна зсуваються, щоб токени з різних областей могли взаємодіяти.
Це:
- знижує складність до O(n²), якщо розмір вікна не залежить від роздільної здатності;
- вводить локальне індуктивне упередження, подібне до згорток.
Архітектура стає ближчою до CNN за духом, але залишається трансформером за формою.
ConvNeXt: «трансформерні» уроки для згорток
Наступний крок — спроба повернутися до чистих згорток, але з уроками від ViT:
- використовується патчування (менші патчі, наприклад 4×4);
- просторове змішування виконується згортками замість self-attention;
- застосовується знайомий з трансформерів шаблон: «міксер (просторове змішування) — feed-forward — міксер — feed-forward»;
- додаються сучасні трюки на кшталт layer norm та ієрархічної структури.
На ImageNet така архітектура перевершує як ViT, так і Swin. Здається, логіка перемагає: добре спроєктований CNN із сучасними прийомами кращий. Але виявляється, що він не настільки швидкий, як хотілося б, і гірше масштабується в нову реальність масового попереднього навчання.
Hiera і MAE: коли попереднє навчання відновлює втрачені упередження
Meta пішла іншим шляхом: замість того, щоб додавати упередження в архітектуру, їх почали «вчити» через попереднє навчання.
Ключова ідея:
- взяти добре спроєктований трансформер із індуктивними упередженнями;
- по одному видаляти ці упередження, спрощуючи архітектуру й отримуючи прискорення;
- компенсувати втрату структури за рахунок потужного попереднього навчання.
Для цього використовують MAE (Masked Autoencoder):
- зображення розбивається на патчі;
- значна частина патчів маскується;
- модель вчиться відновлювати відсутні патчі з контексту.
Це прямий аналог BERT для зображень — і критично, що MAE природно працює саме з ViT, а не з CNN: у згорткових мережах важко «випиляти» окремі патчі, не ламаючи інваріантність згорток.
Результат:
- попереднє навчання повертає моделі ті самі індуктивні упередження, які раніше закладалися в архітектуру;
- ViT отримує багаті, семантично осмислені ознаки «з коробки»;
- у задачах із лінійним пробінгом (заморожені ознаки + лінійний класифікатор) самонавчальні ViT (DINOv2, DINOv3) наближаються до найкращих повністю супервізованих моделей.
CNN не можуть напряму скористатися такими VIT-специфічними техніками попереднього навчання — і це стає стратегічною перевагою трансформерів.
Прискорення з LLM-світу: flash attention і кінець аргументу про n⁴
Навіть із хорошими ознаками залишається проблема: self-attention у ViT формально масштабується як n⁴ по роздільній здатності. Але тут на допомогу приходить інфраструктура, розроблена для великих мовних моделей:
- з’являються оптимізовані реалізації уваги, зокрема flash attention;
- бібліотеки, апаратні оптимізації та фреймворки заточуються під трансформери.
У роботі над Hiera показували прискорення порівняно з базовим ViT за однакової точності, але без урахування flash attention. Якщо ж додати ці оптимізації, перевага складніших архітектур тане: простий ViT із правильним попереднім навчанням і сучасними оптимізаціями знову виходить уперед.
У підсумку еволюція виглядає так:
- ViT — проста, але «неприродна» для зору архітектура.
- Swin, ConvNeXt, Hiera — спроби поєднати найкраще з CNN і трансформерів.
- Масштабне VIT-специфічне попереднє навчання + інфраструктура LLM → повернення до максимально простого ViT, який найкраще масштабується й виграє на практиці.
SAM і RF-DETR: як фундаментальні моделі стикаються з реальністю розгортання
Перевага трансформерів у точності та універсальності не означає, що проблема вирішена. Вона лише змістилася: від архітектури — до розгортання.
Лінійка SAM: від гібридів до «здачі позицій» перед ViT
Segment Anything Model (SAM) — одна з найпомітніших серій фундаментальних моделей у зорі. Її еволюція повторює загальну історію:
- базові версії SAM використовують ViT, попередньо навчений за допомогою MAE;
- MobileSAM намагається зробити модель легшою, замінюючи backbone на гібридну архітектуру TinyViT (змішання згорток і трансформера);
- SAM 2 переходить до Hiera як backbone, знову ж таки з MAE-попереднім навчанням;
- SAM 3 фактично відмовляється від подальших архітектурних експериментів і просто використовує масово попередньо навчений ViT, визнаючи, що це — найкращий доступний варіант.
Ціна цього підходу — гігантські моделі:
- SAM 3 має близько 800 млн параметрів;
- інференс займає приблизно 300 мс на GPU T4.
Для багатьох реальних сценаріїв комп’ютерного зору — особливо на edge-пристроях із обмеженими ресурсами — це надто повільно й надто важко.
Проблема гнучкості розгортання
Якщо продуктивність досягається лише завдяки:
- відсутності індуктивних упереджень в архітектурі;
- масивному попередньому навчанню, що «навчає» ці упередження;
- величезним моделям із мільярдами параметрів,
то кожне нове розгортання стає дорогим:
- важко адаптувати модель під конкретне «залізо»;
- важко масштабувати на низькопотужні пристрої;
- доводиться покладатися на «один розмір для всіх» — універсальні фундаментальні моделі без тонкого налаштування під задачі.
Підхід Roboflow: RF100VL, RF-DETR і NAS поверх фундаментальних моделей
Щоб повернути гнучкість, Roboflow пропонує працювати не проти фундаментальних моделей, а поверх них.
Ключові елементи:
- RF100VL — датасет для вимірювання того, наскільки добре фундаментальні моделі переносяться на різноманітні downstream-задачі об’єктного детектування (одна з базових задач зору).
- RF-DETR — лінійка моделей, що використовує один і той самий фундаментальний backbone, але модифікує його через нейроархітектурний пошук (NAS), щоб отримати ціле сімейство високопродуктивних моделей.
Результати:
- близько 40× прискорення при тій самій точності порівняно з тонким налаштуванням SAM 3;
- при 15× прискоренні вдається не лише зберегти, а й покращити точність;
- на момент публікації RF-DETR перевершував найкращі реальні time-моделі інстанс-сегментації на базі згорток.
Технічно це досягається завдяки:
- набору «гнучких ручок» (архітектурних модулів), сумісних із уже навченими фундаментальними моделями;
- NAS, який підбирає комбінації цих модулів під конкретні дані й цільове «залізо»;
- збереженню переваг попереднього навчання, але з можливістю масштабувати модель вгору чи вниз залежно від обмежень.
Таким чином, поєднання:
- VIT-специфічного попереднього навчання (MAE, DINOv2, DINOv3),
- оптимізацій із LLM-світу (flash attention та інші),
- і NAS, сумісного з фундаментальними моделями,
стає «останнім цвяхом у труну» класичних CNN у реальному часі: навіть у сценаріях, де раніше згортки мали перевагу через швидкість, трансформерні рішення тепер можуть бути і точнішими, і достатньо швидкими.
Що далі: VLM, світові моделі та відео
Після того, як трансформери закріпилися в обробці статичних зображень, наступний фронт — мультимодальність і відео:
- VLM (Vision-Language Models) поєднують зір і текст;
- світові моделі (world models) прагнуть будувати узагальнені представлення середовища для фізичного ІІ;
- відеомоделі (зокрема JEPA/V-JEPA) досліджують, як навчати представлення з урахуванням часової динаміки.
Уже зараз деякі системи, як-от SAM 3, включають відеоаспекти — наприклад, трекінг об’єктів у відео на основі масового попереднього навчання енкодера сприйняття й подальшого донавчання. Однак для відеоцентричних задач ще немає настільки ж усталеного, домінуючого підходу, як ViT+MAE для зображень.
Попри активні дослідження (JEPA, V-JEPA та інші), поки що немає чітких доказів, що ці підходи стабільно дають кращий перенос на downstream-задачі відео, як це сталося з DINO/MAE у статичному зорі. Це означає, що «довга дуга» еволюції архітектур для відео ще триває.
Джерело
How Transformers Finally Ate Vision – Isaac Robinson, Roboflow (AI Engineer)


