Понеділок, 22 Червня, 2026

Чому просторова інтелектуальність — ключ до наступного стрибка AI

У розмові на каналі Silicon Valley Girl одна з найвпливовіших дослідниць сучасного штучного інтелекту Фей-Фей Лі — співзасновниця ImageNet і засновниця World Labs — пояснила, чому нинішня ера мовних моделей — це лише перша версія AI. На її переконання, без опанування просторової інтелектуальності картина штучного інтелекту лишається неповною, а справжній прорив чекає саме там, де моделі навчаться жити в тривимірному світі так само природно, як це робить людина.

Що таке spatial intelligence на людській мові

Фей-Фей Лі використовує термін «spatial intelligence» не як модну етикетку, а як конкретний набір здібностей, які люди проявляють щомиті в реальному просторі. Йдеться про те, як ми поводимося у «3D‑середовищі, як це», а якщо додати рух — фактично у 4D.

Вона пропонує розкладати просторову інтелектуальність на чотири взаємопов’язані компоненти.

Перше — розуміння. Людина заходить у кімнату й миттєво «зчитує» сцену: бачить людей, предмети, обладнання, інтер’єр. Це не просто розпізнавання об’єктів, а цілісне розуміння того, що відбувається навколо, які об’єкти важливі, як вони пов’язані між собою, що є фоном, а що — дією.

Друге — міркування в просторі. Тут Лі переходить до простого, але дуже показового прикладу: як дійти до холодильника і взяти пляшку води. Для цього потрібно врахувати розташування сходів, впізнати сам холодильник, спланувати траєкторію руху тілом, уникнути перешкод. Усе це — не текст і не формула, а безперервне просторове міркування.

Третє — генерація. Людина здатна у «внутрішньому оці» уявити простір, якого прямо зараз не бачить. Лі наводить образ: вона може уявити вітальню співрозмовниці й «згенерувати» в голові її вигляд. Для хорошого художника наступний крок — перетворити цю ментальну картинку на реальні 2D чи 3D артефакти. Фактично йдеться про здатність створювати нові простори з нуля, спираючись на уяву й досвід.

Четверте — інтерактивність. Це те, як ми взаємодіємо з простором руками й тілом, змінюючи його. Тут Лі повертається до своєї «улюбленої» побутової задачі — складання білизни. Для неї це «глибоко просторове»: як скласти кожен предмет одягу, як розвісити речі у шафі, як організувати простір так, щоб усе було зручно та акуратно. Це не абстрактна геометрія, а фізична робота з матеріальним світом.

У підсумку spatial intelligence для неї — це чотириєдність: розуміння, міркування, генерація та інтерактивна дія у просторі.

Чому 2D‑AI недостатньо: межі сьогоднішніх інструментів

Сьогоднішні масові AI‑інструменти, які опираються на мовні моделі й генерацію зображень, Лі описує як уже досить просунутий, але все ж «2D‑етап» розвитку. Вона згадує типову зв’язку: користувач застосовує, скажімо, Midjourney або GPT Image. Такі системи вміють генерувати безліч двовимірних картинок за текстовим описом і навіть розуміти, що зображено на фото.

Лі підкреслює, що в частині розуміння зображень прогрес значний: AI може пояснити, яка невідома квітка росте у вашому саду, описати вміст кадру, відповісти на питання про нього. Цей вид візуального розпізнавання вже добре працює й навіть дозволяє будувати елементарні просторові висновки.

Генерація теж вражає: сьогодні можна за кілька секунд отримати стилізовані 2D‑зображення, концепт‑арти, постери й цілі серії варіантів. Але, за її словами, усе це — світ площини. Моделі в основному не маніпулюють повноцінними тривимірними структурами, не будують глибоку фізичну модель сцени, не «живуть» у просторі так, як це доводиться робити роботам чи людям.

Саме тут, вважає Лі, проходить межа між нинішнім поколінням генеративного AI й тим, що має прийти далі.

3D як фундамент: від роботів до контролю креативу

Свій нинішній фокус Лі пов’язує з World Labs — компанією, яка працює не з черговим текстовим помічником, а з моделями просторової інтелектуальності. Вона формулює це чітко: «Те, що робить World Labs, – це 3D».

Її аргумент прямолінійний: 3D є фундаментальним для робототехніки. Робот, який має щось зробити в реальному світі, не може обмежитися описом сцени словами чи плоскою картинкою. Йому потрібне повноцінне уявлення про об’єм, відстані, взаємне розташування об’єктів, про те, як ці об’єкти змінюються при взаємодії — інакше неможливо надійно керувати маніпулятором, пересуватися у складному середовищі чи виконувати делікатні побутові задачі.

Другий блок застосувань Лі окреслює як «справді контрольовану креативність». Під це визначення потрапляють дизайн, архітектура, геймдев, VFX. У всіх цих сферах сьогодні вже використовуються AI‑інструменти, але вони здебільшого працюють із 2D‑зображеннями, кадрами чи окремими елементами сцени.

На її переконання, для того щоб AI став повноцінним партнером у цих індустріях, йому необхідно працювати в тривимірному просторі: моделювати сцени, об’єкти й анімацію як 3D‑структури, передбачати, як вони виглядатимуть з різних ракурсів, як поведуть себе при русі камери чи персонажа. Саме тут 3D‑моделі дають «контрольованість» — можливість не просто генерувати красиву картинку, а керувати всіма параметрами світу, який створюєш.

Лі наголошує, що над просторовою інтелектуальністю працює вже не лише її команда: «ми зробили величезний прогрес» — йдеться про спільний рух галузі. Втім, вона чітко розрізняє зрілість 2D‑інструментів і стан 3D‑напряму: у площині картинок продукти вже комерційно зрілі, тоді як тривимірний рівень лише починає ставати масовою технологією.

Мова, простір і тіло: як різні види інтелекту мають зійтися

Лі не протиставляє мовні моделі й просторовий інтелект, а говорить про їхню комплементарність. Вона звертається до прикладу баскетболу: кидок у кошик — настільки швидка дія, що гравець явно не «промовляє» подробиці в голові словами. Водночас сама ситуація включає й мовне осмислення: усвідомлення, що означає забити чи промазати, який рахунок, яка це мить гри.

У цьому прикладі вона розділяє три шари: мовну (лінгвістичну) інтелектуальність, просторову й фізичну. Перша відповідає за значення й контекст — «що це за гра, чому це важливо». Друга — за візуалізацію майданчика, позицій гравців, орієнтацію в просторі. Третя — за контроль тіла, точність рухів.

На думку Лі, більшість повсякденних дій людини — це саме суміш цих трьох складників. Тому й у штучному інтелекті мова й простір мають працювати разом, а не по черзі «передавати естафету». Вона бачить майбутнє систем, де мовні моделі, просторові моделі та моделі фізичної дії тісно взаємодіють.

Власне через це вона обережно ставиться до популярного терміну AGI. У дискусії вона визнає, що не збирається «воювати» зі словом, але як дослідниця наголошує: академічна назва поля — штучний інтелект, а літера «G» в AGI науково не визначена. Незалежно від термінології, її позиція пряма: «я глибоко вірю, що просторовий інтелект – це величезна частина… я не думаю, що картина AI буде повною без spatial intelligence».

Скільки часу до просторових AI‑асистентів у побуті

На пряме запитання про те, коли вона зможе «вийти на пенсію» від складання білизни й передати цю задачу роботам, Лі відповідає обережно. Вона відразу зазначає: тут йдеться не лише про алгоритми, а й про сенсори й апаратну частину, тобто завдання комплексне.

Як науковиця, вона підкреслює, що наука завжди працює з рухомою межею: якщо ціллю є людський рівень інтелекту в просторі, ми навіть не знаємо, де проходить ця межа для людини. Водночас Лі дає часову рамку: на її погляд, це не питання ста років, і, можливо, не навіть п’ятдесяти, але й точно не одного року. Її власна амбіція — побачити зрілий просторовий інтелект машин упродовж власного життя.

Цікаво, що для неї тут важлива не лише наукова цікавість, а й повсякденний досвід. Вона не раз повертається до «буденних» дій — складання білизни, приготування омлету, гри в м’яч — як до своєрідних тестів зрілості просторових систем. Поки такі задачі для машин лишаються важкими, говорити про повноцінний інтелект, на її думку, рано.

Висновок: наступний рубіж AI проходитиме через простір

Фей-Фей Лі розглядає просторову інтелектуальність не як нішеве доповнення до мовних моделей, а як невід’ємну частину великої картини. Сьогоднішні системи вміють блискуче працювати зі словами й двовимірними зображеннями: писати код, відповідати на запитання, генерувати ілюстрації, аналізувати фото. Але щойно мова заходить про реальний світ — рух, маніпуляції, тривимірний дизайн, роботи, які мають поводитися в домі чи на виробництві як люди, — стає очевидно, що без spatial intelligence цього не досягти.

Саме тому Лі переносить центр ваги своєї роботи на 3D‑моделювання й просторові моделі й одночасно підкреслює їхню зв’язку з мовними системами. На її переконання, справжній наступний стрибок AI відбудеться тоді, коли машини навчаться бачити, уявляти, осмислювати й змінювати простір із тією ж природною легкістю, з якою сьогодні працюють із текстом.


Джерело

Godmother of AI: In 10 Years There Will Be Only 2 Kinds of Workers

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті