У розмові на каналі Silicon Valley Girl одна з найвпливовіших дослідниць сучасного штучного інтелекту Фей-Фей Лі — співзасновниця ImageNet і засновниця World Labs — пояснила, чому нинішня ера мовних моделей — це лише перша версія AI. На її переконання, без опанування просторової інтелектуальності картина штучного інтелекту лишається неповною, а справжній прорив чекає саме там, де моделі навчаться жити в тривимірному світі так само природно, як це робить людина.

Що таке spatial intelligence на людській мові
Фей-Фей Лі використовує термін «spatial intelligence» не як модну етикетку, а як конкретний набір здібностей, які люди проявляють щомиті в реальному просторі. Йдеться про те, як ми поводимося у «3D‑середовищі, як це», а якщо додати рух — фактично у 4D.
Вона пропонує розкладати просторову інтелектуальність на чотири взаємопов’язані компоненти.
Перше — розуміння. Людина заходить у кімнату й миттєво «зчитує» сцену: бачить людей, предмети, обладнання, інтер’єр. Це не просто розпізнавання об’єктів, а цілісне розуміння того, що відбувається навколо, які об’єкти важливі, як вони пов’язані між собою, що є фоном, а що — дією.
Друге — міркування в просторі. Тут Лі переходить до простого, але дуже показового прикладу: як дійти до холодильника і взяти пляшку води. Для цього потрібно врахувати розташування сходів, впізнати сам холодильник, спланувати траєкторію руху тілом, уникнути перешкод. Усе це — не текст і не формула, а безперервне просторове міркування.
Третє — генерація. Людина здатна у «внутрішньому оці» уявити простір, якого прямо зараз не бачить. Лі наводить образ: вона може уявити вітальню співрозмовниці й «згенерувати» в голові її вигляд. Для хорошого художника наступний крок — перетворити цю ментальну картинку на реальні 2D чи 3D артефакти. Фактично йдеться про здатність створювати нові простори з нуля, спираючись на уяву й досвід.
Четверте — інтерактивність. Це те, як ми взаємодіємо з простором руками й тілом, змінюючи його. Тут Лі повертається до своєї «улюбленої» побутової задачі — складання білизни. Для неї це «глибоко просторове»: як скласти кожен предмет одягу, як розвісити речі у шафі, як організувати простір так, щоб усе було зручно та акуратно. Це не абстрактна геометрія, а фізична робота з матеріальним світом.
У підсумку spatial intelligence для неї — це чотириєдність: розуміння, міркування, генерація та інтерактивна дія у просторі.
Чому 2D‑AI недостатньо: межі сьогоднішніх інструментів
Сьогоднішні масові AI‑інструменти, які опираються на мовні моделі й генерацію зображень, Лі описує як уже досить просунутий, але все ж «2D‑етап» розвитку. Вона згадує типову зв’язку: користувач застосовує, скажімо, Midjourney або GPT Image. Такі системи вміють генерувати безліч двовимірних картинок за текстовим описом і навіть розуміти, що зображено на фото.
Лі підкреслює, що в частині розуміння зображень прогрес значний: AI може пояснити, яка невідома квітка росте у вашому саду, описати вміст кадру, відповісти на питання про нього. Цей вид візуального розпізнавання вже добре працює й навіть дозволяє будувати елементарні просторові висновки.
Генерація теж вражає: сьогодні можна за кілька секунд отримати стилізовані 2D‑зображення, концепт‑арти, постери й цілі серії варіантів. Але, за її словами, усе це — світ площини. Моделі в основному не маніпулюють повноцінними тривимірними структурами, не будують глибоку фізичну модель сцени, не «живуть» у просторі так, як це доводиться робити роботам чи людям.
Саме тут, вважає Лі, проходить межа між нинішнім поколінням генеративного AI й тим, що має прийти далі.
3D як фундамент: від роботів до контролю креативу
Свій нинішній фокус Лі пов’язує з World Labs — компанією, яка працює не з черговим текстовим помічником, а з моделями просторової інтелектуальності. Вона формулює це чітко: «Те, що робить World Labs, – це 3D».
Її аргумент прямолінійний: 3D є фундаментальним для робототехніки. Робот, який має щось зробити в реальному світі, не може обмежитися описом сцени словами чи плоскою картинкою. Йому потрібне повноцінне уявлення про об’єм, відстані, взаємне розташування об’єктів, про те, як ці об’єкти змінюються при взаємодії — інакше неможливо надійно керувати маніпулятором, пересуватися у складному середовищі чи виконувати делікатні побутові задачі.
Другий блок застосувань Лі окреслює як «справді контрольовану креативність». Під це визначення потрапляють дизайн, архітектура, геймдев, VFX. У всіх цих сферах сьогодні вже використовуються AI‑інструменти, але вони здебільшого працюють із 2D‑зображеннями, кадрами чи окремими елементами сцени.
На її переконання, для того щоб AI став повноцінним партнером у цих індустріях, йому необхідно працювати в тривимірному просторі: моделювати сцени, об’єкти й анімацію як 3D‑структури, передбачати, як вони виглядатимуть з різних ракурсів, як поведуть себе при русі камери чи персонажа. Саме тут 3D‑моделі дають «контрольованість» — можливість не просто генерувати красиву картинку, а керувати всіма параметрами світу, який створюєш.
Лі наголошує, що над просторовою інтелектуальністю працює вже не лише її команда: «ми зробили величезний прогрес» — йдеться про спільний рух галузі. Втім, вона чітко розрізняє зрілість 2D‑інструментів і стан 3D‑напряму: у площині картинок продукти вже комерційно зрілі, тоді як тривимірний рівень лише починає ставати масовою технологією.
Мова, простір і тіло: як різні види інтелекту мають зійтися
Лі не протиставляє мовні моделі й просторовий інтелект, а говорить про їхню комплементарність. Вона звертається до прикладу баскетболу: кидок у кошик — настільки швидка дія, що гравець явно не «промовляє» подробиці в голові словами. Водночас сама ситуація включає й мовне осмислення: усвідомлення, що означає забити чи промазати, який рахунок, яка це мить гри.
У цьому прикладі вона розділяє три шари: мовну (лінгвістичну) інтелектуальність, просторову й фізичну. Перша відповідає за значення й контекст — «що це за гра, чому це важливо». Друга — за візуалізацію майданчика, позицій гравців, орієнтацію в просторі. Третя — за контроль тіла, точність рухів.
На думку Лі, більшість повсякденних дій людини — це саме суміш цих трьох складників. Тому й у штучному інтелекті мова й простір мають працювати разом, а не по черзі «передавати естафету». Вона бачить майбутнє систем, де мовні моделі, просторові моделі та моделі фізичної дії тісно взаємодіють.
Власне через це вона обережно ставиться до популярного терміну AGI. У дискусії вона визнає, що не збирається «воювати» зі словом, але як дослідниця наголошує: академічна назва поля — штучний інтелект, а літера «G» в AGI науково не визначена. Незалежно від термінології, її позиція пряма: «я глибоко вірю, що просторовий інтелект – це величезна частина… я не думаю, що картина AI буде повною без spatial intelligence».
Скільки часу до просторових AI‑асистентів у побуті
На пряме запитання про те, коли вона зможе «вийти на пенсію» від складання білизни й передати цю задачу роботам, Лі відповідає обережно. Вона відразу зазначає: тут йдеться не лише про алгоритми, а й про сенсори й апаратну частину, тобто завдання комплексне.
Як науковиця, вона підкреслює, що наука завжди працює з рухомою межею: якщо ціллю є людський рівень інтелекту в просторі, ми навіть не знаємо, де проходить ця межа для людини. Водночас Лі дає часову рамку: на її погляд, це не питання ста років, і, можливо, не навіть п’ятдесяти, але й точно не одного року. Її власна амбіція — побачити зрілий просторовий інтелект машин упродовж власного життя.
Цікаво, що для неї тут важлива не лише наукова цікавість, а й повсякденний досвід. Вона не раз повертається до «буденних» дій — складання білизни, приготування омлету, гри в м’яч — як до своєрідних тестів зрілості просторових систем. Поки такі задачі для машин лишаються важкими, говорити про повноцінний інтелект, на її думку, рано.
Висновок: наступний рубіж AI проходитиме через простір
Фей-Фей Лі розглядає просторову інтелектуальність не як нішеве доповнення до мовних моделей, а як невід’ємну частину великої картини. Сьогоднішні системи вміють блискуче працювати зі словами й двовимірними зображеннями: писати код, відповідати на запитання, генерувати ілюстрації, аналізувати фото. Але щойно мова заходить про реальний світ — рух, маніпуляції, тривимірний дизайн, роботи, які мають поводитися в домі чи на виробництві як люди, — стає очевидно, що без spatial intelligence цього не досягти.
Саме тому Лі переносить центр ваги своєї роботи на 3D‑моделювання й просторові моделі й одночасно підкреслює їхню зв’язку з мовними системами. На її переконання, справжній наступний стрибок AI відбудеться тоді, коли машини навчаться бачити, уявляти, осмислювати й змінювати простір із тією ж природною легкістю, з якою сьогодні працюють із текстом.
Джерело
Godmother of AI: In 10 Years There Will Be Only 2 Kinds of Workers


