Чому просторова інтелектуальність — ключ до наступного стрибка AI

22 Червня 2026

У розмові на каналі Silicon Valley Girl одна з найвпливовіших дослідниць сучасного штучного інтелекту Фей-Фей Лі — співзасновниця ImageNet і засновниця World Labs — пояснила, чому нинішня ера мовних моделей — це лише перша версія AI. На її переконання, без опанування просторової інтелектуальності картина штучного інтелекту лишається неповною, а справжній прорив чекає саме там, де моделі навчаться жити в тривимірному світі так само природно, як це робить людина.

Що таке spatial intelligence на людській мові

Фей-Фей Лі використовує термін «spatial intelligence» не як модну етикетку, а як конкретний набір здібностей, які люди проявляють щомиті в реальному просторі. Йдеться про те, як ми поводимося у «3D‑середовищі, як це», а якщо додати рух — фактично у 4D.

Вона пропонує розкладати просторову інтелектуальність на чотири взаємопов’язані компоненти.

Перше — розуміння. Людина заходить у кімнату й миттєво «зчитує» сцену: бачить людей, предмети, обладнання, інтер’єр. Це не просто розпізнавання об’єктів, а цілісне розуміння того, що відбувається навколо, які об’єкти важливі, як вони пов’язані між собою, що є фоном, а що — дією.

Друге — міркування в просторі. Тут Лі переходить до простого, але дуже показового прикладу: як дійти до холодильника і взяти пляшку води. Для цього потрібно врахувати розташування сходів, впізнати сам холодильник, спланувати траєкторію руху тілом, уникнути перешкод. Усе це — не текст і не формула, а безперервне просторове міркування.

Третє — генерація. Людина здатна у «внутрішньому оці» уявити простір, якого прямо зараз не бачить. Лі наводить образ: вона може уявити вітальню співрозмовниці й «згенерувати» в голові її вигляд. Для хорошого художника наступний крок — перетворити цю ментальну картинку на реальні 2D чи 3D артефакти. Фактично йдеться про здатність створювати нові простори з нуля, спираючись на уяву й досвід.

Четверте — інтерактивність. Це те, як ми взаємодіємо з простором руками й тілом, змінюючи його. Тут Лі повертається до своєї «улюбленої» побутової задачі — складання білизни. Для неї це «глибоко просторове»: як скласти кожен предмет одягу, як розвісити речі у шафі, як організувати простір так, щоб усе було зручно та акуратно. Це не абстрактна геометрія, а фізична робота з матеріальним світом.

У підсумку spatial intelligence для неї — це чотириєдність: розуміння, міркування, генерація та інтерактивна дія у просторі.

Чому 2D‑AI недостатньо: межі сьогоднішніх інструментів

Сьогоднішні масові AI‑інструменти, які опираються на мовні моделі й генерацію зображень, Лі описує як уже досить просунутий, але все ж «2D‑етап» розвитку. Вона згадує типову зв’язку: користувач застосовує, скажімо, Midjourney або GPT Image. Такі системи вміють генерувати безліч двовимірних картинок за текстовим описом і навіть розуміти, що зображено на фото.

Лі підкреслює, що в частині розуміння зображень прогрес значний: AI може пояснити, яка невідома квітка росте у вашому саду, описати вміст кадру, відповісти на питання про нього. Цей вид візуального розпізнавання вже добре працює й навіть дозволяє будувати елементарні просторові висновки.

Генерація теж вражає: сьогодні можна за кілька секунд отримати стилізовані 2D‑зображення, концепт‑арти, постери й цілі серії варіантів. Але, за її словами, усе це — світ площини. Моделі в основному не маніпулюють повноцінними тривимірними структурами, не будують глибоку фізичну модель сцени, не «живуть» у просторі так, як це доводиться робити роботам чи людям.

Саме тут, вважає Лі, проходить межа між нинішнім поколінням генеративного AI й тим, що має прийти далі.

3D як фундамент: від роботів до контролю креативу

Свій нинішній фокус Лі пов’язує з World Labs — компанією, яка працює не з черговим текстовим помічником, а з моделями просторової інтелектуальності. Вона формулює це чітко: «Те, що робить World Labs, – це 3D».

Її аргумент прямолінійний: 3D є фундаментальним для робототехніки. Робот, який має щось зробити в реальному світі, не може обмежитися описом сцени словами чи плоскою картинкою. Йому потрібне повноцінне уявлення про об’єм, відстані, взаємне розташування об’єктів, про те, як ці об’єкти змінюються при взаємодії — інакше неможливо надійно керувати маніпулятором, пересуватися у складному середовищі чи виконувати делікатні побутові задачі.

Другий блок застосувань Лі окреслює як «справді контрольовану креативність». Під це визначення потрапляють дизайн, архітектура, геймдев, VFX. У всіх цих сферах сьогодні вже використовуються AI‑інструменти, але вони здебільшого працюють із 2D‑зображеннями, кадрами чи окремими елементами сцени.

На її переконання, для того щоб AI став повноцінним партнером у цих індустріях, йому необхідно працювати в тривимірному просторі: моделювати сцени, об’єкти й анімацію як 3D‑структури, передбачати, як вони виглядатимуть з різних ракурсів, як поведуть себе при русі камери чи персонажа. Саме тут 3D‑моделі дають «контрольованість» — можливість не просто генерувати красиву картинку, а керувати всіма параметрами світу, який створюєш.

Лі наголошує, що над просторовою інтелектуальністю працює вже не лише її команда: «ми зробили величезний прогрес» — йдеться про спільний рух галузі. Втім, вона чітко розрізняє зрілість 2D‑інструментів і стан 3D‑напряму: у площині картинок продукти вже комерційно зрілі, тоді як тривимірний рівень лише починає ставати масовою технологією.

Мова, простір і тіло: як різні види інтелекту мають зійтися

Лі не протиставляє мовні моделі й просторовий інтелект, а говорить про їхню комплементарність. Вона звертається до прикладу баскетболу: кидок у кошик — настільки швидка дія, що гравець явно не «промовляє» подробиці в голові словами. Водночас сама ситуація включає й мовне осмислення: усвідомлення, що означає забити чи промазати, який рахунок, яка це мить гри.

У цьому прикладі вона розділяє три шари: мовну (лінгвістичну) інтелектуальність, просторову й фізичну. Перша відповідає за значення й контекст — «що це за гра, чому це важливо». Друга — за візуалізацію майданчика, позицій гравців, орієнтацію в просторі. Третя — за контроль тіла, точність рухів.

На думку Лі, більшість повсякденних дій людини — це саме суміш цих трьох складників. Тому й у штучному інтелекті мова й простір мають працювати разом, а не по черзі «передавати естафету». Вона бачить майбутнє систем, де мовні моделі, просторові моделі та моделі фізичної дії тісно взаємодіють.

Власне через це вона обережно ставиться до популярного терміну AGI. У дискусії вона визнає, що не збирається «воювати» зі словом, але як дослідниця наголошує: академічна назва поля — штучний інтелект, а літера «G» в AGI науково не визначена. Незалежно від термінології, її позиція пряма: «я глибоко вірю, що просторовий інтелект – це величезна частина… я не думаю, що картина AI буде повною без spatial intelligence».

Скільки часу до просторових AI‑асистентів у побуті

На пряме запитання про те, коли вона зможе «вийти на пенсію» від складання білизни й передати цю задачу роботам, Лі відповідає обережно. Вона відразу зазначає: тут йдеться не лише про алгоритми, а й про сенсори й апаратну частину, тобто завдання комплексне.

Як науковиця, вона підкреслює, що наука завжди працює з рухомою межею: якщо ціллю є людський рівень інтелекту в просторі, ми навіть не знаємо, де проходить ця межа для людини. Водночас Лі дає часову рамку: на її погляд, це не питання ста років, і, можливо, не навіть п’ятдесяти, але й точно не одного року. Її власна амбіція — побачити зрілий просторовий інтелект машин упродовж власного життя.

Цікаво, що для неї тут важлива не лише наукова цікавість, а й повсякденний досвід. Вона не раз повертається до «буденних» дій — складання білизни, приготування омлету, гри в м’яч — як до своєрідних тестів зрілості просторових систем. Поки такі задачі для машин лишаються важкими, говорити про повноцінний інтелект, на її думку, рано.

Висновок: наступний рубіж AI проходитиме через простір

Фей-Фей Лі розглядає просторову інтелектуальність не як нішеве доповнення до мовних моделей, а як невід’ємну частину великої картини. Сьогоднішні системи вміють блискуче працювати зі словами й двовимірними зображеннями: писати код, відповідати на запитання, генерувати ілюстрації, аналізувати фото. Але щойно мова заходить про реальний світ — рух, маніпуляції, тривимірний дизайн, роботи, які мають поводитися в домі чи на виробництві як люди, — стає очевидно, що без spatial intelligence цього не досягти.

Саме тому Лі переносить центр ваги своєї роботи на 3D‑моделювання й просторові моделі й одночасно підкреслює їхню зв’язку з мовними системами. На її переконання, справжній наступний стрибок AI відбудеться тоді, коли машини навчаться бачити, уявляти, осмислювати й змінювати простір із тією ж природною легкістю, з якою сьогодні працюють із текстом.

Джерело

Godmother of AI: In 10 Years There Will Be Only 2 Kinds of Workers

132

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Коментуйте, будь-ласка!

Будь ласка введіть ваше ім'я

Ви ввели некорректний Email

Ваш Email

Чому просторова інтелектуальність — ключ до наступного стрибка AI

Що таке spatial intelligence на людській мові

Чому 2D‑AI недостатньо: межі сьогоднішніх інструментів

3D як фундамент: від роботів до контролю креативу

Мова, простір і тіло: як різні види інтелекту мають зійтися

Скільки часу до просторових AI‑асистентів у побуті

Висновок: наступний рубіж AI проходитиме через простір

Джерело

Samsung начал продажи конкурента iPhone

Про що говорити з холодильником?

Как контролировать расходы на мобильную связь

McDonald’s посміявся з Ілона Маска і породив криптовалюту Grimacecoin, яка зросла на 285 000%

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

В якому районі Києва найбільше користуються 5G

Понад 25 ТБ даних у перший день 5G у Києві

Future You: у Києві відкрили інтерактивну AI-інсталяцію, де можна зустрітися із собою з майбутнього

Vodafone запустив 5G у всіх районах Києва

200 тисяч клієнтів протестували 5G у Харкові

Статті

Як ракети вчаться крутитися

Apple: 5 разів, коли їхній дизайн провалився, а користувачі страждали

Опитування на телефоні: як обіцяють заробіток, а платять копійки

Виробники використовують одноразові батарейки задля економії на виготовленні акумуляторів

Космічне кільце на Місяці: нескінченна енергія на Землю чи чергова мрія?

Конкуренція мільярдерів на орбіті: хто першим висадить людей на Місяць

П’ять популярних аксесуарів для смартфонів, що лише марнують гроші та створюють ілюзію безпеки

ПОРАДИ

Методи збереження ємності акумулятора смартфона для його тривалої експлуатації

Як заборонити Instagram використовувати дані про ваші покупки для показу реклами

Як зберігати місця в Google Картах для спрощеного планування подорожей

СТАТТІ

Як ракети вчаться крутитися

Apple: 5 разів, коли їхній дизайн провалився, а користувачі страждали

Опитування на телефоні: як обіцяють заробіток, а платять копійки

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Чому просторова інтелектуальність — ключ до наступного стрибка AI

Що таке spatial intelligence на людській мові

Чому 2D‑AI недостатньо: межі сьогоднішніх інструментів

3D як фундамент: від роботів до контролю креативу

Мова, простір і тіло: як різні види інтелекту мають зійтися

Скільки часу до просторових AI‑асистентів у побуті

Висновок: наступний рубіж AI проходитиме через простір

Джерело

НАПИСАТИ ВІДПОВІДЬ скасувати відповідь

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ