Неділя, 28 Червня, 2026

Claude vs GPT 5.5: хто реально зібрав Mario Kart у Cursor

Канадський розробник та ютубер Tech With Tim вирішив перевірити, як шість актуальних LLM поводяться у максимально наближеному до реальності дев-сценарії. В одній сесії Cursor він дав моделям однаковий промпт, спільний набір ассетів і лише дві спроби — зібрати з нуля браузерну версію Mario Kart. Результати виявилися значно жорсткішими, ніж це обіцяють маркетингові демо.

У цьому матеріалі — саме про те, як поводилися Opus 4.8, Composer 2.5, Gemini 3.1 Pro, Grok 0.1, Kimi 2.5 і GPT 5.5 на рівні «воно взагалі грається чи ні», і чому фінальна дуель фактично звелася до протистояння Claude (Opus) і GPT.


Перша спроба: від зеленого екрану до майже справжнього картингу

Після запуску всіх агентів одночасно та очікування на завершення першого проходу стало зрозуміло: сама наявність коду ще нічого не гарантує. Різниця між «згенеровано» і «можна грати» виявилася колосальною.

Opus 4.8 стартував із повного провалу. Запуск гри завершився буквально нічим: лише порожній зелений екран, без реакції на управління. У логах — помилка, яка блокує виконання. На цьому етапі цю збірку можна було описати просто: «це те, що Opus 4.8 побудував. Нічого. Є зелений екран. Я не можу нічого зробити».

Composer 2.5 продемонстрував схожий сценарій: інтерфейс не працює, а в консолі браузера — помилка. Гру неможливо запустити до виправлення коду вручну, тож з погляду розробника це такий самий «злам» на першому ж кроці.

Gemini 3.1 Pro, навпаки, принаймні давав щось, що нагадувало гру. Є відлік перед стартом, таймер 3–2–1, машинка рухається, можна тиснути пробіл і виконувати дрифт. Але відразу виявилися критичні проблеми з геймплеєм: швидкість була надмірною, поведінка машини — неконтрольованою, фізика — недопрацьованою. Працює, але «дуже швидкий геймплей… загалом доволі поламано».

Grok build 0.1 показав ще один тип провалу — гра ніби запускається, є навіть звукові ефекти, але керування по суті відсутнє. Машинка ледве реагує, а колізії з оточенням фактично немає: можна просто проїжджати крізь стіну. Враження — «ніби воно працює», але в реальності геймплей не відбувається.

Kimi 2.5 змогла вивести карту — і на цьому все. Екран виглядає більш-менш пристойно, але машина не рухається, клавіатурні комбінації нічого не дають, миша також. Жодних помилок у консолі, але й жодної дії в самій грі.

На цьому тлі GPT 5.5 став майже єдиним, хто на першій спробі видав щось, що можна назвати грою. Машина рухається, є стрільба предметом по клавіші E, працює дрифт на пробіл. Вихід на траву уповільнює карт, є зіткнення з іншими гравцями, навіть снаряд може влучити в гравця. Важлива деталь: модель взагалі не використала наданий набір графічних ассетів, але створила функціональну гру, в якій реально можна доїхати до фінішу й, наприклад, посісти четверте місце.

У сумі це створило доволі контрастну картину: з шести моделей лише GPT 5.5 дає повноцінно іграбельний результат без додаткових підказок, тоді як частина конкурентів не проходить навіть базову перевірку «екран не порожній, управління працює, колізії хоч якось адекватні».


Другий шанс: один короткий промпт змінює розклад сил

Щоб не списувати моделі після однієї невдалої ітерації, експеримент передбачав ще один, дуже обмежений крок. Кожна LLM отримала лише короткий фідбек на кшталт «гру не можна грати» з проханням «зробити так, щоб працювало, зробити її іграбельною». Без докладних інструкцій, без пропозицій по архітектурі, лише загальне «полагодь».

Саме на цьому етапі стало помітно, які системи здатні аналізувати власний попередній результат і суттєво його покращувати.

Opus 4.8 буквально перевтілився. Друга збірка виявилася «неймовірною» порівняно з зеленою порожнечею першого запуску. Гра виглядала набагато краще візуально, з повноцінним використанням ассетів, і головне — почала працювати. З’явилися звукові ефекти, чітко помітні колізії: трава сповільнює рух, зіткнення поводяться очікувано, дрифт на Shift працює, можливі рухи назад. Враження відразу зсунулися до формулювань рівня «це виглядає як найкращий варіант з усіх, які ми бачили досі».

Composer 2.5 теж покращився, але з помітними застереженнями. Швидкість гри стала адекватнішою, з’явилися метрики, мінікарта внизу екрану, стартова фаза геймплею працює. Та варто було виїхати на пісок — і карт безповоротно застрягав. Результат можна описати як «воно починало працювати, але я просто застряг у піску» — щось на кшталт демо із фатальним геймдизайнерським багом.

Gemini 3.1 Pro після другого промпта теж зробив крок уперед. З’явилася можливість нормально рухатися, предмети активуються по пробілу, управління стало хоч трохи прогнозованішим. Проте загальний стан гри залишився «доволі поламаним», хай і «трохи кращим, ніж минулого разу». Це більше нагадує технічний прототип, ніж гру, готову до релізу.

Grok build 0.1, навпаки, у візуальному плані став виглядати ще більш «зламаним». На екрані чітко видно сирий спрайт-лист, елементи накладаються один на одного, інтерфейс справляє враження хаосу. Водночас базовий прогрес є: тепер машину принаймні можна рухати, камера «якось» слідкує за гравцем. Однак предмети все ще незрозуміло, як використовувати; геймплей відчувається як технічна помилка, а не як гра.

Kimi 2.5 візуально трохи додала якості — другий варіант виглядає краще за перший, — проте ключова проблема залишилася: машина не рухається. Клавіатурні скорочення не працюють, жодних помилок у консолі, але й жодної реакції на дії гравця. Це своєрідний «мертвий екран меню», який виглядає не так погано, але залишився абсолютно нефункціональним.

GPT 5.5 у відповідь на другий промпт отримав лише прохання «дополірувати» гру — щоб умови були чесними щодо інших моделей. Ніяких радикальних змін це не принесло: фінальна версія «виглядає практично так само». Однак і цього виявилося достатньо: усе працює, керування передбачуване, є основні фічі, потрібні для Mario Kart-подібної гри. Основний мінус незмінний — ассет-пак так і не був задіяний, на відміну від Opus.

Таким чином, лише дві моделі після мінімального додаткового фідбеку змогли дати щось, що впевнено можна назвати іграбельною грою: Opus 4.8 і GPT 5.5. Решта або залишилася на рівні технодемки з серйозними дефектами, або взагалі не вийшла за межі статичної сцени.


Фінальний вердикт: два лідери, чотири розчарування

Якщо абстрагуватися від супутніх метрик і подивитися лише на результат «чи можна в це грати», картина виглядає доволі однозначно.

Opus 4.8 після другого промпта став очевидним лідером за сукупністю факторів. Це єдина модель, яка не просто зібрала Mario Kart-подібну гру, а й побудувала навколо неї повноцінну «мікро-екосистему»: від роботи з ассетами до відносно продуманої архітектури з власним руховиком. Вихідна поразка у вигляді зеленого екрану виявилася радше побічним ефектом амбіційної стратегії, а не нездатністю розв’язати задачу.

GPT 5.5 став другою й, по суті, єдиною альтернативою, яку реально можна використовувати як основу для гри. Так, інтеграція наданого ассет-паку так і не сталася, пропали візуальні «смаколики» на кшталт частинок, а аудіодвигун та титульний екран вийшли мінімалістичними або відсутніми. Проте базовий функціонал був стабільним уже з першої спроби, а друга лише підтвердила, що модель здатна утримувати адекватний стан проєкту.

Чотири інші моделі — Composer, Gemini, Grok і Kimi — сукупно виглядають істотно слабшими саме в цьому сценарії. У когось гальмівною точкою стала відсутність колізій, у когось — неіграбельна фізика, у когось — крихкий ігровий цикл або відсутність реакції на управління. У підсумку вони «можуть писати код», але при комплексному завданні на кшталт Mario Kart із одного промпта результат виявився «доволі великим розчаруванням».

Показово, що навіть за такого провального старту для Opus остаточний висновок звучить так: «саме з Opus і GPT ми хоча б отримали щось іграбельне… для чотирьох інших це, чесно кажучи, був досить великий даун».


Що це означає для розробників, які покладаються на LLM

Автор експерименту одразу підкреслив, що не претендує на наукову валідність: це один конкретний сценарій, а не універсальний бенчмарк усіх можливих задач. Проте навіть у такому форматі з’являються кілька важливих висновків про практичне застосування LLM у розробці.

По-перше, складні інтерактивні додатки з великим числом взаємодіючих компонентів — це зовсім інший клас виклику, ніж ізольовані фрагменти коду чи невеликі утиліти. Навіть моделі, які швидко генерують значні обсяги коду, можуть провалитися, коли потрібно узгодити фізику, колізії, UI, ассети та ігрову логіку в одному проході.

По-друге, здатність моделі ефективно використати надані ресурси — у цьому випадку спрайт-листи та маніфест ассетів — виявляється не менш критичною, ніж швидкість чи обсяг генерованого коду. Частина LLM просто «загубила» ці дані або використала їх настільки невдало, що результат виглядав «дуже поламаним».

По-третє, короткий, але влучний фідбек може кардинально змінити картину. Opus із «нічого» до «кращої гри тесту» дійшов завдяки одному додатковому промпту з загальним формулюванням «зробити так, щоб працювало, зробити іграбельною». Це підкреслює важливість правильної стратегії роботи з LLM: замість мікроменеджменту коду — чіткі вимоги до продуктового результату.

І нарешті, розрив між «фронтирними» моделями та рештою в реальній дев-практиці відчувається дуже чітко. Інші системи залишаються корисними для окремих задач, але коли мова йде про складні, цілісні додатки з багатьма залежностями, саме Opus і GPT у цьому експерименті «справді тримаються» — причому на дуже помітній дистанції від конкурентів.


Джерело

https://www.youtube.com/watch?v=Amd6DmoV4NY

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті