Коли Amjad Masad у 2016 році запускав Replit, його амбіція здавалася майже утопічною: зробити програмування настільки доступним, щоб кількість розробників у світі зросла з десятків мільйонів до приблизно мільярда. Компанія починала як один із перших повноцінних IDE у браузері, а сьогодні фактично перетворилася на «agent lab» — платформу, де автономні AI‑агенти будують програмні продукти замість людей або разом з ними.
![]()
Ця трансформація стала можливою завдяки поєднанню двох факторів: еволюції самих моделей — від GPT‑3‑класу до сучасних агентних систем — і побудови складної багатомодельної інфраструктури, яка вміє розподіляти завдання між Anthropic, Google Gemini та власними моделями Replit.
Від автодоповнення до автономних робочих процесів
Перший великий технологічний зсув для Replit стався ще у 2021–2022 роках, коли компанія почала використовувати моделі рівня GPT‑3. На той момент це означало передусім «розумніше автодоповнення»: підказки коду, генерація фрагментів, допомога з синтаксисом. Це було корисно, але не змінювало фундаментально сам процес створення продукту.
Справжній перелом стався у 2024 році, коли на горизонті з’явилося те, що Masad називає «agentic AI» — моделі, здатні не лише відповідати на запити, а й виконувати послідовності дій у довгому часовому горизонті. Йдеться не про один виклик моделі, а про цілі ланцюжки: спланувати, розбити задачу на підзадачі, писати код, запускати тести, дебажити, змінювати архітектуру, повертатися до попередніх кроків.
Для Replit це означало перехід від «IDE з AI‑підказками» до середовища, де агент може самостійно рухати проєкт уперед. Але перші спроби були далекими від ідеалу. У вересні 2024 року, щоб змусити агентів працювати стабільно, команді довелося будувати навколо моделей масивну інфраструктуру: складні гардрейли, додаткові перевірки, контрольні петлі, спеціальну логіку для відстеження стану проєкту.
Це нагадувало ранні підходи до автопілоту в автомобілях: до появи енд‑ту‑енд‑систем інженери змушені були нашаровувати класичні алгоритми комп’ютерного зору, правила та евристики, щоб компенсувати обмеження моделей. У Replit відбувалося щось подібне: щоб агент не «з’їжджав з дороги», доводилося писати багато традиційного коду навколо LLM.
Agent v2, v3, v4: еволюція автономності і «видалений код»
У березні 2025 року Replit випустив Agent v2 — і це був показовий момент не лише для продукту, а й для всієї індустрії. Нові моделі стали настільки кращими у збереженні контексту і послідовності, що значну частину попередньої інфраструктури просто видалили.
Якщо Agent v1 і ранні експерименти вимагали щільної «опіки» з боку інженерів — додаткових шарів логіки, щоб агент не губився, — то з Agent v2 стало можливим покладатися на саму модель значно більше. Вона краще тримала курс, менше «забувала» попередні кроки, рідше впадала у безглузді цикли.
Це дозволило Replit не лише спростити стек, а й швидше експериментувати з новими можливостями. Але, як це часто буває в AI, щойно з’являється новий рівень можливостей, зростають і амбіції.
У вересні 2025 року компанія представила Agent 3 — на той момент один із найавтономніших агентів на ринку. Він міг працювати годинами без втручання людини, просуваючи проєкт від ідеї до робочого прототипу.
Однак за таку автономність довелося знову заплатити складністю інфраструктури. Щоб агент, який працює годинами, не «розповзався» у сторони, Replit знову написав значний обсяг власного коду: системи моніторингу, корекції курсу, внутрішні протоколи для того, щоб агент не губив цілі, не застрягав на дрібницях і не ламав уже зроблене.
Цей маятник — від «багато інфраструктури» до «можна видалити половину коду» і знову до «потрібна складна надбудова» — добре ілюструє, як швидко змінюється баланс між можливостями моделей і необхідністю додаткового софту навколо них. Кожне покоління моделей змінює те, що має бути «вшито» в LLM, а що — реалізовано на рівні продукту.
Кульмінацією цієї лінії став Agent 4. Masad описує його як «найпотужніший агент» Replit: система, здатна одночасно координувати близько 20 агентів, які працюють паралельно над різними частинами продукту.
Фактично це вже не один агент, а оркестрація цілого «агентного колективу». Один може займатися архітектурою бекенду, інший — фронтендом, третій — тестами, четвертий — документацією, п’ятий — інтеграціями. Координаційний шар стежить, щоб вони не конфліктували, не перезаписували роботу один одного і рухалися до спільної мети.
За задумом Replit, це має прискорювати розробку в рази: коли 20 агентів працюють синхронно, продукт можна зібрати значно швидше, ніж силами однієї людини або навіть невеликої команди.
Чому різні моделі виконують різну роботу
Щоб така система працювала, одного «універсального» LLM недостатньо. Replit побудував архітектуру, у якій різні моделі виконують різні ролі, а платформа вміє динамічно маршрутизувати запити туди, де вони будуть виконані найкраще.
У центрі цієї системи — моделі Anthropic. Вони стали «робочою конячкою» для Replit, особливо для довготривалих агентних циклів. Ключова причина — здатність зберігати когерентність на великих часових відрізках: коли агент працює годинами, важливо, щоб модель не втрачала нитку, пам’ятала попередні рішення, не суперечила сама собі.
Саме тому ядро основного агентного циклу — планування, складні рефакторинги, довгі сесії розробки — крутиться на Anthropic. Але це не означає, що всі завдання виконуються там же.
Google Gemini Replit використовує там, де вирішальним стає співвідношення ціни й якості. Моделі Google добре розташовані на так званому «Pareto‑фронті» price‑performance: за певну ціну дають достатню якість для широкого класу задач.
Це особливо помітно в допоміжних сценаріях, наприклад у пошуку. Замість того, щоб навантажувати дорогий основний агент дрібними запитами, Replit створює дешевші субагенти на базі Gemini, які виконують пошукові або інші легкі завдання. Потім результати повертаються в основний цикл, де Anthropic‑агент приймає більш «важковагові» рішення.
У певний момент, за словами Masad, Replit навіть відправляв більше токенів у Google, ніж в Anthropic, попри те, що саме Anthropic залишався ядром агентної логіки. Це показовий індикатор того, як багатомодельна архітектура дозволяє оптимізувати навантаження: дорогі моделі — там, де без них не обійтися, дешевші — там, де «достатньо добре» справді достатньо.
Окремий шар — власні моделі Replit. Компанія не намагається конкурувати з Anthropic чи Google у загальному випадку, але в окремі періоди й для конкретних задач це має сенс.
У 2023 році Replit тренував внутрішні кодові моделі, які на той момент перевершували GPT‑3.5 на задачах програмування. Це дало тимчасову перевагу: кілька місяців компанія мала кращу продуктивність у своєму домені, ніж загальні моделі. Згодом, коли з’явилися нові покоління на кшталт Claude Opus, розрив скоротився, і сенс у подальшій гонці «лоб у лоб» з гігантами зник.
Але зараз, коли Masad говорить про наближення «плато» для кодових моделей, вікно можливостей для спеціалізованих рішень знову відкривається. Якщо загальні моделі покращуються вже не так стрімко, стає логічно брати сильну базову модель (у тому числі open‑source) і донавчати її на власних даних під конкретний сценарій.
Показовий приклад з іншої галузі — Intercom, який, за словами Masad, заявляє, що їхня власна модель для сапорту певний час перевершує фронтирні моделі саме в цьому вузькому домені. Така перевага може тривати три–шість місяців, поки великі гравці не «наздоженуть» загальними оновленнями.
«Суспільство моделей» і роль Replit як agent lab
Ще у 2022 році Masad сформулював тезу, яку назвав «суспільство моделей» (society of models). Її суть у тому, що майбутні AI‑системи не будуть спиратися на одну «універсальну» модель. Натомість з’являться складні композиції з різних моделей, кожна з яких оптимізована під свою роль, а над ними — шар, який уміє правильно розподіляти завдання.
Сьогодні Replit фактично реалізує цю ідею на практиці. Компанія позиціонує себе не як «AI‑лабораторію» в класичному сенсі (яка тренує фундаментальні моделі), а як «agent lab» — організацію, яка спеціалізується на побудові агентних систем поверх різних моделей.
Це вимагає іншого набору компетенцій. Замість того, щоб витрачати десятки мільярдів доларів на тренування універсальних LLM, Replit інвестує у:
– тонке оцінювання нових моделей: як вони поводяться саме в сценаріях розробки, наскільки стабільні в довгих циклах, як справляються з рефакторингом, інтеграціями, роботою з чужим кодом;
– дизайн промптів і протоколів взаємодії між агентами: як формулювати завдання так, щоб агент не лише видавав правильний код, а й правильно взаємодіяв з іншими агентами та інструментами;
– власні бенчмарки: внутрішні набори задач, які відображають реальні сценарії користувачів Replit, а не абстрактні академічні тести;
– масштабне A/B‑тестування: постійні експерименти з різними конфігураціями моделей, промптів, оркестраційних стратегій, щоб зрозуміти, що реально дає кращий досвід користувачам.
Це «мовчазна експертиза», яку складно відтворити лише грошима. Вона накопичується через тисячі ітерацій, невдалих експериментів, дрібних покращень. Саме тут Replit бачить свою ключову перевагу: не в тому, щоб мати «найбільшу модель», а в тому, щоб найкраще поєднувати різні моделі в робочі агентні системи.
У цьому контексті питання «будувати власну модель чи ні» стає не ідеологічним, а прагматичним. Відповідь змінюється кожні три–шість місяців разом із ринком. І головне для Replit — зберігати опціональність: уміти швидко переключитися з власної моделі на фронтирну, з пропрієтарної — на open‑source, з одного провайдера — на іншого, якщо це дає кращий результат у конкретному сценарії.
Продуктивність проти вартості: коли починається оптимізація
Багатомодельна архітектура неминуче піднімає питання економіки. Вартість викликів до моделей — одна з найбільших статей витрат для будь‑якого AI‑продукту. Masad визнає, що частка доходу, яка йде на оплату моделей, у Replit «значна», але «далека від 80%».
Для порівняння він наводить приклад Anthropic: за його словами, близько 60 доларів зі 100, які заробляє компанія, ідуть Nvidia за обчислювальні ресурси, а валова маржа Anthropic становить приблизно 40%. Це показує, наскільки велика частина вартості сьогоднішніх AI‑сервісів — це фактично плата за GPU.
Replit підходить до цього поетапно. Є періоди, коли компанія свідомо ставить на перше місце продуктивність і інновації, а не миттєві маржі. Так було, наприклад, перед запуском Agent 4: за словами Masad, у попередньому році Replit був близький до прибутковості, але потім збільшив витрати, щоб вивести на ринок масово паралельного агента.
Логіка тут така: поки в певному домені (наприклад, кодогенерації) моделі ще не вийшли на «асимптотичне плато», головне — бути на передньому краї можливостей. Витрати на моделі в такій фазі — це не просто собівартість, а інвестиція в продуктову перевагу, яка дозволяє вигравати великі корпоративні контракти й утримувати лідерство.
Фокус на вартості стає пріоритетом тоді, коли в конкретній ніші вже не очікується різкого стрибка якості моделей у найближчій перспективі. У такій ситуації, як у випадку з Intercom і сапорт‑моделлю, має сенс оптимізуватися: будувати власні або open‑source‑рішення, які дають «достатньо хорошу» якість за нижчу ціну, і вичавлювати максимум з маржі.
Masad формулює це просто: якщо зосередитися на вартості занадто рано, пожертвувавши продуктивністю, можна програти. Спочатку — зростання, якість, перевага в продукті. Потім, коли ринок і технології «раціоналізуються», — період оптимізації, перегляду архітектури, переходу на дешевші моделі там, де це вже не шкодить досвіду користувача.
Багатомодельна архітектура Replit якраз і створює простір для такої гнучкої оптимізації. Якщо завтра з’явиться open‑source‑модель, яка дає 95% якості Anthropic у певному підзадачі за третину ціни, Replit зможе перенести туди відповідний клас завдань, не змінюючи радикально весь продукт.
Висновок: від IDE до фабрики агентів
За десять років Replit пройшов шлях від «IDE у браузері» до складної фабрики агентів, яка вміє координувати десятки моделей і субагентів для побудови програмних продуктів.
Початкове бачення — зробити програмування доступним мільярду людей — трансформувалося у дещо інше, але споріднене: дозволити людям створювати софт, навіть якщо вони не хочуть або не можуть вивчати традиційне кодування. Для цього Replit перетворився на agent lab, де головна цінність — не власна фундаментальна модель, а вміння збирати з різних моделей ефективні, надійні й автономні агентні системи.
Agent 4, здатний координувати близько 20 агентів паралельно, Anthropic як «довгограюча» робоча конячка, Gemini як дешевший двигун для субагентів, власні моделі там, де це дає тимчасову перевагу, і вся надбудова з бенчмарків, промптів та A/B‑тестів — усе це елементи однієї стратегії.
У світі, де моделі швидко наближаються до плато в окремих доменах, а вартість обчислень залишається високою, саме така гнучка, багатомодельна й агентно‑орієнтована архітектура може виявитися ключем до того, щоб залишатися «на кілька кроків попереду» — не лише в технологіях, а й у тому, як люди взагалі створюють програмне забезпечення.
Джерело
Replit CEO: Why the SaaS Apocalypse is Justified & Why Coding Models are Plateauing | Amjad Masad


