Клієнтська підтримка та сервіс — одні з найгарячіших напрямів у голосовому ШІ сьогодні. Але створити продукт, який звучить по-людськи й відповідає без відчутних затримок, в одних регіонах значно складніше, ніж в інших — і більшість великих гравців із самого початку не були орієнтовані на Африку та Близький Схід.

Стартап AethexAI, заснований торік, щоб закрити цю прогалину, залучив $3 млн пре-сід‑інвестицій. Раунд очолив фонд 4DX Ventures, також взяли участь Enza Capital, Dorm Room Fund, Mojo Ventures та Stanford GSB 26 Fund. Серед індивідуальних інвесторів — викладачі Стенфорда, топменеджери телеком-компаній і дослідники ШІ з Anthropic.
Замість того, щоб користуватися вже готовими інструментами оркестрації на кшталт Vapi та LiveKit, компанія з нуля побудувала власну невелику модель і оркестраційний шар. Вони мають обробляти локалізовані діалекти англійської, французької та арабської, якими розмовляють у цільових регіонах стартапу. Це рішення було продиктоване специфічними вимогами до роботи саме в цьому регіоні.
Компанія також запускає свою платформу для корпоративних клієнтів, які зможуть протестувати її технології й підписатися на послуги, а також надає API та SDK для розробників, щоб ті експериментували з її моделями.
Стартап заснували Маріама Діалло та Аюолува Одемуйіва. CEO Маріама Діалло раніше працювала в Goldman Sachs, а потім приєдналася до YC‑стартапу ModelML, де відповідала за продукт та зростання. CTO Аюолува Одемуйіва закінчив Caltech, працював у Meta й вступив до бізнес-школи Стенфорда, перш ніж співзаснувати компанію. Пара хотіла створити щось для «емерджентних» ринків і почала шукати відповідні можливості.
Бізнеси по всьому світу змагаються в упровадженні ШІ‑інструментів для автоматизації частини операцій. Але це вдається не завжди. У Єгипті один кол-центр автоматизував значну частину дзвінків, але був змушений відкотити систему через слабкі результати, розповідають засновники. Кілька служб підтримки в Африці зізналися їм, що знайти і найняти інженерів для автоматизації дзвінків за прийнятною ціною — постійний біль.
«Затримки та джиттер, які ми бачили на автоматизованих дзвінках у цьому регіоні, були просто шокуючими. Якби ми стали лише оркестраторами, нам, можливо, довелося б використовувати великі моделі, розміщені за межами регіону, що означало б ще вищу затримку. Ми зрозуміли: щоб це працювало, потрібно використовувати дуже маленькі моделі й “різати” затримку на кожному кроці», — розповів TechCrunch Одемуйіва про рішення будувати власні моделі та оркестрацію.
Лаби ШІ, що запускають свої найновіші моделі, зазвичай витрачають мільйони на їхнє навчання та збір даних. AethexAI знайшла рішення обох задач. Замість гонитви за максимально великими моделями, компанія вирішила, що невеликі моделі достатні, щоб подолати проблему затримки й водночас зберегти точність. Так стартап розробив серію власних моделей Kora з кількістю параметрів від 300 млн до 1,7 млрд. Це лише частка розміру типових LLM — і в цьому їхня суть.
Для навчання цих моделей компанія використала анонімізовані записи дзвінків від партнера — кол-центру. Вона також відправляла жорсткі диски на радіостанції по всій Африці, щоб зібрати ще більше аудіоданих. Щоб знизити витрати, AethexAI побудувала мережу контриб’юторів серед студентів університетів, які анотували дані та записували вимову локальних імен. У результаті, за даними стартапу, він уже опрацьовує понад 17 000 дзвінків на день.
З бізнесового боку компанія ретельно супроводжує клієнтів, для яких голосовий ШІ — нова технологія: вона проводить демонстрації на місці та воркшопи, допомагаючи виявити найкращі сценарії для автоматизації.
«Ми завжди говоримо клієнтам, що не можемо зараз бути всім для всіх. Ми маленькі. Коли починаємо розмову з компанією, просимо її обрати один кейс, який для неї найважливіший, і стартувати з нього», — каже Діалло.
Стартап відкритий до роботи з будь-якою індустрією, але нині значна частина використань стосується дзвінків щодо стягнення заборгованості, активації клієнтів або KYC — процедури перевірки особи (Know Your Customer), стандартної для банків і телекомів. Компанія наймає інженерів «польового розгортання» на контрактній основі для локальних ринків і вибудовує партнерства з телеком-операторами, які беруть на себе телефонну інфраструктуру для голосових ШІ‑дзвінків. Тут, як зазначають у AethexAI, прості «plug-and-play» рішення не працюють.
Волтер Бадду, співзасновник і керівний партнер 4DX Ventures, вважає, що ринки Африки та Близького Сходу фундаментально відрізняються від тих, для яких створювалася більшість голосових ШІ‑рішень.
«Підприємства в Африці та на Близькому Сході обробляють приблизно втричі більший обсяг дзвінків, ніж їхні західні колеги, оскільки голос досі залишається домінуючим каналом взаємодії з клієнтом, — каже він. — Існуючі системи будувалися для західних ринків із розвиненою GPU‑інфраструктурою, стандартною англійською та європейськими мовними середовищами й типовими для США та Європи бізнес-процесами. Це створює реальні прогалини там, де підприємствам потрібні системи, що обробляють діалекти, код- switching та неформальні мовні шаблони, і водночас працюють із наявною телефонною інфраструктурою та реалістичною вартістю».
Інакше кажучи, хоч компанії на кшталт ElevenLabs, Deepgram, Sierra та Cognigy і розширюються глобально дуже швидко, ринки, для яких вони проєктувалися, і ринки, на які вони зараз виходять, не завжди збігаються. Такі стартапи, як AethexAI, розраховують, що ці розриви — спеціалізовані моделі для локальних діалектів, партнерства «на землі», інфраструктура, спроєктована саме під регіон — становлять собою вікно можливостей, яке «гігантам» ні з погляду мотивації, ні з погляду архітектури закривати не надто вигідно.


