OpenAI, Xiaomi та Microsoft майже одночасно показали три різні, але взаємопов’язані напрями розвитку штучного інтелекту: автономні агенти для розробки ПЗ, системний «мозок» для смартфона та компактну мультимодальну модель для роботи з екранами й документами. На основі розбору каналу AI Revolution видно, що ШІ швидко виходить за межі текстових чатів і починає виконувати реальні цифрові завдання.

Symphony: ШІ, який сам бере задачі з трекера й робить коміти
Від підказок до повноцінних «місій»
Symphony — нова система OpenAI, яка інтегрується з таск-трекером (зараз підтримується Linear) і самостійно відправляє агентів ШІ на задачі. Замість того, щоб лише допомагати писати код, агент отримує повноцінну «місію» — implementation run — і намагається виконати її від початку до кінця.
Алгоритм роботи виглядає так:
- Система постійно моніторить дошку задач.
- Коли задача переходить у стан на кшталт «ready for agent», Symphony автоматично активується.
- Агент отримує задачу й запускає окреме робоче середовище.
Ізольоване середовище та «доказ роботи»
Перед тим як агент торкнеться основного репозиторію, Symphony створює окремий workspace — «лабораторію», де всі зміни ізольовані від решти проєкту. Це знижує ризик того, що невдала правка зламає продакшн.
Ключовий елемент — proof of work. Щоб результат був прийнятий, агент має:
- прогнати автоматизовані тести;
- згенерувати CI-звіти;
- пройти юніт-тести;
- підготувати walkthrough із поясненням змін.
Лише після успішної перевірки система переходить до етапу landing — створення або злиття pull request у репозиторій, як це зробив би розробник.
Інструкції для ШІ як частина коду
Ще одна особливість — файл workflow.md у репозиторії. У ньому описано:
- як агент має поводитися;
- які правила дотримуватися;
- як взаємодіяти з кодовою базою.
Файл версіонується разом із кодом, тож поведінка агента еволюціонує синхронно з проєктом. Це фактично «контракт» між командою та ШІ, який можна змінювати й відслідковувати.
Технічна основа та «harness engineering»
Symphony побудовано на Elixir та рантаймі Erlang BEAM — платформі, відомій здатністю обробляти велику кількість процесів і відновлюватися після збоїв. Це дозволяє паралельно запускати сотні агентів, не ризикуючи стабільністю всієї системи. Дані зберігаються в PostgreSQL через Ecto, а сама система працює як фоновий демон.
Водночас OpenAI підкреслює: щоб агенти реально працювали в кодовій базі, сам репозиторій має бути «машиночитабельним». Цей підхід називають harness engineering і він включає:
- локально відтворювані тести без зовнішніх залежностей;
- документацію, придатну для машинного аналізу;
- модульну архітектуру, де зміни в одному компоненті не ламають усе інше.
Symphony при цьому залишається вузько сфокусованим інструментом: це не «універсальна платформа ШІ», а саме планувальник, раннер і трекер, який з’єднує таск-трекер і репозиторій коду.
Xiaomi Miclaw: системний агент, який керує телефоном і розумним домом
ШІ на рівні операційної системи
Xiaomi представила Miclaw — агента, вбудованого безпосередньо в операційну систему смартфона. На відміну від класичних асистентів, які живуть усередині окремих застосунків, Miclaw працює на системному рівні й має доступ до:
- застосунків;
- налаштувань;
- підключених пристроїв у розумному домі.
Технологічна основа — велика модель Mimo, яку розробляє команда Xiaomi під керівництвом Луо Фулі, колишньої дослідниці DeepSeek. Після її приходу компанія випустила Mimo V2 Flash, що, за заявами, досягла продуктивності, близької до DeepSeek V3.2; Miclaw — один із перших продуктів на цій базі.
Інференс-цикл і понад 50 системних інструментів
Miclaw працює через inference execution cycle:
- Отримує інструкцію користувача.
- Обирає потрібні інструменти — Xiaomi винесла функції телефону в понад 50 системних тулів (запуск застосунків, зміна налаштувань, керування пристроями тощо).
- Викликає інструмент, аналізує результат, вирішує наступний крок.
- Повторює цикл, доки завдання не буде виконано.
Користувач може спостерігати цей процес у реальному часі: система показує, які інструменти викликає ШІ та на якому етапі перебуває завдання.
Щоб агент не «забував» ціль навіть у довгих сценаріях, Xiaomi реалізувала трирівневу систему контекстної пам’яті. Навіть якщо завдання складається з понад 20 кроків, початкова мета зберігається.
Персональний контекст і фінансова аналітика
Miclaw може, за дозволом користувача, читати:
- SMS;
- календар;
- патерни використання.
Приклад: приходить повідомлення з квитком на поїзд «G1234 Beijing–Chengdu Friday 08:30». Агент:
- розпізнає це як дані про подорож;
- додає подію в календар;
- ставить нагадування;
- розраховує час виїзду;
- пов’язує кілька системних інструментів, щоб підготуватися до поїздки.
Схожий підхід застосовується до фінансів. Отримуючи SMS про списання коштів, агент може проаналізувати історію за три місяці, виявити дублюючі підписки (наприклад, два відеосервіси з подібним контентом), порадити скасувати одну й оцінити потенційну економію — близько 400 юанів на рік.
Xiaomi стверджує, що:
- більшість даних обробляється локально на пристрої;
- історія діалогів і конфігураційні файли не покидають телефон;
- у хмару надсилається лише поточний запит, який видаляється після обробки;
- чутливі дії (надсилання повідомлень, створення подій у календарі) потребують підтвердження користувача.
Розумний дім без жорстких сценаріїв
Miclaw інтегрується з екосистемою Mi Home, яка, за даними Xiaomi, налічує понад 1 млрд підключених пристроїв. Це дозволяє будувати сценарії на кшталт:
- у календарі стоїть «10:00 важлива зустріч з клієнтом»;
- телефон переходить у беззвучний режим;
- робот-пилосос ставить прибирання на паузу;
- вхідні дзвінки фільтруються за важливістю;
- після зустрічі все повертається в нормальний режим, а користувач бачить зведення пропущених подій.
На відміну від традиційних смарт-скриптів із жорсткими правилами, Miclaw намагається приймати рішення динамічно, виходячи з контексту.
Розширення, субагенти та локальний «кодер» на телефоні
Система підтримує:
- Model Context Protocol (MCP) — для підключення до інструментів ШІ на комп’ютерах;
- SDK для сторонніх розробників — застосунки можуть декларувати свої можливості, які потім використовує агент.
Є й механізм саморозвитку: Miclaw може створювати субагентів — невеликі спеціалізовані асистенти з власними промптами й правами доступу до інструментів. Наприклад:
- один субагент керує розкладом;
- інший — підсумовує новини.
Система здатна запускати Python- і JavaScript-скрипти в пісочниці, фактично надаючи телефону базові можливості локального програмування. З часом агент накопичує досвід і адаптується до звичок користувача.
Microsoft Phi 4 Vision (15B): компактна мультимодальна модель для екранів, документів і математики
Мультимодальність без гігантських масштабів
Microsoft представила Phi 4 Reasoning Vision 15B — мультимодальну модель, яка працює з текстом та зображеннями, але при цьому залишається відносно компактною (15 млрд параметрів). Замість чергового гіганта на сотні мільярдів параметрів компанія робить ставку на ефективність.
Архітектура поєднує:
- мовну модель Phi 4 Reasoning;
- візуальний енкодер SigLIP 2.
Енкодер перетворює зображення на токени, які потім обробляє мовна модель разом із текстом. Такий підхід називають MIDI fusion — компроміс між продуктивністю та вартістю обчислень.
Модель навчена приблизно на 200 млрд мультимодальних токенів, поверх попередніх етапів:
- 16 млрд токенів для Phi 4 Reasoning;
- близько 400 млрд унікальних токенів для базової Phi 4.
Для порівняння, інші сучасні мультимодальні моделі (Qwen 2.5-VL, Qwen 3-VL, Kimi-VL, Gemma 3) використовували понад 1 трлн токенів.
Коли проблема — не в логіці, а в зоровому сприйнятті
Один із висновків Microsoft: мультимодальні моделі часто помиляються не через слабке «мислення», а через помилки сприйняття. Якщо система неправильно зчитала скріншот або документ, подальше міркування базується на хибних даних.
Щоб це виправити, Phi 4 Vision використовує динамічний візуальний енкодер із підтримкою до 3600 візуальних токенів. Це дозволяє:
- аналізувати складні скріншоти;
- читати документи, таблиці, діаграми;
- розуміти графічні інтерфейси.
Змішане навчання: коли думати, а коли просто бачити
Ще одна ідея — mixed reasoning training. Модель навчається у двох режимах:
- приблизно 20% даних містять reasoning-трейси з тегами
think— тут модель вчиться крок за кроком розв’язувати складні задачі з математики й науки; - решта даних без
thinkзосереджена на задачах сприйняття: підписи до зображень, OCR, візуальні питання-відповіді, розпізнавання елементів інтерфейсу.
Це дозволяє:
- відповідати швидко там, де глибоке міркування не потрібне;
- вмикати структуроване «мислення», коли завдання справді складне.
Сфери, де модель особливо сильна
Microsoft виділяє два ключові напрями, де Phi 4 Vision показує себе найкраще:
- Наукове й математичне міркування на візуальних даних
Модель працює з:- рукописними рівняннями;
- графіками;
- таблицями;
- технічною документацією.
- Агенти для роботи з комп’ютером
Модель здатна:- інтерпретувати вміст екрана;
- знаходити елементи інтерфейсу;
- допомагати автоматизувати дії на комп’ютерах і телефонах.
Серед наведених бенчмарків:
- 84,8 на AI2D;
- 83,3 на ChartQA;
- 44,9 на MathVerse Mini;
- 36,2 на MathVision Mini;
- 75,22 на MathVista Mini;
- 54,3 на MMU-Val;
- 64,5 на MMAR;
- 76,0 на OCRBench;
- 88,2 на ScreenSpot v2.
Оцінювання проводилося за допомогою EurekaML Insights і VLMEvalKit; Microsoft подає ці результати як порівняльні, а не як офіційні рекордні показники.
Від асистентів до виконавців: куди рухається ШІ
Symphony, Miclaw і Phi 4 Vision демонструють спільний тренд: ШІ перестає бути лише співрозмовником у чаті й перетворюється на агента, який:
- у розробці ПЗ — сам бере задачі з трекера, змінює код, запускає тести й створює pull request;
- у повсякденному житті — керує смартфоном і розумним домом, зважаючи на контекст і персональні дані;
- у роботі з інформацією — читає екрани, документи й графіки, поєднуючи зорове сприйняття з логічним міркуванням.
Якщо подібні системи продовжать розвиватися, роль ШІ дедалі більше нагадуватиме не «помічника, якого треба постійно направляти», а цифрового працівника, здатного самостійно виконувати складні завдання в програмних проєктах, інтерфейсах і підключених пристроях.
Джерело
OpenAI Just Dropped Symphony: The First AI That Actually Works — AI Revolution


