П’ятниця, 1 Травня, 2026

Як Gemini 1.5 Flash Free та Deep Research працюють разом: моделі, агенти й довгі мультимодальні воркфлови

У межах воркшопу на каналі AI Engineer інженери Google DeepMind Тор Шефф і Філіп Шмід показують, як будувати розмовні агенти на базі Gemini. Центральним елементом стає новий Interactions API, який поєднує моделі, вбудовані агенти та мультимодальні контент-блоки в єдину систему. На цій основі вони демонструють, як безкоштовна модель Gemini 1.5 Flash Free, агент Deep Research і генеративні моделі на кшталт Nano Banana можуть працювати в одному кодовому шляху, виконуючи складні, довгі й багатокрокові завдання.

man teaching two woman

Gemini 1.5 Flash Free як робоча конячка для коду й планування

У практичній частині воркшопу саме Gemini 1.5 Flash Free (часто її називають Gemini Free Flash) обрана як модель «за замовчуванням» для всіх кодових і агентних сценаріїв. Це не випадковий вибір, а чітка позиція: Flash Free подається як швидка й економна модель, яка добре підходить для кодування, планування та керування інструментами — за умови, що розробник дає їй якісні інструкції та грамотно налаштовує навички агента.

У цьому підході важливий акцент: мова не про «найпотужнішу» модель, а про оптимальний баланс швидкості, вартості й достатньої якості для більшості прикладних задач. Коли йдеться про агентів, які мають читати файли, запускати bash-команди, будувати плани дій або координувати інші моделі, латентність і вартість кожного запиту стають критичними. Саме тут Flash Free виглядає логічним вибором: вона дозволяє багаторазово викликати модель у межах одного сценарію, не виходячи за рамки безкоштовного тарифу, на який орієнтований увесь воркшоп.

Показово, що організатори спеціально підкреслюють: усі приклади вміщуються в безкоштовний рівень Gemini API. Це задає тон для розробників: складні агентні системи з інструментами, плануванням і мультимодальністю вже не є прерогативою дорогих корпоративних тарифів — їх можна будувати й тестувати на безкоштовній моделі, якщо правильно спроєктувати воркфлоу.

Модель, яка не знала про Interactions API: роль навичок і документації

Цікавий нюанс полягає в тому, що Gemini 1.5 Flash Free тренували ще до появи Interactions API. Це означає, що модель не «знає» про цей API з навчальних даних і не має вбудованого досвіду роботи з ним. Її здатність коректно викликати інструменти, працювати як агент і використовувати нові можливості API спирається не на попереднє навчання, а на те, як розробник описує навички, інструкції й структуру взаємодії.

Фактично, Interactions API виступає як шар оркестрації поверх моделі. Flash Free генерує текст і структуровані виклики функцій, але розуміння того, що таке «агент», «інтеракція» чи «попередній interactionId», приходить до неї через системні інструкції, схеми інструментів і документацію, яку розробник вбудовує в контекст.

Це зміщує фокус відповідальності: замість очікувати, що модель «сама все знає», розробник має чітко описати:

як виглядає інтерфейс інструментів і агентів;

які кроки потрібно виконати в межах одного завдання;

які обмеження й очікування щодо відповіді.

У результаті Flash Free перетворюється на універсальний «двигун міркування», а вся «агентність» — це наслідок того, як її вбудовують у Interactions API. Такий підхід добре узгоджується з трендом на «skills» і «tools» як окремі сутності, які можна оновлювати й комбінувати без ретренінгу моделі.

Єдиний кодовий шлях для моделей і агентів

Ключова ідея Interactions API — уніфікація. Замість того, щоб мати окремі ендпоїнти й клієнти для «чистих» моделей і для агентів, API пропонує один і той самий інтерфейс. Різниця лише в тому, що в запиті розробник вказує: звертається він до конкретної моделі чи до агента.

У найпростішому випадку це означає заміну ідентифікатора: замість model: “gemini-1.5-flash-free” можна вказати agent: “deep-research” або інший агентний ID. Решта структури запиту — контент-блоки, параметри, інструкції — залишається тією самою. Для розробника це означає, що один і той самий кодовий шлях може:

спочатку викликати модель для швидкого планування чи кодування;

потім передати результат у вбудованого агента для довготривалого дослідження;

а далі — знову повернутися до моделі для генерації тексту, коду чи промптів для інших систем.

Ця взаємозамінність особливо важлива в контексті складних воркфлоу, де потрібно поєднувати кілька типів завдань: від коротких інтерактивних діалогів до багатохвилинних бекграунд-процесів. Раніше такі сценарії часто вимагали окремих сервісів, черг завдань і ручної синхронізації. Тепер значна частина цієї логіки може бути інкапсульована в самому Interactions API.

Deep Research як вбудований агент для довгих завдань

Одним із перших агентів, які Google DeepMind виніс у Interactions API, став Deep Research. Це знайома користувачам Gemini функція: користувач формулює запит, а система будує план, відвідує сотні сайтів і протягом 10–15 хвилин збирає структурований результат.

У контексті Interactions API Deep Research поводиться як повноцінний агент, до якого можна звернутися так само, як до моделі. Різниця в тому, що замість миттєвої відповіді розробник отримує довготривале завдання, яке виконується у фоновому режимі. Це змінює сам підхід до проєктування застосунків:

користувацький інтерфейс більше не прив’язаний до однієї HTTP-сесії;

дослідження можна запускати «в один клік» і повертатися до них пізніше;

результати можна автоматично підхоплювати іншими компонентами системи.

Deep Research стає своєрідним «бекендом для розумних запитів», який можна вбудувати в будь-який продукт: від корпоративних панелей до споживчих застосунків, що потребують глибокого аналізу інформації з відкритих джерел.

Асинхронність, опитування й вебхуки: як працюють довгі агенти

Щоб такі агенти, як Deep Research, були практично корисними, Interactions API вводить повноцінну асинхронну модель виконання. Замість того, щоб тримати HTTP-з’єднання відкритим хвилинами, розробник:

ініціює інтеракцію з агентом;

отримує ідентифікатор завдання чи інтеракції;

далі або періодично опитує API, або (коли це стане доступним) отримує сповіщення через вебхуки.

У воркшопі окремо наголошують: тримати HTTP-запит відкритим довше 10 секунд — погана практика для веб-додатків. Тому Interactions API спроєктовано так, щоб довгі завдання природно переходили в асинхронний режим. Це дозволяє:

масштабувати бекенд без блокувальних запитів;

будувати UI, який показує прогрес, проміжні стани або просто повідомляє користувача, коли дослідження завершено;

комбінувати кілька довгих агентних викликів у складні пайплайни, не перевантажуючи клієнт.

Модель асинхронності доповнюється серверним станом: API зберігає історію інтеракцій, а клієнт може посилатися на попередній interactionId, не пересилаючи весь контекст щоразу. Це важливо не лише для зручності, а й для вартості: завдяки кращому кешуванню вхідних токенів старі частини контексту стають значно дешевшими, а стартапи, які вже перейшли на цей підхід, бачать у 2–3 рази кращі показники кеш-хітів.

Мультимодальні контент-блоки як клей між моделями й агентами

Ще одна фундаментальна ідея Interactions API — уніфікований формат контент-блоків. Кожен вхід і вихід описується як блок із полем type, яке може позначати текст, аудіо, відео, зображення, function_call або thought_signature. Це означає, що:

одна й та сама структура використовується для звичайних текстових діалогів;

мультимодальні сценарії (аудіо, відео, зображення) не потребують окремих форматів;

виклики функцій і результати інструментів так само вписуються в загальну модель контенту.

Для розробника це означає менше спеціальних випадків у коді. Якщо агент повертає function_call, це просто ще один контент-блок, який можна обробити, виконати відповідну функцію й додати результат як новий блок у наступну інтеракцію. Якщо модель повертає зображення чи аудіо, це так само блок із відповідним типом.

У контексті складних воркфлоу це критично: коли один агент повертає текстовий звіт, інший — промпт для зображення, а третій — аудіо-коментар, усе це проходить через один і той самий API й одну й ту саму модель даних.

Ланцюжок Deep Research → Nano Banana: приклад складного воркфлоу

На базі цих принципів у воркшопі демонструють показовий сценарій: як за допомогою Interactions API зв’язати між собою Deep Research і модель Nano Banana для генерації зображень.

Схема виглядає так:

спочатку розробник ініціює інтеракцію з агентом Deep Research, формулюючи запит, який потребує глибокого аналізу;

агент у фоновому режимі протягом кількох хвилин збирає інформацію, структурує її й повертає результат у вигляді контент-блоків;

після завершення дослідження цей результат береться як вхід для наступної інтеракції — тепер уже з моделлю Nano Banana, яка спеціалізується на генерації зображень;

Nano Banana на основі текстового опису, сформованого Deep Research, створює зображення.

Важливий момент: увесь цей ланцюжок реалізовано через один і той самий Interactions API. Розробник не перемикається між різними SDK чи протоколами, а просто змінює ціль: спочатку agentId для Deep Research, потім modelId для Nano Banana. Контент між ними передається в тому самому форматі блоків.

Такий підхід відкриває шлях до ще складніших сценаріїв. Наприклад, можна уявити:

агент, який досліджує ринок, формує текстовий звіт;

модель, яка перетворює цей звіт на серію інфографік;

інший агент, який генерує аудіо- або відео-огляд на основі тих самих даних.

Усі ці кроки можуть бути реалізовані як послідовність інтеракцій у межах одного API, де кожен етап — це або модель, або агент, але з погляду коду різниця мінімальна.

Швидкість і економність як дизайн-принципи

Якщо подивитися на всі ці елементи разом — Gemini 1.5 Flash Free, Deep Research, мультимодальні блоки, асинхронні агенти — стає помітно, що Google DeepMind намагається зрушити фокус із «максимальної потужності моделі» на «ефективність у реальних воркфлоу».

Flash Free як базова модель для коду й планування — це ставка на швидкість і низьку вартість. Deep Research як вбудований агент — це спосіб винести найдорожчі й найдовші операції в окремий шар, який виконується рідше, але дає глибший результат. Мультимодальні контент-блоки й єдиний API для моделей і агентів — це спроба зменшити фрикцію для розробників, які хочуть комбінувати різні можливості без переписування інфраструктури.

У підсумку розробник отримує можливість:

будувати агентів, які швидко реагують на користувача, використовуючи Flash Free;

делегувати важкі дослідження Deep Research, не блокуючи інтерфейс;

перетворювати результати досліджень на зображення, аудіо чи інші формати через спеціалізовані моделі на кшталт Nano Banana;

керувати всім цим через один API, який підтримує як синхронні, так і асинхронні сценарії.

Це не просто набір окремих можливостей, а цілісна модель, у якій «агентність» — це властивість всієї системи, а не однієї моделі.

Висновок: від «однієї моделі» до оркестрації агентів і медіа

Поява Interactions API, використання Gemini 1.5 Flash Free як базового «двигуна» й інтеграція Deep Research як вбудованого агента показують, куди рухається екосистема Gemini. Замість того, щоб зосереджуватися на окремих моделях, Google DeepMind вибудовує платформу, де моделі, агенти й мультимодальні формати працюють разом у єдиному кодовому шляху.

Для розробників це означає перехід від парадигми «зробити один запит до LLM» до проєктування повноцінних воркфлоу: з плануванням, довгими дослідженнями, генерацією медіа й асинхронною обробкою. І хоча Gemini 1.5 Flash Free тренували ще до появи Interactions API, саме через навички, інструкції й уніфікований формат контенту вона стає центральним елементом цієї нової, більш агентної архітектури.


Джерело

https://www.youtube.com/watch?v=cVzf49yg0D8

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті