Розробка успішних AI-додатків вимагає не лише вміння писати якісні підказки (промпти), а й складного інженерного підходу, що охоплює весь цикл оцінювання моделей. У своєму виступі спікер поділився п’ятьма ключовими уроками, які допоможуть компаніям краще інтегрувати нові моделі, збирати корисний зворотний зв’язок і адаптуватися до стрімких змін у світі штучного інтелекту.

Ефективність оцінок: як зрозуміти, що вони працюють
Перший урок стосується важливості правильної організації системи оцінок (evals) у компанії. Спікер наголосив, що оцінки мають “говорити самі за себе” і запропонував три ознаки успіху. По-перше, коли виходить нова модель, продукт має бути готовий оновитися протягом 24 годин із використанням цієї моделі. Як приклад він навів компанію Notion, яка регулярно оновлює свої продукти дуже швидко.
«Якщо ви не можете оновити продукт за 24 години після виходу нової моделі, значить, вам потрібно працювати над вашими evals» — каже спікер.
По-друге, важливо мати чіткий шлях для інтеграції користувацьких скарг у систему оцінок, щоб не втрачати цінну інформацію. І по-третє, оцінки мають допомагати не лише перевіряти регресії, а й передбачати, наскільки добре продукт працюватиме ще до його запуску.
Інженерія оцінок та контексту: новий рівень роботи з AI
Другий урок полягає в тому, що хороші оцінки не з’являються самі по собі. Вони потребують ретельної інженерної роботи, адже жоден синтетичний датасет не відображає реальний досвід користувачів повністю. Найкращі дані — це ті, які постійно оновлюються і узгоджуються з реальністю.
«Датасет — це інженерна задача, а не просто готовий ресурс» — підкреслює спікер.
Так само важливо створювати власні функції оцінювання, а не покладатися лише на відкриті чи стандартні бібліотеки. Функції оцінки можна порівняти зі специфікацією продукту, що має відповідати унікальним цілям компанії.
Третій урок — це еволюція традиційного prompt engineering у контекст-інженерію. Спікер пояснює, що сучасні AI-системи використовують не лише системні підказки, а й складні цикли взаємодії з інструментами (tools), які мають бути продумані з урахуванням того, як модель їх сприймає.
«Інструменти не повинні бути просто відображенням вашого API — їх треба адаптувати під потреби LLM» — радить спікер.
Навіть формат вихідних даних інструментів (наприклад, YAML замість JSON) може суттєво вплинути на ефективність роботи моделі.
Готовність до змін і оптимізація всієї системи
Четвертий урок — бути готовими до того, що вихід нової моделі може кардинально змінити правила гри. Спікер наводить приклад, коли нова модель Cloud 4 Sonnet за два тижні після релізу дозволила запустити функцію, яка раніше була технічно неможливою через низьку якість результатів.
«Якщо нова модель змінює все, ви маєте бути готові швидко використати цю можливість» — наголошує він.
П’ятий урок — оптимізувати потрібно не лише промпти, а всю систему оцінювання: дані, завдання, інструменти та функції оцінки. Спікер показав, що автоматична оптимізація всієї системи дає значно кращі результати, ніж робота лише з промптами.
З цією метою у Brain Trust запустили нову функцію Loop, яка дозволяє автоматично покращувати оцінки прямо в системі, експериментуючи з різними моделями і параметрами.
Підсумки та відповіді на запитання
Спікер підсумував п’ять уроків, закликавши чесно оцінювати рівень розвитку evals у своїй організації і поступово рухатися до інженерного підходу. Він також відповів на питання аудиторії, зокрема про ризики перенавчання на основі користувацького фідбеку і про те, як нові моделі можуть суттєво впливати на роботу AI-систем.
«Набагато гірше — не враховувати зворотний зв’язок користувачів, ніж трохи підлаштовуватися під нього» — пояснює спікер.
Він також пояснив, що не всі задачі однаково чутливі до оновлень моделей: деякі працюють стабільно з GPT-3.5, а інші вимагають нових архітектур і підходів.
Таким чином, ключ до успіху в AI-продуктах — це комплексний, гнучкий і інженерно продуманий підхід до оцінки, контексту та швидкої адаптації до нових технологій.
Джерело: Youtube: Ai-Engineer