У 999‑му епізоді подкасту Super Data Science авторка бестселера AI Engineering Чіп Хуєн обговорює одну з найменш «гламурних», але ключових тем сучасних LLM‑продуктів — оцінювання їхньої якості. Вона стверджує, що без якісних eval‑ів ви буквально не знаєте, чи ваша система працює, пояснює, чому класична парадигма тест‑драйвен розробки ламається на генеративному виході, і розповідає, як спроби покластися на «LM‑як‑суддю» перетворюються на болючу роботу з гайдами й інструкціями.
Від test‑driven до evaluation‑driven: чому без вимірювання немає розробки
У традиційній розробці софту десятиліттями домінувала ідея test‑driven development: спочатку пишемо тести, потім — код під них. Якщо функція повертає не той рядок символ у символ, тест падає, і проблема очевидна.
З генеративними моделями така схема руйнується. Відповідей на одне й те саме запитання може бути багато, і всі вони можуть бути «правильними» у різному ступені. Це робить старі підходи малопридатними.
Хуєн проводить пряму аналогію: для AI потрібна власна парадигма — evaluation‑driven development. Йдеться не про окремі експерименти у ноутбуку, а про систематичне, вбудоване в життєвий цикл продукту оцінювання моделей:
- спочатку формалізувати, що саме вважається «якісною» відповіддю для конкретного застосунку;
- потім мати спосіб регулярно й автоматично перевіряти, чи система цього стандарту дотримується.
Без цього ви опиняєтесь у ситуації, яку вона описує як дуже типову: компанія запускає AI‑функціональність, хтось усередині рапортує «ми заощадили купу грошей» чи «заробили більше», а на запитання «як ви це знаєте?» відповісти по суті ніхто не може.
Тут Хуєн ставить провокативне запитання, яке вона адресує корпоративним аудиторіям: що гірше — не мати AI‑системи в продакшені, чи мати систему, про яку ніхто не знає, чи вона взагалі працює? Саме відсутність осмислених eval‑ів перетворює другий варіант із «просунутого» на потенційно небезпечний.
Чому генеративний вихід «ламає» класичні тести
Основна технічна проблема в тому, що як тільки вихід стає генеративним, зникає можливість жорстко зафіксувати «правильну» відповідь.
У класичному софті критерій простий: результат має збігатися символ у символ. У генеративних системах, навпаки, нормальним є «дуже широкий діапазон відповідей». Дві відповіді можуть мати зовсім різні формулювання, порядок аргументів чи тон, і водночас бути однаково корисними.
Це робить «по‑ряду‑символів» підходи безглуздими й змушує переходити до більш розмитих метрик: відповідність вимогам, повнота, коректність, стиль. Але все це потрібно якось формально описати й перевести у процедуру, яку можна автоматизувати — і тут починається найскладніше.
Хуєн підкреслює: саме генеративність виходу робить «дуже важким» створення дійсно строгих тестів. Тож ключова праця в eval‑ах тепер лежить не в коді, а в тому, щоб чітко визначити, що для конкретної задачі означає «добре» й як це стабільно вимірювати.
LM‑як‑суддя: приваблива ідея з болючою реалізацією
На цьому тлі багато команд звертаються до популярної сьогодні практики LM‑as‑a‑judge. Логіка проста: раз вже LLM добре розбирається в текстах, чому б не доручити їй оцінювати відповіді іншої (або тієї ж) моделі? Друга модель читає вхід, вихід і виставляє оцінку — здається, автоматизація проблеми.
За спостереженнями Хуєн, так сьогодні діє «багато людей»: вони використовують окрему AI‑модель як суддю, що дивиться на відповідь і оцінює її. Але на практиці саме цей шар виявляється одним із найболючіших у всьому пайплайні.
Рання робота з клієнтами показала їй спільний патерн: у деяких кейсах команди доходили до того, що «витрачали 80% часу розробки тільки на написання гайдів» для свого AI‑судді. Не на моделі, не на інфраструктуру, а саме на інструкції, як ця модель‑суддя має оцінювати відповіді.
Фраза, якою вона підсумовує цей досвід, звучить без прикрас: «LM‑as‑a‑judge — це боляче».
Основні вузли цієї болю:
- Спроба формалізувати інтуїтивні критерії «добре / погано». Людина легко відчуває, що відповідь «якась не така», але дуже неохоче сідає й виписує чітке пояснення, чому.
- Пояснення «чому це гарна відповідь» часто вимагає набагато більше зусиль, ніж проста бінарна оцінка, а без цього модель‑суддя не розуміє, на чому ґрунтуватися.
- Накопичені з часом інструкції розростаються, ускладнюються, у них з’являються протиріччя — і починають самі ж псувати якість оцінки.
Гайди для AI‑суддів: як не потонути у власних інструкціях
Що робити, якщо LM як суддя все одно потрібна? Хуєн пропонує дуже приземлену, але рідко виконувану практику: ставитися до гайдлайна як до продукту, що має проходити «юзер‑тестування».
Вона радить після написання гайду зробити дві прості речі.
По‑перше, самому спробувати бути «моделлю‑суддею». Взяти guideline, пройти кілька прикладів і подивитися, чи здатні ви, як людина, стабільно слідувати власним інструкціям і приходити до послідовних оцінок. Якщо навіть вам це важко, від моделі чекати послідовності не варто.
По‑друге, віддати гайд колезі. Нехай інша людина, не залучена до його написання, просто слідує інструкціям на конкретних прикладах. Це швидко виявляє неясності, приховані припущення й місця, де текст інструкції вступає у протиріччя сам із собою.
Хуєн акцентує: в «сьогоднішню епоху» у людей досі є «смак», який у багатьох випадках корисніший за LLM. Тобто людська здатність помічати тонкі невідповідності, дивні акценти чи неявні вимоги залишається вагомішою за автоматичні eval‑и. Вона прямо попереджає: важливо «не просто припускати, що AI може робити все».
Іншими словами, LM‑суддя не звільняє від роботи з якістю — він лише переносить її в інший шар: дизайн інструкцій, тестування цих інструкцій людьми, пошук і усунення протиріч.
Невидимий ризик: AI‑система без валідних метрик
У корпоративних розмовах Хуєн стикається з одним і тим самим сценарієм: компанія з гордістю повідомляє про запуск AI‑системи, демонструє окремі вражаючі приклади, але не може відповісти на просте питання: чи працює це стабільно й чи принесло це реальну користь.
Вона описує це як «досить поширену історію», коли хтось всередині організації стверджує, що система «зекономила стільки‑то» або «заробила стільки‑то», але все тримається на припущеннях, а не на систематичному вимірюванні.
Тут виглядає особливо гострим її риторичне питання: що гірше — не мати AI‑системи взагалі чи мати таку, «про яку ніхто не знає, чи вона працює»? З погляду управління ризиками другий варіант небезпечніший: організація може ухвалювати рішення, спираючись на ілюзію ефективності.
Саме тому вона наполягає на evaluation‑driven підході: «є лише обмежена кількість застосунків, де ви не можете виміряти вихід». У всіх інших випадках відсутність якісних eval‑ів — це вибір, а не неминучість.
Людський контроль як останній бар’єр
Ще одна важлива думка Хуєн стосується довіри до автоматизованих eval‑ів. Навіть якщо здається, що написаний промпт для судді‑моделі ідеальний, цього недостатньо, щоб просто «повірити» її оцінкам.
Вона наводить власний досвід: з часом її власні промпти ставали все довшими, у них накопичувалися патчі, приклади, уточнення. Врешті‑решт вона кинула промпт в іншу модель із проханням знайти протиріччя — і та виявила, що в одному місці інструкція каже робити одне, а в іншому прямо забороняє те ж саме.
Подібні дрібні, але фатальні протиріччя в інструкціях для LM‑суддів можуть систематично спотворювати eval‑и: модель починає «переіндексувати» на той чи інший випадковий приклад, зайво акцентувати деталі, які колись були додані як одноразовий патч.
Тому, навіть використовуючи AI для аналізу власних промптів, останнє слово, за її словами, має лишатися за людиною, яка розуміє контекст продукту, вимоги користувачів і неформалізовані обмеження. Саме ця людина може помітити, що в гайдлайні для оцінки бракує критично важливої для бізнесу умови, яку система ніколи не візьме до уваги, якщо її явно не записати.
Висновок: без болючих eval‑ів ми не знаємо, що будуємо
Розмова з Чіп Хуєн демонструє, що в епоху foundation‑моделей головна складність часто лежить не в самому inference, а в тому, як ми міряємо результат.
Класичні тести не працюють на генеративному виході; LM‑як‑судді знімають частину рутини, але створюють новий фронт роботи — дизайн і валідацію гайдів, де людський «смак» залишається незамінним. А найнебезпечніша ситуація — це продакшн‑система, для якої немає валідних, осмислених метрик якості.
Якщо вартість написання коду падає майже до нуля, то реальна цінність зсувається в іншу площину: у здатність чітко сформулювати, що таке «якісний» результат для конкретного продукту, і побудувати навколо цього суворий, хоч і часто болісний, процес оцінювання. Без цього будь‑який AI‑продукт залишається красивою, але по суті неперевіреною гіпотезою.
Джерело
Super Data Science: What’s Left to Build When Software Is Free (with Chip Huyen)












