У свіжому випуску подкасту Mixture of Experts від IBM Technology ведучий Тім Хван говорить із дослідницею Каутар Ель Маграуї, інженером Крісом Гейєм і CTO Фолькмаром Уліхом не лише про нові моделі й хмарні чипи, а й про значно буденнішу, але дуже вперту проблему: штучний інтелект усе ще погано розуміє сарказм. Для індустрії, яка мріє про «агентів» у службі підтримки й інших сервісах, це виявляється не дрібною фішкою, а системною вразливістю.
![]()
Сарказм проти «ймовірного сенсу»
Початкова постановка проблеми звучить просто: сучасні великі мовні моделі погано вловлюють, коли з ними говорять іронічно. Для чат-бота це може виглядати як кумедна помилка, але для AI‑агента в службі підтримки — уже ризик, що зірве розмову з роздратованим клієнтом.
Ключове пояснення, яке лунає в дискусії, стосується самої природи мовних моделей. Вони «працюють, передбачаючи найбільш імовірний сенс ваших слів», тобто постійно роблять ставку на пряме, очевидне тлумачення тексту. А сарказм влаштований діаметрально протилежно: людина «каже слова, але має на увазі протилежне й розраховує, що слухач це зловить».
У реальному діалозі це створює ефект систематичного конфлікту. Там, де людина за замовчуванням шукає прихований підтекст, модель за замовчуванням обирає максимально пряме читання. І навіть якщо LLM у середньому «вгадує» саркастичні фрази, за межами лабораторних тестів ця невідповідність дуже швидко проявляється в незграбних, незрозумілих відповідях.
Учасники посилаються на оцінки, за якими «більшість моделей сьогодні опиняються десь на рівні 60–70% точності» у виявленні сарказму. Цього вистачає, аби показати прогрес на акуратно підібраних прикладах, але «в реальній розмові він губиться» — із «безладними паузами й перетинаннями реплік», де тональність змінюється швидко й непередбачувано.
Чи справді без мультимодальності ніяк?
Інтуїтивна відповідь з боку багатьох дослідників AI звучить так: сарказм неможливо коректно виявляти лише з тексту, потрібна мультимодальність — голос, міміка, візуальний контекст. У дискусії ця позиція теж прозвучала: «не все в сарказмі міститься в словах, і тому для нього треба йти в мультимодальність», бо «тон голосу, вираз обличчя» та інші сигнали часто критичні.
Проте Кріс Гей ставить під сумнів тезу про те, що без аудіо й відео модель приречена. Він наполягає: «з контекстом цілком реально зрозуміти, чи є щось саркастичним, без того, щоб чути тон». Ідея в тому, що добре написаний сарказм сам по собі вибудовує контекст, у якому буквальний зміст перестає збігатися з очевидним станом речей. Ця невідповідність — те, що й сигналізує людині: фраза сказана не всерйоз.
Каутар Ель Маграуї погоджується, що контекст критичний, але наголошує: сьогоднішнім моделям цього контексту часто бракує саме в навчальних даних. Більшість текстів, на яких тренували LLM, «втратили ці нюанси» або взагалі їх не містили. У результаті моделі мають мало «правильних» прикладів, де сарказм чітко позначений і вбудований у живий діалог.
Звідси й компромісна позиція, що склалася в розмові. Сарказм «усе контекст», а «чим багатший контекст, тим краще» — і саме тому мультимодальність, ймовірно, «гратиме більшу роль, щойно моделі зможуть бачити й чути». Але це не означає, що текстовий шлях приречений: навіть звичайні повідомлення в чаті можуть нести прозорий сарказм, якщо система навчена на достатньо якісних прикладах.
«Золоті дівчата» як симптом поганого датасету
Один із яскравих моментів обговорення — критика того, як саме тестують здатність LLM розуміти іронію. Для оцінки сарказму, як зазначає Гей, «світові навчальні дані» й бенчмарки чомусь часто спираються на «The Golden Girls, The Big Bang Theory і епізоди Friends». На цій підбірці він фактично ставить діагноз: «я вже розумію, чому LLM погані в сарказмі, якщо це їхній тренувальний набір».
За його логікою, проблема не в тому, що сарказм як явище погано формалізується, а в тому, що дослідники обрали дуже вузьке, специфічне й культурно обмежене джерело прикладів. Такі сценарні діалоги, хоч і рясніють жартами, далеко не завжди відображають реальну, спонтанну розмовну іронію — з їдкістю, недомовками, сухим текстовим «дотиском», до якого звикли користувачі месенджерів.
Ель Маграуї з іншого боку підкреслює: головне «вузьке місце — дані, а не розмір моделі». Якщо в навчальних прикладах майже немає багатошарового, контекстного сарказму, модель, якою б великою вона не була, не зможе навчитися тонкій грі на межі прямого й прихованого значення. Вона просто не бачитиме такого патерну достатньо часто.
Одне з практичних наслідків такого дефіциту — перекіс на користь «чистих» діалогів і підписаних сценаріїв, де образи й інтонації зчитуються з картинки й звуку, а не з обмеженого тексту. Натуральні приклади — повідомлення, чати, живі розмови — або не потрапили до навчальних корпусів, або залишилися нерозміченими щодо іронії.
Сарказм як завдання для даних, а не FLOPS
Звідси формується важливий для індустрії висновок: збільшення параметрів і GPU‑кластерів не зробить моделі «дотепнішою» саме в тому сенсі, в якому цього очікують користувачі. Ель Маграуї формулює це прямо: «я відчуваю, що справжнє вузьке місце — це дані, а не розмір моделі».
Сарказм належить до тих феноменів, де якість і репрезентативність датасету важать більше, ніж «глибина» моделі. Потрібні «хороші тренувальні приклади» — насамперед з тих середовищ, де текстова іронія справді є домінантною: у персональних чатах, соцмережах, неформальних дискусіях. Саме там люди найчастіше «кажуть одне, маючи на увазі протилежне», і покладаються на те, що співрозмовник зчитає підтекст.
Фолькмар Уліх додає ще одну грань: ці «правильні» дані скоріше за все вже існують — у вигляді масивів реальної людської комунікації в інтернеті. Проблема в тому, що вони або юридично складні, або технічно важкі для збору й маркування. При цьому якраз у таких неформальних масивах, на його думку, «сарказму більш ніж достатньо».
Це створює для розробників LLM етичну й правову дилему. З одного боку, без включення живого онлайн‑контенту моделі ще довго спотикатимуться об тонкощі людського спілкування. З іншого — пряме «витягування» таких даних із публічних (а тим паче приватних) джерел несе всі відомі ризики конфіденційності, авторських прав і згоди користувачів.
Мультимодальність як підсилювач, а не чарівна паличка
Попри незгоду щодо того, наскільки текст сам по собі здатен нести сарказм, учасники сходяться в одному: «мультимодальність, ймовірно, стане способом зробити моделі більш обізнаними» про людські нюанси.
Ель Маграуї наголошує: сьогодні ми взаємодіємо з моделями у вузьких режимах — «написати трохи коду», «транскрибувати текст». У такій рамці модель отримує дуже бідний контекст. Коли ж системи зможуть «бачити й чути» — паралельно аналізувати відео, міміку, тон, — «тонкощі, ймовірно, стануть краще детектованими». Не тому, що це магія, а тому що для кожного висловлювання з’явиться додаткова, часто критична інформація.
Уліх при цьому зауважує, що навіть «звичайний текстовий меседж може бути саркастичним, і сарказм там «прочитується» без будь-якого відео». Тому мультимодальність варто сприймати радше як спосіб збагатити контекст, а не як обов’язкову умову розуміння іронії. Якщо навчальні дані й алгоритми правильно налаштовані, модель має шанс упоратися із сарказмом і в «чистому» тексті.
Таким чином контури задачі вимальовуються чітко. Мультимодальні сигнали можуть істотно допомогти — особливо там, де тон голосу чи вираз обличчя разюче суперечать сказаному. Але без серйозної роботи з текстовими корпусами, де сарказм позначений і вбудований у реальний діалог, одні лише мільйони відеокліпів проблему не знімуть.
Навіщо це все індустрії AI‑агентів
На перший погляд дебати про сарказм можуть здаватися академічною вправою або культурологічною забавкою. Та для індустрії, що активно рухається до AI‑агентів у ролі співрозмовників, консультантів і операторів підтримки, це питання напряму стосується бізнес‑ризиків.
Сценарій, який обговорюють у подкасті, простий: клієнт пише в службу підтримки, роздратований, переходить на іронію, «коле» формулюваннями, що мають прямо протилежний сенс. Якщо агент‑модель сприймає це буквально, вона може відповісти холодно, механічно чи просто недоречно, ще більше підриваючи довіру до сервісу.
Для автоматизованих систем, яким делегують дедалі більше фронтових контактів із користувачами, такий збій — не дрібний збочений кейс, а щоденна реальність. Люди майже рефлекторно вдаються до сарказму, коли незадоволені або втомлені від шаблонних відповідей. Якщо AI не здатен уловити цей зсув у тоні, жодні інші «людяні» риси його мови не врятують розмову.
Саме тому учасники дискусії так наполягають на якості даних і контексту, а не лише на нових архітектурах чи мегапараметрах. Сарказм виявляється тією ділянкою, де практичні вимоги ринку — до емпатії, гнучкості, розуміння настрою — безпосередньо тиснуть на дизайн навчальних наборів і підходи до моделювання.
Урешті, проблема виявляється зовсім не «магічною». Моделі передбачувано спотикаються там, де їхні алгоритми й дані підштовхують до прямолінійності. Повернути тонку, контекстну й іноді жорстку людську іронію в поле зору AI — означає переосмислити, що саме вважати «якісними» даними й як міряти «розуміння» мови не лише у відсотках точності, а й у витриманих, складних розмовах.
Джерело
Подкаст Mixture of Experts, випуск «Claude Fable 5 & Apple’s NVIDIA deal», IBM Technology — https://www.youtube.com/watch?v=aByPOYCEH6I


