Понеділок, 22 Червня, 2026

FARS у Lemma: як AI за два дні написав дев’ятисторінковий пейпер про галюцинації LLM

У новому відео на каналі Tech With Tim розробник і контентмейкер Тим демонструє, як платформа Lemma від Analemma AI провела повністю автономне дослідження про галюцинації великих мовних моделей. Центральний епізод — режим FARS (Fully Automated Research System), у якому система сама спланувала експеримент, обрала моделі, запустила код, проаналізувала результати й згенерувала дев’ятисторінковий ресерч-пейпер у класичному академічному форматі.

Йдеться не просто про зручний інструмент для пошуку чи оглядів літератури, а про кейс, де AI фактично проводить дослідження про власну поведінку — у цьому разі про те, як змінюється кількість галюцинацій залежно від формулювання промпта.

Запит: чи знижує явне визнання невпевненості галюцинації LLM

Вихідна ідея дослідження була сформульована дуже просто: перевірити, чи допомагає LLM зменшувати кількість галюцинацій, якщо її явно просити висловлювати невпевненість.

Формулювання промпта було таким: дослідити, «whether asking an LLM to explicitly state uncertainty… reduces hallucinations». До цього додали конкретику: «Design a simple experiment with 20 questions and compare a normal prompt versus an uncertaintyaware prompt. Analyze the expected results and provide the practical recommendations.»

Тобто Lemma отримала одну інструкцію: придумати простий експеримент на 20 запитань, порівняти поведінку моделі за звичайного промпта і промпта, чутливого до невпевненості, а також проаналізувати очікувані результати й сформулювати практичні рекомендації. Спочатку система згенерувала дослідницьку пропозицію, яку можна було перечитати й затвердити. Після цього її перевели в «важку артилерію» — повноцінний режим FARS із запуском обчислень.

Десять кроків експерименту та повна автономія вибору моделей

На етапі експерименту FARS згенерував структурований план роботи, розбитий на кроки й підкроки. «This is the list of to-dos that it came up with. You can see it’s 10 steps. Each step actually has substeps… And you can see that we installed the dependencies and then we ran multiple different prompts on different models.»

У цьому списку були й налаштування середовища, і встановлення залежностей, і запуск промптів на кількох моделях. Примітний момент: вибір самих моделей користувачеві не диктували.

Система «automatically picked Gwen 2.572 billion as well as GPT 4.0… This is fully on the model. This isn’t me telling it what to do. Like, I just gave it one prompt and then it just ran with everything.»

Тобто FARS сам вирішив, що в експерименті варто використовувати дві конкретні моделі, і побудував увесь пайплайн — від підготовки середовища до прогону промптів — без ручного втручання. Людина бачить готовий список задач і лог виконання, але не бере участі в мікроменеджменті кроків.

Сам експеримент виявився доволі «важким» за часом і ресурсами. «This experiment took a pretty long time to run. I believe it was 1 or 2 days. It used up 63,000 credits.» Причина — FARS запускає повноцінне віддалене виконання: піднімає середовище, завантажує моделі, проганяє промпти, збирає й аналізує результати. Усе це — у тому самому «vibe research» стилі, коли користувач задає лише дослідницький намір, а не технічну інструкцію.

Готовий пейпер: від abstract до evaluation metrics

Фінальний результат — повноцінна наукова стаття, яку Lemma віддала у вигляді дев’ятисторінкового PDF. Структура відповідає академічним стандартам: «It follows kind of the format that you’re supposed to follow for a professional research paper. So, we have the abstract… the introduction… related work… method… evaluation metrics… all of this kind of stuff.»

У роботі є:

  • анотація з підсумком дослідження;
  • вступ із постановкою задачі;
  • розділ related work, де зібрані попередні роботи;
  • методологія з описом промптинг-умов;
  • метрики оцінки — coverage, false answer rate, HCE;
  • графіки та таблиці з результатами для двох моделей і двох набір-промптів;
  • висновки і список використаних джерел.

Методична частина будується навколо порівняння кількох варіантів промптингу: «We have a standard baseline, loose uncertainty, and then strict binary abstension.» На схемі в пейпері показано, як для одного й того самого вхідного запитання Q моделі дають відповіді в різних режимах: звичайному, з «м’яким» вираженням невпевненості й у жорсткому режимі, де від моделі вимагається або відповідь, або чітка відмова.

Далі пейпер переходить до метрик. Згадуються coverage, false answer rate, HCE (hallucination coverage efficiency). На графіках порівнюються показники для двох моделей, двох дата-сетів і двох типів завдань (зокрема structured QA), а в таблицях подаються точні значення кількості неправильних відповідей і ефективності зниження галюцинацій.

Загалом структура й рівень деталізації більше нагадують типовий академічний препринт, а не автоматично згенерований звіт.

Binary abstension prompting: нульова вартість, але з межею

Ключова ідея статті — метод, який Lemma називає binary abstension prompting. У висновках сформульовано: «We introduced binary abstension prompting a zerocost intervention that eliminates hedged hallucinations by forcing LLM to either answer or explicitly refuse.»

У цьому підході модель змушують працювати в бінарному режимі: або дається пряма відповідь, або модель відкрито відмовляється, заявляючи, що не знає. Це має усунути «розмиті» галюцинації, коли LLM наче й сумнівається, але все ж пропонує вигаданий факт чи неправильне твердження.

За результатами експерименту, цей підхід справді впливає на кількість помилкових відповідей: «This method reduces the false answer rate by 18 to 51% across two models and two benchmarks achieving nearperfect abstension targeting on structured QA…» Тобто в межах двох використаних моделей і двох бенчмарків false answer rate зменшився в діапазоні від 18% до 51%, а на структурованих завданнях питання‑відповідь вдалося досягти майже ідеального «націлювання» відмов: модель утримується від відповіді саме там, де ризик галюцинацій найвищий.

Однак у пейпері одразу фіксується й межа цього підходу: «However, binary abstension over abstains on knowledge intensive longtail questions revealing a regime boundary.» Іншими словами, на знання-інтенсивних, «довгохвостих» запитаннях модель починає відмовлятися надто часто — навіть тоді, коли мала б шанс дати коректну відповідь. Це й описується як певна «межа режиму» методу.

Сам автор відео підсумовує це так: коли в промпті вимагається, щоб модель або чесно зізнавалася, що не знає, або давала чітку відповідь, «we get a significantly lower hallucination rate and false answers. However, sometimes when it should know the answer, it doesn’t tell us the answer based on us introducing that in the prompt.»

Отже, binary abstension prompting в інтерпретації Lemma не стільки «виправляє» модель, скільки вчить її замовкати там, де ймовірність вигадки надто велика. Ціна — втрата частини корисних відповідей на складних запитаннях.

Дев’ять сторінок «поки ви спите» і що це показує

Один із найяскравіших моментів демонстрації — те, наскільки мало участі людини потрібно для отримання такого пейпера. Користувач задає одну дослідницьку постановку, переглядає початкову пропозицію й запускає FARS. Далі система сама:

  • складає багаторівневий план із десяти основних кроків;
  • розгортає віддалене середовище, ставить залежності, завантажує моделі;
  • обирає, які саме моделі й дата-сети використовувати;
  • формує промпти в різних режимах невпевненості;
  • рахує метрики, будує графіки, таблиці, візуалізації;
  • збирає все в дев’ятисторінковий текст із abstract, introduction, related work, method, evaluation, conclusion і списком посилань.

За словами Тима, цей звіт «was generated while I was sleeping», і за якістю він перевищив те, що він сам міг би написати під час навчання в університеті чи школі. Важливе уточнення: набір даних і масштаби експерименту були відносно невеликими, тож робота не претендує на статус «остаточної істини» в темі галюцинацій. Проте сам факт, що такий повний цикл — від дослідницького питання до структурованої статті — може виконати багатoагентна система без детального втручання людини, показовий для того, як може виглядати майбутнє AI‑досліджень.

Lemma позиціонується як AI‑for‑AI платформа: її використовують для того, щоб досліджувати й покращувати самі AI-системи. У випадку з FARS це проявляється буквально — автономний дослідницький «ліфт» дозволяє штучному інтелекту вивчати власні обмеження, зокрема галюцинації, і експериментувати з інтервенціями на зразок binary abstension prompting.

У результаті отримуємо не просто автоматизований аналіз, а приклад того, як AI може проводити про себе ж формалізовані експерименти й оформлювати їх у вигляді публікацій, максимально наближених до людських академічних стандартів.


Джерело

AI Research Papers Are Here (And They’re Scary Good) — Tech With Tim

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті