Четвер, 30 Квітня, 2026

Як LFM 2.5 ламає «закони Чинчилли»: радикальний рецепт тренування фронтирних малих моделей

У світі великих мовних моделей увага зазвичай прикута до гігантів на сотні мільярдів параметрів. Але паралельно формується інший фронтир — малі моделі, здатні працювати повністю на пристрої, у межах сотень мегабайт пам’яті, з мілісекундною затримкою. Саме на цьому сегменті спеціалізується Liquid AI, де Максим Лабонн очолює напрямок пре-тренування. Компанія розробляє моделі від 350 млн до 24 млрд параметрів для тексту, зору й аудіо, а їхні ваги доступні на Hugging Face.

Everything I Learned Training Frontier Small Models — Maxime

Один із ключових проєктів Liquid AI — лінійка LFM, а зокрема рецепт тренування LFM 2.5 для малих «фронтирних» моделей. Його особливість — поєднання екстремально великого пре-тренінгу (28 трильйонів токенів для моделі всього на 350 млн параметрів) з багатоступеневим пост-тренуванням: від суворо структурованого supervised fine-tuning до преференційного вирівнювання й підкріплювального навчання.

Цей підхід кидає виклик звичним уявленням про «оптимальні» масштаби даних і показує, як можна вичавити максимум з малих моделей, які мають працювати в жорстких обмеженнях пам’яті та затримки.

28 трильйонів токенів для 350M: навіщо малим моделям стільки даних

Класичні «закони Чинчилли» пропонують співвідношення між кількістю параметрів і обсягом тренувальних даних, за якого модель є обчислювально оптимальною. Для моделі на сотні мільйонів параметрів це зазвичай означає далекі від трильйонів токенів масштаби. LFM 2.5 свідомо виходить за ці рамки.

Liquid AI пре-тренувала 350-мільйонну модель LFM 2.5 на 28 трильйонах токенів. Для цього масштабу параметрів це нетипово високе співвідношення даних до параметрів, яке значно перевищує те, що зазвичай застосовують для малих моделей.

З погляду класичних скейлінг-лаїв це виглядає як «перетренування» в сенсі обсягу даних. Проте емпіричні результати показують, що продуктивність продовжує зростати зі збільшенням кількості пре-тренувальних токенів навіть на такому малому масштабі. Ба більше, новіші роботи зі скейлінгу на кшталт нещодавно опублікованих «test-time scaling laws» вказують, що оптимальна кількість токенів для досягнення максимальної якості може бути ще вищою, ніж 28 трильйонів.

Інакше кажучи, навіть за цими новими законами LFM 2.5 ще не досягла «достатнього» обсягу даних — модель могла б виграти від ще більшого пре-тренінгу. Це важливий сигнал для індустрії: у сегменті малих моделей межа корисного масштабу даних виявляється значно далі, ніж вважалося раніше.

Причина в економіці. Тренувати 350M-модель на десятках трильйонів токенів набагато дешевше, ніж робити те саме для моделей на десятки мільярдів параметрів. Тому те, що для великих моделей виглядає як надмірна розкіш, для малих стає практичною стратегією: максимізувати знання й навички в межах дуже компактного параметричного бюджету.

Результати підтверджують доцільність такого підходу. Порівняння LFM 2.5 з попередньою версією LFM2 350M на низці бенчмарків показує суттєвий приріст якості. Модель помітно покращилася в завданнях знань (GPQ Diamond), інструкційного слідування (IFB Bench), структурованого витягу даних (Case Report Bench) та інструментального використання (PFCL, T2 Bench) — при тому, що кількість параметрів залишилася тією самою.

Ключова ідея: якщо модель має бути маленькою, але корисною, є сенс інвестувати не в розширення параметрів, а в радикальне збільшення обсягу пре-тренувальних даних. LFM 2.5 демонструє, що це працює навіть на масштабі сотень мільйонів параметрів.

Єдиний рецепт для малих фронтирних моделей: від пре-тренінгу до RL

LFM 2.5 — це не лише про обсяг даних. Liquid AI вибудувала цілісний рецепт тренування, який поєднує масивний пре-тренінг із чітко структурованим пост-тренуванням. Ланцюжок виглядає класично: спочатку пре-тренінг, потім supervised fine-tuning, далі преференційне вирівнювання, і на завершення — підкріплювальне навчання.

На перший погляд це схоже на стандартний пайплайн для великих LLM. Відмінність у тому, як саме ці етапи застосовуються до малих моделей, які мають працювати на пристроях з обмеженою пам’яттю, вузькою спеціалізацією та жорсткими вимогами до затримки.

Пре-тренінг на 28 трильйонах токенів формує базову мовну компетентність і знання, але не робить модель корисною «з коробки» для конкретних сценаріїв. Для edge-кейсів — від витягу даних до багатокрокового виклику інструментів — потрібна тонка настройка поведінки, формату відповідей і стійкості до помилкових патернів, зокрема до так званих «doom loops», коли модель застрягає в нескінченному повторенні фрагментів тексту.

Саме тут вступає в гру триступеневе пост-тренування LFM 2.5:

спочатку supervised fine-tuning, який задає базову «мову завдань» і інструкційне слідування;

потім преференційне вирівнювання, що систематично підтягує відповіді до людських уподобань;

і нарешті reinforcement learning, який закриває «on-policy» контур і дозволяє моделі вчитися на власній поведінці в динамічних середовищах.

У сукупності це формує єдиний рецепт для малих фронтирних моделей: не просто зменшена копія пайплайна великих LLM, а адаптований процес, який враховує їхню підвищену чутливість до даних, обмежену ємність і специфічні режими використання.

Supervised fine-tuning: навчити модель говорити мовою завдань

Перший етап пост-тренування LFM 2.5 — supervised fine-tuning (SFT). Його завдання — не «виправити» модель, а навчити її базовим правилам гри: як виглядають інструкції, у якому форматі очікуються відповіді, як структурувати кроки міркування, як оформлювати виклики інструментів.

На цьому етапі модель ще не «знає», що таке людські преференції в тоні, стилі чи безпеці. Вона вчиться насамперед формату й інструкційного слідування. Для малих моделей це критично: через обмежену параметричну ємність вони не можуть дозволити собі «розмазану» багатозадачність, як великі LLM. Натомість їм потрібен чітко окреслений набір завдань, у яких вони мають бути дуже сильними.

У випадку LFM 2.5 команда свідомо обрала пріоритетні напрями: витяг структурованих даних і робота з інструментами. Модель на 350 млн параметрів не має бути найкращою в коді чи математиці, якщо її реальні сценарії використання — це, наприклад, витяг полів із документів або керування зовнішніми API в агентних системах. SFT-дані й мікс завдань підбираються саме під такі цілі.

Ця вузька спрямованість дає дві переваги. По-перше, модель витрачає обмежені параметри на релевантні патерни, а не на загальну «балакучість». По-друге, наступні етапи — преференційне вирівнювання й RL — можуть працювати точніше, оскільки базова поведінка вже структурована й передбачувана.

Для розробників, які планують донавчати LFM 2.5 або подібні малі моделі під власні кейси, це означає просту, але важливу рекомендацію: чим вужче визначене завдання для SFT, тим краще. Якщо модель має викликати конкретну функцію або працювати з певним форматом даних, варто максимально наситити SFT-пайплайн саме такими прикладами, замість намагатися зробити з малої моделі універсального чат-бота.

Преференційне вирівнювання: як зробити малу модель надійною в тісних межах

Після того як модель навчилася базовим форматам і інструкціям, настає етап преференційного вирівнювання. У LFM 2.5 він відіграє особливо важливу роль, оскільки малі моделі мають бути не просто функціональними, а й дуже надійними в умовах жорстких обмежень пам’яті та затримки.

Liquid AI використовує власний on-policy алгоритм преференційного вирівнювання, заснований на length-normalized direct preference optimization. Ключова ідея — не просто «підганяти» модель під статичний датасет пар «краща/гірша відповідь», а генерувати дані за участі самої моделі, оцінювати їх і вчити модель віддавати перевагу кращим варіантам.

Для малих моделей це має кілька наслідків.

По-перше, преференційне вирівнювання дає загальний, не вузькоспеціалізований приріст якості. Після цього етапу модель не лише краще проходить бенчмарки, а й «звучить» краще: відповіді стають більш послідовними, зрозумілими й корисними. Для edge-сценаріїв, де користувач взаємодіє з моделлю напряму, це критично.

По-друге, саме на цьому етапі можна цілеспрямовано боротися з типовими для малих моделей проблемами, такими як doom loops — ситуації, коли модель починає нескінченно повторювати один і той самий фрагмент тексту. Doom loops особливо часто виникають у малих reasoning-моделях на складних завданнях, наприклад у важкій математиці або довгих ланцюжках міркувань.

LFM 2.5 інтегрує боротьбу з doom loops безпосередньо в пайплайн преференційного вирівнювання. Для кожного промпту модель із температурним семплінгом генерує кілька варіантів відповідей, а також один варіант із нульовою температурою, який із високою ймовірністю «залипає» в doom loop. Далі всі варіанти оцінює окрема LLM-журі, і відповіді з doom loops систематично потрапляють у категорію «rejected». У результаті модель під час навчання отримує чіткий сигнал: такі патерни поведінки небажані.

По-третє, преференційне вирівнювання особливо цінне для малих моделей тим, що воно дає «широкий» ефект при відносно невеликому обсязі додаткових даних. Коли параметричний бюджет обмежений, неможливо «зашити» в модель усі можливі сценарії. Натомість можна навчити її загальним принципам, які узгоджуються з людськими уподобаннями, і таким чином підвищити надійність у широкому спектрі ситуацій.

У підсумку преференційне вирівнювання в LFM 2.5 — це не косметичний етап, а центральний механізм, який робить малу модель придатною для реального використання на пристроях, де немає місця для довгих ланцюжків виправлень на бекенді.

Reinforcement learning: завершення on-policy контуру для малих моделей

Останній етап рецепта LFM 2.5 — reinforcement learning (RL). Якщо SFT навчає модель формату, а преференційне вирівнювання — загальним уподобанням, то RL дозволяє відшліфувати поведінку в конкретних, часто складних середовищах, де статичних даних недостатньо.

Для малих моделей RL виявляється особливо ефективним. Навіть за невеликої кількості параметрів підкріплювальне навчання дає змогу суттєво покращити продуктивність у вузьких, але важливих завданнях. Це може бути, наприклад, багатокрокове використання інструментів, складні сценарії витягу даних або специфічні робочі процеси в агентних системах.

Ключова особливість RL у LFM 2.5 — його вузька фокусованість. На відміну від преференційного вирівнювання, яке дає загальний приріст якості, RL спрямований на конкретні середовища й завдання. Чим більше різноманітних середовищ і задач включено в RL-пайплайн, тим краще модель узагальнює, але кожне з них має бути чітко визначеним і добре спроєктованим.

Для малих моделей особливо важливо, щоб RL не працював у вакуумі. Якщо певне завдання виявляється «слизьким» для RL — модель не навчається або поводиться нестабільно — це часто сигнал, що бракує відповідних прикладів у SFT-даних. У такому разі логіка роботи з LFM 2.5 передбачає повернення до попереднього етапу: розширити SFT-мікс прикладами, схожими на ті, що використовуються в RL, і лише потім знову запускати підкріплювальне навчання.

Це підкреслює важливу рису рецепта LFM 2.5: він задуманий як замкнений контур, а не як лінійний конвеєр. RL не просто «додається» в кінці, а взаємодіє з попередніми етапами, виявляючи прогалини в SFT-даних і преференційних сигналах. Для малих моделей, де кожен токен навчання має значення, така циклічність стає ключем до стабільної й передбачуваної поведінки.

У результаті RL завершує on-policy вирівнювання LFM 2.5: модель не лише вчиться на статичних прикладах і людських оцінках, а й адаптується до власної поведінки в реальних або наближених до реальних середовищах. Для edge-сценаріїв, де модель часто працює як частина агентної системи з інструментами, це особливо цінно.

Висновок: фронтир малих моделей — це не «менші GPT», а окрема інженерна дисципліна

Рецепт LFM 2.5 показує, що малі моделі на кшталт 350M-параметрових систем Liquid AI — це не просто зменшені копії великих LLM. Вони вимагають окремої стратегії тренування, яка враховує їхню пам’яткову обмеженість, вузьку спеціалізацію й жорсткі вимоги до затримки.

Ця стратегія складається з трьох ключових ідей.

По-перше, радикальне збільшення обсягу пре-тренувальних даних. 28 трильйонів токенів для 350M-моделі — це свідомий відхід від класичних скейлінг-лаїв, який емпірично окупається, особливо з огляду на новіші підходи до оцінки оптимального масштабу даних.

По-друге, чітко структурований пост-тренінг, де supervised fine-tuning задає мову завдань, преференційне вирівнювання забезпечує загальну якість і надійність, а RL відточує поведінку в конкретних середовищах. Для малих моделей порядок і взаємодія цих етапів мають критичне значення.

По-третє, on-policy підхід до вирівнювання, який дозволяє не лише підганяти модель під статичні датасети, а й систематично боротися з такими проблемами, як doom loops, і виявляти прогалини в SFT-даних через зворотний зв’язок із RL.

У сукупності це формує практичний плейбук для тих, хто хоче будувати власні малі моделі для edge-сценаріїв — від витягу даних до багатокрокового виклику інструментів. LFM 2.5 демонструє, що за правильної стратегії тренування малі моделі можуть не лише наздоганяти, а й перевершувати очікування, працюючи там, де великі LLM просто не поміщаються — у кишені користувача, в автомобілі чи на вбудованому пристрої.


Джерело

Everything I Learned Training Frontier Small Models — Maxime Labonne, Liquid AI

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті