Субота, 4 Липня, 2026

Багатошарова безпека GPT‑5.6 Sol: чим OpenAI відрізняється від Mythos

На подкасті Mixture of Experts від IBM Technology програмний директор з AI‑open‑innovation Лорен Мак’ю Оленде, IBM Fellow Куш Варшнеї та інженер Кріс Хей розбирають нову лінійку OpenAI GPT‑5.6 Sol, Terra та de Luna — і порівнюють її з нещодавніми моделями Anthropic Fable та Mythos. Розмова швидко виходить за межі бенчмарків і переходить до того, що насправді змінюється у безпеці frontier‑моделей: від «оборони в глибину» до дивної нової мети релізів з обмеженим доступом і примусовим лімітом «часу мислення» моделей.

Від «голого» Mythos до «оборони в глибину» Sol

У порівнянні двох таборів — Anthropic і OpenAI — панель майже одностайна: за загальними можливостями моделі рухаються «носа‑в‑ніс», витрачаючи колосальні ресурси й приходячи приблизно до однакових рівнів. Відчутний розрив з’являється саме на рівні безпекових підходів.

Anthropic Mythos описується як «оголена» модель: базовий потужний LLM без додаткових «поясів безпеки». Над нею — Fable з однією яскраво окресленою захисною надбудовою: класифікатором, що фільтрує шкідливі або небажані відповіді. Тобто це по суті один шар безпеки над загальним engine.

Sol, згідно з описом панелі, виглядає принципово інакше. Йдеться вже не про один класифікатор, а про повноцінну «оборону в глибину»:

  • додаткове навчання безпосередньо всередині моделі з урахуванням безпекових цілей;
  • «фенсі» гардрейли поверх цього — складніші зовнішні обмежувачі, що фільтрують шкідливий контент;
  • окремий reasoning‑модуль, який перевіряє й аналізує відповіді перед їхнім виводом назовні.

Це перетворює Sol на своєрідний багатошаровий конвеєр: базова модель генерує, надбудовні механізми оцінюють, reasoning‑модуль переглядає і лише після цього відповідь потрапляє до користувача. На думку учасників, саме тут видно певну дивергенцію підходів OpenAI та Anthropic — не стільки в «сирій» потужності, скільки в архітектурі безпеки.

Цікаво й те, що такий безпековий зсув для Sol сприймається як певне повернення OpenAI до власного раннього іміджу. Панель нагадує: якщо відкрити сайт компанії зразка 2019 року, там фактично все було про безпеку. На тлі пізніших гучних релізів із фокусом на можливостях новий, надміру обережний Sol виглядає як відновлення цього «початкового» характеру.

Наукове «мислення» Sol: 7% точності й знижений «поріг тривоги»

Окремий блок дискусії — заявлена здатність Sol до наукового міркування. Модель позиціонується як краща саме в scientific reasoning, і учасники визнають, що сама поява такого фокусу — вже важливий крок.

Однак конкретні бенчмарки швидко «приземляють» очікування. На тесті, де модель мала передбачити, який білок зв’яжеться з яким сайтом або яка молекула зв’яжеться з певною ціллю, точність Sol становила лише 7%. Звучить вражаюче, якщо згадати, що ще кілька років тому сама постановка такого завдання для мовної моделі здавалась б фантастикою. Але цифра залишається цифрою: це все ще дуже далеко від рівня, коли варто говорити про реальну автономну наукову небезпеку.

На цьому тлі показовим виглядає й те, як змінилася внутрішня шкала ризиків розробників. За словами панелі, перед попереднім релізом було проведено серію інтерв’ю з експертами, які мали визначити «критичний» рівень точності для такого біомедичного завдання. Тоді «поріг тривоги» поставили на 50%: якщо модель матиме хоча б половину правильних відповідей, варто серйозно замислюватися про ризики зловживання.

Тепер цей поріг знижено до 30%. Логіка проста: якщо система досягає навіть третьої частини коректних передбачень у таких сферах, як білково‑лігандні взаємодії, це вже має турбувати регуляторів і розробників. Попри те, Sol все одно «дуже далеко» від цього рівня — 7% виглядають радше як демонстрація напрямку, ніж як практичний інструмент.

Учасники відзначають, що через відсутність прориву на рівні reasoning, подібного до «ланцюжка міркувань» з ранніх поколінь моделей, нинішня гонка дедалі більше нагадує полювання за «кутовими кейсами». Наприклад: є сотні сайтів зв’язування і кілька десятків білків — як змінюється точність у кожному новому релізі? Це цікаво як науковий поступ, але ще не революція у здатності моделі мислити чи планувати.

Поетапний реліз: «відповідальний підхід» чи двошаровий світ доступу

Ще одна особливість GPT‑5.6 Sol — формат запуску. OpenAI обрала «mythos‑стиль»: спочатку доступ отримують лише кілька обраних організацій, потім — поступове розширення до ширшого кола користувачів і розробників.

Кріс Хей називає це «дурним способом релізу моделей» і визнає, що частково це просто FOMO: дослідники й інженери, які хочуть погратися з новою технологією, автоматично опиняються «з іншого боку стіни». Але за емоційною реакцією стоїть і принципова позиція.

По‑перше, обмежений доступ створює де‑факто двокласову систему: «особливі» гравці, які першими отримують frontier‑можливості, і всі інші, що чекають місяцями. На думку Хея, це погано як для інновацій, так і для екосистеми безпеки — найкращий спосіб знайти реальні проблеми моделі, це викинути її «в світ» і дати тисячам людей шанс зламати, обійти, зловживати й досліджувати. Тоді вади проявляються швидко й масово.

По‑друге, така практика слабко узгоджується з ідеалами відкритості, які вважаються ключовими для AI‑спільноти. Розповсюджене переконання: чим більше очей дивиться на модель, тим швидше виявляються і безпекові діри, і системні упередження. Коли ж доступ сконцентрований у руках кількох структур, виникає питання, чи мають вони потрібні навички, час і мотивацію для глибокого тестування, і які саме тести вони проводять.

Водночас панель визнає, що для самого OpenAI такий формат зручний як демонстрація «відповідальності». Перед регуляторами та публікою легко сказати: модель небезпечно потужна, тому її спершу дають лише «перевіреним» партнерам, щоб показати, що вона «не робить нічого поганого». Один із учасників прямо називає це театром саме на рівні процесу релізу — але не на рівні технічних змін безпеки, які в Sol справді виглядають суттєвими.

В обговоренні з’являється й ще один нюанс: такий поетапний формат може не надто шкодити екосистемі open‑source, яка, за оцінками панелі, відстає від пропрієтарних моделей на 0–12 місяців (умовний «середній» лаг — близько пів року). Навіть якщо регулятори вимагають 30‑денного чи 90‑денного періоду обмеженого доступу перед повномасштабним запуском, цього недостатньо, щоб «з’їсти» часову перевагу великих вендорів. Ринок розробників реагує блискавично, й навіть один день раннього доступу здатен подарувати продуктовий перший хід.

Однак питання залишається: хто саме входить до вузького клубу перших користувачів Sol і чи є в них спроможність виконувати роль фактичних бета‑аудиторів модельної безпеки.

«Ефективніші токени» і обмеження часу міркування

Менш помітна, але не менш важлива особливість GPT‑5.6 Sol — поведінка моделі на бенчмарках з точки зору токенів. Панель звертає увагу на те, що, судячи з відкритих даних, Sol та інші моделі лінійки працюють значно меншою кількістю токенів, ніж системи Anthropic, щоб досягти подібних результатів.

Це інтерпретується як явний «драйв до токенної ефективності» з боку OpenAI. Один із учасників згадує звіт про те, що компанія нібито знайшла спосіб зробити використання токенів ефективнішим, але й додає: справа не лише в цьому. Складається враження, що OpenAI свідомо обмежує «час думання» моделей.

У дискусії наводиться позиція одного з ключових дослідників reasoning‑моделей у компанії: якщо дати моделі «думати нескінченно довго», вона зрештою знайде правильну відповідь майже на все. Безпековий висновок із цього: якщо для отримання справді небезпечного виводу моделі потрібно 100 тисяч, мільйон або 10 мільйонів токенів, достатньо просто обрізати цей процес задовго до фінішу.

Звідси припущення: OpenAI може архітектурно контролювати тривалість reasoning‑ланцюжків — як у навчанні, так і в інференсі. Модель навчається «думати ефективно» в межах відносно коротких ланцюгів, а у продакшн‑режимі обчислення просто відтинаються після певного порога. Отже:

  • скорочуються витрати на інференс, що критично при масовому розгортанні;
  • зменшується ймовірність того, що модель «продумається» до складних, небажаних або шкідливих інструкцій;
  • зʼявляється додатковий важіль керування безпекою: не лише «що» модель може сказати, а й «скільки часу» вона має, щоб до цього дійти.

Панель підкреслює, що ззовні це можна побачити як пониження загальної кількості токенів на завдання порівняно з конкурентами, але архітектурна логіка, ймовірно, глибша — це спроба інтегрувати контроль за reasoning у саму основу системи.

Безпека як еволюція, а не маркетинговий слоган

У сумі GPT‑5.6 Sol постає як модель, де безпека перестає бути лише питанням фільтрів чи зовнішніх політик використання. Багатошарова оборона — від спеціального навчання до окремих reasoning‑перевірок — поєднується з обмеженням часу міркування та новою культурою поетапних релізів.

Панель не ідеалізує цю модель. Наукове «мислення» Sol поки що далеке від рівня, здатного кардинально змінити ризиковий профіль, а обмежений доступ більше схожий на PR‑жест, ніж на справді надійний механізм контролю. Але водночас визнано: у порівнянні з «голим» Mythos і відносно простим Fable, Sol демонструє відчутно іншу філософію безпеки.

Для розробників, які будують продукти поверх frontier‑API, це означає зміну правил гри. Безпека дедалі сильніше вшивається безпосередньо в архітектуру моделей, а не лише в зовнішні фреймворки, і контроль над тим, «як довго» модель думає, може виявитися не менш важливим, ніж відповідь на питання «про що» вона здатна думати.

Чи закріпиться міфос‑подібний поетапний реліз як новий стандарт, і наскільки ефективною виявиться багатошарова оборона Sol на практиці, стане зрозуміло лише тоді, коли модель опиниться в руках ширшої спільноти. Але вже зараз видно: еволюція безпеки LLM відбувається не в прес‑релізах, а в деталях архітектури — і в тому, хто, коли й на яких умовах отримує до неї доступ.


Джерело

Mixture of Experts, IBM Technology — «GPT-5.6 Sol, FIFA AI & Wall Street’s AI nerves»
https://www.youtube.com/watch?v=tV5zXS78HzU

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті