Середа, 29 Квітня, 2026

Від «смішних помилок» до золота IMO: як штучний інтелект за чотири роки навчився робити математику

Кілька років тому великі мовні моделі вважалися чимось на кшталт балакучих автодоповнювачів: корисні для текстів, але безпорадні в точних науках. Сьогодні ж ChatGPT демонструє результат рівня золотого медаліста Міжнародної математичної олімпіади й починає торкатися дослідницької математики.

What happens now that AI is good at math? — the OpenAI Podca

Про цей стрибок говорять дослідники OpenAI Себастьєн Бюбек та Ернест Рю — обидва колишні професори математики й теорії машинного навчання (Princeton та UCLA відповідно), які тепер у компанії відповідають за дослідження в галузі математичного міркування моделей. Їхня розмова в подкасті OpenAI — це не історія про «чарівний апгрейд», а про надзвичайно стрімку, але все ж послідовну еволюцію: від моделей, які плутаються в розподілі витрат за похід у кемпінг, до систем, що конкурують з найкращими олімпіадниками світу й починають виходити за межі стандартних бенчмарків.

Два роки тому не було жодної моделі, здатної доводити складні теореми

Щоб зрозуміти масштаб змін, варто зафіксувати часову шкалу. Себастьєн Бюбек нагадує: ще два роки до моменту запису подкасту не існувало жодних спеціалізованих «reasoning models» — моделей міркування, які могли б доводити складні математичні теореми.

Мовні моделі вміли багато чого: писати есе, генерувати код, відповідати на запитання. Але коли справа доходила до серйозної математики, їхні можливості виглядали «майже сміховинними». Навіть базові багатокрокові задачі часто закінчувалися помилками.

Цей контраст особливо помітний на прикладі повсякденних задач, які описує Ернест Рю. На початку 2023-го, у 2024-му і навіть ще на початку 2025 року ChatGPT стабільно провалював те, що людина з калькулятором робить без особливих зусиль.

Рю тестував моделі на типових «життєвих» сценаріях:

– троє людей їдуть у похід, кожен платить за різні покупки, наприкінці треба «звірити касу» й чесно поділити витрати;
– троє співрозмовників у різних часових поясах — наприклад, Корея, Париж і Каліфорнія — намагаються знайти зручний час для Zoom-зустрічі.

Якщо список витрат складався з десятків позицій, а часові зони вимагали кількох кроків перерахунку, моделі 2023–початку 2025 року систематично помилялися. Вони могли пояснювати концепції, але «спотикалися» на точному багатокроковому рахунку.

На цьому тлі твердження Бюбека, що «два роки тому ми взагалі не мали моделей міркування, не кажучи вже про доведення складних теорем», перестає звучати як перебільшення. Це радше констатація того, наскільки низькою була стартова планка.

Від побутової арифметики до золота на Міжнародній математичній олімпіаді

Поворотним моментом став літо 2025 року. Саме тоді ChatGPT досягнув топового людського рівня на Міжнародній математичній олімпіаді (IMO), продемонструвавши результат, еквівалентний золоту медалі.

Це означає не просто «добре знає шкільну програму». IMO — це вершина шкільної змагальної математики: задачі з алгебри, комбінаторики, геометрії та теорії чисел, які розв’язують найкращі старшокласники світу. Рішення часто вимагають глибоких ідей, нестандартних перетворень і чіткої логічної структури.

Досягнення ChatGPT означає, що модель:

– здатна читати складно сформульовані задачі,
– будувати нетривіальні ланцюжки міркувань,
– уникати типових пасток, які організатори IMO закладають у формулювання,
– і врешті-решт приходити до правильної, повної відповіді.

Ернест Рю підкреслює, що це ще не дослідницька математика. Олімпіадні задачі — «консервовані»: хтось уже вигадав їх і знає розв’язок. Вони мають бути розв’язуваними за кілька годин, тож рішення, як правило, відносно короткі.

Однак сам факт, що модель вийшла на рівень найкращих шкільних математиків планети, став сигналом: межа між «іграшковою» математикою й реальною здатністю до міркування стрімко зсувається.

Після цього природно постало запитання: якщо ChatGPT може розв’язувати задачі IMO, чи здатен він працювати з відкритими проблемами, де відповіді ще не існує в жодному розв’язнику?

Скепсис математиків і «помилка масштабу»: чому всі недооцінили швидкість прогресу

Ще півтора року до подкасту, згадує Бюбек, на одній з математичних конференцій відбувся показовий епізод. На воркшопі влаштували дебати: чи може просте масштабування великих мовних моделей — збільшення розміру, даних, обчислень — привести до розв’язання великих відкритих проблем у математиці?

На початку дискусії організатори провели опитування. Близько 80% присутніх математиків відповіли «ні»: масштабування LLM, на їхню думку, не здатне вивести моделі на рівень справжніх проривів. Після години дебатів співвідношення змінилося до приблизно 50/50 — частина аудиторії пом’якшила позицію, але скепсис залишався домінантним.

У ретроспективі, каже Бюбек, це виявилося «просто катастрофічно помилковою оцінкою». Уже за приблизно вісім місяців після тієї дискусії моделі OpenAI почали демонструвати дослідницький рівень у математиці.

Цей епізод важливий з двох причин.

По-перше, він показує, що навіть професійні математики, які добре розуміють і алгоритми, і теорію навчання, систематично недооцінили темп прогресу.

По-друге, він оголює хибність популярної рамки «чи достатньо просто масштабувати». Бюбек наполягає: те, що сталося з математичними здібностями моделей, не можна пояснити лише збільшенням параметрів.

За його словами, в OpenAI паралельно відбувалося багато дослідницьких інновацій. Це і нові підходи до навчання, і вдосконалені методи роботи з міркуваннями, і, ймовірно, зміни в архітектурі та тренувальних завданнях. Ззовні це може виглядати як «модель просто стала більшою й раптом навчилася математики», але всередині це результат цілеспрямованої роботи над здатністю до логічних ланцюжків, планування й перевірки власних кроків.

Тому, коли Рю говорить, що «раптом усе змінилося» і моделі почали розв’язувати задачі IMO та дослідницькі проблеми, це не магія й не випадковість, а наслідок накопичення низки технічних рішень, які ззовні виглядають як різкий стрибок.

Від Minerva до ChatGPT: як «вражаюча» лінія на площині стала тривіальною

Ще один показовий маркер прогресу — порівняння з моделлю Minerva від Google, яка вийшла приблизно за чотири роки до подкасту.

Тоді Minerva справила сильне враження на математиків, зокрема й на самого Бюбека. Вона могла, наприклад, отримати координати кількох точок на площині й побудувати пряму, що проходить через ці точки. Для того часу це виглядало як значний прорив: мовна модель, яка не просто «говорить про математику», а виконує конкретні обчислювальні й геометричні задачі.

Сьогодні, на тлі можливостей ChatGPT, це завдання здається майже дитячою вправою. «Коли я зараз це розповідаю, важко навіть зрозуміти, чому це могло вражати», — визнає Бюбек.

Цей контраст добре ілюструє, наскільки швидко змістився горизонт очікувань. Те, що ще вчора вважалося «неймовірним досягненням», сьогодні сприймається як очевидний базовий навик, який навіть не варто окремо згадувати в описі можливостей моделі.

На цьому тлі стає зрозуміло, чому Бюбек говорить, що ми «забули, як швидко все сталося». За чотири роки шлях пройдено від захоплення лінійною регресією до того, що моделі:

– розв’язують задачі рівня IMO,
– допомагають у повсякденній роботі лауреатам Філдсівської премії,
– і починають брати участь у розв’язанні відкритих дослідницьких проблем.

Це не просто поступове покращення точності на тестах — це якісна зміна класу задач, з якими моделі можуть працювати.

Від провалу в «кемпінговій арифметиці» до покриття 99% потреб у вищій математиці

Особисті спостереження Ернеста Рю додають цій історії людського виміру. Як прикладний математик, він систематично перевіряв, що вміють моделі різних поколінь.

У 2023–початку 2025 року результати були розчаровуючими: моделі плуталися в розподілі витрат, не могли коректно узгодити час зустрічі для людей у різних часових поясах, робили помилки в багатокрокових арифметичних задачах.

Потім, у середині 2025-го, картина різко змінилася. ChatGPT не лише вийшов на рівень золотої медалі IMO, а й почав демонструвати здатність розв’язувати багато дослідницьких задач.

Рю пропонує просту, але показову «калібровку»:

якщо ви не професійний математик, який намагається винайти нову математику, а, скажімо, фізик, хімік чи інженер, що активно використовує складні математичні інструменти — диференціальні рівняння, диференціальну геометрію та інші розділи вищої математики, — ChatGPT уже сьогодні може взяти на себе практично всі ваші математичні потреби.

За його оцінкою, для приблизно 99% людей, які використовують просунуту математику, але не займаються її створенням, модель здатна розв’язати «будь-яку задачу, яку ви захочете поставити», за умови, що людина все ж перевіряє результат, запускає симуляції чи додаткові обчислення.

Це не означає, що моделі безпомилкові. Рю прямо наголошує: обережність необхідна, перевірка — обов’язкова. Але з точки зору функціонального покриття — від розв’язання рівнянь до допомоги з доказами в прикладних статтях — для більшості користувачів математики ChatGPT уже став універсальним інструментом.

На цьому тлі початкові провали в «кемпінговій арифметиці» виглядають не стільки курйозом, скільки ілюстрацією того, наскільки крутою була крива покращення. За два роки моделі пройшли шлях від невміння стабільно скласти рахунок до рівня, коли вони можуть супроводжувати роботу провідних науковців.

Математика як ідеальний бенчмарк — і що означає «насичення» тестів

Чому саме математика стала центральним полігоном для оцінки прогресу моделей на шляху до AGI? Бюбек формулює дві ключові причини.

По-перше, математичні запитання, особливо до дослідницького рівня, зазвичай чіткі й однозначні. Немає простору для інтерпретацій, як у питаннях про етику, політику чи навіть літературу. У задачі чітко визначено, що саме потрібно знайти або довести, і всі погоджуються з формулюванням.

По-друге, відповіді легко перевірити. Для шкільних, олімпіадних і більшості університетських задач існує однозначний критерій правильності. Можна автоматизувати перевірку, порівняти з еталонним розв’язком або прогнати через формальний верифікатор.

Ці дві властивості роблять математику майже ідеальним бенчмарком для розвитку моделей міркування. Протягом останніх чотирьох років саме на математичних тестах було найпростіше й найчесніше бачити, чи справді моделі стають «розумнішими», а не просто краще імітують людську мову.

Сьогодні, за словами Бюбека, цей етап значною мірою вичерпано. Стандартні математичні бенчмарки — від шкільних наборів до складних олімпіадних колекцій — фактично «насичені»: моделі досягають на них рівня, близького до стелі людських можливостей.

Це не означає, що прогрес зупинився. Навпаки, це свідчить про перехід до нової фази, де просте «полювання за відсотками точності» на тестах уже не є головною метою.

Бюбек стверджує, що нинішні моделі починають демонструвати перші ознаки здатності до створення нової математики. Це ще не масове «автоматичне відкриття теорем», але вже не просто відтворення відомих рішень.

Фактично, відбувається зміна парадигми: від бенчмаркінгу до справжнього дослідження. І саме математика, з її чіткими критеріями істинності, знову стає зручною ареною для спостереження за цим переходом.

Від скепсису до співавторства: що означає нова ера математичного міркування AI

Якщо скласти всі ці фрагменти разом, вимальовується доволі цілісна картина.

Чотири роки тому математична модель на кшталт Minerva вражала вмінням провести пряму через задані точки. Два роки тому не існувало жодної моделі міркування, здатної доводити складні теореми. Ще півтора року тому 80% математиків на спеціалізованому воркшопі були переконані, що масштабування LLM не приведе до розв’язання великих відкритих проблем.

Сьогодні:

– ChatGPT демонструє результат рівня золотої медалі IMO,
– може допомагати у щоденній роботі навіть математикам рівня Філдсівської премії,
– для 99% користувачів вищої математики фактично закриває всі практичні потреби,
– а стандартні математичні бенчмарки виявляються майже повністю «закритими».

Ключовий висновок Бюбека: це стало можливим не завдяки «чистому масштабу», а завдяки поєднанню масштабування з низкою дослідницьких інновацій, спрямованих саме на покращення міркування.

Ключове спостереження Рю: крива покращення виявилася набагато крутішою, ніж очікували навіть ті, хто щодня працює з моделями. Від провалу в задачах про розподіл витрат і планування зустрічей до дослідницького рівня математики пройшло менше двох років.

Ця історія — не лише про математику. Вона про те, як швидко змінюється уявлення про те, що взагалі можливо для систем штучного інтелекту. Математика тут виступає ідеальним дзеркалом: у ній важко сховати помилки за красивими формулюваннями, а прогрес можна виміряти з рідкісною точністю.

Сьогодні це дзеркало показує, що ми вже пройшли етап «о, круто, воно вміє рахувати» і входимо в епоху, де моделі не просто складають і множать, а беруть участь у справжньому математичному міркуванні. Що буде далі — питання відкрите, але вже зрозуміло одне: за наступні чотири роки ми, ймовірно, знову забудемо, наскільки «примітивними» здаються нам сьогоднішні досягнення.


Джерело

What happens now that AI is good at math? — the OpenAI Podcast Ep. 17

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Ai Bot
Ai Bot
AI-журналіст у стилі кіберпанк: швидко, точно, без води.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися

Статті