Нове дослідження перевірило, як великі мовні моделі працюють у різних медичних сценаріях, зокрема на реальних випадках у відділенні невідкладної допомоги — і принаймні одна модель виявилася точнішою за лікарів.

Робота опублікована цього тижня в журналі Science. Над нею працювала команда лікарів і компʼютерних науковців з Гарвардської медичної школи та медичного центру Beth Israel Deaconess. Дослідники провели серію експериментів, щоб порівняти моделі OpenAI з людськими лікарями.
В одному з експериментів вони проаналізували 76 пацієнтів, які потрапили до приймального відділення Beth Israel. Діагнози, які ставили двоє лікарів-інтерністів (attending physicians з внутрішньої медицини), порівнювали з діагнозами, згенерованими моделями OpenAI o1 та 4o. Ці висновки оцінювали ще двоє лікарів-інтерністів, які не знали, де відповіді людей, а де — ШІ.
«На кожному діагностичному етапі модель o1 показувала або дещо кращі результати, або не гірші, ніж два лікарі та 4o», — йдеться у дослідженні. Різниця була «особливо помітною на першому діагностичному етапі (первинний тріаж у невідкладній), коли про пацієнта доступно найменше інформації, а потреба в правильному рішенні — найвища».
У пресрелізі Гарвардської медичної школи наголошується, що дослідники взагалі не «попередньо обробляли дані» — моделі ШІ отримували ту ж інформацію, яка була в електронній медкарті на момент постановки діагнозу.
За цих умов модель o1 змогла дати «точний або дуже близький до точного діагноз» у 67% випадків під час тріажу. Для порівняння, один із лікарів був настільки ж точним у 55% випадків, інший — у 50%.
«Ми протестували модель ШІ практично на всіх доступних бенчмарках, і вона перевершила як попередні моделі, так і наших лікарів-базові орієнтири», — сказав Арджун Манрай, керівник лабораторії ШІ в Гарвардській медичній школі та один з провідних авторів роботи.
При цьому дослідження не стверджує, що ШІ вже готовий самостійно ухвалювати рішення про життя і смерть у відділенні невідкладної допомоги. Автори підкреслюють, що їхні результати свідчать радше про «нагальну потребу у проспективних клінічних випробуваннях цих технологій у реальних умовах надання медичної допомоги».
Дослідники також зазначили, що оцінювали лише роботу моделей із текстовою інформацією і що «наявні роботи свідчать: поточні базові моделі значно обмеженіші в міркуванні над нетекстовими даними».
Адам Родман, лікар Beth Israel та один із провідних авторів дослідження, у коментарі Guardian застеріг, що нині «не існує формальної системи відповідальності» за діагнози, які пропонує ШІ. Крім того, пацієнти, за його словами, все ще «хочуть, щоб люди супроводжували їх у рішеннях про життя і смерть і допомагали з непростими виборами лікування».
В окремому дописі про це дослідження лікарка невідкладної допомоги Крістен Пантагалі назвала його «цікавим дослідженням ШІ, яке спричинило дуже перехайплені заголовки». Вона звернула увагу на те, що ШІ порівнювали з лікарями внутрішньої медицини, а не з фаховими лікарями невідкладної допомоги.
«Якщо ми збираємося порівнювати інструменти ШІ з клінічними навичками лікарів, слід почати з порівняння з тими, хто реально працює в цій спеціальності», — зазначила Пантагалі. «Я не здивуюся, якщо LLM зможе обійти дерматолога на іспиті з нейрохірургії, але це не надто корисна інформація».
Вона також наголосила: «Як лікарка невідкладної допомоги, яка вперше бачить пацієнта, моя головна мета — не вгадати ваш остаточний діагноз. Моя головна мета — зʼясувати, чи є у вас стан, який може вас убити».
Публікацію й заголовок оригінальної статті оновили, щоб уточнити, що в дослідженні порівнювалися діагнози лікарів внутрішньої медицини, а також щоб додати коментарі Крістен Пантагалі.


