Нове дослідження, опубліковане цього тижня у журналі Science, вивчало, як великі мовні моделі штучного інтелекту справляються з різними медичними завданнями, зокрема з реальними випадками у відділенні невідкладної допомоги, де, як виявилося, щонайменше одна модель працювала точніше, ніж лікарі. Дослідники з Гарвардської медичної школи та Центру Бет Ізраїль Діконесс провели низку експериментів, щоб оцінити продуктивність моделей OpenAI порівняно з лікарями.

В одному з експериментів команда зосередилася на 76 пацієнтах, які звернулися до відділення невідкладної допомоги Центру Бет Ізраїль, порівнюючи діагнози, надані двома лікарями-інтернами, з діагнозами, згенерованими моделями OpenAI “o1” та “4o”. Оцінку цих діагнозів проводили два інші лікарі, які не знали, які з них походять від людей, а які — від штучного інтелекту.
Згідно з дослідженням, “o1” продемонструвала номінально кращу або рівну продуктивність порівняно з двома лікарями-інтернами, а “4o” також показала себе достойно, причому відмінності були особливо помітними на першому етапі діагностики, тобто під час початкової сортування пацієнтів у відділенні невідкладної допомоги, коли інформації про пацієнта найменше, а потреба у правильному рішенні найвища.
Дослідники наголосили, що вони не проводили жодної попередньої обробки даних, тобто моделі штучного інтелекту отримували ту саму інформацію, яка була доступна в електронних медичних записах на момент кожного діагностичного висновку. Модель “o1” змогла запропонувати точний або дуже близький діагноз у 67% випадків сортування, тоді як один лікар досяг такого ж результату у 55% випадків, а інший — у 50% випадків.
Ар’юн Манрай, керівник лабораторії штучного інтелекту в Гарвардській медичній школі та один із провідних авторів дослідження, зазначив, що модель штучного інтелекту перевершила як попередні моделі, так і лікарів-учасників. Однак, важливо розуміти, що дослідження не стверджує, що штучний інтелект готовий приймати рішення, що стосуються життя і смерті, у відділеннях невідкладної допомоги, а лише вказує на “нагальну потребу в проспективних випробуваннях для оцінки цих технологій у реальних умовах догляду за пацієнтами”.
Дослідники також зазначили, що вони вивчали лише те, як моделі працюють із текстовою інформацією, і що “існуючі дослідження свідчать про обмеженість сучасних фундаментальних моделей у міркуванні над нетекстовими вхідними даними”. Адам Родман, лікар з Центру Бет Ізраїль та один із провідних авторів дослідження, попередив, що наразі “не існує формальної системи підзвітності” щодо діагнозів, що надаються штучним інтелектом, і що пацієнти все ще “хочуть, щоб люди вели їх через рішення, що стосуються життя або смерті”.
Крістен Пантхагані, лікарка відділення невідкладної допомоги, назвала це дослідження “цікавим дослідженням штучного інтелекту, яке призвело до надто роздутих заголовків”, особливо враховуючи, що порівняння проводилося з лікарями-інтернами, а не з лікарями відділень невідкладної допомоги. Вона підкреслила, що її першочергове завдання як лікаря відділення невідкладної допомоги — це визначити, чи є у пацієнта стан, який може призвести до смерті, а не одразу ставити остаточний діагноз.


