Новое исследование, опубликованное на этой неделе в журнале Science, изучало, как большие языковые модели искусственного интеллекта справляются с различными медицинскими задачами, в том числе с реальными случаями в отделении неотложной помощи, где, как оказалось, по крайней мере одна модель работала точнее, чем врачи. Исследователи из Гарвардской медицинской школы и Центра Бет Израиль Диконесс провели ряд экспериментов, чтобы оценить производительность моделей OpenAI по сравнению с врачами.

В одном из экспериментов команда сосредоточилась на 76 пациентах, обратившихся в отделение неотложной помощи Центра Бет Израиль, сравнивая диагнозы, предоставленные двумя врачами-интернами, с диагнозами, сгенерированными моделями OpenAI «o1» и «4o». Оценку этих диагнозов проводили два других врача, которые не знали, какие из них исходят от людей, а какие — от искусственного интеллекта.
Согласно исследованию, «o1» продемонстрировала номинально лучшую или равную производительность по сравнению с двумя врачами-интернами, а «4o» также показала себя достойно, причем различия были особенно заметны на первом этапе диагностики, то есть во время первичной сортировки пациентов в отделении неотложной помощи, когда информации о пациенте меньше всего, а потребность в правильном решении самая высокая.
Исследователи подчеркнули, что они не проводили никакой предварительной обработки данных, то есть модели искусственного интеллекта получали ту же информацию, которая была доступна в электронных медицинских записях на момент каждого диагностического вывода. Модель «o1» смогла предложить точный или очень близкий диагноз в 67% случаев сортировки, тогда как один врач достиг такого же результата в 55% случаев, а другой — в 50% случаев.
Арьюн Манрай, руководитель лаборатории искусственного интеллекта в Гарвардской медицинской школе и один из ведущих авторов исследования, отметил, что модель искусственного интеллекта превзошла как предыдущие модели, так и врачей-участников. Однако, важно понимать, что исследование не утверждает, что искусственный интеллект готов принимать решения, касающиеся жизни и смерти, в отделениях неотложной помощи, а лишь указывает на «неотложную потребность в проспективных испытаниях для оценки этих технологий в реальных условиях ухода за пациентами».
Исследователи также отметили, что они изучали только то, как модели работают с текстовой информацией, и что «существующие исследования свидетельствуют об ограниченности современных фундаментальных моделей в рассуждении над нетекстовыми входными данными». Адам Родман, врач из Центра Бет Израиль и один из ведущих авторов исследования, предупредил, что в настоящее время «не существует формальной системы подотчетности» в отношении диагнозов, предоставляемых искусственным интеллектом, и что пациенты все еще «хотят, чтобы люди вели их через решения, касающиеся жизни или смерти».
Кристен Пантхагани, врач отделения неотложной помощи, назвала это исследование «интересным исследованием искусственного интеллекта, которое привело к чрезмерно раздутым заголовкам», особенно учитывая, что сравнение проводилось с врачами-интернами, а не с врачами отделений неотложной помощи. Она подчеркнула, что ее первоочередная задача как врача отделения неотложной помощи — это определить, есть ли у пациента состояние, которое может привести к смерти, а не сразу ставить окончательный диагноз.


