Одним из ключевых этапов подтверждения какой-либо научной теории является ее комментирование другими учеными. Чаще это происходит в форме рецензий к научным статьям. Но пока научные журналы зарабатывают огромные деньги (одно из четырех крупнейших научных издательств Elsevier получило в 2022 году доход 2,9 млрд фунтов стерлингов), продавая журналы с рецензируемыми статьями (какую-то отдельную статью от Elsevier можно почитать за $31,50), рецензен безвозмездной основе. Найти желающих работать бесплатно становится все труднее, поэтому учёные обращаются к искусственному интеллекту по рецензии.
Рецензирование — это процесс, в ходе которого исследователи из той же области проверяют данную научную работу, сравнивая ее с ранее опубликованными статьями и принципами. Ожидается, что рецензенты могут добавить глубины или полностью опровергнуть выводы авторов.
Считается, что рецензирование укрепляет работу исследователей и способствует оригинальности, что делает его старым стандартом для научных публикаций. Хотя ряд исследований показывает, что механизм рецензирования не эффективен. Например, сначала рецензенты могут дать положительное заключение статьи, но они «зарежут» эту же статью, если ее подать им повторно через несколько месяцев. В одном из экспериментов (проведенном еще в 1980-х) 90% рецензентов высказались против публикации статей, которые действительно были повторной подачей и были давно опубликованы.
Как бы то ни было, но сейчас система научной работы опирается на рецензирования и недостающих рецензентов.Поэтому доцент Джеймс Зу кафедры науки о биомедицинских данных Стэнфордского университета хотел проверить, могут ли чат-боты искусственного интеллекта реально заменить людей во время процесса экспертной проверки.
Он и его коллеги собрали около 5000 предварительно рассмотренных исследовательских статей от Nature и Международной конференции по представлениям об обучении (ICLR). После передачи PDF-файлов в ChatGPT команда Zou сравнила отзывы чат-бота с теми, которые раньше предоставляли люди.
Приблизительно треть баллов, поднятых ChatGPT, совпадала с теми, которые поставили рецензенты, с несколько большим перекрытием в документах ICLR.
Цзоу обратился к сотням исследователей, чьи статьи были задействованы в его эксперименте. Как показал опрос, разработанный командой Зоу, более половины (57,4%) этих исследователей считают отзывы ChatGPT «полезными» или «очень полезными».
Подавляющее большинство (82,4%) даже считают отзывы ChatGPT более полезными, чем по крайней мере некоторых рецензентов. К сожалению, опрос не учел, были ли отзывы ChatGPT иногда ошибочными, что очень важно в эпоху дезинформации от чат-ботов.
Исследование Зоу по иронии судьбы все еще ожидает рецензии и оно не опубликовано в авторитетном научном журнале. Но оно доступно на сайте arXiv и раскрывает интересную дилемму. ChatGPT действительно лучше предоставляет исследователям обратную связь, чем собственные коллеги этих исследователей? Или преобладающая некомпенсационная модель рецензирования мешает квалифицированным рецензентам предоставлять качественную информацию?
По материалам: Extremetech