Исследователи обнаружили легкий способ разрушить почти любой искусственный интеллект еще до появления. По их оценкам даже 0,001% ложной информации в учебных данных для ИИ достаточно, чтобы «отравить» его. Поскольку обучающие данные для искусственного интеллекта получаются и в интернете, почти любой может опубликовать онлайн ложную информацию, которая попадет в учебные данные ИИ и «отравит» его.
Исследователи из Университета Нью-Йорка обнаружили, что, несмотря на склонность к генерации ложных ответов, поврежденные искусственные интеллекты все еще работают так же хорошо на эталонах с открытым кодом, регулярно используемых для оценки медицинских ИИ (LLM), как и их свободны от коррупции аналоги.
Другими словами, существуют серьезные риски, связанные с использованием биомедицинских ИИ, которые можно легко не заметить, используя обычные тесты.
«Учитывая текущие призывы к улучшению происхождения данных и прозрачной разработке LLM, — пишет команда в своей статье, — мы надеемся повысить осведомленность о новых рисках, связанных с LLM-ами, которые без разбора учатся на данных, собранных из интернета. особенно в здравоохранении, где дезинформация может потенциально скомпрометировать безопасность пациентов».
В ходе эксперимента исследователи намеренно ввели медицинскую дезинформацию, созданную искусственным интеллектом, в широко используемый набор данных для обучения LLM, известный как The Pile, содержащий высококачественные медицинские корпуса данных, такие как PubMed.
Команда создала в общей сложности 150 000 медицинских статей всего за 24 часа, и результаты были шокирующими, демонстрируя, что невероятно легко – и даже дешево – эффективно отравить LLM.
«Замена только одного миллиона из 100 миллиардов тренировочных токенов (0,001 процента) на дезинформацию о вакцине привела к увеличению вредного содержания на 4,8 процента, достигнутого благодаря внедрению 2000 вредных статей (примерно 1500 страниц) США», – пишут исследователи.
В отличие от инвазивных атак похищения, которые могут заставить LLM отказаться от конфиденциальной информации или даже выполнить код, отравление данных не требует прямого доступа к весовым коэффициентам модели или числовым значениям, которые используются для определения прочности связей между нейронами в ИИ.
Другими словами, злоумышленникам нужно только разместить вредоносную информацию в интернете, чтобы взорвать правдивость LLM.
Исследование подчеркивает риски, связанные с развертыванием инструментов на основе ИИ, особенно в медицинских условиях. И во многом кот уже сбежал из мешка. Например, в прошлом году New York Times сообщила, что коммуникационная платформа MyChart на основе искусственного интеллекта, которая автоматически составляет ответы на вопросы пациентов от имени врачей, регулярно «галюцинирует» ложные записи о состоянии пациента.
«Разработчики искусственного интеллекта и поставщики медицинских услуг должны знать об этой уязвимости при разработке медицинских LLM», — говорится в документе. «LLM не следует использовать для диагностических или терапевтических задач, пока не будут разработаны лучшие средства защиты и необходимы дополнительные исследования безопасности, прежде чем можно будет доверять ИИ в критически важных учреждениях здравоохранения».