Середа, 15 Січня, 2025

Навіть 0,001% неправдивих даних достатньо, щоб «отруїти» штучний інтелект

Дослідники виявили легкий спосіб зруйнувати майже будь-який штучний інтелект ще до його появи. За їхніми оцінками, навіть 0,001% неправдивої інформації в навчальних даних для ШІ достатньо, щоб «отруїти» його. Оскільки навчальні дані для штучного інтелекту отримуються і інтернету, майже будь-хто може опублікувати онлайн неправдиву інформацію, яка потрапить в навчальні дані ШІ та «отруїть» його.

Дослідники з Університету Нью-Йорка виявили, що, незважаючи на схильність до генерації неправдивих відповідей, пошкоджені штучні інтелекти все ще працюють так само добре на еталонах із відкритим кодом, які регулярно використовуються для оцінки медичних ШІ (LLM), як і їх вільні від корупції аналоги.

Іншими словами, існують серйозні ризики, пов’язані з використанням біомедичних ШІ, які можна легко не помітити, використовуючи звичайні тести.

«З огляду на поточні заклики до покращення походження даних і прозорої розробки LLM, — пише команда у своїй статті, — ми сподіваємося підвищити обізнаність про нові ризики, пов’язані з LLM-ами, які без розбору навчаються на даних, зібраних з інтернету, особливо в охороні здоров’я, де дезінформація може потенційно скомпрометувати безпеку пацієнтів».

Під час експерименту дослідники навмисно ввели медичну дезінформацію, створену штучним інтелектом, у широко використовуваний набір даних для навчання LLM, відомий як The Pile, який містить високоякісні медичні корпуси даних, такі як PubMed.

Команда створила загалом 150 000 медичних статей лише за 24 години, і результати були шокуючими, демонструючи, що неймовірно легко — і навіть дешево — ефективно отруїти LLM.

«Заміна лише одного мільйона зі 100 мільярдів тренувальних токенів (0,001 відсотка) на дезінформацію про вакцину призвела до збільшення шкідливого вмісту на 4,8 відсотка, досягнутого завдяки впровадженню 2000 шкідливих статей (приблизно 1500 сторінок), які ми згенерували всього за 5,00 доларів США», – пишуть дослідники.

На відміну від інвазивних атак викрадення, які можуть змусити LLM відмовитися від конфіденційної інформації або навіть виконати код, отруєння даних не вимагає прямого доступу до вагових коефіцієнтів моделі або числових значень, які використовуються для визначення міцності зв’язків між нейронами в ШІ.

Іншими словами, зловмисникам потрібно лише розмістити шкідливу інформацію в інтернеті, щоб підірвати правдивість LLM.

Дослідження підкреслює ризики, пов’язані з розгортанням інструментів на основі ШІ, особливо в медичних умовах. І багато в чому кіт уже втік з мішка. Наприклад, минулого року New York Times повідомила , що комунікаційна платформа MyChart на основі штучного інтелекту, яка автоматично складає відповіді на запитання пацієнтів від імені лікарів, регулярно «галюцинує» неправдиві записи про стан пацієнта.

«Розробники штучного інтелекту та постачальники медичних послуг повинні знати про цю вразливість під час розробки медичних LLM», — йдеться в документі. «LLM не слід використовувати для діагностичних або терапевтичних завдань, доки не будуть розроблені кращі засоби захисту, і необхідні додаткові дослідження безпеки, перш ніж можна буде довіряти ШІ у критично важливих закладах охорони здоров’я».

НАПИСАТИ ВІДПОВІДЬ

Коментуйте, будь-ласка!
Будь ласка введіть ваше ім'я

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися