У 2016 році ми писали те, що публічно стала доступна технологія «фотошопу для аудіо», яка легко дозволить сказати будь-що голосом бажаної людини. Точність роботи такої технології майже ідеальна, і нещодавно кіберексперти викрили нову схему шахрайства з її використанням. Зловмисники імітують голоси директорів та топ-менеджерів компаній, наказуючи робітникам видати їм приватні дані клієнтів, гроші з корпоративного рахунку тощо.
Фахівці Symantec повідомили про три випадки, в яких шахраї підробляли голос директора компанії та змушували фінансовий відділ переказувати гроші на свої рахунки.
Експерти з кіберпезпеки кажуть, що нейромережу для імітації голосу можна натренувати, якщо мати великий обсяг оригінального контенту. Отримати його не складно, адже це можуть бути публічні виступи, записи інтерв’ю, корпоративні відео тощо. Хоча тренування нейромережі для отримання якісного фальшивого голосу вимагає багато часу та тисячі доларів, це вигідно з фінансової точки зору.
У створенні фальшивого голосу беруть участь дві нейромережі, яким «згодовують» десятки годин оригінального контенту. Далі штучний інтелект використовує аудіо для тренінгу двох так званих «генеративних змагальних мереж» (GAN). У процесі навчання дві нейромережі такого типу «конкурують» між собою: одна генерує підробки, інша намагається відрізнити підробку від справжнього зразка даних, і в процесі обидві мережі вчаться на своїх помилках.
Отриманий після навчання штучний інтелект майже ідеально копіює мовлення людини-жертви, включаючи ритм та особливості вимови. Додатково шахраї маскують дрібні особливості вимови складів і слів в найменш переконливих місцях за допомогою специфічних шумів. Для таких цілей використовується імітація переривчастої стільникового зв’язку або фоновий шум у жвавому людному місці.
На думку фахівців Symantec, керівникам компаній потрібно серйозно проаналізувати доступний у публічному просторі контент з їхньою участю. Адже зловмисники можуть отримати необхідні зразки голосу навіть у телефонній розмови або в особистій бесіді.
До речі, підробляти можна не лише аудіо – нейромережі дозволяють майже з ідеальною якістю замінювати обличчя на відео.