Искусственный интеллект может легко узнать любого человека, даже лишь послушав несколько сказанных им фраз. Анализируя особенности речи, нейросеть способна создать фотографию автора сказанных слов.
Алгоритм под названием Named Speech2Face имитирует работу человеческого мозга. Ему «скормили» 100 000 видео из интернета, в которых люди разговаривают. Из такой базы данных нейросеть смогла установить связь между лицом человека и особенностями его голоса и речи.
Эффективность нейросети пока не 100%, хотя и поражает. Алгоритм по голосу распознает маркеры, указывающие на пол, возраст, этническую принадлежность. Из-за этого он не способен создать с голоса фотографию конкретного человека, у него быстрее получается какое-то среднее лицо. Все фотографии, которые создает Speech2Face, имеют ракус анфас.
На днях другие исследователи создали нейросеть, которая способна любому человеку на видео вложить в уста любые слова. От пользователя нужно только напечатать текст, который должна произнести такая «говорящая голова». Для тренировки нейросети на особенности мимики и движений конкретного человека нужно лишь 40 минут видеоматериала.
Другую нейросеть научили симулировать видео с одной фотографии. Созданные таким образом движения даже могут имитировать язык (ну или нечто на него похожее).