Уже скоро, написав «спокойная мелодия для расслабления», показав фотографию или напев что-нибудь можно будет получить уникальную музыкальную композицию. Исследователи из Google создали искусственный интеллект, генерирующий высококачественную музыку из текстового описания. Инструмент называется MusicLM и он может стать существенным явлением в повседневной жизни.
По словам ученого по искусственному интеллекту Кеунву Чоя, общая структура модели MusicLM базируется на других моделях, сочетающих MuLan+AudioLM и MuLan+w2b-Bert+Soundstream.
Чой объясняет, как работает каждая из этих моделей:
- MuLan — это модель совместного встраивания текста и музыки с контрастным обучением и парой описания аудио-текста 44 млн музыки с YouTube;
- AudioLM использует промежуточный уровень из предварительно обученной языковой модели для семантической информации;
- w2v-BERT — это представление двунаправленного кодировщика от Transformers, инструмент глубокого обучения, сначала для речи, на этот раз использованный для аудио;
- SoundStream — это нейронный аудиокодек.
Google объединил все это, чтобы создать музыку из текста. Вот как исследователи объясняют MusicLM:
«Мы представляем MusicLM, модель, которая создает высококачественную музыку из текстовых описаний, таких как «успокаивающая мелодия скрипки, подкрепленная искаженным гитарным рифом». MusicLM преобразует процесс создания условной музыки как иерархическую задачу моделирования последовательности в последовательности, и он генерирует музыку на 24 кГц, которая остается постоянной в течение нескольких минут. Наши эксперименты показывают, что MusicLM превосходит предыдущие системы, как по качеству звука, так и по соблюдению текстового описания. Более того, мы демонстрируем, что MusicLM может зависеть как от текста, так и от мелодии, поскольку он может трансформировать свистящие и напетые мелодии в соответствии со стилем, описанным в текстовой подписи. Чтобы поддержать будущие исследования, мы публично выпускаем MusicCaps, набор данных, состоящий из 5,5 тысяч пар музыка-текст с расширенным текстовым описанием, предоставленным экспертами-людьми».
Сравнивая, интересно подумать о способностях известного чата ChatGPT. Сложные экзамены, анализ сложных кодексов, написание законов для Конгресса и даже создание стихов, музыкальных текстов и т.п. – он способен делать все это.
В этом случае MusicLM превосходит ChatGPT, поскольку выходит за рамки и превращает намерение, историю или рисунок в песню. Из MusicLM можно, например, трансформировать картину «Устойчивость памяти» Сальвадора Дали в мелодию.
MusicLM от Google открыл публичный доступ к более чем 5000 готовым парам музыка-текст, чтобы люди могли экспериментировать с творчеством. К сожалению, компания не планирует выпускать эту модель для широких масс. Тем не менее, вы все еще можете посмотреть – и послушать – как эта модель искусственного интеллекта может создавать музыку из текста на странице https://google-research.github.io/seanet/musiclm/examples/.