Четверг, 28 марта, 2024

Музыка – это все вокруг. Google MusicLM превращает слова, изображения и звуки в музыку

Уже скоро, написав «спокойная мелодия для расслабления», показав фотографию или напев что-нибудь можно будет получить уникальную музыкальную композицию. Исследователи из Google создали искусственный интеллект, генерирующий высококачественную музыку из текстового описания. Инструмент называется MusicLM и он может стать существенным явлением в повседневной жизни.

По словам ученого по искусственному интеллекту Кеунву Чоя, общая структура модели MusicLM базируется на других моделях, сочетающих MuLan+AudioLM и MuLan+w2b-Bert+Soundstream.

Чой объясняет, как работает каждая из этих моделей:

  • MuLan — это модель совместного встраивания текста и музыки с контрастным обучением и парой описания аудио-текста 44 млн музыки с YouTube;
  • AudioLM использует промежуточный уровень из предварительно обученной языковой модели для семантической информации;
  • w2v-BERT — это представление двунаправленного кодировщика от Transformers, инструмент глубокого обучения, сначала для речи, на этот раз использованный для аудио;
  • SoundStream — это нейронный аудиокодек.

Google объединил все это, чтобы создать музыку из текста. Вот как исследователи объясняют MusicLM:

«Мы представляем MusicLM, модель, которая создает высококачественную музыку из текстовых описаний, таких как «успокаивающая мелодия скрипки, подкрепленная искаженным гитарным рифом». MusicLM преобразует процесс создания условной музыки как иерархическую задачу моделирования последовательности в последовательности, и он генерирует музыку на 24 кГц, которая остается постоянной в течение нескольких минут. Наши эксперименты показывают, что MusicLM превосходит предыдущие системы, как по качеству звука, так и по соблюдению текстового описания. Более того, мы демонстрируем, что MusicLM может зависеть как от текста, так и от мелодии, поскольку он может трансформировать свистящие и напетые мелодии в соответствии со стилем, описанным в текстовой подписи. Чтобы поддержать будущие исследования, мы публично выпускаем MusicCaps, набор данных, состоящий из 5,5 тысяч пар музыка-текст с расширенным текстовым описанием, предоставленным экспертами-людьми».

Сравнивая, интересно подумать о способностях известного чата ChatGPT. Сложные экзамены, анализ сложных кодексов, написание законов для Конгресса и даже создание стихов, музыкальных текстов и т.п. – он способен делать все это.

В этом случае MusicLM превосходит ChatGPT, поскольку выходит за рамки и превращает намерение, историю или рисунок в песню. Из MusicLM можно, например, трансформировать картину «Устойчивость памяти» Сальвадора Дали в мелодию.

MusicLM от Google открыл публичный доступ к более чем 5000 готовым парам музыка-текст, чтобы люди могли экспериментировать с творчеством. К сожалению, компания не планирует выпускать эту модель для широких масс. Тем не менее, вы все еще можете посмотреть – и послушать – как эта модель искусственного интеллекта может создавать музыку из текста на странице https://google-research.github.io/seanet/musiclm/examples/.

Євген
Євген
Евгений пишет для TechToday с 2012 года. По образованию инженер,. Увлекается реставрацией старых автомобилей.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися