Музыка – это все вокруг. Google MusicLM превращает слова, изображения и звуки в музыку

30 января 2023

Уже скоро, написав «спокойная мелодия для расслабления», показав фотографию или напев что-нибудь можно будет получить уникальную музыкальную композицию. Исследователи из Google создали искусственный интеллект, генерирующий высококачественную музыку из текстового описания. Инструмент называется MusicLM и он может стать существенным явлением в повседневной жизни.

По словам ученого по искусственному интеллекту Кеунву Чоя, общая структура модели MusicLM базируется на других моделях, сочетающих MuLan+AudioLM и MuLan+w2b-Bert+Soundstream.

Чой объясняет, как работает каждая из этих моделей:

MuLan — это модель совместного встраивания текста и музыки с контрастным обучением и парой описания аудио-текста 44 млн музыки с YouTube;
AudioLM использует промежуточный уровень из предварительно обученной языковой модели для семантической информации;
w2v-BERT — это представление двунаправленного кодировщика от Transformers, инструмент глубокого обучения, сначала для речи, на этот раз использованный для аудио;
SoundStream — это нейронный аудиокодек.

Google объединил все это, чтобы создать музыку из текста. Вот как исследователи объясняют MusicLM:

«Мы представляем MusicLM, модель, которая создает высококачественную музыку из текстовых описаний, таких как «успокаивающая мелодия скрипки, подкрепленная искаженным гитарным рифом». MusicLM преобразует процесс создания условной музыки как иерархическую задачу моделирования последовательности в последовательности, и он генерирует музыку на 24 кГц, которая остается постоянной в течение нескольких минут. Наши эксперименты показывают, что MusicLM превосходит предыдущие системы, как по качеству звука, так и по соблюдению текстового описания. Более того, мы демонстрируем, что MusicLM может зависеть как от текста, так и от мелодии, поскольку он может трансформировать свистящие и напетые мелодии в соответствии со стилем, описанным в текстовой подписи. Чтобы поддержать будущие исследования, мы публично выпускаем MusicCaps, набор данных, состоящий из 5,5 тысяч пар музыка-текст с расширенным текстовым описанием, предоставленным экспертами-людьми».

Сравнивая, интересно подумать о способностях известного чата ChatGPT. Сложные экзамены, анализ сложных кодексов, написание законов для Конгресса и даже создание стихов, музыкальных текстов и т.п. – он способен делать все это.

В этом случае MusicLM превосходит ChatGPT, поскольку выходит за рамки и превращает намерение, историю или рисунок в песню. Из MusicLM можно, например, трансформировать картину «Устойчивость памяти» Сальвадора Дали в мелодию.

MusicLM от Google открыл публичный доступ к более чем 5000 готовым парам музыка-текст, чтобы люди могли экспериментировать с творчеством. К сожалению, компания не планирует выпускать эту модель для широких масс. Тем не менее, вы все еще можете посмотреть – и послушать – как эта модель искусственного интеллекта может создавать музыку из текста на странице https://google-research.github.io/seanet/musiclm/examples/.

Теги
Технологии

684

Музыка – это все вокруг. Google MusicLM превращает слова, изображения и звуки в музыку

Украинским туристическим городам на заметку: редактирование Wikipedia дополнительно приносит до 160 000 евро в год

Обзор накопителя Apacer AC233

Dropbox позволит пересылать файлы до 100 ГБ с функцией Transfer

A4Tech анонсировала две мощные Hi-Fi гарнитуры – Bloody M510 и M550

Vodafone

Vodafone в 1 кв. 2026: стабильность бизнеса и инвестиции в телеком-инфраструктуру Украины

Vodafone запускает 5G в межнациональном роуминге

200 грн в месяц: Vodafone запустил акцию для клиентов 55+

Vodafone инвестировал в критическую инфраструктуру и технологии более 24 млрд. грн

5G запустили на Главном железнодорожном вокзале Львова

Статті

Марсианский вертолет NASA не просто летает, но и преодолевает звуковой барьер

Ваши гаджеты собирают данные, которые могут улучшить лечение – говорят ученые

Как Mercedes сделала, чтобы ваше ДТП звучало приятнее для вас

Почему леворукие люди могут быть более конкурентными: взгляд науки на особенности

Портативные солнечные панели не потянут нагревательные приборы даже с мощными аккумуляторами

Можем ли мы разместить центры обработки данных в космосе?

Пять наладонных телефонов: лучшие компактные смартфоны 2026 года

ПОРАДИ

Какие настройки Android улучшат звучание дешевых беспроводных наушников

Как защитить смартфон от шпионского программного обеспечения через настройки Apple, Google и WhatsApp

Как защитить данные во время использования публичного Wi-Fi от сетевых угроз

СТАТТІ

Марсианский вертолет NASA не просто летает, но и преодолевает звуковой барьер

Ваши гаджеты собирают данные, которые могут улучшить лечение – говорят ученые

Как Mercedes сделала, чтобы ваше ДТП звучало приятнее для вас

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Музыка – это все вокруг. Google MusicLM превращает слова, изображения и звуки в музыку

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ