Понеділок, 4 Листопада, 2024

Музика – це все навколо. Google MusicLM перетворює слова, зображення та звуки на музику

Уже скоро, написавши «спокійна мелодія для розслаблення», показавши фотографію чи наспівавши щось, можна буде отримати унікальну музичну композицію. Дослідники з Google створили штучний інтелект, який генерує високоякісну музику з текстового опису. Інструмент називається MusicLM, і він може стати суттєвим явищем у повсякденному житті.

За словами вченого зі штучного інтелекту Кеунву Чоя, загальна структура моделі MusicLM базується на інших моделях, які поєднують MuLan + AudioLM і MuLan + w2b-Bert + Soundstream.

Чой пояснює, як працює кожна з цих моделей:

  • MuLan — це модель спільного вбудовування тексту та музики з контрастним навчанням і парою опису аудіо-тексту 44 млн музики з YouTube;
  • AudioLM використовує проміжний рівень із попередньо навченої мовної моделі для семантичної інформації;
  • w2v-BERT — це представлення двонаправленого кодувальника від Transformers, інструмент глибокого навчання, спочатку для мовлення, цього разу використаний для аудіо;
  • SoundStream — це нейронний аудіокодек.

Google поєднав усе це, щоб створити музику з тексту. Ось як дослідники пояснюють MusicLM:

«Ми представляємо MusicLM, модель, яка створює високоякісну музику з текстових описів, таких як «заспокійлива мелодія скрипки, підкріплена спотвореним гітарним рифом». MusicLM перетворює процес створення умовної музики як ієрархічне завдання моделювання послідовності до послідовності, і він генерує музику на 24 кГц, яка залишається постійною протягом кількох хвилин. Наші експерименти показують, що MusicLM перевершує попередні системи як за якістю звуку, так і за дотриманням текстового опису. Більше того, ми демонструємо, що MusicLM може залежати як від тексту, так і від мелодії, оскільки він може трансформувати свистячі й наспівані мелодії відповідно до стилю, описаного в текстовому підписі. Щоб підтримати майбутні дослідження, ми публічно випускаємо MusicCaps, набір даних, що складається з 5,5 тисяч пар музика-текст із розширеним текстовим описом, наданим експертами-людьми».

Порівнянюючи, цікаво подумати про здібності відомого чатбота ChatGPT. Складні іспити, аналіз складних кодексів, написання законів для Конгресу та навіть створення віршів, музичних текстів тощо – він здатний робити все це.

У цьому випадку MusicLM перевершує ChatGPT, оскільки виходить за рамки та перетворює намір, історію чи малюнок на пісню. З MusicLM можна, наприклад, трансформувати картину «Стійкість пам’яті» Сальвадора Далі у мелодію.

MusicLM від Google відкрив публічний доступ до понад 5000 готових пар музика-текст, щоб люди могли експериментувати з творчістю. На жаль, компанія не планує випускати цю модель для широкого загалу. Тим не менш, ви все ще можете подивитися – і послухати – як ця модель штучного інтелекту може створювати музику з тексту на сторінці https://google-research.github.io/seanet/musiclm/examples/.

Євген
Євген
Євген пише для TechToday з 2012 року. Інженер за освітою. Захоплюється реставрацією старих автомобілів.

Vodafone

Залишайтеся з нами

10,052Фанитак
1,445Послідовникислідувати
105Абонентипідписуватися