Музика – це все навколо. Google MusicLM перетворює слова, зображення та звуки на музику

30 Січня 2023

Уже скоро, написавши «спокійна мелодія для розслаблення», показавши фотографію чи наспівавши щось, можна буде отримати унікальну музичну композицію. Дослідники з Google створили штучний інтелект, який генерує високоякісну музику з текстового опису. Інструмент називається MusicLM, і він може стати суттєвим явищем у повсякденному житті.

За словами вченого зі штучного інтелекту Кеунву Чоя, загальна структура моделі MusicLM базується на інших моделях, які поєднують MuLan + AudioLM і MuLan + w2b-Bert + Soundstream.

Чой пояснює, як працює кожна з цих моделей:

MuLan — це модель спільного вбудовування тексту та музики з контрастним навчанням і парою опису аудіо-тексту 44 млн музики з YouTube;
AudioLM використовує проміжний рівень із попередньо навченої мовної моделі для семантичної інформації;
w2v-BERT — це представлення двонаправленого кодувальника від Transformers, інструмент глибокого навчання, спочатку для мовлення, цього разу використаний для аудіо;
SoundStream — це нейронний аудіокодек.

Google поєднав усе це, щоб створити музику з тексту. Ось як дослідники пояснюють MusicLM:

«Ми представляємо MusicLM, модель, яка створює високоякісну музику з текстових описів, таких як «заспокійлива мелодія скрипки, підкріплена спотвореним гітарним рифом». MusicLM перетворює процес створення умовної музики як ієрархічне завдання моделювання послідовності до послідовності, і він генерує музику на 24 кГц, яка залишається постійною протягом кількох хвилин. Наші експерименти показують, що MusicLM перевершує попередні системи як за якістю звуку, так і за дотриманням текстового опису. Більше того, ми демонструємо, що MusicLM може залежати як від тексту, так і від мелодії, оскільки він може трансформувати свистячі й наспівані мелодії відповідно до стилю, описаного в текстовому підписі. Щоб підтримати майбутні дослідження, ми публічно випускаємо MusicCaps, набір даних, що складається з 5,5 тисяч пар музика-текст із розширеним текстовим описом, наданим експертами-людьми».

Порівнянюючи, цікаво подумати про здібності відомого чатбота ChatGPT. Складні іспити, аналіз складних кодексів, написання законів для Конгресу та навіть створення віршів, музичних текстів тощо – він здатний робити все це.

У цьому випадку MusicLM перевершує ChatGPT, оскільки виходить за рамки та перетворює намір, історію чи малюнок на пісню. З MusicLM можна, наприклад, трансформувати картину «Стійкість пам’яті» Сальвадора Далі у мелодію.

MusicLM від Google відкрив публічний доступ до понад 5000 готових пар музика-текст, щоб люди могли експериментувати з творчістю. На жаль, компанія не планує випускати цю модель для широкого загалу. Тим не менш, ви все ще можете подивитися – і послухати – як ця модель штучного інтелекту може створювати музику з тексту на сторінці https://google-research.github.io/seanet/musiclm/examples/.

Теги
Технології

711

Музика – це все навколо. Google MusicLM перетворює слова, зображення та звуки на музику

В 2024 році індустрія комп’ютерних ігор пробила дно

Як на Windows зменшити яскравість екрана нижче мінімального рівня

BMW використала нанотрубки, створивши найчорнішу із чорних BMW: фарба поглинає до 99,965% світла

МТС совместил Wi-Fi с 3G

Vodafone

200 тисяч клієнтів протестували 5G у Харкові

Vodafone Україна побудує надсучасний підземний дата-центр

Vodafone Україна залучив €30 млн фінансування для розвитку мережі у співпраці з Nokia, ING та Finnvera

Інтернет Vodafone, що працює без електрики, охопив 2 млн домогосподарств

Vodafone додав сонячну генерацію на перші 100 базових станцій

Статті

2026 рік: хай-тек на межі краху, мільярди зникають, а користувачі стають жертвами

Чи може штучний інтелект генерувати нові ідеї?

Чи можна зупинити розплавлення ядерного реактора?

Здається, пари почали використовувати чат-ботів як заміну реальним стосункам

Імперія спостереження, яка відстежувала світових лідерів, ворога Ватикану і, можливо, вас

Виробники приховують справжню швидкість USB-C на ноутбуці

Які недоліки у шістнадцятидюймових ноутбуків

ПОРАДИ

Як увімкнути “Візуальний Інтелект” на macOS Golden Gate

Які функції є у Android для економії часу

Як перезавантажити AirPods

СТАТТІ

2026 рік: хай-тек на межі краху, мільярди зникають, а користувачі стають жертвами

Чи може штучний інтелект генерувати нові ідеї?

Чи можна зупинити розплавлення ядерного реактора?

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ

Музика – це все навколо. Google MusicLM перетворює слова, зображення та звуки на музику

Vodafone

Залишайтеся з нами

Статті

ПОРАДИ

СТАТТІ

КАТЕГОРІЇ

ПРО НАС

СЛІДКУЙ ЗА НАМИ