Google продолжает расширять функционал своей мультимодальной модели Gemini, интегрируя в нее Lyria 3 – передовую модель для генерации музыки от DeepMind. Это нововведение позволяет Gemini, помимо создания изображений и видео по текстовым запросам, также генерировать полноценные аудиокомпозиции. Хотя интеграция Lyria 3 в Gemini в настоящее время находится на стадии бета-тестирования, ожидается, что она значительно повлияет на возможности искусственного интеллекта в сфере творчества, открывая новые горизонты для пользователей.

Процесс создания музыки функционирует по принципу, аналогичному генерации визуального контента: пользователю необходимо лишь описать желаемый результат, а Gemini проанализирует введенный запрос для создания соответствующей композиции. По словам представителей Google, достаточно ввести идею или даже загрузить фотографию, например, «комический медленный R&B-трек о носке, который нашел свою пару», и уже через несколько секунд Gemini превратит это в высококачественный и запоминающийся трек. Эта функция добавляет музыку к уже существующим возможностям генерации изображений и видео, подчеркивая растущую универсальность модели.
По сравнению с предыдущими версиями, Lyria 3 предлагает значительные улучшения в создании аудио. Одним из ключевых преимуществ является способность модели автоматически генерировать тексты песен, основываясь на введенном пользователем запросе, что устраняет необходимость в самостоятельном создании лирики. Кроме того, пользователи получают больше творческого контроля над такими элементами, как музыкальный стиль, вокал и темп, что позволяет создавать более реалистичные и сложные в музыкальном плане композиции, точно отражая их видение.
Особенностью модели является ее мультимодальный подход, который позволяет генерировать треки не только из текстовых описаний, но и на основе загруженных фотографий и видеоматериалов. Это означает, что пользователи могут как задавать детальные текстовые запросы, например, «Я испытываю ностальгию. Создай трек для моей мамы о прекрасных временах, которые мы проводили в детстве, и воспоминаниях о ее домашних жареных бананах. Сделай это веселым афробит-треком с настоящим африканским вайбом», так и загружать визуальный контент для создания уникальной музыкальной интерпретации, отражающей настроение или сюжет изображения или видео.
Важно отметить, что Lyria 3 в Gemini в настоящее время ограничена созданием 30-секундных треков. Для обеспечения полноценного опыта модель интегрирована с Nano Banana, что позволяет автоматически генерировать обложки для созданных композиций, дополняя общий опыт использования. Функция генерации музыки постепенно становится доступной в приложении Gemini для всех пользователей в возрасте от 18 лет на таких языках, как английский, немецкий, испанский, французский, хинди, японский, корейский и португальский. На текущий момент поддержка сосредоточена на настольных версиях, однако в течение «ближайших нескольких дней» ожидается расширение функционала на мобильные приложения.


