Google продовжує розширювати функціонал своєї мультимодальної моделі Gemini, інтегруючи до неї Lyria 3 – передову модель для генерації музики від DeepMind. Це нововведення дозволяє Gemini, окрім створення зображень та відео за текстовими запитами, також генерувати повноцінні аудіокомпозиції. Хоча інтеграція Lyria 3 у Gemini наразі перебуває на стадії бета-тестування, очікується, що вона значно вплине на можливості штучного інтелекту у сфері творчості, відкриваючи нові горизонти для користувачів.

Процес створення музики функціонує за принципом, аналогічним генерації візуального контенту: користувачеві необхідно лише описати бажаний результат, а Gemini проаналізує введений запит для створення відповідної композиції. За словами представників Google, достатньо ввести ідею або навіть завантажити фотографію, наприклад, “комічний повільний R&B-трек про шкарпетку, яка знайшла свою пару”, і вже за кілька секунд Gemini перетворить це на високоякісний та запам’ятовуваний трек. Ця функція додає музику до вже існуючих можливостей генерації зображень та відео, підкреслюючи зростаючу універсальність моделі.
Порівняно з попередніми версіями, Lyria 3 пропонує значні покращення у створенні аудіо. Однією з ключових переваг є здатність моделі автоматично генерувати тексти пісень, базуючись на введеному користувачем запиті, що усуває потребу у власноручному створенні лірики. Крім того, користувачі отримують більше творчого контролю над такими елементами, як музичний стиль, вокал та темп, що дозволяє створювати більш реалістичні та складніші у музичному плані композиції, точно відображаючи їхнє бачення.
Особливістю моделі є її мультимодальний підхід, який дає змогу генерувати треки не тільки з текстових описів, але й на основі завантажених фотографій та відеоматеріалів. Це означає, що користувачі можуть як задавати детальні текстові запити, наприклад, “Я відчуваю ностальгію. Створи трек для моєї мами про чудові часи, які ми проводили в дитинстві, та спогади про її домашні смажені банани. Зроби це веселим афробіт-треком зі справжнім африканським вайбом”, так і завантажувати візуальний контент для створення унікальної музичної інтерпретації, що відображає настрій або сюжет зображення чи відео.
Важливо зазначити, що Lyria 3 у Gemini наразі обмежена створенням 30-секундних треків. Для забезпечення повноцінного досвіду модель інтегрована з Nano Banana, що дозволяє автоматично генерувати обкладинки для створених композицій, доповнюючи загальний досвід користування. Функція генерації музики поступово стає доступною у додатку Gemini для всіх користувачів віком від 18 років у таких мовах, як англійська, німецька, іспанська, французька, гінді, японська, корейська та португальська. На поточний момент підтримка зосереджена на настільних версіях, проте протягом “найближчих кількох днів” очікується розширення функціоналу на мобільні додатки.


