Whisk — это эксперимент Google с искусственным интеллектом, не требующий слов для подсказок, использующий изображения в качестве подсказки. С помощью Whisk вы можете взять, например, свое фото и разместить себя в каких-нибудь фантастических декорациях. Предложить то, что вы хотели бы как объект, сцену и стиль финального произведения, можно с помощью нескольких изображений для каждой из этих трех вещей.
Если у вас под рукой нет изображений, вы можете щелкнуть значок кубика, чтобы Google заполнил некоторые подсказочные изображения. Вы также можете ввести текст в текстовое поле в конце процесса, если вы хотите добавить дополнительные сведения об изображении, но это не обязательно.
Тогда Whisk создаст изображение и текстовую подсказку для каждого изображения. Вы можете добавить еще изображение или загрузить полученное, если вы удовлетворены результатами.
В сообщении в блоге Google подчеркивает, что Whisk предназначен для быстрого визуального исследования, а не для идеального пиксельного редактирования. Компания также говорит, что Whisk может «промахнуться», поэтому позволяет редактировать базовые подсказки.
Google говорит, что Whisk использует последнюю итерацию своей модели генерации изображений Imagen 3. Google также представила Veo 2, следующую версию своей модели генерации видео, которая, по словам компании, понимает уникальный язык кинематографа и галлюцинирует такие баги, как дополнительные пальцы, реже, чем другие модели.
Veo 2 появляется первым в Google VideoFX, который вы можете получить в списке ожидания Google Labs, и он будет расширен до YouTube Shorts в следующем году.