A partir de agora, o Whisk, a inovadora ferramenta de geração de imagens com inteligência artificial desenvolvida pelo Google, está disponível em mais de 100 países, incluindo o Brasil. Este serviço ainda se encontra na fase experimental e combina as capacidades multimodais do Gemini com a criação do Imagen 3, possibilitando a criação de imagens totalmente novas a partir das inspirações fornecidas pelos usuários.
Inicialmente lançado em dezembro de 2023 apenas nos Estados Unidos, o Whisk é mais um projeto do Google Labs, a plataforma dedicada a inovações experimentais da gigante da tecnologia. Na última terça-feira, dia 11, a exclusividade do serviço foi encerrada, permitindo que usuários de diversas partes do mundo tenham acesso e possam testar a ferramenta.
Como Funciona o Whisk
Diferente dos geradores de imagens convencionais, o processo de criação no Whisk inicia-se com o envio de uma imagem para análise. Após o processamento realizado pelo Gemini, o usuário deve descrever em texto as alterações desejadas, e o Imagen 3 se encarrega de gerar o resultado esperado. É possível enviar uma única imagem e complementar a solicitação com descrições em texto, ou até mesmo pedir que a IA combine elementos de diferentes arquivos.
Essa abordagem torna o Whisk mais acessível para aqueles que possuem pouca experiência na criação de prompts, um aspecto essencial em ferramentas de geração de imagens. O processo de edição é intuitivo e simplificado, apresentando até sugestões para usuários que buscam inspiração.
Funcionalidades do Whisk
A inteligência artificial do Whisk é alimentada pelo Gemini, um modelo multimodal capaz de interpretar as imagens enviadas pelos usuários. O sistema, então, gera uma descrição textual (um processo conhecido como “Image to Text” ou I2T), destacando elementos como estilo, personagens, ambiente e cores.
Essa descrição é utilizada para criar um prompt detalhado, que servirá como base para a nova imagem. O usuário deve especificar o que deseja na composição final, seja em relação ao tema principal, à ambientação ou ao estilo da figura. Com essas informações, o Imagen 3 transforma a solicitação em uma nova imagem, processo conhecido como Text-to-Image ou T2I.
Acesso e Outras Ferramentas do Google Labs
O Whisk é completamente gratuito, mas requer que o usuário faça login no Google Labs com uma conta do Google. Além da IA de edição de imagens, a plataforma disponibiliza outras ferramentas experimentais, como:
Para explorar todas as funcionalidades oferecidas pelo Google Labs, basta acessar o site oficial da plataforma. Aproveite também para conhecer mais sobre o NotebookLM e suas aplicações nos estudos diários, ou até mesmo experimentar o gerador de imagens nativo do Docs.