Apresentado na última edição do Google I/O, o novo modelo para gerar imagens através de inteligência artificial ficou hoje disponível. O Imagen 3 está disponível e integrado no Gemini, assim como nas respetivas versões Advanced, Business e Enterprise. Com a nova ferramenta, a Google pretende oferecer novas capacidades criativas quando se criam imagens a partir das prompts introduzidas no Gemini, estando agora disponível a mais utilizadores em todos os idiomas.

O Imagen 3 é o mais poderoso modelo texto para imagem, capaz de gerar imagens com melhor detalhe, diz a Google, oferendo uma iluminação mais rica e menos artefactos distrativos das imagens que são produzidas, quando comparado com os modelos anteriores. Até aqui, o modelo estava disponível nas ferramentas ImageFX e o Vertex AI, passando agora a integrar o Gemini.

O modelo foi melhorado com a capacidade de compreender melhor as prompts introduzidas, o que ajuda os modelos a gerar uma maior palete de estilos visuais, assim como registar os pequenos detalhes dos comandos introduzidos. Desta forma, o Imagen 3 consegue executar diversas tarefas, desde ajudar a criar um sketch rápido a imagens de alta resolução. Pode pedir para criar uma paisagem fotorealística, pinturas com estilos de óleo com textura ou mesmo cenas animadas em stop motion.

Veja na galeria exemplos de imagens geradas pelo modelo:

A Google afirma que apesar do modelo ser poderoso e com funcionalidades avançadas, o sistema tem proteções integradas, dentro dos seus princípios de design e utilização. Da mesma forma que as imagens geradas pela IA são acompanhadas de marcas de água, assinaladas com a ferramenta SynthID. Com isto, o utilizador tem o controlo criativo, o início ao fim e quando não gosta da imagem, pode pedir ao Gemini para gerar outra, baseado nos elementos que introduziu.

Na próxima atualização, prevista para os próximos dias, a Google vai disponibilizar a possibilidade de gerar imagens de pessoas. Trata-se de uma versão de acesso antecipado a utilizadores do Gemini Advanced, Business e Enterprise, começando com o inglês. Antes de finalizar o produto, a Google diz que fez melhorias técnicas, introduziu conjuntos de avaliação melhorados, exercícios de red teaming, partilhando os seus princípios de produto.

Ainda no que diz respeito às imagens de pessoas que são geradas pelo modelo, a Google diz que não apoia a criação de imagens fotorealísticas de indivíduos identificáveis, representações de menores ou cenas que sejam excessivamente violentas, sangrentas ou sexuais.

O modelo pode ser testado a partir de hoje nas contas Gemini Advanced.