VideoPoet é o novo modelo da Google para gerar vídeo através de inteligência artificial

Casa dos Bits

Rui Parreira

21 dez 2023 15:26

Computadores

Este artigo tem mais de um ano

É possível criar animações a partir de prompts no VideoPoet, o próximo modelo de IA generativa da Google.

Até agora consegue-se obter facilmente imagens, textos, vídeo e áudio adicionando as palavras-chave certas nas prompts dos serviços de IA generativa. A Google pretende elevar a fasquia na qualidade dos vídeos gerados através de IA, com o seu modelo VideoPoet.

No blog de apresentação deste novo modelo, a Google diz que o principal desafio atual na produção de vídeo é capacidade de gerar animações maiores que sejam coerentes. Em muitos casos, mesmo os modelos atuais que lideram, ora geram pequenas animações ou quando tentam maiores notam-se artefactos na imagem.

O VideoPoet é um modelo de linguagem de grande capacidade (LLM) capaz de executar várias tarefas na criação de vídeos. A Google diz que suporta texto-para-vídeo, imagem-para-vídeo, estilização de vídeo, completar imagens (inpainting) ou a capacidade de prever objetos em falta (outpainting) e também vídeo-para-áudio.

Veja na vídeo um exemplo do VideoPoet a contar a história de um guaxinim:

Apesar dos modelos de vídeo serem praticamente exclusivos do sistema baseado em difusão, os LLMs têm maior capacidade de aprendizagem em diversas modalidades, incluindo linguagem, código, áudio, etc. A Google explica que a sua abordagem integrou muitas capacidades de geração de vídeo num único modelo LLM, em vez de estar dependente de componentes treinados de forma separada, especializados em cada tarefa.

Dentro das capacidades do VideoPoet, as imagens podem ser animadas e opcionalmente cortadas ou mascaradas, podendo ser editadas tanto em formato inpainting como outpainting. Para a estilização, o modelo pega numa representação de vídeo a profundidade e a fluidez ótica, que representam a animação, e as pinturas por cima produzem o estilo guiado por texto.

A Google explica que a vantagem do uso de LLMs para o treino é que podem ser reutilizadas muitas das melhorias de eficiência escaláveis que foram introduzidos na infraestrutura de treino existente. A solução da Google consegue fazer o encoding de clips de vídeo e áudio como sequências.

Na página com os exemplos criados é possível ver algumas das animações geradas pelo VideoPoet. Um panda a comer ou um gato a saltar são os mais realísticos, mas a maioria são animações estilizadas, desde barcos voadores, um urso de peluche a lavar a loiça ou uma girafa com a cabeça fora de um micro-ondas. As animações funcionam, mas estão muito longe da qualidade da Pixar. Mas não deixa de ser impressionante o caminho feito pela IA na sua capacidade de criar imagens em movimento.