A Sora é a primeira ferramenta da OpenAI para criação de vídeo a partir de texto, depois da empresa ter já mudado as regras nos chatbots de Inteligência Artificial com o ChatGPT e na criação de imagens com o Dall-E. O vídeo é a próxima fronteira e a OpenAI mostra o que a Sora pode fazer, ainda em modo experimental.

Cenários complexos, imagens e personagens realistas, contextos de paisagens convincentes aparecem nos vários vídeos partilhados ao lado de animações que já nos habituámos a ver noutras ferramentas. Mas aqui é que está também a diferença.

"Estamos a ensinar a Inteligência Artificial a simular o mundo físico em movimento, com o objetivo de treinar os modelos que possam ajudar as pessoas a resolver problemas que exijam interação com o mundo real", explica a OpenAI no post onde anuncia a nova ferramenta.

O modelo entende o que os utilizadores pedem através de uma prompt, que não precisa de ser muito detalhada, mas também como os objetos e personagens se integram no mundo real. Pode ainda criar várias perspetivas diferentes ou takes contínuos e adaptar o estílo.

Veja os vídeos que foram partilhados e as prompts que deram origem às imagens

A Sora vem concorrer com o Imagen da Google e o Make a Video da Meta, que também ainda estão em fase de testes, e a OpenAI admite que antes de abrir a possibilidade de utilização da ferramenta quer fazer mais análise para garantir a segurança dos resultados e também trabalhar com designers, realizadores e criadores para ter o seu contributo sobre como pode desenvolver o modelo e torná-lo mais útil.

A OpenAI admite que ainda existem fragilidades nos resultados, e que em alguns casos há pormenores que falham, ou mesmo a falta de percepção de evolução da cena em causa e efeito. Um dos exemplos referidos é que uma pessoa pode morder um biscoito mas depois este pode não apresentar o resultado da dentada.

Pode ainda confundir alguns detalhes de um prompt nas indicações espaciais, misturando a esquerda e direita, ou de entender alguns acontecimentos numa linha de tempo sequencial.

Como funciona a Sora na geração de vídeo?

A OpenAI não se escusou a partilhar o que está na base dos vídeos criados pela Sora e como funciona este modelo. À semelhança do GPT, usa uma arquitetura de transformação, com uma capacidade de escalar a resposta.

Na base da Sora está um modelo de difusão, que gera um vídeo a partir daquilo que se se parece com ruído estático e gradualmente o vai transformando, removendo o ruído ao longo de várias etapas.

A ferramenta tem por base os desenvolvimentos para os modelos DALL·E e GPT e usa uma técnica da ferramenta de imagens que implica a geração de legendas descritivas para dados de treino visual. 

Pode criar vídeos inteiros de uma vez, e os exemplos têm cerca de um minuto. Mas também pode estender os vídeos que foram criados e torná-los mais longos. A OpenAI explica que ao fornecer ao modelo a previsão de muitos quadros ao mesmo tempo, resolve o desafio de garantir que um objeto permaneça igual, mesmo quando sai temporariamente de vista.

Pode igualmente partir de uma imagem estática e criar um vídeo, animando o conteúdo da fotografia com mais precisão e atenção aos detalhes.

A OpenAI prometeu publicar hoje um artigo mais técnico sobre o funcionamento do modelo e já o cumpriu.  Diz também que a "Sora serve de base para modelos que podem compreender e simular o mundo real, uma capacidade que acreditamos que será um marco importante para alcançar a AGI [Inteligência Artificial Geral]".

Estas são imagens dos vídeos partilhados pela OpenAI

Em relação à segurança, a OpenAI salvaguarda o facto de estar a preparar alguns passos importantes antes de integrar a Sora nos produtos disponíveis ao público, avaliando a possibilidade de desinformação, conteúdo de ódio e preconceitos ou enviesamento das imagens. 

Entre as formas de deteção de conteúdo manipulador em vídeos gerados pela Sora, a empresa quer introduzir metadados da C2PA nos vídeos, seguindo uma regra que tem vindo a ser defendida também para evitar deepfakes que se estão a tornar mais frequentes, como se verificou recentemente no caso que envolveu imagens pornográficas com a identidade de Taylor Swift.

Mesmo assim admite que, apesar dos testes e investigação, "não conseguimos prever todas as formas benéficas como as pessoas utilizarão a nossa tecnologia, nem todas as formas como as pessoas irão abusar dela. É por isso que acreditamos que aprender com o uso no mundo real é um componente crítico para criar e lançar sistemas de IA cada vez mais seguros ao longo do tempo", refere a empresa.

Nota da Redação: A notícia foi atualizada com o link para o artigo técnico entretanto divulgado. Última atualização 18h13