Uma simples frase pode criar um vídeo feito por IA. Veja o que a Sora da OpenAI pode fazer

Fátima Caçador

16 fev 2024 12:35

Este artigo tem mais de um ano

Basta uma prompt, nem precisa de grande detalhe, para a Sora criar um vídeo só usando a Inteligência Artificial. Ainda é uma experiência mas vai evoluir e os resultados que já consegue são impressionantes. Veja os vídeos.

A Sora é a primeira ferramenta da OpenAI para criação de vídeo a partir de texto, depois da empresa ter já mudado as regras nos chatbots de Inteligência Artificial com o ChatGPT e na criação de imagens com o Dall-E. O vídeo é a próxima fronteira e a OpenAI mostra o que a Sora pode fazer, ainda em modo experimental.

Cenários complexos, imagens e personagens realistas, contextos de paisagens convincentes aparecem nos vários vídeos partilhados ao lado de animações que já nos habituámos a ver noutras ferramentas. Mas aqui é que está também a diferença.

"Estamos a ensinar a Inteligência Artificial a simular o mundo físico em movimento, com o objetivo de treinar os modelos que possam ajudar as pessoas a resolver problemas que exijam interação com o mundo real", explica a OpenAI no post onde anuncia a nova ferramenta.

O modelo entende o que os utilizadores pedem através de uma prompt, que não precisa de ser muito detalhada, mas também como os objetos e personagens se integram no mundo real. Pode ainda criar várias perspetivas diferentes ou takes contínuos e adaptar o estílo.

Veja os vídeos que foram partilhados e as prompts que deram origem às imagens

A Sora vem concorrer com o Imagen da Google e o Make a Video da Meta, que também ainda estão em fase de testes, e a OpenAI admite que antes de abrir a possibilidade de utilização da ferramenta quer fazer mais análise para garantir a segurança dos resultados e também trabalhar com designers, realizadores e criadores para ter o seu contributo sobre como pode desenvolver o modelo e torná-lo mais útil.

A OpenAI admite que ainda existem fragilidades nos resultados, e que em alguns casos há pormenores que falham, ou mesmo a falta de percepção de evolução da cena em causa e efeito. Um dos exemplos referidos é que uma pessoa pode morder um biscoito mas depois este pode não apresentar o resultado da dentada.

Pode ainda confundir alguns detalhes de um prompt nas indicações espaciais, misturando a esquerda e direita, ou de entender alguns acontecimentos numa linha de tempo sequencial.

Como funciona a Sora na geração de vídeo?

A OpenAI não se escusou a partilhar o que está na base dos vídeos criados pela Sora e como funciona este modelo. À semelhança do GPT, usa uma arquitetura de transformação, com uma capacidade de escalar a resposta.

Na base da Sora está um modelo de difusão, que gera um vídeo a partir daquilo que se se parece com ruído estático e gradualmente o vai transformando, removendo o ruído ao longo de várias etapas.

A ferramenta tem por base os desenvolvimentos para os modelos DALL·E e GPT e usa uma técnica da ferramenta de imagens que implica a geração de legendas descritivas para dados de treino visual.

Pode criar vídeos inteiros de uma vez, e os exemplos têm cerca de um minuto. Mas também pode estender os vídeos que foram criados e torná-los mais longos. A OpenAI explica que ao fornecer ao modelo a previsão de muitos quadros ao mesmo tempo, resolve o desafio de garantir que um objeto permaneça igual, mesmo quando sai temporariamente de vista.

Pode igualmente partir de uma imagem estática e criar um vídeo, animando o conteúdo da fotografia com mais precisão e atenção aos detalhes.

A OpenAI prometeu publicar hoje um artigo mais técnico sobre o funcionamento do modelo e já o cumpriu. Diz também que a "Sora serve de base para modelos que podem compreender e simular o mundo real, uma capacidade que acreditamos que será um marco importante para alcançar a AGI [Inteligência Artificial Geral]".

Estas são imagens dos vídeos partilhados pela OpenAI

Em relação à segurança, a OpenAI salvaguarda o facto de estar a preparar alguns passos importantes antes de integrar a Sora nos produtos disponíveis ao público, avaliando a possibilidade de desinformação, conteúdo de ódio e preconceitos ou enviesamento das imagens.

Entre as formas de deteção de conteúdo manipulador em vídeos gerados pela Sora, a empresa quer introduzir metadados da C2PA nos vídeos, seguindo uma regra que tem vindo a ser defendida também para evitar deepfakes que se estão a tornar mais frequentes, como se verificou recentemente no caso que envolveu imagens pornográficas com a identidade de Taylor Swift.

Mesmo assim admite que, apesar dos testes e investigação, "não conseguimos prever todas as formas benéficas como as pessoas utilizarão a nossa tecnologia, nem todas as formas como as pessoas irão abusar dela. É por isso que acreditamos que aprender com o uso no mundo real é um componente crítico para criar e lançar sistemas de IA cada vez mais seguros ao longo do tempo", refere a empresa.

Nota da Redação: A notícia foi atualizada com o link para o artigo técnico entretanto divulgado. Última atualização 18h13

Pergunta do Dia

Em destaque

Últimas

Casa dos Bits · Apps · 2 jul 2025 23:48

Rail Rescue junta comboios e quebra-cabeças num jogo com mais de 100 níveis desafiantes
Casa dos Bits · Opinião · 2 jul 2025 19:32

A indústria virtual que cresce a 39% até aos 2 triliões em 2032
Casa dos Bits · Multimédia · 2 jul 2025 18:24

Golos, fintas e (muitas) quedas: Robots entram em campo num novo torneio de futebol na China

por Francisca Andrade
Casa dos Bits · Telecomunicações · 2 jul 2025 17:16

É possível ter redes à prova de apagões? Operadoras defendem que o investimento exigido é insustentável

por Francisca Andrade
Casa dos Bits · Computadores · 2 jul 2025 16:30

Europa define estratégia quântica para liderar sector até 2030 com investimento em chips, competências e investigação

por Fátima Caçador
Casa dos Bits · Telecomunicações · 2 jul 2025 15:11

Europa tem de regular menos e inovar mais para garantir soberania tecnológica

por Cristina A. Ferreira

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Notificações web	Coisa
Alertas SMS	Gerir

Uma simples frase pode criar um vídeo feito por IA. Veja o que a Sora da OpenAI pode fazer

Como funciona a Sora na geração de vídeo?

Pergunta do Dia

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Últimas

Comentários

Relacionados Playlist

Uma simples frase pode criar um vídeo feito por IA. Veja o que a Sora da OpenAI pode fazer

Como funciona a Sora na geração de vídeo?

Pergunta do Dia

Veja também

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Comentários

Veja também