A Meta, dona do Facebook, apresentou um novo modelo de linguagem de inteligência artificial generativa. Chama-se Movie Gen e, diz a empresa, que é tão ou mais poderoso como o Sora desenvolvido pela OpenAI, pelo menos em algumas áreas.
“Enquanto conjunto de modelos de narração de história mais avançado e imersivo, o Movie Gen tem quatro capacidades: geração de vídeo, geração de vídeo personalizado, edição de vídeo precisa e geração de áudio”, garante a Meta numa nota publicada no blog oficial.
Veja o vídeo da Meta mostra-se a capacidade de edição do Movie Gen
Na publicação mostra-se que, a partir de simples comandos de texto, é possível acrescentar elementos de som e imagem a conteúdos em vídeo. Nos exemplos há um pinguim que passa a caminhar com um vestido, uma DJ que anima o cenário com um tigre que parece real, ou um hipopótamo a nadar debaixo de água. Mostra-se ainda a possibilidade de pedir ao modelo para juntar som a imagens, tendo em conta o conteúdo exibido, ou alinhar esse som com diferentes momentos da imagem, variando a intensidade do volume, por exemplo.
“O Movie Gen é a nossa terceira vaga [de modelos de linguagem] e combina todas as modalidades anteriores, permitindo um controlo ainda mais preciso para as pessoas que utilizam os modelos”, explica ainda a Meta.
Os modelos usados para criar o Movie Gen foram treinados com dados licenciados e publicamente disponíveis. Permitem criar vídeos com um máximo de 16 segundos e áudios com até 45 segundos.
Segundo uma análise da própria Meta, recorrendo a indicadores de referência para o efeito, em algumas áreas o Movie Gen consegue melhores resultados que os da concorrência. Ainda assim, a companhia admite que este é um trabalho em progresso, com ajustes para fazer e promete continuar à procura de melhores resultados.
Ao pedido de um vídeo com um koala fofinho o Movie Gen dá este resultado
Foi partilhado um paper com os resultados da investigação que conduziram até aqui, se bem que ao contrário do que fez com o modelo anterior, não é provável que a dona do Facebook abra o código do modelo para programadores. Um porta-voz da empresa disse à Reuters que é pouco provável este movimento, explicando que a avaliação dos riscos associados a cada modelo é feita individualmente.
Este é mais um exemplo da qualidade de imagens de vídeo geradas
Em vez disso, a Meta diz que está a trabalhar diretamente com a comunidade de entretenimento e criadores de conteúdos para que estes usem o modelo. Também revelou que deve incorporá-lo nos seus próprios produtos durante o próximo ano.
Veja os resultados para pedidos de um vídeos sincronizados com som
Pergunta do Dia
Em destaque
-
Multimédia
20 anos de Halo 2 trazem mapas clássicos e a mítica Demo E3 de volta -
App do dia
Proteja a galáxia dos invasores com o Space shooter: Galaxy attack -
Site do dia
Google Earth reforça ferramenta Timelapse com imagens que remontam à Segunda Guerra Mundial -
How to TEK
Pesquisa no Google Fotos vai ficar mais fácil. É só usar linguagem “normal”
Comentários