Clonar vozes é cada vez mais fácil. Para a inteligência artificial da OpenAI bastam 15 segundos

4 abr 2024 16:30

Este artigo tem mais de um ano

O tempo necessário para uma IA clonar a voz de alguém tem diminuído consideravelmente. Antes, esse processo levava minutos agora, são apenas segundos, pelo menos para os lados da OpenAI, que tem um novo projeto chamado Voice Engine.

Há novidades por parte da OpenAI no que diz respeito às capacidades da inteligência artificial no capítulo do áudio. A detentora do ChatGPT partilhou os resultados preliminares de um modelo em desenvolvimento, chamado Voice Engine, que usa uma entrada de texto e uma única amostra de áudio de 15 segundos.

Segundo a OpenAI, o modelo consegue gerar uma fala com som natural que se assemelha muito ao locutor original, criando “vozes emotivas e realistas”, algo que classifica como “notável”.

O Voice Engine começou a ser desenvolvido no final de 2022, usado para potencializar as vozes predefinidas disponíveis na API de conversão de texto em fala, bem como no ChatGPT Voice e Read Aloud, explica a empresa.

A OpenAI refere que está a adotar uma abordagem cautelosa quanto a uma utilização e lançamento amplos, devido ao potencial de utilização indevida que a tecnologia comporta, como alguns golpes que já circulam, de telefonar ou enviar áudios para parentes a pedir dinheiro. Também há preocupações relacionadas com as eleições, como um incidente recente em que foi usada a voz do Presidente dos Estados Unidos, Joe Biden, em chamadas automáticas, com um apelo para os norte-americanos não votarem nas primárias de janeiro em New Hampshire.

Por outro lado, a tecnologia também promete benefícios, como a assistência de leitura para não leitores, tradução instantânea ou a ajuda a pessoas com problemas de voz. A OpenAI apresenta vários exemplos daquilo que tem vindo a fazer com o Voice Engine a partir do seu blog, mostrando o potencial da ferramenta em várias áreas.

“O Voice Engine é uma continuação do nosso compromisso de compreender a fronteira técnica e partilhar abertamente o que se está a tornar possível com a IA”, refere a OpenAI. “Em linha com a nossa abordagem à segurança da IA e com os nossos compromissos voluntários, optamos por pré-visualizar, mas não divulgar amplamente esta tecnologia neste momento”, acrescenta.

A empresa espera tomar uma decisão mais informada “sobre se e como implementar esta tecnologia em escala” com base nas conversas e nos resultados dos testes em pequena escala que tem vindo a conduzir.

“Esperamos que esta amostra do Voice Engine ressalte o seu potencial e também motive a necessidade de reforçar a resiliência da sociedade contra os desafios trazidos por modelos generativos cada vez mais convincentes”, escreve ainda no artigo.