Há novidades por parte da OpenAI no que diz respeito às capacidades da inteligência artificial no capítulo do áudio. A detentora do ChatGPT partilhou os resultados preliminares de um modelo em desenvolvimento, chamado Voice Engine, que usa uma entrada de texto e uma única amostra de áudio de 15 segundos.
Segundo a OpenAI, o modelo consegue gerar uma fala com som natural que se assemelha muito ao locutor original, criando “vozes emotivas e realistas”, algo que classifica como “notável”.
O Voice Engine começou a ser desenvolvido no final de 2022, usado para potencializar as vozes predefinidas disponíveis na API de conversão de texto em fala, bem como no ChatGPT Voice e Read Aloud, explica a empresa.
A OpenAI refere que está a adotar uma abordagem cautelosa quanto a uma utilização e lançamento amplos, devido ao potencial de utilização indevida que a tecnologia comporta, como alguns golpes que já circulam, de telefonar ou enviar áudios para parentes a pedir dinheiro. Também há preocupações relacionadas com as eleições, como um incidente recente em que foi usada a voz do Presidente dos Estados Unidos, Joe Biden, em chamadas automáticas, com um apelo para os norte-americanos não votarem nas primárias de janeiro em New Hampshire.
Por outro lado, a tecnologia também promete benefícios, como a assistência de leitura para não leitores, tradução instantânea ou a ajuda a pessoas com problemas de voz. A OpenAI apresenta vários exemplos daquilo que tem vindo a fazer com o Voice Engine a partir do seu blog, mostrando o potencial da ferramenta em várias áreas.
“O Voice Engine é uma continuação do nosso compromisso de compreender a fronteira técnica e partilhar abertamente o que se está a tornar possível com a IA”, refere a OpenAI. “Em linha com a nossa abordagem à segurança da IA e com os nossos compromissos voluntários, optamos por pré-visualizar, mas não divulgar amplamente esta tecnologia neste momento”, acrescenta.
A empresa espera tomar uma decisão mais informada “sobre se e como implementar esta tecnologia em escala” com base nas conversas e nos resultados dos testes em pequena escala que tem vindo a conduzir.
“Esperamos que esta amostra do Voice Engine ressalte o seu potencial e também motive a necessidade de reforçar a resiliência da sociedade contra os desafios trazidos por modelos generativos cada vez mais convincentes”, escreve ainda no artigo.
Pergunta do Dia
Em destaque
-
Multimédia
20 anos de Halo 2 trazem mapas clássicos e a mítica Demo E3 de volta -
App do dia
Proteja a galáxia dos invasores com o Space shooter: Galaxy attack -
Site do dia
Google Earth reforça ferramenta Timelapse com imagens que remontam à Segunda Guerra Mundial -
How to TEK
Pesquisa no Google Fotos vai ficar mais fácil. É só usar linguagem “normal”
Comentários