Direcionado a utilizadores com perturbações da fala, a tecnologia da Xiaomi utiliza algoritmos avançados e tecnologia de voz para o campo da acessibilidade. Na prática, utiliza texto-to-speech num formato espontâneo, ou seja, cada utilizador pode ter uma voz única e personalizada que replicar as suas mensagens escritas.
Criado no Xiaomi AI Lab, os utilizadores podem comunicar com a sua “própria voz” que substitui os habituais sistemas de voz eletrónica, que acabam por ser monótonas e sem expressão. O projeto “Own My Voice” foi considerado bem-sucedido, com a fabricante chinesa a afirmar que é mais um passo na sua missão de ajudar as pessoas a desfrutarem de uma vida melhor através de tecnologia inovadora.
Para desenvolver o sistema de voz mais adequado e personalizado para o destinatário, a equipa de investigação recrutou mais de 200 voluntários da Xiaomi para doarem as suas vozes. Foi usado um algoritmo de correspondência de vozes para fazer corresponder as características das vozes doadas pelos voluntários com as da voz do destinatário. Neste formato, foi encontrada a voz mais adequada como o som básico de referência de voz para o destinatário.
A Xiaomi explica que considerando a personalização e proteção da privacidade, a voz real que foi escolhida foi manipulada com modificações acústicas complexas, de forma a criar um som de voz novo e original. Depois de escolhida a voz, os investigadores da empresa utilizaram tecnologia texto-to-speech de estilo espontâneo para treinar o respetivo modelo de inteligência artificial. Dessa forma, a nova voz foi ganhando um ritmo natural, de forma gradual, com entoações capazes de expressar realisticamente a emoção e tons de um humano. A tecnologia permitiu criar uma genuinidade elevada da voz sintetizada e personalizada para utilizadores com perturbações da fala.
O sucesso de "Own My Voice" depende principalmente da tecnologia Text-To-Speech de estilo espontâneo desenvolvida pela Xiaomi AI Lab. Esta assume comportamentos humanos, desde a entoação, pausa, velocidade e outras características de uma conversação natural. O sistema pode ser adotado de forma mais ampla nas áreas de acessibilidade para melhorar a experiência do utilizador.
Os investigadores vão receber o feedback dos destinatários da voz e continuar a estudar a possibilidade de expandir o projeto a uma gama mais alargada.
Pergunta do Dia
Em destaque
-
Multimédia
20 anos de Halo 2 trazem mapas clássicos e a mítica Demo E3 de volta -
App do dia
Proteja a galáxia dos invasores com o Space shooter: Galaxy attack -
Site do dia
Google Earth reforça ferramenta Timelapse com imagens que remontam à Segunda Guerra Mundial -
How to TEK
Pesquisa no Google Fotos vai ficar mais fácil. É só usar linguagem “normal”
Comentários