Direcionado a utilizadores com perturbações da fala, a tecnologia da Xiaomi utiliza algoritmos avançados e tecnologia de voz para o campo da acessibilidade. Na prática, utiliza texto-to-speech num formato espontâneo, ou seja, cada utilizador pode ter uma voz única e personalizada que replicar as suas mensagens escritas.
Criado no Xiaomi AI Lab, os utilizadores podem comunicar com a sua “própria voz” que substitui os habituais sistemas de voz eletrónica, que acabam por ser monótonas e sem expressão. O projeto “Own My Voice” foi considerado bem-sucedido, com a fabricante chinesa a afirmar que é mais um passo na sua missão de ajudar as pessoas a desfrutarem de uma vida melhor através de tecnologia inovadora.
Para desenvolver o sistema de voz mais adequado e personalizado para o destinatário, a equipa de investigação recrutou mais de 200 voluntários da Xiaomi para doarem as suas vozes. Foi usado um algoritmo de correspondência de vozes para fazer corresponder as características das vozes doadas pelos voluntários com as da voz do destinatário. Neste formato, foi encontrada a voz mais adequada como o som básico de referência de voz para o destinatário.
A Xiaomi explica que considerando a personalização e proteção da privacidade, a voz real que foi escolhida foi manipulada com modificações acústicas complexas, de forma a criar um som de voz novo e original. Depois de escolhida a voz, os investigadores da empresa utilizaram tecnologia texto-to-speech de estilo espontâneo para treinar o respetivo modelo de inteligência artificial. Dessa forma, a nova voz foi ganhando um ritmo natural, de forma gradual, com entoações capazes de expressar realisticamente a emoção e tons de um humano. A tecnologia permitiu criar uma genuinidade elevada da voz sintetizada e personalizada para utilizadores com perturbações da fala.
O sucesso de "Own My Voice" depende principalmente da tecnologia Text-To-Speech de estilo espontâneo desenvolvida pela Xiaomi AI Lab. Esta assume comportamentos humanos, desde a entoação, pausa, velocidade e outras características de uma conversação natural. O sistema pode ser adotado de forma mais ampla nas áreas de acessibilidade para melhorar a experiência do utilizador.
Os investigadores vão receber o feedback dos destinatários da voz e continuar a estudar a possibilidade de expandir o projeto a uma gama mais alargada.
Em destaque
-
Multimédia
Ingenuity: O que aconteceu ao helicóptero da NASA que superou todas as expetativas e fez história em Marte? -
Site do dia
Consegue adivinhar um filme a partir de uma imagem? Teste os seus conhecimentos em FrameGuess -
App do dia
Fire Emblem Shadows é uma nova aventura de estratégia da Nintendo para smartphones -
How to TEK
Conversas "aborrecidas" com o ChatGPT? Veja como mudar a personalidade do chatbot da OpenAI
Comentários