O projeto Common Voice da Mozilla recolheu, desde 2017, mais de 32 mil horas de gravações de vozes de pessoas de todo o mundo a falar as respetivas línguas e idiomas, e agora disponibiliza estes dados para poderem ser usados no treino de software de reconhecimento de voz e outras aplicações.

O repositório abrange cerca de 180 línguas com as contribuições de comunidades interessadas em incluir os seus idiomas, promovendo a preservação linguística e a acessibilidade das tecnologias de Inteligência artificial. Os dados estão disponíveis gratuitamente sob licenciamento Creative Commons CC0.

E poderá ser apenas o início, pois se 180 parece muito — porque existem cerca de 200 países no mundo — na verdade existem entre 6.000 e 7.500 idiomas em todo o mundo. O catálogo Ethnologue aponta para 7.164 línguas, embora 3.170 estejam em risco de desaparecer. Só em Portugal existem duas línguas oficiais: português e mirandês.

Veja na galeria algumas das línguas disponíveis:

Os contributos para o repositório da Mozilla são voluntários e as línguas só são adicionadas se existirem comunidades a contribuir, como explica EM Lewis-Jong, diretor de produto na Mozilla. Entre os colaboradores estão comunidades que desejam preservar línguas minoritárias, como o galês e as línguas indígenas de Taiwan. O mirandês ainda não está disponível, mas está em desenvolvimento pela comunidade, segundo informação disponibilizada no site da Common Voice.

Os dados estão a ser utilizados por grandes tecnológicas, pequenas operações e até mesmo pequenos projetos focados em tarefas específicas ou desenvolvidos por criadores individuais. Os dados já foram descarregados a partir da Mozilla milhões de vezes e estão também disponíveis na plataforma de desenvolvimento de IA Hugging Face, que hospeda modelos de reconhecimento de voz treinados com os dados da Common Voice.

O responsável assinala que a base de dados continua a crescer à medida que mais material é gravado nas línguas já existentes e novos voluntários abordam a Mozilla para localizar os contributos nas suas próprias línguas. Para isso, os voluntários têm de gravar, validar e transcrever os materiais para serem disponibilizados nas próximas versões. Recentemente, além de textos de domínio público, o Common Voice passou a incluir perguntas abertas para incentivar respostas espontâneas, úteis em tarefas de reconhecimento de fala.

O projeto também está ainda a desenvolver um programa-piloto em parceria com algumas comunidades africanas para criar licenças mais restritas, que limitam o uso dos dados, um desafio para a Mozilla que historicamente queria disponibilizar os dados ao maior número de pessoas. Essas limitações podem ser uma resposta àqueles que estão preocupados com a disponibilização de dados totalmente gratuitos, quer para grandes empresas de tecnologia ou para projetos aos quais se possam opor, explica o responsável da Mozilla, ao site FastCompany.