Mozilla tem repositório para treinar IA em reconhecimento de voz com mais de 180 línguas

25 nov 2024 07:15

Este artigo tem mais de um ano

Com base em mais de 32 mil horas de gravações, em centenas de línguas, a Mozilla disponibiliza gratuitamente os dados que permitem treinar software de reconhecimento de voz e outras aplicações.

O projeto Common Voice da Mozilla recolheu, desde 2017, mais de 32 mil horas de gravações de vozes de pessoas de todo o mundo a falar as respetivas línguas e idiomas, e agora disponibiliza estes dados para poderem ser usados no treino de software de reconhecimento de voz e outras aplicações.

O repositório abrange cerca de 180 línguas com as contribuições de comunidades interessadas em incluir os seus idiomas, promovendo a preservação linguística e a acessibilidade das tecnologias de Inteligência artificial. Os dados estão disponíveis gratuitamente sob licenciamento Creative Commons CC0.

E poderá ser apenas o início, pois se 180 parece muito — porque existem cerca de 200 países no mundo — na verdade existem entre 6.000 e 7.500 idiomas em todo o mundo. O catálogo Ethnologue aponta para 7.164 línguas, embora 3.170 estejam em risco de desaparecer. Só em Portugal existem duas línguas oficiais: português e mirandês.

Veja na galeria algumas das línguas disponíveis:

Os contributos para o repositório da Mozilla são voluntários e as línguas só são adicionadas se existirem comunidades a contribuir, como explica EM Lewis-Jong, diretor de produto na Mozilla. Entre os colaboradores estão comunidades que desejam preservar línguas minoritárias, como o galês e as línguas indígenas de Taiwan. O mirandês ainda não está disponível, mas está em desenvolvimento pela comunidade, segundo informação disponibilizada no site da Common Voice.

Os dados estão a ser utilizados por grandes tecnológicas, pequenas operações e até mesmo pequenos projetos focados em tarefas específicas ou desenvolvidos por criadores individuais. Os dados já foram descarregados a partir da Mozilla milhões de vezes e estão também disponíveis na plataforma de desenvolvimento de IA Hugging Face, que hospeda modelos de reconhecimento de voz treinados com os dados da Common Voice.

O responsável assinala que a base de dados continua a crescer à medida que mais material é gravado nas línguas já existentes e novos voluntários abordam a Mozilla para localizar os contributos nas suas próprias línguas. Para isso, os voluntários têm de gravar, validar e transcrever os materiais para serem disponibilizados nas próximas versões. Recentemente, além de textos de domínio público, o Common Voice passou a incluir perguntas abertas para incentivar respostas espontâneas, úteis em tarefas de reconhecimento de fala.

O projeto também está ainda a desenvolver um programa-piloto em parceria com algumas comunidades africanas para criar licenças mais restritas, que limitam o uso dos dados, um desafio para a Mozilla que historicamente queria disponibilizar os dados ao maior número de pessoas. Essas limitações podem ser uma resposta àqueles que estão preocupados com a disponibilização de dados totalmente gratuitos, quer para grandes empresas de tecnologia ou para projetos aos quais se possam opor, explica o responsável da Mozilla, ao site FastCompany.

Em destaque

Últimas

Casa dos Bits · Site do dia · 1 mar 2026 09:35

Blunderwall vai desafiar a sua mente e tem quebra-cabeças diários com palavras secretas (e emojis)
Casa dos Bits · Apps · 28 fev 2026 18:00

LEGO Bluey traz a família Heeler para a construção digital com brincadeiras interativas

por Gustavo Dias
Casa dos Bits · Análises · 28 fev 2026 16:45

Polestar 2 Performance: Tanto de civilizado e eficiente, quanto de rebelde

por Gustavo Dias
Casa dos Bits · Equipamentos · 28 fev 2026 14:30

Primeiras impressões: Xiaomi 17 Ultra tem "alma" de fotógrafo e corpo desenhado com a Leica para acompanhar as curvas

por Fátima Caçador
Casa dos Bits · Equipamentos · 28 fev 2026 14:30

Xiaomi 17 Series promete uma experiência fotográfica de topo com tecnologia avançada e detalhes premium

por Francisca Andrade
Casa dos Bits · Ciência · 28 fev 2026 11:50

Novo telescópio espacial da NASA sai da Via Láctea em busca do invisível

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Notificações web	Coisa
Alertas SMS	Gerir

Mozilla tem repositório para treinar IA em reconhecimento de voz com mais de 180 línguas

Veja na galeria algumas das línguas disponíveis:

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Últimas

Comentários

Relacionados Playlist

Mozilla tem repositório para treinar IA em reconhecimento de voz com mais de 180 línguas

Veja na galeria algumas das línguas disponíveis:

Veja também

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Comentários

Veja também