O anúncio foi feito ontem e é o maior bloco de sempre de novas línguas adicionadas ao Google Tradutor, a ferramenta gratuita da Google que pode ser acedida diretamente na página de pesquisa para uma tradução rápida, ou em translate.google.pt para um resultado mais extenso de tradução de textos, mas também de websites, imagens e documentos. Entre as 110 línguas agora adicionadas está o português de Portugal, quando antes apenas era possível fazer a tradução para português com "sotaque" do Brasil.
Em todo o mundo são falados mais de 7 mil idiomas e o número dos que têm uma boa representação online é muito pequeno. Mas a Google quer mudar esta situação e anunciou em 2022 o 1,000 Languages Initiative que tem como objetivo construir um modelo de IA que suporte as mil línguas mais faladas, ajudando à inclusão de milhares de milhões de pessoas em comunidades marginalizadas.
A Google assume que a incapacidade de chegar a mais línguas é também um obstáculo à sua missão de tornar toda a informação do mundo universalmente acessível e útil, e por isso já colocou a Inteligência Artificial a ajudar no processo.
O modelo de linguagem PaLM 2 está na base dos desenvolvimentos agora integrados no Google Tradutor e ajuda a aprender idiomas que estão relacionados entre si. Os exemplos passam pelos idiomas próximos do hindi, como Awadhi e Marwadi, e os crioulos franceses, como o crioulo das Seicheles e o crioulo das Maurícias.
A Google diz que as 11o línguas que foram adicionadas representam 614 milhões de falantes, ermitindo traduções para cerca de 8% da população mundial. "Algumas são línguas importantes do mundo, com mais de 100 milhões de falantes. Outros são falados por pequenas comunidades de povos indígenas e alguns quase não têm falantes nativos mas esforços ativos de revitalização", explica Isaac Caswell, Engenheiro de Software do Google Translate num post no blog da empresa.
Cerca de um quarto das novas línguas são de África, na maior expansão de línguas africanas de sempre na ferramenta da Google, incluindo Fon, Kikongo, Luo, Ga, Swati, Venda e Wolof.
Para já a tradução em português de Portugal só funciona para texto, 5 mil caracteres de cada vez, e para websites, não estando ainda disponível para imagens e documentos. A imagem abaixo mostra a tradução do SAPO TEK para japonês.
No post que foi publicado no blog, Isaac Caswell explica que há muitos atores a considerar quando são adicionados novos idiomas ao tradutor, desde as variedades ás graias específicas, já que nem todas usam o alfabeto latino, ou romano.
"As línguas têm uma imensa variação: variedades regionais, dialetos, diferentes padrões ortográficos. Na verdade, muitos idiomas não possuem um formato padrão, por isso é impossível escolher a variedade “certa”. A nossa abordagem tem sido priorizar as variedades mais usadas comumente em cada idioma", refere. O exemplo dado é com o Romani, que tem muitos dialetos na Europa, mas podia também ser o português.
A Google garante ainda que, à medida que a tecnologia avança e continua a fazer parcerias com linguistas especializados e falantes nativos das várias línguas, vai continuar a adicionar mais variedades linguísticas e convenções ortográficas.
Pergunta do Dia
Em destaque
-
Multimédia
SU7 Ultra é o novo carro desportivo da Xiaomi e chega ao mercado em 2025. Preço já foi divulgado -
App do dia
App Abstractly mostra o poder da informação resumida com inteligência artificial -
Site do dia
É esquecido? Faça anotações rápidas em post-its diretamente numa página de internet -
How to TEK
O que é o formato de imagem Webp e como gravar facilmente no computador
Comentários