Os investigadores da Google DeepMind apresentaram o ATLAS, um conjunto de leis de escala para modelos linguísticos multilingues. Naquele que é o maior estudo público sobre o tema alguma vez divulgado, como diz a Google, alinham-se orientações sobre como combinar dados para treinar modelos de forma mais eficaz, em idiomas que não o inglês.
Não perca nenhuma notícia importante da atualidade de tecnologia e acompanhe tudo em tek.sapo.pt
“Mais de 50% dos utilizadores de modelos de IA falam idiomas que não o inglês, mas as leis de escalabilidade acessíveis ao público estão predominantemente focadas no idioma inglês. Esse desequilíbrio cria uma lacuna crítica na investigação”, sublinha a Google.
Com este trabalho, os investigadores dizem que é feita uma “abordagem simples e prática para determinar o tamanho ideal do modelo, o volume de dados e as combinações de idiomas para o treino”. Tudo isto já existia, mas para ambientes monolingues. O ATLAS fornece essas recomendações para ambientes multilíngues mais complexos.
Com este “ATLAS: leis de escala de transferência adaptativa para pré-treino multilíngue, ajuste fino e descodificação da maldição da multilinguidade” ficam disponíveis dados que “otimizam especificamente o desempenho num idioma de destino (por exemplo, catalão) aproveitando dados de vários idiomas diferentes”, explica-se.
Os resultados aqui compilados assentam em 774 exercícios de treino em modelos com 10 milhões a 8 mil milhões de parâmetros, utilizando dados multilingues de mais de 400 idiomas, e avaliam o desempenho em 48 idiomas-alvo.
Para manter o desempenho e aumentar o número de idiomas nos modelos de treino é preciso fazer crescer o modelo e o volume de dados de treino, um dos grandes desafios do processo. O ATLAS dá mais informação sobre isto e mostra em que medida a escalabilidade é afetada, tendo em conta as línguas combinadas.
Para isso, recorre a uma matriz de transferência entre idiomas, usada para identificar que idiomas são melhores para treinar juntos. Usa uma lei de escala que fornece orientação sobre como expandir com eficiência o tamanho do modelo e os dados, à medida que o número de idiomas suportados aumenta. E, detalha regras para decidir quando é preferível pré-treinar um modelo do zero em vez de ajustá-lo a partir de um ponto de verificação multilíngue.
“Esta abordagem inovadora permite que a lei aprenda o quanto cada fonte realmente ajuda ou atrapalha a língua-alvo, uma capacidade que as leis anteriores não suportavam”, assegura a Google.
Assine a newsletter do TEK Notícias e receba todos os dias as principais notícias de tecnologia na sua caixa de correio.
Em destaque
-
Multimédia
Frigoríficos com anúncios, chupa-chupas eletrónicos e campainhas invasivas nos piores gadgets da CES 2026 -
App do dia
Pixelfed: Uma alternativa Open Source ao Instagram que devolve o controlo ao utilizador -
Site do dia
Do Falcon 9 ao Ariane 6: Flight Atlas mostra como evolui a indústria espacial com gráficos interativos -
How to TEK
Quais são as novidades do Google Maps para ajudar a chegar ao seu destino? Veja estas dicas de personalização
Comentários