Os investigadores da Google DeepMind apresentaram o ATLAS, um conjunto de leis de escala para modelos linguísticos multilingues. Naquele que é o maior estudo público sobre o tema alguma vez divulgado, como diz a Google, alinham-se orientações sobre como combinar dados para treinar modelos de forma mais eficaz, em idiomas que não o inglês.

Não perca nenhuma notícia importante da atualidade de tecnologia e acompanhe tudo em tek.sapo.pt

“Mais de 50% dos utilizadores de modelos de IA falam idiomas que não o inglês, mas as leis de escalabilidade acessíveis ao público estão predominantemente focadas no idioma inglês. Esse desequilíbrio cria uma lacuna crítica na investigação”, sublinha a Google.

Com este trabalho, os investigadores dizem que é feita uma “abordagem simples e prática para determinar o tamanho ideal do modelo, o volume de dados e as combinações de idiomas para o treino”. Tudo isto já existia, mas para ambientes monolingues. O ATLAS fornece essas recomendações para ambientes multilíngues mais complexos.

Com este “ATLAS: leis de escala de transferência adaptativa para pré-treino multilíngue, ajuste fino e descodificação da maldição da multilinguidade” ficam disponíveis dados que “otimizam especificamente o desempenho num idioma de destino (por exemplo, catalão) aproveitando dados de vários idiomas diferentes”, explica-se.

Google deepmind
Google deepmind créditos: Google deepmind

Os resultados aqui compilados assentam em 774 exercícios de treino em modelos com 10 milhões a 8 mil milhões de parâmetros, utilizando dados multilingues de mais de 400 idiomas, e avaliam o desempenho em 48 idiomas-alvo.

Para manter o desempenho e aumentar o número de idiomas nos modelos de treino é preciso fazer crescer o modelo e o volume de dados de treino, um dos grandes desafios do processo. O ATLAS dá mais informação sobre isto e mostra em que medida a escalabilidade é afetada, tendo em conta as línguas combinadas.

Para isso, recorre a uma matriz de transferência entre idiomas, usada para identificar que idiomas são melhores para treinar juntos. Usa uma lei de escala que fornece orientação sobre como expandir com eficiência o tamanho do modelo e os dados, à medida que o número de idiomas suportados aumenta. E, detalha regras para decidir quando é preferível pré-treinar um modelo do zero em vez de ajustá-lo a partir de um ponto de verificação multilíngue.

“Esta abordagem inovadora permite que a lei aprenda o quanto cada fonte realmente ajuda ou atrapalha a língua-alvo, uma capacidade que as leis anteriores não suportavam”, assegura a Google.

Assine a newsletter do TEK Notícias e receba todos os dias as principais notícias de tecnologia na sua caixa de correio.