Inteligência artificial trouxe mais (mas não melhores) conteúdos multilingue para web

10 set 2024 14:51

Este artigo tem mais de um ano

Boa parte dos conteúdos que vemos online têm hoje “dedo” da inteligência artificial, na criação ou tradução. A internet é multilingue como nunca. Tem mais informação fiável? Nem por isso e os investigadores falam mesmo em risco de colapso total destes modelos.

Quase três quintos (57%) dos conteúdos que hoje em dia encontramos na internet foram traduzidos para três ou mais línguas em paralelo e a fraca qualidade das traduções dá indícios de que foram traduzidos por sistemas automáticos com inteligência artificial, segundo um estudo recente da Amazon Web Services. Isso tem impacto na qualidade dos resultados que encontramos quando fazemos uma pesquisa online? Investigadores em dois estudos distintos concluem que sim e que esse impacto não é positivo.

Numa das análises avança-se que a principal razão para um decréscimo na qualidade dos conteúdos online multilingue está no recurso cada vez maior a sistemas de tradução automática de baixo custo para múltiplas línguas em simultâneo.

“As traduções paralelas multidirecionais geradas por máquinas não só dominam a quantidade total de conteúdos traduzidos na Web em línguas com menos recursos, para as quais essa opção está disponível, como também constituem uma grande parcela de todo o conteúdo que está na web nessas línguas”, concluem os investigadores.

Para chegar a esta conclusão, os autores do estudo auditaram 100 frases traduzidas em paralelo para mais de oito línguas. Verificaram que a maioria tinha como origem fontes de baixa qualidade, sem grande especialização nem perícia, que criam conteúdo simples e fácil de replicar mas nem por isso fiável.

Isto pode sugerior que estamos a pôr nas mãos da inteligência artificial o poder de decidir que conteúdos têm mais eco mundo fora, em que tom e a partir de uma seleção que não obedece propriamente a critérios de qualidade.

A propósito, os estudos também concluiram que há mais informação enviesada nos conteúdos traduzidos para várias línguas com sistema automáticos apoiados por IA, do que nos conteúdos traduzidos para uma única língua. “Este conteúdo é mais curto, mais previsível e tem uma distribuição de tópicos diferente, em comparação com o conteúdo traduzido para uma única língua”.

Isto acontece porque a seleção de conteúdos para traduzir dos sistemas automáticos é desde logo pouco clara. Nas experiências dos investigadores foram colocados linguistas profissionais a classificar 10.000 frases inglesas selecionadas aleatoriamente numa de 20 categorias. Concluíram que há uma alteração significativa na distribuição dos tópicos por categorias quando o conteúdo é traduzido apenas para uma lingua, ou para mais de oito em simultâneo. No segundo grupo, os conteúdos catalogados como de conversação ou opinião representavam 40,1% e no primeiro 22,5%, o que, como explica a equipa, traduz um viés de seleção no tipo de dados que são traduzidos para várias línguas.

Com a tendência para o uso crescente da IA para criar e gerir conteúdos na internet, investigadores da Universidade de Oxford que acabam de publicar um artigo na Nature sobre o tema falam num fenómeno que designam por colapso do modelo. “É surpreendente a rapidez com que o colapso do modelo entra em ação e o quão obscuro pode ser”, admitiu Ilia Shumailov investigadora da Universidade de Oxford à Forbes.

“No início, afeta dados menos representativos - dados que estão mal representados. Depois, afeta a diversidade dos resultados. Por vezes, observa-se uma pequena melhoria nos dados mais importantes, que esconde a degradação do desempenho nos dados que existem em menor número. O colapso do modelo pode ter consequências graves”, alerta a investigadora.

Sugere-se que há um risco crescente de uma espécie de efeito em cascata, tendo em conta que os grandes modelos de linguagem, cada vez mais integrados com todo o tipo de serviços, são treinados com dados que recolhem na internet de forma (quase) indiscriminada. e que há uma parte importante das decisões tomadas pelos algoritmos responsáveis por muitos dos conteúdos que povoam a internet que continua a ser imprevisível, pouco lógica e com um impacto negativo em potencial que é grande.