A OpenAI, criadora do popular ChatGPT, está a desenvolver um novo modelo de linguagem de grande escala (LLM) experimental que, devido à sua forma de atuação mais simples e transparente, ajudará a entender melhor como funcionam os LLMs mais complexos.
Não perca nenhuma notícia importante da atualidade de tecnologia e acompanhe tudo em tek.sapo.pt
Para melhor explicar do que se trata, a MIT Technology Review entrevistou Leo Gao, cientista de investigação na OpenAI, que afirmou que “à medida que os sistemas de IA se tornam mais poderosos, vão ser cada vez mais integrados em domínios muito importantes”, reforçando que por isso “é muito importante garantir que estes são seguros.”
O novo modelo, chamado "weight-sparse transformer", é muito menor e menos capaz do que modelos complexos como o GPT-5 da própria empresa, o Claude da Anthropic ou o Gemini da Google. No máximo, este modelo "transparente" terá uma capacidade de processamento equivalente ao do GPT-1, um modelo que a OpenAI lançou em 2018.
Mas o objetivo não é competir com os melhores da categoria (pelo menos, ainda não). Em vez disso, ao observar como este modelo experimental funciona, a OpenAI espera aprender melhor sobre os mecanismos ocultos dentro dessas versões maiores e melhores da tecnologia, como descobrir as razões pelo qual os modelos “alucinam”, por que razão descarrilam, e até que ponto devemos confiar neles para tarefas críticas.
O trabalho da OpenAI está concentrado na interpretabilidade mecanística, um novo campo de investigação que tenta desvendar os mecanismos internos que os LLMs usam para executar tarefas. Estes são construídos com redes densas de neurónios artificiais, uma arquitetura que, embora eficiente, tem o efeito de espalhar o conhecimento por vastas teias de conexões.
Consequentemente, conceitos simples ficam dispersos por vários neurónios, e um único neurónio pode representar múltiplas características, num fenómeno conhecido como superposição. Esta complexidade torna as redes neuronais "emaranhadas e muito difíceis de entender", sendo o objetivo da equipa da OpenAI tentar reverter esse cenário, tornando o funcionamento dos modelos mais transparente.
Para tal, em vez de recorrerem a um modelo de rede densa, onde todos os neurónios nas camadas adjacentes estão ligados entre si, a OpenAI optou por usar uma rede neuronal do tipo disperso, ou seja, onde cada ponto está ligado só a alguns dos restantes neurónios, forçando o modelo a identificar a localização do conhecimento necessário para executar a tarefa pedida. Como será de prever, esta atuação é mais lenta, mas em contrapartida permite localizar os neurónios, ou grupo de neurónios, com conceitos e funções específicas.
Leo Gao reconhece que esta abordagem, apesar de permitir uma maior transparência, tem as suas limitações, como a capacidade de processamento, que fará com que este novo modelo nunca chegue ao nível de desempenho dos modelos de topo como o GPT-5. Ainda assim, acredita que será possível optimizar o seu desempenho, colocando-o ao nível de um GPT-3, um LLM lançado em 2021.
Assine a newsletter do TEK Notícias e receba todos os dias as principais notícias de tecnologia na sua caixa de correio.
Em destaque
-
Multimédia
Football Manager 26 regressa depois de um ano "lesionado". É para ganhar o campeonato? -
Site do dia
Guarde o que vê na internet e registe ideias rapidamente com a extensão do Evernote -
App do dia
Farto de fotografias desalinhadas? Griddr. ajuda a encontrar o enquadramento ideal -
How to TEK
Foi adicionado a um grupo no WhatsApp por alguém que não conhece? Saiba como sair de “mansinho” e reportar
Comentários