A Aleph Alpha, em colaboração com a AMD e a Schwarz Digits, criou uma nova arquitetura de grande modelo de linguagem (LLM) com grande performance de computação e uma cloud soberana. A empresa alemã pretende resolver um dos desafios mais críticos relacionados com a inteligência artificial, o ensino de novas linguagens de IA, sejam elas open source ou fechadas.
É referido que o ensino atual de novos modelos tende a produzir resultados exagerados e a afinação demonstra ser pouco eficaz, sobretudo naqueles que são cruciais para empresas ou governos. A principal razão para isto é que os padrões usados no ensino destes modelos LLMs são baseados na versão em token do texto com o qual foram treinados. “Se um novo texto diferir consideravelmente dos dados originais, não pode ser eficientemente transformado num token.
A proposta da empresa é uma arquitetura sem tokens, afirmando ser a solução para o desafio de afinar a inteligência artificial e criar modelos para diversas necessidades específicas da indústria. As linguagens baseadas em recursos baixos e para necessidades específicas requerem soluções mais personalizadas, que até agora não existem muitos. A tecnologia assenta nos mais recentes avanços da AMD AI.
Sem o sistema de tokens da nova arquitetura, será possível estender os modelos LLM para lá dos dados de treino originais. Atualmente, dos modelos só podem ser treinados eficientemente quando utilizam tokens semelhantes aos dados originais. E afinar esses modelos requer dados LLM que muitas vezes estão indisponíveis para distribuição. Além de necessitarem de quantidades massivas de computação, tendo impacto nos custos e na pegada ambiental.
A arquitetura da Aleph Alpha propõe uma base para uma nova geração de soluções de IA, permitindo aos governos e empresas construir as suas próprias versões mediante as suas necessidades, as suas línguas nativas, especificações culturais, assim como o óbvio conhecimento e terminologia. Tudo isto vai permitir democratizar o acesso à tecnologia de IA.
Foi dado o exemplo da performance obtida no treino, em que foi reduzido 70% no custo de treino e da pegada de carbono no treino em finlandês em relação ao inglês entre a arquitetura T-Free (Token Free), a otimizada com a tecnologia da AMD, em relação com outras arquiteturas.
Em destaque
-
Multimédia
Ferrari revela interior do seu primeiro modelo elétrico. Design do Luce é criação de Jony Ive -
Site do dia
Atom Animation: a tabela periódica ganha vida em animações hipnotizantes -
App do dia
Salte de teia em teia e acompanhe as aventuras de uma pequena aranha com uma grande missão -
How to TEK
LinkedIn já começou a usar dados dos utilizadores para treinar IA. Veja como desativar
Comentários