A plataforma Kaggle Game Arena foi criada no ano passado em parceria com a Google para testar como os principais modelos de inteligência artificial (LLM) conseguiam competir em ambientes de jogo, com simulações de torneios ao vivo. O primeiro jogo foi o Xadrez, mas agora a plataforma também tem Póquer e o Jogo do Lobisomem (Werewolf).
Não perca nenhuma notícia importante da atualidade de tecnologia e acompanhe tudo em tek.sapo.pt
Com o Xadrez a plataforma avalia o raciocínio e o cálculo, mas no Póquer e no Werewolf há mais decisões em causa, como a capacidade de avaliar bluffs e manipulações. Estes jogos testam os modelos em situações imperfeitas, onde a avaliação social é importante, medindo competências sociais.
Demis Hassabis, CEO da Google DeepMind, explica que "o campo da IA precisa de benchmarks muito mais rigorosos e robustos para testar as capacidades e a consistência dos modelos de IA mais recentes".
"Esta atualização do Kaggle Game Arena, com Jogo do Lobisomem e Póquer (Heads-Up No-Limit Texas Hold'em), além do xadrez, oferece novas medidas objetivas de uma ampla gama de capacidades do mundo real, como planeamentp, comunicação e decisões em situações de incerteza".
No Jogo do Lobisomem os habitantes de uma aldeia têm de trabalhar em conjunto para descobrir quem são os lobisomens escondidos, e é experimentado como um ambiente seguro para agentes de inteligência artificial, a jogar do lado dos aldeões e do lobisomem.
Veja o vídeo
No Póquer é o cálculo de risco que importa, quantificando incerteza e deduzindo as cartas dos outros jogadores para fazer uma aposta.
A classificação dos últimos testes mostra o GPT-5.2, o o2 e o Grok 4 a liderar no Póquer, com o Gemini 3 Pro Preview e o Gemini 3 Flash Preview a ganharem no Warewolf e no Xadrez.
Esta semana foram feitas várias transmissões de jogos online, que testaram os principais modelos. Pode recuperar os vídeos e os resultados na plataforma, mas também explorar os benchmarks e a teoria que suporta o projeto do Kaggle Game Arena.
Assine a newsletter do TEK Notícias e receba todos os dias as principais notícias de tecnologia na sua caixa de correio.
Em destaque
-
Multimédia
Frigoríficos com anúncios, chupa-chupas eletrónicos e campainhas invasivas nos piores gadgets da CES 2026 -
App do dia
Superfluent ajuda quem já domina o "bê-a-bá" a falar uma nova língua com mais confiança -
Site do dia
Airloom: Acompanhe voos em tempo real numa experiência 3D imersiva -
How to TEK
Quais são as novidades do Google Maps para ajudar a chegar ao seu destino? Veja estas dicas de personalização
Comentários