Porque os benchmarks da IA devem medir o que nos torna humanos

10 nov 2025 19:24

Miguel Oliveira escreve sobre a forma de medir a inteligência das máquinas e o desafio de fazer comparações, mas também a necessidade de apostar naquilo que nos torna diferentes como humanos.

Por Miguel Oliveira (*)

Durante décadas, avaliámos o progresso da inteligência artificial com métricas técnicas — precisão, velocidade, capacidade de processamento. Mas se queremos que a IA se alinhe com os valores humanos, temos de mudar a forma como a avaliamos.

Um benchmark é, de forma simples, um teste de comparação. Tal como um exame mede o conhecimento de um aluno, um benchmark mede o desempenho de uma máquina. São conjuntos de tarefas padronizadas, como resolver problemas de matemática, traduzir textos, responder a perguntas, que permitem comparar diferentes modelos de IA entre si. Um modelo “melhor” é aquele que acerta em mais perguntas, produz respostas mais rápidas ou demonstra maior coerência. Estes testes são o “pano de fundo” que define o que consideramos progresso na IA.

O problema é que estes benchmarks avaliam apenas competência técnica, e não compreensão humana. Saber resolver um problema não é o mesmo que compreender o seu impacto ou contexto. Por isso, se continuarmos a medir apenas a capacidade de acertar respostas, estaremos a ensinar a IA a parecer inteligente e não a agir de forma sábia.

O mesmo acontece no sistema educativo: um aluno que tira boas notas não é necessariamente aquele que melhor aplica o que aprendeu fora da sala de aula. Os testes medem memória e desempenho momentâneo, mas raramente avaliam empatia, pensamento crítico ou capacidade de colaboração — qualidades que determinam o sucesso no mundo real. Muitos dos melhores alunos em exames acabam por descobrir que as respostas certas não bastam quando se trata de trabalhar em equipa, liderar pessoas ou tomar decisões éticas.

Tal como a escola precisa de ir além das notas para formar cidadãos plenos, também a IA precisa de ir além dos resultados para se tornar verdadeiramente humana. Avaliar apenas o “acerto” é premiar a aparência de inteligência, não a sabedoria que dá sentido às escolhas.

Um exemplo recente é o Humanity’s Last Exam (HLE). Este exame tenta medir a inteligência das máquinas num nível mais avançado, reunindo cerca de 3 000 perguntas em áreas como matemática, ciências naturais e humanidades. O HLE é importante porque evita questões “copiáveis” da internet e procura avaliar raciocínio genuíno. Mesmo assim, os modelos mais sofisticados continuam a ficar abaixo dos especialistas humanos.

Contudo, o HLE mostra também os limites da abordagem atual. Passar num exame — ainda que seja o “último exame da humanidade” — não significa compreender valores, emoções ou dilemas éticos. Um sistema pode acertar na resposta e ainda assim falhar no essencial: o sentido humano da decisão.

Se não formos capazes de criar métricas que reflitam o que é ser humano, o resultado é previsível: as máquinas parecerão sempre melhores. Mais rápidas, mais racionais, mais consistentes. Mas essa vantagem é ilusória, porque compara dimensões diferentes. O ser humano não é apenas Homo Sapiens Sapiens — o que “sabe que sabe” —, mas também aquilo que poderíamos chamar de Homo Emotionalis, que defende que as nossas decisões são moldadas tanto pela razão como pela emoção.

Na era da IA, talvez devêssemos abraçar essa identidade: reconhecer que o que nos distingue não é a capacidade de calcular, mas a de sentir. Criar benchmarks verdadeiramente humanos é, por isso, um exercício de autoconhecimento. Avaliar uma IA com base em empatia, responsabilidade ou consciência ética é também um modo de perguntar quem queremos ser e que tipo de humanidade queremos preservar.

Uma IA verdadeiramente alinhada com os valores humanos não se alcança com mais dados nem com modelos maiores. Exige uma mudança de paradigma: passar da medição da performance para a compreensão do propósito. Em vez de treinarmos máquinas para acertar, devemos ensiná-las a compreender o porquê das suas respostas e o impacto das suas ações. Isso implica que também nós, humanos, repensemos o que valorizamos — se a eficiência, ou a sabedoria; se a rapidez, ou a responsabilidade. O desafio não será construir máquinas mais humanas, mas tornar mais consciente o que queremos que elas aprendam connosco.

(*) Coordenador do Programa PsicologIA na Transformação Social da Ordem dos Psicólogos Portugueses

Em destaque

Últimas

Casa dos Bits · Opinião · 10 nov 2025 19:24

Porque os benchmarks da IA devem medir o que nos torna humanos
Casa dos Bits · Negócios · 10 nov 2025 18:42

"Bem vindos a Portugal, um espaço onde a ambição se torna realidade". 10 anos depois da primeira edição, está aberto mais um Web Summit

por Fátima Caçador
Casa dos Bits · Internet · 10 nov 2025 18:08

Campanha de phishing envia mais de 40 mil emails a partir de um domínio oficial do Facebook
Casa dos Bits · Internet · 10 nov 2025 17:37

RGPD: Mudanças propostas por Bruxelas levantam preocupação. Organizações alertam para riscos

por Francisca Andrade
Casa dos Bits · Internet · 10 nov 2025 16:42

Hackers usam reuniões falsas no Zoom e Teams para enganar empresas de criptomoedas e developers
Casa dos Bits · Computadores · 10 nov 2025 15:21

Samsung aposta nos robots humanoides. Primeiro modelo pode ser revelado em breve

por Francisca Andrade

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Notificações web	Coisa
Alertas SMS	Gerir

Porque os benchmarks da IA devem medir o que nos torna humanos

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Últimas

Comentários

Relacionados Playlist

Porque os benchmarks da IA devem medir o que nos torna humanos

Veja também

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Comentários

Veja também