Por Miguel Oliveira (*)

Durante décadas, avaliámos o progresso da inteligência artificial com métricas técnicas — precisão, velocidade, capacidade de processamento. Mas se queremos que a IA se alinhe com os valores humanos, temos de mudar a forma como a avaliamos.

Um benchmark é, de forma simples, um teste de comparação. Tal como um exame mede o conhecimento de um aluno, um benchmark mede o desempenho de uma máquina. São conjuntos de tarefas padronizadas, como resolver problemas de matemática, traduzir textos, responder a perguntas, que permitem comparar diferentes modelos de IA entre si. Um modelo “melhor” é aquele que acerta em mais perguntas, produz respostas mais rápidas ou demonstra maior coerência. Estes testes são o “pano de fundo” que define o que consideramos progresso na IA.

O problema é que estes benchmarks avaliam apenas competência técnica, e não compreensão humana. Saber resolver um problema não é o mesmo que compreender o seu impacto ou contexto. Por isso, se continuarmos a medir apenas a capacidade de acertar respostas, estaremos a ensinar a IA a parecer inteligente e não a agir de forma sábia.

O mesmo acontece no sistema educativo: um aluno que tira boas notas não é necessariamente aquele que melhor aplica o que aprendeu fora da sala de aula. Os testes medem memória e desempenho momentâneo, mas raramente avaliam empatia, pensamento crítico ou capacidade de colaboração — qualidades que determinam o sucesso no mundo real. Muitos dos melhores alunos em exames acabam por descobrir que as respostas certas não bastam quando se trata de trabalhar em equipa, liderar pessoas ou tomar decisões éticas.

Tal como a escola precisa de ir além das notas para formar cidadãos plenos, também a IA precisa de ir além dos resultados para se tornar verdadeiramente humana. Avaliar apenas o “acerto” é premiar a aparência de inteligência, não a sabedoria que dá sentido às escolhas.

Um exemplo recente é o Humanity’s Last Exam (HLE). Este exame tenta medir a inteligência das máquinas num nível mais avançado, reunindo cerca de 3 000 perguntas em áreas como matemática, ciências naturais e humanidades. O HLE é importante porque evita questões “copiáveis” da internet e procura avaliar raciocínio genuíno. Mesmo assim, os modelos mais sofisticados continuam a ficar abaixo dos especialistas humanos.

Contudo, o HLE mostra também os limites da abordagem atual. Passar num exame — ainda que seja o “último exame da humanidade” — não significa compreender valores, emoções ou dilemas éticos. Um sistema pode acertar na resposta e ainda assim falhar no essencial: o sentido humano da decisão.

Se não formos capazes de criar métricas que reflitam o que é ser humano, o resultado é previsível: as máquinas parecerão sempre melhores. Mais rápidas, mais racionais, mais consistentes. Mas essa vantagem é ilusória, porque compara dimensões diferentes. O ser humano não é apenas Homo Sapiens Sapiens — o que “sabe que sabe” —, mas também aquilo que poderíamos chamar de Homo Emotionalis, que defende que as nossas decisões são moldadas tanto pela razão como pela emoção.

Na era da IA, talvez devêssemos abraçar essa identidade: reconhecer que o que nos distingue não é a capacidade de calcular, mas a de sentir. Criar benchmarks verdadeiramente humanos é, por isso, um exercício de autoconhecimento. Avaliar uma IA com base em empatia, responsabilidade ou consciência ética é também um modo de perguntar quem queremos ser e que tipo de humanidade queremos preservar.

Uma IA verdadeiramente alinhada com os valores humanos não se alcança com mais dados nem com modelos maiores. Exige uma mudança de paradigma: passar da medição da performance para a compreensão do propósito. Em vez de treinarmos máquinas para acertar, devemos ensiná-las a compreender o porquê das suas respostas e o impacto das suas ações. Isso implica que também nós, humanos, repensemos o que valorizamos — se a eficiência, ou a sabedoria; se a rapidez, ou a responsabilidade. O desafio não será construir máquinas mais humanas, mas tornar mais consciente o que queremos que elas aprendam connosco.

(*) Coordenador do Programa PsicologIA na Transformação Social da Ordem dos Psicólogos Portugueses