Por Gregorio Ferreira (*)

Hoje, as empresas enfrentam uma questão decisiva: como medir de forma fiável o desempenho, a relevância e a eficácia dos agentes de IA, e demonstrar que estão alinhados com os KPIs estratégicos?

A inteligência artificial generativa (GenAI) e os agentes impulsionados por IA demonstram o seu poder transformador em múltiplos sectores. O seu potencial é indiscutível, mas a rapidez com que o ecossistema evolui dificulta avançar com segurança. Neste artigo, partilho a minha experiência sobre como as organizações podem enfrentar este desafio e porque é essencial repensar as métricas tradicionais para extrair todo o valor da IA.

Lições do terreno (2016-2017)

Ao liderar um incubador de inovação focado em serviços cognitivos entre 2016 e 2017, percebi, em primeira mão, que avaliações rigorosas são críticas para levar a IA do laboratório para a produção. Na altura, a nossa pequena equipa desenvolvia chatbots concebidos para simplificar tarefas tão distintas como o reconhecimento de ativos através de OCR e visão por computador ou o suporte interno de RH para uma multinacional tecnológica. Estas soluções iniciais — relativamente básicas face aos padrões atuais — evidenciaram a necessidade crítica de mecanismos sistemáticos de avaliação.
Estes bots baseavam-se sobretudo em regras ou na recuperação de respostas: conseguiam escolher a melhor resposta existente, mas não gerá-la. Os modelos generativos seq2seq continuavam a exigir muito das GPUs e raramente eram implementados em chatbots.

Tomemos como exemplo o nosso chatbot “APIs”, que permitia aos engenheiros no terreno reconhecer ativos industriais via OCR, otimizando de forma significativa o seu fluxo de trabalho. Outro chatbot interno oferecia suporte de primeira linha em RH, o que resultou numa poupança considerável ao possibilitar melhores negociações com a empresa subcontratada de suporte de nível 1. Nessa altura, os nossos bots ainda dependiam de orquestradores de API construídos manualmente. Entre 2015 e 2016 surgiram os primeiros serviços sequence-to-sequence (LSTM) na cloud, demonstrando que era possível gerar, e não apenas recuperar, respostas completas. Esse avanço lançou as bases para a revolução do transformer em 2017 e, com o tempo, para os atuais agentes baseados em LLM. Atualmente, graças a protocolos modernos como MCP (Model Context Protocol) e A2A (Agent-to-Agent), os agentes baseados em LLM conseguem descobrir e utilizar APIs complexas de forma autónoma, permitindo execuções de tarefas muito mais dinâmicas e inteligentes — algo que em 2016 só conseguíamos prototipar manualmente. Esta evolução demonstra o quão longe chegámos: de uma lógica determinística simples para interações sofisticadas e adaptativas entre agentes.

Contudo, apesar dos nossos esforços, tornou-se claro que as árvores de decisão determinísticas e os fluxos de perguntas e respostas pré-definidos não eram suficientes. Aprendemos rapidamente que avaliações exaustivas eram essenciais, não só para avaliar até que ponto os nossos chatbots compreendiam as questões dos utilizadores, mas também para resistirem a tentativas deliberadas dos utilizadores de “quebrar” os bots.
Anos antes de o termo “observabilidade” se tornar popular, já registávamos rastreios exaustivos, capturávamos estados e medíamos cada interação. O nosso método meticuloso incluía registos extensivos (logs), monitorização de estados e recolha de métricas detalhadas sobre as interações dos utilizadores, estabelecendo as bases para as práticas de avaliação mais avançadas que hoje vemos. Essa disciplina continua a sustentar o framework de avaliação que apresentamos atualmente.

Avançando para o presente

Aproveitando anos de experiência prática, aperfeiçoámos o nosso método num framework de avaliação estruturado e robusto. Mas porque são estes frameworks tão importantes hoje?

Um investimento estratégico

Os frameworks de avaliação ligam a tecnologia a resultados empresariais claros e mensuráveis, proporcionando uma visão mais aprofundada da precisão, capacidade de resposta e relevância dos agentes nas suas interações com os utilizadores.

O framework atual foi testado em contextos reais e assenta em três camadas principais:

  • Geração de dados e rastreabilidade: Pipelines automáticos asseguram conjuntos de dados estruturados e rastreáveis, alinhados com os objetivos do negócio.
  • Orquestração de avaliações com MLflow: O acompanhamento integral em MLflow garante reprodutibilidade e transparência em cada experiência.
  • Relatórios accionáveis e insights: Dashboards intuitivos, integrados com ferramentas de BI populares, oferecem transparência para decisões informadas.

Métricas que importam

Concentramos-nos em métricas-chave alinhadas com o negócio:

  • Fundamentação e fidelidade: Assegurar a precisão factual.
  • Relevância e exaustividade: Responder integralmente às questões dos utilizadores.
  • Concisão e fluidez: Oferecer interações claras e envolventes.
  • Desempenho, latência e custo: Cumprir os padrões operacionais.

Acelerar a adoção empresarial

O framework de avaliação oferece benefícios imediatos:

  • Escalabilidade rápida: Implementação célere e avaliações adaptáveis.
  • Integração fluida: Fácil de integrar em infraestruturas diversas.
  • Melhoria contínua: Avaliações periódicas que impulsionam a evolução constante das soluções de IA.

Transformar o potencial da IA

Hoje, as empresas exigem transparência, clareza estratégica e resultados quantificáveis dos seus investimentos em IA. Sem estes elementos, a adoção da IA pode tornar-se meramente experimental. Mas com o framework certo, a IA torna-se responsável, mensurável e, em última análise, transformadora.

O futuro pertence a quem não se limita a construir IA, mas o faz de forma responsável. A avaliação estruturada é o caminho para lá chegar.

(*) Director de Operações de IA na Intellias