A Anthropic apresentou a Bloom, uma ferramenta para facilitar a avaliação comportamental de modelos de inteligência artificial. Este tipo de avaliações são fundamentais para perceber - e garantir - que os modelos de IA se comportam como esperado no mundo real, mas além de serem caras são complexas e ficam facilmente desatualizadas. A Anthropic, dona do chatbot Claude, quer responder ao problema com uma ferramenta mais flexível.

Não perca nenhuma notícia importante da atualidade de tecnologia e acompanhe tudo em tek.sapo.pt

As “avaliações comportamentais de alta qualidade são essenciais para compreender o alinhamento em modelos de IA de ponta. Mas as avaliações geralmente levam muito tempo para serem desenvolvidas e correm o risco de se tornarem obsoletas”, sublinha a tecnológica.

Com as ferramentas atuais, “as avaliações podem ‘contaminar’ conjuntos de treino para novos modelos, ou as capacidades podem melhorar a tal ponto que a avaliação deixa de testar aquilo que realmente interessa”, acrescenta a Anthropic, explicando que foi por isso que reconheceu a necessidade de desenvolver maneiras mais rápidas e escaláveis de gerar avaliações para comportamentos desalinhados.

Clique nas imagens para ver com mais detalhe

A empresa já tinha lançado o Petri, uma ferramenta de código aberto que permite explorar automaticamente os perfis comportamentais dos modelos de IA através das conversas com utilizadores e ferramentas simuladas. “Esta ferramenta fornece resumos quantitativos e qualitativos dos comportamentos do modelo e revela novos casos de desalinhamento”, explica a Anthropic.

Enquanto a Petri utiliza cenários especificados pelo utilizador e pontua muitas dimensões comportamentais para sinalizar instâncias preocupantes, a Bloom pega num único comportamento e gera automaticamente vários cenários para quantificar a frequência com que ocorre esse comportamento.

OpenAI, Anthropic e Linux Foundation unem esforços na definição de padrões para agentes de IA
OpenAI, Anthropic e Linux Foundation unem esforços na definição de padrões para agentes de IA
Ver artigo

A ideia é que os investigadores possam chegar mais rapidamente a conclusões sobre as propriedades do modelo que lhes interessa, usando uma ferramenta que é capaz de gerar “conjuntos de avaliações direcionadas para traços comportamentais arbitrários”.

Esta nova ferramenta funciona através de quatro etapas automatizadas, que “transformam uma descrição de comportamento e configuração inicial, num conjunto completo de avaliações com métricas de alto nível”. As etapas são compreensão, ideação, implementação e julgamento.

Na primeira etapa, um agente analisa a descrição do comportamento do investigador e transcrições de exemplos para gerar um contexto detalhado sobre o que medir e porquê. Na segunda etapa, outro agente gera cenários de avaliação, que são implementados na fase seguinte.

Aí são simuladas respostas do utilizador para induzir o comportamento que se quer avaliar. Na fase final, o modelo de avaliação pontua cada transcrição quanto à presença do comportamento e outros critérios definidos e produz uma análise, como base nos dados apurados para os cenários dinâmicos que foram sendo criados pela ferramenta.

Em simultâneo, foram divulgados resultados de benchmark para quatro comportamentos em 16 modelos de fronteira: bajulação/lisonja delirante, sabotagem orientada para o longo prazo, autopreservação e viés de autopreferência. As avaliações já foram feitas usando a Bloom e foram construídas em poucos dias, assegura a Anthropic que explica tudo em detalhe numa publicação online.

Assine a newsletter do TEK Notícias e receba todos os dias as principais notícias de tecnologia na sua caixa de correio.