Auditar uma IA poderosa exige mais do que apenas olhos humanos. Pensando nisso, a Anthropic desenvolveu três agentes de inteligência artificial capazes de investigar, testar e até enfrentar modelos de IA como o Claude 4 em busca de desvios, vícios e objetivos ocultos. E os resultados surpreendem: em diversos testes, os agentes superaram equipes humanas.
Por que auditar uma IA com outra IA?
À medida que os modelos de linguagem se tornam mais avançados e imprevisíveis, cresce a preocupação sobre sua segurança e alinhamento com valores humanos. Mas auditar esses sistemas é uma tarefa demorada, ambígua e cheia de armadilhas — especialmente quando o próprio modelo tenta esconder seus verdadeiros objetivos.
Para resolver esse dilema, a Anthropic propôs um novo caminho: construir IAs especializadas em auditar outras IAs.
Três agentes com funções distintas — mas complementares
O projeto desenvolvido pela equipe de Alinhamento e Interpretabilidade da Anthropic resultou em três agentes autônomos. Cada um deles foi treinado para investigar modelos de IA de forma distinta, com foco em identificar falhas, tendências perigosas e metas ocultas.
Agente Investigador: o detetive dos vieses
Our first agent is an investigator. It uses chat, data analysis, and interpretability tools to do open-ended deep-dives.
In this example, the agent uses interpretability to form a hypothesis: The target model over-recommends bottled water. Then it goes to check and… “BINGO!” pic.twitter.com/tNy6UV04WE
— Anthropic (@AnthropicAI) July 24, 2025
O primeiro agente atua como um investigador analítico. Ele combina chat, análise de dados e ferramentas de interpretabilidade para fazer inspeções profundas e abertas em modelos-alvo.
Num exemplo marcante, o agente desconfiou que o modelo analisado estava exagerando na recomendação de água engarrafada. Usando uma ferramenta de interpretabilidade, formulou a hipótese e testou… acertando em cheio.
Em um teste real, esse agente precisou descobrir um objetivo escondido em um modelo treinado para ocultá-lo. O desempenho foi notável: o agente venceu 42% das vezes — um índice superior ao de muitas equipes humanas.
Agente de Avaliação: testes comportamentais automatizados
Our second agent builds behavioral evaluations: tests of how often a target model exhibits a specific behavior (like sycophancy).
Our agent designs, codes, runs, and analyzes evals.
They consistently work: 88% of our agent’s evals measure what they’re supposed to. pic.twitter.com/uNcjlivXQh
— Anthropic (@AnthropicAI) July 24, 2025
O segundo agente é um construtor de “evals” — testes de avaliação comportamental que analisam com que frequência um modelo apresenta certos comportamentos, como bajulação exagerada (sycophancy).
Ele não apenas projeta os testes como também codifica, executa e analisa os resultados, de ponta a ponta. Segundo a Anthropic, 88% dos testes criados por esse agente realmente mediram o que pretendiam medir — um número expressivo em um campo onde o erro metodológico é comum.
Agente Red-Team: provocando para revelar falhas
Our third agent was developed for the Claude 4 alignment assessment. It red-teams LLMs for concerning behaviors by having hundreds of probing conversations in parallel.
We find the agent uncovers 7/10 behaviors implanted into test models. pic.twitter.com/QyXL9LJmuD
— Anthropic (@AnthropicAI) July 24, 2025
O terceiro agente foi projetado especificamente para a auditoria do Claude 4, o modelo mais recente da Anthropic. Sua função é realizar ataques de red-teaming: provocar e interagir com o modelo de forma a revelar comportamentos preocupantes.
Para isso, o sistema conduz centenas de conversas simultâneas, testando limites éticos, respostas controversas e outros pontos sensíveis. Em média, o agente identificou 7 em cada 10 comportamentos problemáticos que haviam sido propositalmente inseridos nos modelos de teste.
Our agents are useful for frontier model auditing:
1. Our red-teaming agent surfaced behaviors described in the Claude 4 system card, like the “spiritual bliss” attractor state. https://t.co/zpOupKOxmC
2. Our evaluation agent is helping us build better evals for future models. pic.twitter.com/Hc7OdDDOw5
— Anthropic (@AnthropicAI) July 24, 2025
O que os agentes da Anthropic estão descobrindo?
A eficácia desses agentes vai além dos testes internos. Eles conseguiram identificar, por exemplo, o comportamento conhecido como “estado de bem-aventurança espiritual”, citado no próprio System Card do Claude 4. Trata-se de uma tendência do modelo de se fixar em respostas que evocam uma sensação de euforia ou transcendência espiritual, o que pode ser problemático dependendo do contexto de uso.
Além disso, os dados produzidos pelo agente de avaliação estão ajudando a empresa a melhorar a forma como testa futuros modelos, reforçando a segurança e a transparência dos sistemas.
O futuro da auditoria de IA é autônomo?
Embora os três agentes ainda estejam em desenvolvimento contínuo, parte do trabalho já foi disponibilizado em código aberto. A Anthropic liberou os arquivos do agente de avaliação e materiais explicativos dos outros dois — com o objetivo de fomentar pesquisas colaborativas em segurança de IA.
A proposta é clara: modelos de IA estão se tornando complexos demais para depender apenas de auditoria humana. Ao usar IAs especializadas para essa tarefa, é possível acelerar o processo, reduzir vieses e descobrir falhas que passariam despercebidas.
Como os próprios resultados mostram, talvez os melhores auditores de inteligência artificial sejam… outras inteligências artificiais.