
Por anos, construímos observabilidade para olhos humanos. Dashboards pensados para quem está de plantão, alertas feitos para acordar alguém, logs formatados para serem lidos linha por linha durante um incidente. AIOps abriu um novo capítulo nessa história. Agora temos agentes autônomos capazes de raciocinar sobre falhas, correlacionar sinais e propor caminhos de investigação. Eles consomem a mesma telemetria que produzimos — mas com requisitos muito diferentes dos nossos.
Essa transição não depende apenas do modelo de linguagem. Depende da qualidade do que o alimenta.
O verdadeiro gargalo não é o modelo
Um agente de triagem opera sobre contexto. E contexto vem de um lugar: a telemetria do seu ambiente.
Métricas, logs e traces são a matéria-prima. Se essa matéria-prima é ruidosa, inconsistente ou mal estruturada, o agente vai raciocinar sobre ruído. Esse problema aparece em dois cenários: em agentes autônomos, que iniciam investigações a partir de alertas sem intervenção humana; e em agentes interativos, que auxiliam o SRE durante uma investigação ativa no terminal.
Em ambos os casos, o limite do que o agente consegue fazer é definido antes da primeira chamada ao modelo. Ele é definido na instrumentação.
OpenTelemetry como base semântica
Para que um agente consiga navegar entre métricas, logs e traces sem perder a cadeia causal, esses sinais precisam compartilhar o mesmo contexto de rastreamento. O OpenTelemetry torna isso possível de forma padronizada e independente de fornecedor.
Considere um cenário simples. Um pico de latência aparece na sua API. Sem correlação de traces, o agente enxerga sinais isolados:
- a latência aumentou
- a taxa de erro subiu levemente
Com instrumentação adequada:
- um trace_id conecta a requisição a uma query lenta no banco
- a query se conecta a uma mudança recente de schema
Mesmo incidente. Capacidade de análise completamente diferente.
É por isso que projetos de migração para OpenTelemetry têm um impacto operacional tão profundo. Não se trata apenas de trocar um coletor. É a construção de uma linguagem comum entre serviços que antes emitiam sinais em formatos incompatíveis. Sem essa consistência semântica, qualquer agente opera “cego” em partes do sistema.
O problema da janela de contexto
A qualidade da telemetria está diretamente ligada a outro desafio: a gestão da janela de contexto. O problema não é o volume de dados. É a seleção dos tokens relevantes.
Um agente que recebe telemetria não filtrada durante um incidente tende a perder o sinal no meio do ruído. Logs redundantes, métricas sem atributos de contexto, traces incompletos — tudo isso consome janela sem contribuir para o raciocínio. Uma boa instrumentação resolve parte desse problema antes mesmo de chegar ao modelo: dados semanticamente ricos, com atributos consistentes e rastreamento propagado, chegam em um formato que já favorece o raciocínio.
Modelos melhores não vão corrigir telemetria ruim.
Dois modos de operação, um mesmo pré-requisito
No modo autônomo, o agente monitora continuamente alertas e constrói hipóteses sem intervenção humana. Os principais provedores já lançaram suas implementações nesse modelo, como Azure SRE Agent, AWS DevOps Agent e Datadog AI SRE. Como já discuti em outro artigo, o sucesso dessas ferramentas em produção não é garantido pelo modelo em si. Ele depende de guardrails bem definidos e, acima de tudo, de um bom contexto. E esse contexto começa na telemetria.
No modo assistido, o agente atua ao lado do SRE no terminal, próximo das ferramentas reais. Aqui também, a utilidade depende da qualidade dos dados que ele consegue inspecionar em tempo real. Um trace sem propagação de contexto, analisado durante um incidente, oferece ao agente exatamente o mesmo que oferece a um humano: uma visão parcial.
Conhecimento operacional como complemento
A qualidade da telemetria resolve o problema dos dados. O problema do contexto operacional permanece: padrões de falha do ambiente, procedimentos conhecidos, pontos cegos históricos. Encapsular esse conhecimento em Skills reutilizáveis (procedimentos estruturados e playbooks operacionais que o agente pode utilizar) é o que permite que ele opere de forma consistente, combinando dados estruturados com o conhecimento acumulado do time.
Duas camadas complementares. A telemetria diz o que está acontecendo. O conhecimento operacional ajuda a entender o que isso provavelmente significa.
Conclusão
Antes de qualquer conversa sobre AIOps, a pergunta mais honesta é: sua observabilidade está pronta para ser interpretada por uma máquina?
Serviços sem traces propagados, logs sem atributos de contexto e métricas sem cardinalidade adequada não vão se beneficiar de agentes mais sofisticados. Vão apenas gerar respostas erradas — mais rápidas e mais confiantes.
Observabilidade foi construída para humanos. Agora ela também precisa funcionar para máquinas. Times que entendem essa diferença terão uma vantagem real — não por escolherem modelos melhores, mas por construírem entradas melhores.



