AI/ML Operations | Bot Army SRE

<1%

Hallucination Target

>90%

Task Completion

>98%

Tool Accuracy

<5%

Human Escalation

Traditional observability measures infrastructure. LLM observability measures:

Dimension	Question
Behavior	Is the model doing what we expect?
Quality	Are outputs accurate, helpful, safe?
Reasoning	Is the chain-of-thought sound?

Sample multiple completions, check consistency. Inconsistent facts = hallucination.

Use another LLM to evaluate groundedness against retrieved context.

Cross-Layer Attention Probing - classifier on model activations (open-source only).

Aspect	Question
Faithfulness	Does CoT reflect actual reasoning?
Verbosity	Is reasoning externalized?
Readability	Can humans understand it?
Necessity	Is CoT required for complexity?

CoT most relevant when task is difficult enough to externalize reasoning

Stage	Reliability Practice
Data Ingest	Schema validation, drift checks
Feature Store	Versioning, consistency
Training	Checkpointing, resource limits
Eval	Automated benchmarks, holdouts

Monitor production predictions vs training distribution continuously

Observe the Reasoning

AI reliability requires new observability primitives.