Techniques

Methodology pages, deeper than the learn chapters.

Methodology pages, deeper than the learn chapters.

Agent trajectory evaluation
Contamination detection
Embedding similarity for evals
Error analysis (open coding)
Golden dataset methodology
Guardrails versus evals architecture
LLM-as-Judge
Online evaluation patterns
Pairwise comparison and Elo
Reference-based metrics
Robustness testing
Rubric design
Statistical methods

By Om Bharatiya. View on aievals.co.