Lesson 3.3: Evaluation signals

A signal catalog mapping ground truth to actionable metrics, color-coded by role

Signal Name	Type	What You Check Against	Role	Cost	Computation Method
Retrieval Hit Rate@5	Execution	Relevant doc IDs	Diagnostic	Low	`aieval.metrics.retrieval_hit_rate_at_k()`
SQL Correctness	Execution	Oracle queries	Gate	Medium	`aieval.oracles.score_sql()`
Narrative Accuracy	Semantic	Human rubric	Driver	High	LLM judge
JSON Validity	Structural	Schema definition	Diagnostic	Low	`json.loads()` validation
Query Complexity	Structural	SQL structure analysis	Driver	Low	Parse SQL, count aggregations

Color-coded by role: Gates Diagnostics Drivers