Evaluation Surface Map

SQL generation produces 4 distinct failure types — traces reveal sub-types

Architecture predicted 4 types. Traces refined "wrong joins" into 2 sub-types.