Why AI eval is different

All five SQL queries are different — four correct, one wrong