Pengukuran tradisional agen menilai hasil, bukan perilaku. Seorang agen mungkin mencapai jawaban yang benar sambil mengabaikan batasan, memanfaatkan jalan pintas, atau membuat langkah-langkah menengah, dan pengukuran tersebut tetap menandainya sebagai berhasil.
Anda telah membangun agen AI. Demo-nya sangat bagus. Pemangku kepentingan bersemangat. Kemudian masuk ke produksi, dan segalanya menjadi berantakan. Respon mulai melenceng. Tugas tidak selesai. Pengguna berhenti mempercayainya. Dan tidak ada yang bisa menjelaskan mengapa karena tidak ada yang mendefinisikan seperti apa