Các tiêu chuẩn đánh giá tác nhân truyền thống đo lường kết quả, không phải hành vi. Một tác nhân có thể đưa ra câu trả lời đúng trong khi bỏ qua các ràng buộc, khai thác các lối tắt, hoặc tạo ra các bước trung gian, và tiêu chuẩn vẫn đánh dấu nó là thành công.
Bạn đã xây dựng một tác nhân AI. Nó trình diễn rất đẹp. Các bên liên quan rất hào hứng. Sau đó, nó được đưa vào sản xuất, và mọi thứ trở nên lộn xộn. Phản hồi bị lệch. Nhiệm vụ không hoàn thành. Người dùng ngừng tin tưởng nó. Và không ai có thể giải thích tại sao vì không ai định nghĩa