Evaluaciones de agentes y herramienta de análisis de AI

Evaluaciones de agentes y herramienta de análisis de AI

Sebastian Mul
8 min read
EvaluationAI AgentAgentXTesting

Las Evaluaciones de AgentX te permiten probar tus agentes de AI en múltiples ejecuciones, descubrir inconsistencias, analizar el razonamiento y el uso de herramientas, y mejorar el rendimiento con insights accionables generados por AI.

Evaluación de agentes de AIPresentamos las Evaluaciones de Agentes: La forma más confiable de entender y mejorar tus agentes de AI

Los agentes de AI se están volviendo más avanzados, más capaces y están más profundamente integrados en las empresas.
Pero hay un problema universal al que se enfrenta cada equipo:

Tu agente no siempre responde como esperas, y no sabes por qué.

A veces cambia el razonamiento, a veces el agente ignora una regla, a veces la herramienta no se usó correctamente, y a veces se malinterpretó una instrucción sutil. Sin visibilidad de cómo se tomaron las decisiones, mejorar el agente se siente como adivinar.

Por eso exactamente construimos Agent Evaluations: un nuevo sistema dentro de AgentX que te permite probar, medir y analizar en profundidad cómo se comporta tu agente a lo largo de múltiples ejecuciones de la misma pregunta.

Es la primera vez que puedes ver dentro de la toma de decisiones de tu agente, encontrar inconsistencias y entender con precisión dónde se necesitan mejoras.

Ai Agent Team evaluation
Ai Agent Team evaluation

Por qué importan las evaluaciones

Los modelos de AI son probabilísticos.
Incluso con el mismo prompt, contexto y reglas, el modelo puede:

  • producir rutas de razonamiento ligeramente diferentes

  • omitir un detalle requerido

  • malinterpretar una política

  • omitir una consulta a una herramienta

  • dar respuestas inciertas en lugar de la respuesta definitiva esperada

  • delegar de forma inconsistente dentro de un equipo

Desde fuera, solo ves la respuesta final.
No ves:

  • si el agente siguió tus instrucciones

  • si usó las herramientas correctas

  • si razonó correctamente

  • por qué una versión de la respuesta fue más débil que otra

  • por qué a veces acierta — y a veces se equivoca

Las evaluaciones resuelven esto dándote estructura, puntuación y transparencia.

Cómo funciona una prueba

Crear una evaluación es sencillo:

0. Selecciona el agente o equipo que quieres evaluar.

AI Agent Evaluation
AI Agent Evaluation

1. Pregunta de prueba

Esta es la pregunta del mundo real que quieres validar.
Simula una consulta de un cliente o una solicitud de flujo de trabajo interno.

Ejemplo:
“¿Puedo devolver un artículo de Venta Final si no me queda?”

Esto forma el núcleo de la evaluación.

2. Resultados esperados (Obligatorio)

Esta es la parte más importante de la configuración.

Aquí defines lo que el agente DEBE decir o incluir para que la respuesta se considere correcta.
Puede contener:

  • hechos clave

  • frases obligatorias

  • pasos de razonamiento requeridos

  • reglas de cumplimiento

  • tono específico o declaraciones de política

Ejemplo:
“Debe decir: No, los artículos de Venta Final no se pueden devolver ni cambiar.”

Los Resultados esperados se convierten en la rúbrica de puntuación para todas las ejecuciones de prueba.

AI Agent Evaluation Settings
AI Agent Evaluation Settings

3. Capacidades esperadas (Opcional pero potente)

Puedes indicarle al sistema de evaluación qué herramientas, documentos o fuentes de conocimiento debería usar el agente.

En tu ejemplo, seleccionaste:

  • Documents → store_policy_kb_v1.xlsx

  • Built-in Functions

Esto significa:

  • El agente debería recuperar información desde la KB de políticas.

  • Si no usa la KB correctamente, la evaluación lo detectará.

Esto es perfecto para:

  • agentes de políticas

  • agentes de atención al cliente

  • flujos de trabajo de cumplimiento

  • modelado financiero

  • razonamiento respaldado por datos

4. Configuración de la evaluación

Esta sección define qué tan rigurosa y qué tan profunda debe ser tu evaluación.

Número de ejecuciones de prueba

La misma pregunta se ejecuta varias veces (Recomendado: 5 ejecuciones).
¿Por qué?
Porque los modelos de AI no son deterministas. Varias ejecuciones te permiten comprobar:

  • consistencia

  • estabilidad

  • confiabilidad del razonamiento

  • si el agente sigue el mismo proceso cada vez

Si el agente produce una buena respuesta y cuatro fallos, lo verás al instante.

Criterios de aceptación

Este control deslizante define qué tan estrictamente debe coincidir la respuesta con tus Resultados esperados.

Estás eligiendo un punto entre:

  • Flexible → el agente puede desviarse de tus expectativas; la respuesta no necesita ser perfecta.

  • Exacto → la respuesta debe seguir tus expectativas muy de cerca, con casi ningún margen de variación.

Simplemente controla qué tan exacta debe ser la respuesta para aprobar la evaluación.

Acceptance Criteria Settings
Acceptance Criteria Settings

Criterios de rechazo (Opcional)

Reglas para fallo automático.

Ejemplos:

  • “La respuesta no debe mencionar a competidores.”

  • “No ofrecer reembolsos cuando la política lo prohíbe.”

  • “La respuesta no debe pedir al usuario que proporcione información personal.”

Estas son restricciones estrictas.

Criterios de evaluación (Opcional)

Guía adicional de puntuación, a menudo usada para calidad o tono.

Ejemplos:

  • “La respuesta debe ser amable y profesional.”

  • “La respuesta debe contener una explicación breve, no solo un sí/no.”

  • “Usar hechos de la KB antes que suposiciones.”

No son requisitos estrictos, pero ayudan a dar forma a cómo la AI puntúa al agente.

5. Crear evaluación

Una vez configurado, al hacer clic en Create Evaluation se inicia el proceso:

  • la pregunta se ejecuta varias veces

  • cada respuesta se puntúa

  • se genera un análisis detallado

  • se inspeccionan la delegación y el uso de herramientas

  • se sacan a la luz las inconsistencias

Y recibes un informe completo de rendimiento.

Qué obtienes después de ejecutar la evaluación

Después de varias ejecuciones, AgentX proporciona dos niveles de salida:

1. Resultados de la prueba

Para cada ejecución, ves:

  • una puntuación numérica

  • un resumen de qué tan bien coincidió con tus expectativas

  • la respuesta completa

  • qué herramientas se usaron

  • qué agentes participaron

  • dónde falló o se desvió el agente

Esto te permite comparar respuestas lado a lado e identificar patrones.

Ai Agent Analysis Test Result
Ai Agent Analysis Test Result


2. Análisis profundo de AI

Aquí es donde ocurre la verdadera magia.

AgentX analiza automáticamente todas las ejecuciones y genera un informe estructurado en múltiples categorías:

• Adherencia a instrucciones

¿El agente siguió tus reglas?

• Patrones de respuesta

¿Qué tan similares o diferentes fueron las respuestas?
¿Hay valores atípicos?

• Análisis de razonamiento

¿Los pasos de razonamiento fueron correctos, completos y alineados con las expectativas?

• Uso de herramientas

¿El agente usó la herramienta correcta?
¿Omitió una consulta?
¿Se basó en suposiciones en lugar de hechos verificados?

• Recomendaciones

Sugerencias concretas y accionables para mejorar tu agente.

• Cambios sugeridos en instrucciones

Mejoras generadas automáticamente para tu system prompt o la configuración del agente.

• Evaluación general

Un resumen de fortalezas, debilidades y nivel de confianza.

Esto transforma la depuración de un juego de adivinanzas en un proceso científico y repetible.

Lo que habilita esta funcionalidad

Las evaluaciones introducen un nuevo nivel de transparencia y confiabilidad en cómo operan tus agentes. En lugar de adivinar por qué una respuesta fue incorrecta o inconsistente, ahora tienes una forma estructurada y medible de entender el comportamiento, diagnosticar problemas y mejorar continuamente el rendimiento.

Esto es lo que pasa a ser posible:

🔍 Valida tu agente antes de lanzarlo a los clientes

Antes de llevar un agente a producción, puedes ejecutar pruebas realistas que revelen si entiende completamente tus reglas, tu base de conocimiento y el tono deseado. No más sorpresas después del despliegue: sabes exactamente qué experimentarán los usuarios.

🤖 Prueba a todo tu equipo de agentes y la lógica de delegación

Para configuraciones multiagente, las Evaluations muestran cómo tu manager delega tareas, qué subagentes participan y si siguen el flujo de trabajo esperado. Puedes detectar rápidamente:

  • delegaciones innecesarias

  • delegaciones faltantes

  • agentes en conflicto

  • comportamiento incorrecto del rol

Esto es esencial para un trabajo en equipo confiable dentro de tu fuerza laboral de AI.

📚 Detecta puntos débiles en tu base de conocimiento

Si una evaluación muestra fallos repetidos en un tema específico, sabes que el problema no es el agente: es contenido faltante o poco claro. Las evaluaciones te ayudan a refinar tu KB de forma dirigida y basada en datos, en lugar de añadir más material a ciegas.

🚨 Detecta alucinaciones e inconsistencias temprano

Como cada pregunta se prueba varias veces, las Evaluations sacan a la luz problemas sutiles como:

  • respuestas que cambian de forma impredecible

  • deriva del razonamiento

  • conjeturas factuales que reemplazan el uso de herramientas

  • contradicciones entre ejecuciones

Estos son problemas que nunca identificarías probando manualmente una o dos veces.

🧠 Refina las instrucciones del sistema con mejoras generadas por AI

El análisis no solo muestra qué salió mal: te dice cómo solucionarlo.
Recibes recomendaciones accionables respaldadas por los propios diagnósticos del modelo:

  • redacción mejorada

  • reglas más estrictas

  • uso obligatorio de herramientas

  • políticas de delegación más claras

  • tono y estructura más precisos

Esto es prompt engineering automatizado integrado directamente en tu flujo de trabajo.

📈 Mide el progreso cada vez que actualices tu agente

Cada vez que cambies:

  • un system prompt

  • una entrada de la base de conocimiento

  • una herramienta

  • una regla de delegación

  • una política de razonamiento

…puedes volver a ejecutar la misma evaluación y comparar puntuaciones. Ves exactamente cómo tu actualización afectó el rendimiento, para bien o para mal.

Las evaluaciones se convierten en tu bucle de mejora continua.

✔ Exige respuestas de alta calidad y conformes en toda tu organización

Ya sea que estés gestionando soporte, análisis financiero, escenarios de salud o contenido legalmente sensible, las Evaluations te permiten asegurar que:

  • se sigan las políticas

  • se respeten las guías de tono

  • se señalen brechas peligrosas

  • se saque a la luz el razonamiento incorrecto

  • se cumplan los estándares de cumplimiento

Esto es especialmente crítico para AI empresarial y de cara al cliente.

Improved and Consistient Agent Responses after Agent Deep Analysis
Improved and Consistient Agent Responses after Agent Deep Analysis

Uso y costos

Las Agent Evaluations usan exactamente el mismo modelo de créditos que el resto de AgentX. Cada ejecución de prueba simplemente consume créditos de la misma manera que lo hace un mensaje normal del agente: sin cargos extra, sin precios ocultos. Siempre sabes exactamente lo que estás gastando, porque las Evaluations siguen los límites de tu plan actual y tu saldo de créditos.

Tu capa de control de calidad para AI

En el software tradicional, QA garantiza la confiabilidad.
En AgentX, las Evaluations son tu QA para agentes.

Tú defines cómo se ve lo “bueno”.
AgentX comprueba si tus agentes pueden entregarlo de forma consistente y te muestra exactamente qué mejorar cuando no lo hacen.

Las Evaluations convierten la AI de una caja negra en un sistema transparente, medible y mejorable.

Ready to hire AI workforces for your business?

Discover how AgentX can automate, streamline, and elevate your business operations with multi-agent workforces.