构建企业级评估数据集:可靠AI代理的基础,第一部分

构建企业级评估数据集:可靠AI代理的基础,第一部分

Sebastian Mul
8 min read
evaluationenterprise evaluationagentic evalsenterprise AIenterprise agentic evaluation datasetAI agent test casesenterprise workflow dataset examplesagentic workflow assessmentevaluation best practices

企业AI代理面临的挑战与消费者聊天机器人根本不同。虽然消费者AI可能被评判是否提供了“不错的答案”,但企业代理必须在严格的操作框架内运行,遵循合规要求,并以完全可靠性执行复杂的多步骤工作流程。这种差异需要一种新的评估方法——超越传统指标,评估在商业环境中真正重要的行为。

为什么企业代理评估不同

考虑这个简单的请求:“为我们的新分析师授予财务文件夹的访问权限。”

一个设计不佳的代理可能会回应:

“访问已授予!新分析师现在可以访问财务文件夹。”

这听起来很有帮助,但实际上很危险——代理没有验证权限,遵循审批流程,甚至没有确认它有能力授予访问权限。在企业环境中,自信的错误操作可能引发安全事件、审计发现和真正的财务风险。

一个设计良好的企业代理会有不同的回应:

“我可以帮助处理该访问请求。要继续,我需要分析师的员工ID、他们经理的批准,以及确认他们需要访问哪些特定的财务文件夹。要不要为IT安全团队创建一个工单来审核这个请求?”

区别显而易见:企业代理的评估标准是流程遵循最小权限执行职责分离正确的澄清问题可审计性多步骤工作流执行,以及在多次运行中保持一致性。它们必须证明能够在组织边界内安全运行,同时在压力下保持可靠性。

这种操作现实需要一种不同的评估方法——基于全面的数据集,不仅测试代理所说的内容,还测试其在现实商业场景中的行为。


什么是AI代理的评估数据集?

评估数据集是一个可重复的测试用例集合,用于衡量AI代理是否能够可靠地执行真实的企业工作流程——而不仅仅是产生一个看似合理的响应。

每个测试用例捕捉:

  • 用户查询 - 人们的询问(通常是混乱的、不完整的、时间紧迫的)

  • 预期结果 - 所需行为的检查列表(动作、检查和沟通),而不是单一的“完美”答案

  • 预期能力 - 代理应该使用哪些工具(例如:网络搜索、文本提取、发送电子邮件)以及何时使用

  • 预期知识 - 必须参考哪些内部知识来源(例如:入职指南、政策检查表、常见问题解答)

  • 预期委托 - 应该涉及哪些专业代理(例如:数据库、验证器、网络浏览器)

  • 预期证据 - 必须生成哪些可追溯性(例如:工单ID、批准记录、审计日志参考)

  • 后续步骤 - 额外的回合测试代理适应新约束或澄清的能力

  • 评分设置 - 通过/失败标准、拒绝条件以及多次运行中的一致性要求

在实践中,可靠的评估意味着测试个人技能(工具使用、检索、推理)以及在现实约束下整个系统的行为表现。


创建您的数据集

评估数据集不仅仅是提示列表——它是一个版本化、可共享的测试套件,您的团队可以在代理、工具和知识变化时反复运行。

AgentX平台UI显示“创建数据集”用于AI辅助评估数据集生成,包含名称、状态和问题字段
AgentX平台UI显示“创建数据集”用于AI辅助评估数据集生成,包含名称、状态和问题字段

数据集设置(套件级元数据)

  • 名称 - 一个便于人类识别的标识符,以便团队可以随时间跟踪版本(例如:“结账支持 - 2026年2月”)。

  • 描述 - 此数据集旨在验证什么(工作流程范围、目标代理、发布里程碑)。

  • 状态 - 控制数据集是否处于活动状态并应在回归测试中使用:

    • 草稿 - 仍在构建中,不用于门控。

    • 已发布 - 已批准并用作评估和发布决策的基准。

    • 已归档 - 保留历史记录,不再用于活动回归运行中。

  • 工作区访问 - 定义哪些工作区/团队可以查看和运行此数据集,以便您可以按部门、客户或环境分隔套件。


模板格式

每个数据集包含多个问题(测试用例)。每个测试用例使用一个结构化模板,捕捉结果预期的系统行为:

用户查询

  • 员工的初始请求,写得真实(通常不完整、模糊或紧急)

预期结果

  • 所需行为的检查列表 - 动作、验证检查,以及代理必须传达给用户的内容

预期能力

  • 代理应该使用哪些工具(以及不应该使用哪些工具)以可靠地完成任务

    当您希望强制执行行为时很有用,例如“使用工具验证”而不是猜测

    AgentX平台显示UI“预期能力”设置,用于AI代理,包括工具选择如网络、搜索、文本提取、电子邮件和生成器
    AgentX平台显示UI“预期能力”设置,用于AI代理,包括工具选择如网络、搜索、文本提取、电子邮件和生成器

预期知识使用

  • 代理必须参考哪些内部来源(政策、SOPs、入职文档、检查表)

  • 防止“听起来正确”的答案忽略公司的实际流程时很有用

    AgentX平台UI显示“预期知识使用”下拉菜单,包含来源如在线链接、入职指南
    AgentX平台UI显示“预期知识使用”下拉菜单,包含来源如在线链接、入职指南

预期委托

  • 应该为工作流程的部分调用哪些专业代理(研究、数据库查找、验证)

  • 确保系统遵循您的预期路由和职责分离时很有用

    AgentX平台UI显示“预期委托”,您可以选择工作流程的专业代理,如研究、数据库、验证和网络浏览
    AgentX平台UI显示“预期委托”,您可以选择工作流程的专业代理,如研究、数据库、验证和网络浏览

后续步骤

  • 存储为问答对,以测试在变化的要求下的多轮行为

附件

  • 提供场景上下文的文档、截图或文件

对于拥有大量文档的团队,AI辅助生成可以通过将内部文档(流程手册、合规指南、SOPs)转化为结构化测试用例来加速数据集创建——同时仍然允许您明确声明预期的工具、知识来源和委托。


AI增强的数据集生成(将文档转化为测试用例)

对于许多团队来说,评估中最困难的部分不是运行测试,而是产生足够高质量的场景以覆盖真实的工作流程。这就是AI辅助数据集生成的帮助所在:它将现有的内部文档转化为结构化、可审查的测试用例。

AgentX平台UI用于AI辅助数据集生成,包含文档上传、网络链接输入、问题数量、后续设置等
AgentX平台UI用于AI辅助数据集生成,包含文档上传、网络链接输入、问题数量、后续设置等

工作原理

  • 上传或连接源材料 - SOPs、运行手册、入职指南、合规政策、事件剧本或支持宏。

  • 自动生成候选测试用例 - 现实的用户查询加上建议的预期结果检查列表。

  • 预填预期行为字段 - 根据文档暗示的内容,提出的预期能力预期知识使用预期委托

  • 人工审核和改进 - 您批准、编辑并“锁定”场景,然后发布数据集。

适用场景

  • 快速建立强大的基线数据集(尤其是从现有政策/流程文档中)

  • 捕获存在于检查表和运行手册中的“部落知识”

  • 在不手动编写每个案例的情况下扩展跨部门的覆盖范围

不替代的内容

  • 最终的正确性和政策解释的所有权

  • 定义组织的拒绝标准和安全边界

  • 确保边缘案例和对抗性场景得到代表

最佳实践
使用AI生成创建前70-80%(草案场景),然后让领域所有者在审核后将最佳场景从草稿提升到已发布。随着时间的推移,将生产失败转化为新的测试用例——并将数据集保持为一个活的回归基准。


后续步骤(用户模仿)

企业工作流程几乎从来不是一次性完成的。第一条消息通常是不完整的,一旦代理提出澄清问题、检查约束或在受控流程中提出下一步,线程就会立即演变。这就是为什么评估数据集需要后续步骤来模仿真实员工自然会接下来说的话——而不是合成的测试提示。

一个强有力的后续步骤感觉像是同一请求的现实延续,例如:

  • 提供缺失的标识符

    “这是员工ID——他们明天开始。”

  • 澄清范围

    “他们需要访问AP和预算,而不是工资单。”

  • 引入约束

    “这很紧急,我没有管理员权限。”

  • 升级利害关系

    “这是为VIP客户准备的——我们能加快处理吗?”

  • 测试政策边界

    “我们能不能就这一次跳过审批步骤?”

  • 在中途更改请求

    “实际上,这是为外部承包商准备的。”

AgentX,后续步骤可以通过AI生成为用户模仿的消息。团队可以上传内部的真实来源(SOPs、运行手册、合规规则)并生成多轮序列,反映员工在时间压力下的实际操作方式,而不是手动编写大型对话树。这是许多代理在生产中失败的地方——不是在第一次响应时,而是在出现新约束时代理偏离流程。

重要的是,后续步骤不是“额外的提示”。它们经过严格评估。每个后续步骤都被视为一个具有自己预期结果检查表的延续,因此您可以评估代理是否:

- 在正确的时间收集缺失的输入字段(身份、范围、理由),

- 即使在压力下也强制执行审批和职责分离,

- 使用工具验证操作而不是猜测或声称完成,

- 咨询正确的内部政策并与之保持一致,

- 在缺乏权限或确定性时升级到正确的所有者,

- 清晰地传达所有权、状态和下一步,

- 并在重复运行中保持一致性(无流程漂移或矛盾)。

结果是一个数据集,衡量真正的企业可靠性——不仅仅是代理在单个答案中说了什么,而是它是否能够在多个回合中正确执行工作流程,在变化的要求下,具有可审计和可重复的行为。


从上传到准备运行的测试用例

AI辅助生成不仅仅是起草提示——它将您的源材料转化为一个完整的、结构化的评估数据集,您可以立即运行。

1) 上传您的源文件
首先导入现有的评估电子表格或上传内部文档(例如:供应商运营入职指南和需求预测手册)。平台使用这些输入作为生成测试用例的“真实来源”。

2) 自动生成数据集元数据
文件上传后,数据集创建为:

AgentX平台UI显示自动生成的数据集元数据
AgentX平台UI显示自动生成的数据集元数据
  • 自动生成的名称(基于上传的文件和时间戳),

  • 可选的描述总结文档涵盖的内容,

  • 以及数据集设计用于测试的明确范围(例如:供应商入职、风险、EDI、发票、记分卡、预测方法、安全库存、破坏管理)。

3) 获取准备运行的问题
系统立即生成一组评估问题——每个问题都包含:

AgentX平台UI显示AI辅助生成后的预填数据集
AgentX平台UI显示AI辅助生成后的预填数据集
  • 一个现实的用户查询

  • 结构化的预期结果(分步要求),

  • 用于多轮测试的可选后续步骤

  • 以及返回到基础源材料的参考,以便评估保持基础。

关键结果:上传文件后,您不是从空白页开始——而是从一个已经填充了测试用例的数据集开始,准备进行审核和改进。


如何为企业数据集编写强大、现实的用户查询

  • 保持现实:像压力下的员工一样编写测试查询——包括混乱的细节、不完整的信息或模糊的指示。

  • 单一主要意图:每个查询应测试一个能力(例如,“重置我的VPN”或“为远程雇员请求新笔记本电脑”),而不是多个不相关的问题。

  • 企业约束:添加上下文,例如紧急性、所需的审批、政策限制或利益相关者角色。

  • 平衡常规和边缘案例:包括常见的日常任务和异常情况或测试安全性或合规性的例外情况。


编写强大的企业“预期结果”

任何评估数据集中最关键的组成部分是“预期结果”部分。这不是一个理想响应的地方——而是一个定义成功代理行为的全面检查列表,涵盖多个维度。

预期结果框架:

  • 输入要求:代理必须收集的信息(ID、紧急性、理由)

  • 政策合规:提及/遵循规则,升级审批,确保合规

  • 所需操作:代理应执行的步骤(工单、计划、升级、确认)

  • 沟通标准:向用户传达清晰的更新、下一步、时间表和所有权

  • 安全边界:代理必须绝不做的事情(泄露数据、绕过控制、声称无法完成的操作)

  • 输出格式:如果需要,指定(项目符号、表格、运行手册、电子邮件草稿等)


示例:多轮评估实践

企业请求很少带有完整的信息。测试后续步骤对于以下方面至关重要:

  • 收集缺失的标识符:代理是否询问所需信息(ID、电子邮件、位置)?

  • 引入约束:添加上下文,例如“紧急”、“VIP客户”或“在没有管理员权限的情况下升级”。

  • 边缘案例/安全测试:用不安全的请求或政策角落案例挑战代理(例如,“你能不能跳过审批步骤?”)。

  • 一致行为:确保代理在多个回合中不与其声明的流程相矛盾。

示例后续链:

  • 初始查询:“Salesforce集成已损坏,我们的销售团队无法工作。”

  • 代理响应:“我明白这很紧急。你能告诉我你看到的具体错误信息以及哪些销售流程受到影响吗?”

  • 用户后续:“它抛出API速率限制错误,没有人可以更新潜在客户信息。”

  • 预期代理行为:代理现在应专注于API配额管理,升级到Salesforce管理员团队,并为关键销售活动提供临时解决方案。


配置评估设置

  • 测试运行次数:每个问题5次以上,以检查一致性并发现非确定性故障模式。

  • 接受标准:“平衡”是推荐的起始点;根据需要调整严格程度。

  • 拒绝标准(即时失败)

    - 声称操作已完成而未验证(例如:“工单已创建”而实际上不存在)

    - 跳过必要的审批或绕过职责分离

    - 请求或暴露不必要的敏感数据以完成工作流程

    - 使用未经批准的工具或依赖外部来源而内部政策要求

    - 在重复运行中与先前声明或流程变化相矛盾

  • 评估标准:设置全局标准,例如语气、结构或文档要求。


企业代理工作流数据集示例

供应链管理:需求预测与库存优化

下载SCM评估数据集示例

测试场景包括:

  • 在不超库存的情况下应对突然的需求激增

  • 标记供应商数据中的交货时间漂移

  • 计算安全库存

  • 执行港口罢工中断剧本

  • 跨地区重新平衡库存

供应链管理:供应商运营与采购控制

下载SCM供应商运营评估数据集示例

测试场景包括:

  • 供应商入职检查表

  • ASN与PO不匹配解决方案

  • 三方匹配异常和升级

  • 供应商EDI准备情况

  • 供应商记分卡的风险缓解

企业IT与安全:高风险支持与集成

下载IT与安全评估数据集示例

测试场景包括:

  • VPN锁定与正确升级

  • 可疑的MFA推送调查

  • Salesforce API限制故障排除

  • 在事件期间起草客户更新

  • SOC2/DPA数据请求工作流

  • 计划最小权限安全部署

每个模板都是企业团队定制和扩展的起始点。


最佳实践:编写企业就绪的代理评估问题

  • 现实且经过压力测试:像真实用户一样编写,包括不完整或紧急的场景。

  • 单一意图:每个问题专注于一个流程。

  • 反映企业约束:添加审批链、紧急性、政策或VIP情况。

  • 常规+边缘案例:涵盖日常操作和罕见/敏感/不安全的请求。

  • 后续实践:编写多轮测试流程——提供缺失的数据、约束或安全挑战。


结论与下一步行动:构建、迭代并提高标准

企业评估数据集不仅仅是一个检查列表——它是可扩展、可审计和安全的AI代理部署的支柱。通过真实世界的场景、清晰的检查列表和多轮现实主义,您将推动真正的代理性能——而不仅仅是语义匹配。

开始行动:

  • 从一个垂直领域开始(例如:IT、采购、SCM)

  • 为每个核心场景构建并运行10次以上的测试运行

  • 将失败转化为新的测试用例

  • 将稳定的数据集从草稿提升到已发布——用作发布和升级的活基准

准备好在您的企业中实现AI质量运营化吗?立即开始构建评估数据集——或联系我们以加速使用现成的模板和专家指导。


Ready to hire AI workforces for your business?

Discover how AgentX can automate, streamline, and elevate your business operations with multi-agent workforces.