跳到主要内容

用 Test-Measure-Refine 打造更可靠的 Agent Skills

· 阅读需 4 分钟
Claude Dev
Claude Dev

大多数 agent skills 失败的原因其实很普通:我们改了提示词,重跑一次,就觉得“变好了”。

Anthropic 这次 Skill Creator 更新的重点,是更工程化的闭环:先测试,再度量行为,然后迭代优化。如果你在做团队内的 agent 工作流,这个变化才是真正值得关注的。

这篇文章把官方发布内容改写成开发者可以每周执行的实战流程。

核心思路:别再盲目改提示词

这次官方更新不只是“提示词生成更强了”,而是一套质量闭环:

  1. 先定义可度量的行为
  2. 基于行为生成测试集
  3. 对比新旧版本评测结果
  4. 用 evaluator 反馈清理冲突和无效指令
  5. 基于证据迭代,而不是凭感觉

如果这听起来像“提示词的 CI”,那正是它的意义。


Skill Creator 有哪些变化(开发者视角)

基于官方文章,真正有实用价值的变化有这些:

  • 先做 golden prompts,再做实现
    你先写(或共创)代表真实任务的具体提示词,它们会成为基线样例。

  • test-creator 自动生成技能测试
    Skill Creator 能根据你的需求生成测试,你不用从零手写所有 case。

  • 内置 skill evaluator
    evaluator 会指出指令冲突、重叠和薄弱点,帮助你收紧技能规范。

  • 基于质量信号做迭代
    你需要在多个版本间循环,对照测试输出评估变化,而不是“感觉更好”。

这套方式更适合工程团队,因为它把 skill 当成可版本化资产,而不是一次性提示词。


一套可直接用的实操流程

Step 1)像定义 API 行为一样写验收标准

在修改 skill 文本前,先用严格形式写清预期行为:

  • 输入结构
  • 输出 schema
  • 必须做的规则
  • 必须不能做的规则
  • 失败行为(上下文不足时怎么办)

验收标准模糊,测试也一定模糊。

Step 2)从真实问题中构建 golden prompt 集

用团队里的真实日志、工单或请求,至少包含:

  • 正常 case
  • 噪声/歧义 case
  • 上下文缺失 case
  • 超范围 case

这就是你的回归测试集。规模不用大,但信号要高。

Step 3)生成并运行测试

用 Skill Creator + test-creator 生成结构化技能测试,然后同时跑:

  • 当前生产版本 skill
  • 候选更新版本 skill

在同一套测试集上比较输出质量。

Step 4)看 evaluator 反馈并裁剪指令

重点找重复出现的失败模式:

  • 指令互相冲突
  • 指令范围过宽
  • 隐含假设太多
  • 输出格式不稳定

每次迭代只改一到两个变量,才能归因改进来源。

Step 5)只有指标提升才晋级

不要因为某一个样例看起来不错就上线。只有在这些条件满足时再发布:

  • 整体测试集通过率提升
  • 失败模式被减少,而不是转移
  • 边界场景下输出格式仍稳定

团队最常卡住的地方

这些是开发团队里最常见的失败模式:

  • 一个 skill 规则塞太多
    一个 mega-skill 同时做总结、规划、分类、策略解释,通常会很快劣化。

  • 测试数据没有版本化
    golden prompts 不做版本管理,就无法相信趋势数据。

  • 没有拒答策略
    skill 必须定义:数据不足或超范围时该怎么拒绝。

  • 无假设地乱改
    “改改措辞试试”但没有可验证假设,会浪费迭代周期。


更好的思维模型

把 skill 看成:

  • Prompt 文本 = 实现
  • Golden prompts = 单元测试
  • Evaluator + 测试运行 = 回归检查
  • Release note = 变更日志

团队一旦采用这个模型,skill 质量就会变得可预测。


下一个 Skill PR 的最小模板

在团队内部 PR 描述里用这个结构:

## Goal
What user job this skill solves.

## Behavior Contract
- Inputs
- Outputs
- Guardrails
- Refusal policy

## Test Set
- Golden prompts: N
- Edge cases included: yes/no

## Results
- Baseline pass rate: X%
- Candidate pass rate: Y%
- Known regressions: ...

## Decision
Promote / Hold / Roll back

这样 skill 变更就能和代码变更一样被审查。


最后结论

Anthropic 这次 Skill Creator 更新最有价值的,不是“生成更聪明”。

而是 skills 终于能走一条开发者熟悉的生命周期:

design -> test -> evaluate -> refine -> release

如果你的团队在做严肃的 agent 工作流,这就是避免 prompt drift、持续交付稳定 skills 的方法。

来源