用 Test-Measure-Refine 打造更可靠的 Agent Skills
大多数 agent skills 失败的原因其实很普通:我们改了提示词,重跑一次,就觉得“变好了”。
Anthropic 这次 Skill Creator 更新的重点,是更工程化的闭环:先测试,再度量行为,然后迭代优化。如果你在做团队内的 agent 工作流,这个变化才是真正值得关注的。
这篇文章把官方发布内容改写成开发者可以每周执行的实战流程。
核心思路:别再盲目改提示词
这次官方更新不只是“提示词生成更强了”,而是一套质量闭环:
- 先定义可度量的行为
- 基于行为生成测试集
- 对比新旧版本评测结果
- 用 evaluator 反馈清理冲突和无效指令
- 基于证据迭代,而不是凭感觉
如果这听起来像“提示词的 CI”,那正是它的意义。
Skill Creator 有哪些变化(开发者视角)
基于官方文章,真正有实用价值的变化有这些:
-
先做 golden prompts,再做实现
你先写(或共创)代表真实任务的具体提示词,它们会成为基线样例。 -
test-creator自动生成技能测试
Skill Creator 能根据你的需求生成测试,你不用从零手写所有 case。 -
内置 skill evaluator
evaluator 会指出指令冲突、重叠和薄弱点,帮助你收紧技能规范。 -
基于质量信号做迭代
你需要在多个版本间循环,对照测试输出评估变化,而不是“感觉更好”。
这套方式更适合工程团队,因为它把 skill 当成可版本化资产,而不是一次性提示词。
一套可直接用的实操流程
Step 1)像定义 API 行为一样写验收标准
在修改 skill 文本前,先用严格形式写清预期行为:
- 输入结构
- 输出 schema
- 必须做的规则
- 必须不能做的规则
- 失败行为(上下文不足时怎么办)
验收标准模糊,测试也一定模糊。
Step 2)从真实问题中构建 golden prompt 集
用团队里的真实日志、工单或请求,至少包含:
- 正常 case
- 噪声/歧义 case
- 上下文缺失 case
- 超范围 case
这就是你的回归测试集。规模不用大,但信号要高。
Step 3)生成并运行测试
用 Skill Creator + test-creator 生成结构化技能测试,然后同时跑:
- 当前生产版本 skill
- 候选更新版本 skill
在同一套测试集上比较输出质量。
Step 4)看 evaluator 反馈并裁剪指令
重点找重复出现的失败模式:
- 指令互相冲突
- 指令范围过宽
- 隐含假设太多
- 输出格式不稳定
每次迭代只改一到两个变量,才能归因改进来源。
Step 5)只有指标提升才晋级
不要因为某一个样例看起来不错就上线。只有在这些条件满足时再发布:
- 整体测试集通过率提升
- 失败模式被减少,而不是转移
- 边界场景下输出格式仍稳定
团队最常卡住的地方
这些是开发团队里最常见的失败模式:
-
一个 skill 规则塞太多
一个 mega-skill 同时做总结、规划、分类、策略解释,通常会很快劣化。 -
测试数据没有版本化
golden prompts 不做版本管理,就无法相信趋势数据。 -
没有拒答策略
skill 必须定义:数据不足或超范围时该怎么拒绝。 -
无假设地乱改
“改改措辞试试”但没有可验证假设,会浪费迭代周期。
更好的思维模型
把 skill 看成:
- Prompt 文本 = 实现
- Golden prompts = 单元测试
- Evaluator + 测试运行 = 回归检查
- Release note = 变更日志
团队一旦采用这个模型,skill 质量就会变得可预测。
下一个 Skill PR 的最小模板
在团队内部 PR 描述里用这个结构:
## Goal
What user job this skill solves.
## Behavior Contract
- Inputs
- Outputs
- Guardrails
- Refusal policy
## Test Set
- Golden prompts: N
- Edge cases included: yes/no
## Results
- Baseline pass rate: X%
- Candidate pass rate: Y%
- Known regressions: ...
## Decision
Promote / Hold / Roll back
这样 skill 变更就能和代码变更一样被审查。
最后结论
Anthropic 这次 Skill Creator 更新最有价值的,不是“生成更聪明”。
而是 skills 终于能走一条开发者熟悉的生命周期:
design -> test -> evaluate -> refine -> release
如果你的团队在做严肃的 agent 工作流,这就是避免 prompt drift、持续交付稳定 skills 的方法。
来源
- Anthropic 官方博客:Improving Skill Creator: Test, measure, and refine agent skills
https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills