用 Test-Measure-Refine 打造更可靠的 Agent Skills

2026年3月7日 · 阅读需 4 分钟

Claude Dev

大多数 agent skills 失败的原因其实很普通：我们改了提示词，重跑一次，就觉得“变好了”。

Anthropic 这次 Skill Creator 更新的重点，是更工程化的闭环：先测试，再度量行为，然后迭代优化。如果你在做团队内的 agent 工作流，这个变化才是真正值得关注的。

这篇文章把官方发布内容改写成开发者可以每周执行的实战流程。

核心思路：别再盲目改提示词

这次官方更新不只是“提示词生成更强了”，而是一套质量闭环：

先定义可度量的行为
基于行为生成测试集
对比新旧版本评测结果
用 evaluator 反馈清理冲突和无效指令
基于证据迭代，而不是凭感觉

如果这听起来像“提示词的 CI”，那正是它的意义。

Skill Creator 有哪些变化（开发者视角）

基于官方文章，真正有实用价值的变化有这些：

先做 golden prompts，再做实现
你先写（或共创）代表真实任务的具体提示词，它们会成为基线样例。
test-creator 自动生成技能测试
Skill Creator 能根据你的需求生成测试，你不用从零手写所有 case。
内置 skill evaluator
evaluator 会指出指令冲突、重叠和薄弱点，帮助你收紧技能规范。
基于质量信号做迭代
你需要在多个版本间循环，对照测试输出评估变化，而不是“感觉更好”。

这套方式更适合工程团队，因为它把 skill 当成可版本化资产，而不是一次性提示词。

一套可直接用的实操流程

Step 1）像定义 API 行为一样写验收标准

在修改 skill 文本前，先用严格形式写清预期行为：

输入结构
输出 schema
必须做的规则
必须不能做的规则
失败行为（上下文不足时怎么办）

验收标准模糊，测试也一定模糊。

Step 2）从真实问题中构建 golden prompt 集

用团队里的真实日志、工单或请求，至少包含：

正常 case
噪声/歧义 case
上下文缺失 case
超范围 case

这就是你的回归测试集。规模不用大，但信号要高。

Step 3）生成并运行测试

用 Skill Creator + test-creator 生成结构化技能测试，然后同时跑：

当前生产版本 skill
候选更新版本 skill

在同一套测试集上比较输出质量。

Step 4）看 evaluator 反馈并裁剪指令

重点找重复出现的失败模式：

指令互相冲突
指令范围过宽
隐含假设太多
输出格式不稳定

每次迭代只改一到两个变量，才能归因改进来源。

Step 5）只有指标提升才晋级

不要因为某一个样例看起来不错就上线。只有在这些条件满足时再发布：

整体测试集通过率提升
失败模式被减少，而不是转移
边界场景下输出格式仍稳定

团队最常卡住的地方

这些是开发团队里最常见的失败模式：

一个 skill 规则塞太多
一个 mega-skill 同时做总结、规划、分类、策略解释，通常会很快劣化。
测试数据没有版本化
golden prompts 不做版本管理，就无法相信趋势数据。
没有拒答策略
skill 必须定义：数据不足或超范围时该怎么拒绝。
无假设地乱改
“改改措辞试试”但没有可验证假设，会浪费迭代周期。

更好的思维模型

把 skill 看成：

Prompt 文本 = 实现
Golden prompts = 单元测试
Evaluator + 测试运行 = 回归检查
Release note = 变更日志

团队一旦采用这个模型，skill 质量就会变得可预测。

下一个 Skill PR 的最小模板

在团队内部 PR 描述里用这个结构：

## Goal
What user job this skill solves.

## Behavior Contract
- Inputs
- Outputs
- Guardrails
- Refusal policy

## Test Set
- Golden prompts: N
- Edge cases included: yes/no

## Results
- Baseline pass rate: X%
- Candidate pass rate: Y%
- Known regressions: ...

## Decision
Promote / Hold / Roll back

这样 skill 变更就能和代码变更一样被审查。

最后结论

Anthropic 这次 Skill Creator 更新最有价值的，不是“生成更聪明”。

而是 skills 终于能走一条开发者熟悉的生命周期：

design -> test -> evaluate -> refine -> release

如果你的团队在做严肃的 agent 工作流，这就是避免 prompt drift、持续交付稳定 skills 的方法。

来源

Anthropic 官方博客：Improving Skill Creator: Test, measure, and refine agent skills
https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills

核心思路：别再盲目改提示词​

Skill Creator 有哪些变化（开发者视角）​

一套可直接用的实操流程​

Step 1）像定义 API 行为一样写验收标准​

Step 2）从真实问题中构建 golden prompt 集​

Step 3）生成并运行测试​

Step 4）看 evaluator 反馈并裁剪指令​

Step 5）只有指标提升才晋级​

团队最常卡住的地方​

更好的思维模型​

下一个 Skill PR 的最小模板​

最后结论​

来源​