用 Test-Measure-Refine 打造更可靠的 Agent Skills
大多数 agent skills 失败的原因其实很普通:我们改了提示词,重跑一次,就觉得“变好了”。
Anthropic 这次 Skill Creator 更新的重点,是更工程化的闭环:先测试,再度量行为,然后迭代优化。如果你在做团队内的 agent 工作流,这个变化才是真正值得关注的。
这篇文章把官方发布内容改写成开发者可以每周执行的实战流程。
AI-assisted programming and development
查看所有标签大多数 agent skills 失败的原因其实很普通:我们改了提示词,重跑一次,就觉得“变好了”。
Anthropic 这次 Skill Creator 更新的重点,是更工程化的闭环:先测试,再度量行为,然后迭代优化。如果你在做团队内的 agent 工作流,这个变化才是真正值得关注的。
这篇文章把官方发布内容改写成开发者可以每周执行的实战流程。
大多数团队做 agent 失败,不是因为模型不够强。
真正的问题是:太早选了错误的工作流模式,编排过度、组件过多、复杂度却没有明确收益。
Anthropic 最近这篇关于常见 agent workflow patterns 的官方文章很有价值,但这篇会改写成面向生产环境开发者的版本。
2025年,AI 编码领域经历了巨大变革,Anthropic 的 Claude Code 和 OpenAI 重新设计的 Codex 提供了引人注目但本质上不同的 AI 辅助开发方法。在 OpenAI 于2023年令人意外地停用原始 Codex 之后,该公司带着完全重新构想的系统回归,而 Claude Code 已经巩固了其作为顶级开发伙伴的地位。让我们深入了解2025年的权威对比。
在比较之前,必须理解2025年的 OpenAI Codex 与2023年3月被弃用的原始2021版本完全不同。新的 Codex 不仅仅是一个模型,而是一个由 codex-1 驱动的完全自主软件工程代理,这是 OpenAI o3 模型的一个专门优化版本,专为软件工程任务设计。
Apple 开发者们,好消息来了!Claude Sonnet 4 现已直接集成到 Xcode 26 中,为你的 iOS 和 macOS 开发工作流带来强大的 AI 辅助编码能力。这一集成标志着 AI 开发工具在 Apple 平台开发者中变得更加易用和具有上下文感知能力的重要一步。