用 Test-Measure-Refine 打造更可靠的 Agent Skills
大多数 agent skills 失败的原因其实很普通:我们改了提示词,重跑一次,就觉得“变好了”。
Anthropic 这次 Skill Creator 更新的重点,是更工程化的闭环:先测试,再度量行为,然后迭代优化。如果你在做团队内的 agent 工作流,这个变化才是真正值得关注的。
这篇文章把官方发布内容改写成开发者可以每周执行的实战流程。
大多数 agent skills 失败的原因其实很普通:我们改了提示词,重跑一次,就觉得“变好了”。
Anthropic 这次 Skill Creator 更新的重点,是更工程化的闭环:先测试,再度量行为,然后迭代优化。如果你在做团队内的 agent 工作流,这个变化才是真正值得关注的。
这篇文章把官方发布内容改写成开发者可以每周执行的实战流程。
大多数团队做 agent 失败,不是因为模型不够强。
真正的问题是:太早选了错误的工作流模式,编排过度、组件过多、复杂度却没有明确收益。
Anthropic 最近这篇关于常见 agent workflow patterns 的官方文章很有价值,但这篇会改写成面向生产环境开发者的版本。
如果你想让 Cowork 真正帮你干活,插件就是关键杠杆。
截至 2026-02-28,官方路径已经很清晰:
这篇指南会把官方流程和社区用户的实战经验结合起来,帮你从零做出第一个可用插件。
我不是那种硬核开发者。更像是:“我想让 AI 帮我做事,但别让我先啃 20 页文档。”
所以当我看到 Claude Code 刚发布了一个叫 Remote Control 的新功能时,我就很好奇。然后我又发现 AI 社区里很多人也在热议一个叫 OpenClaw 的东西。
这篇文章会用新手友好的方式拆解:到底发生了什么、真正重要的点是什么,以及你应该关注哪一个。
Claude Code 是 Anthropic 的编码工具。
新的 Remote Control 功能做了一件非常简单(但很强大)的事:
你可以在手机或浏览器上,远程控制运行在你电脑上的 Claude Code 会话。
就是这么直接。不是把工作神秘迁移到云端,也不是“你的代码突然到了某个未知地方”。
真正干活的还是你的电脑。手机只是遥控器。
在这之前,用 AI 写代码的体验非常……固定在工位上。
你得:
有了 Remote Control:
对新手来说,这减少了很多摩擦。它不再像“严肃的开发者工具”,而更像普通 App 的使用体验。
你不需要理解内部实现。从概念上看,它是:
新手 需要记住的重点:
所以从安全性和易用性来看,这让人很安心。
OpenClaw 是一种完全不同的存在。
如果说 Claude Code 是:
“一个帮助你写代码的 AI”
那 OpenClaw 更像:
“一个可以自己替你做事的 AI 代理”
人们会用 OpenClaw 来:
这就是它让人兴奋的原因,也是它让一些人有点担心的原因。
| 主题 | Claude Code(Remote Control) | OpenClaw |
|---|---|---|
| 核心思路 | 远程控制编码任务 | 自主型 AI 代理 |
| 运行位置 | 你的本地机器 | 通常本地,但非常灵活 |
| 交互方式 | App / 浏览器 | 聊天应用、API |
| 安全性 | 高(范围受限) | 取决于配置 |
| 搭建难度 | 中等 | 高 |
| 新手友好度 | 👍👍👍 | ⚠️ |
我们在 2026 年看到的变化是:
Remote Control 展示了一条非常保守、用户友好的路径。
OpenClaw 展示的是更激进、更实验性的未来。
两者都很有意思,但对新手来说,慢一点起步通常更聪明。
如果你刚入门,已经被各种 AI 工具搞得有点懵:
👉 Claude Code + Remote Control 是一个很好的入口。
它很现代、很灵活,也不需要你盲目信任。
OpenClaw 很迷人,但也许更适合你更熟练之后再探索。
如果你愿意,下一篇我可以:
告诉我就行 👋
Anthropic 在 2026-02-05 发布了 Claude Opus 4.6,并将其定位为面向编程与长时代理任务的重大升级。站在 Claude Code 文档站的视角,这次更新不只是模型更强,而是改变了我们组织任务、管理上下文和设计多步骤流程的方式。
如果你刚接触 Coworking,选择可能会让人眼花缭乱。本指南用新手友好的方式讲清楚 Coworking 是什么、如何运作,以及如何不过度纠结地选到合适的空间。
10月15日,Anthropic 发布了 Claude Haiku 4.5。4天过去了,我们收集了来自 Hacker News、技术博客、开发者社区的真实反馈和性能数据,来看看这个模型到底值不值得关注。
剧透:这可能是今年最具破坏性的 AI 模型发布之一。
2025年11月,Anthropic 让 Claude 系列从“贴心聊天机器人”升级为“智能同事”。
以下是你在忙 Q4 时可能错过的三件大事。
更新点
意义
内部基准在 SWE-bench(真实 GitHub issue)上较 3.5-Sonnet 提升 42 %,允许 agent 迭代时 pass@1 超过 70 %。
早期用户报告最长 7 小时的自主编码,能独立完成整条功能分支 [^14^]。
如何试用
thinking_budget_tokens。是什么
Skills 是可携带的文件夹,打包指令、Python/R 脚本、品牌规范、SQL 查询——Claude 重复流程所需的一切。
就像“Excel 宏”遇上“GPT”,但可版本管理,并能在席位间共享。
自带 20 个预制包
谁能用
Pro、Max、Team、Enterprise 计划用户皆可。API 与 Agent SDK 支持已于 11 月 18 日上线 [^3^]。
10 月首度亮相的 3.5 版本,如今能看屏幕、移鼠标、敲键盘,并达到生产级。
11 月新特性
定价
$0.60 / 成功任务(成功 = 用户点击“Approve”)。免费层在 2026 年 1 月促销结束前每月 25 个任务。
Anthropic 在 11 月 29 日泄露的路线图透露:
11 月标志着 Claude 不再等待完美 prompt,而是带着自己的工具箱上班。
如果还没试过 Extended-thinking 或 Skills,抽 30 分钟开个沙盒——你的 2026 年会感谢你。
Happy building!
Anthropic 正式发布了 Claude Skills,这是一项突破性功能,允许 Claude 通过加载包含指令、脚本和资源的专门文件夹来提升特定任务的执行能力。Skills 可跨 Claude 应用、Claude Code 和 API 使用,为 AI 驱动的工作流带来了全新的定制化和可移植性水平。