用 Test-Measure-Refine 打造更可靠的 Agent Skills
大多数 agent skills 失败的原因其实很普通:我们改了提示词,重跑一次,就觉得“变好了”。
Anthropic 这次 Skill Creator 更新的重点,是更工程化的闭环:先测试,再度量行为,然后迭代优化。如果你在做团队内的 agent 工作流,这个变化才是真正值得关注的。
这篇文章把官方发布内容改写成开发者可以每周执行的实战流程。
Claude Code specific features and tutorials
查看所有标签大多数 agent skills 失败的原因其实很普通:我们改了提示词,重跑一次,就觉得“变好了”。
Anthropic 这次 Skill Creator 更新的重点,是更工程化的闭环:先测试,再度量行为,然后迭代优化。如果你在做团队内的 agent 工作流,这个变化才是真正值得关注的。
这篇文章把官方发布内容改写成开发者可以每周执行的实战流程。
我不是那种硬核开发者。更像是:“我想让 AI 帮我做事,但别让我先啃 20 页文档。”
所以当我看到 Claude Code 刚发布了一个叫 Remote Control 的新功能时,我就很好奇。然后我又发现 AI 社区里很多人也在热议一个叫 OpenClaw 的东西。
这篇文章会用新手友好的方式拆解:到底发生了什么、真正重要的点是什么,以及你应该关注哪一个。
Claude Code 是 Anthropic 的编码工具。
新的 Remote Control 功能做了一件非常简单(但很强大)的事:
你可以在手机或浏览器上,远程控制运行在你电脑上的 Claude Code 会话。
就是这么直接。不是把工作神秘迁移到云端,也不是“你的代码突然到了某个未知地方”。
真正干活的还是你的电脑。手机只是遥控器。
在这之前,用 AI 写代码的体验非常……固定在工位上。
你得:
有了 Remote Control:
对新手来说,这减少了很多摩擦。它不再像“严肃的开发者工具”,而更像普通 App 的使用体验。
你不需要理解内部实现。从概念上看,它是:
新手 需要记住的重点:
所以从安全性和易用性来看,这让人很安心。
OpenClaw 是一种完全不同的存在。
如果说 Claude Code 是:
“一个帮助你写代码的 AI”
那 OpenClaw 更像:
“一个可以自己替你做事的 AI 代理”
人们会用 OpenClaw 来:
这就是它让人兴奋的原因,也是它让一些人有点担心的原因。
| 主题 | Claude Code(Remote Control) | OpenClaw |
|---|---|---|
| 核心思路 | 远程控制编码任务 | 自主型 AI 代理 |
| 运行位置 | 你的本地机器 | 通常本地,但非常灵活 |
| 交互方式 | App / 浏览器 | 聊天应用、API |
| 安全性 | 高(范围受限) | 取决于配置 |
| 搭建难度 | 中等 | 高 |
| 新手友好度 | 👍👍👍 | ⚠️ |
我们在 2026 年看到的变化是:
Remote Control 展示了一条非常保守、用户友好的路径。
OpenClaw 展示的是更激进、更实验性的未来。
两者都很有意思,但对新手来说,慢一点起步通常更聪明。
如果你刚入门,已经被各种 AI 工具搞得有点懵:
👉 Claude Code + Remote Control 是一个很好的入口。
它很现代、很灵活,也不需要你盲目信任。
OpenClaw 很迷人,但也许更适合你更熟练之后再探索。
如果你愿意,下一篇我可以:
告诉我就行 👋
Anthropic 在 2026-02-05 发布了 Claude Opus 4.6,并将其定位为面向编程与长时代理任务的重大升级。站在 Claude Code 文档站的视角,这次更新不只是模型更强,而是改变了我们组织任务、管理上下文和设计多步骤流程的方式。
2025年,AI 编码领域经历了巨大变革,Anthropic 的 Claude Code 和 OpenAI 重新设计的 Codex 提供了引人注目但本质上不同的 AI 辅助开发方法。在 OpenAI 于2023年令人意外地停用原始 Codex 之后,该公司带着完全重新构想的系统回归,而 Claude Code 已经巩固了其作为顶级开发伙伴的地位。让我们深入了解2025年的权威对比。
在比较之前,必须理解2025年的 OpenAI Codex 与2023年3月被弃用的原始2021版本完全不同。新的 Codex 不仅仅是一个模型,而是一个由 codex-1 驱动的完全自主软件工程代理,这是 OpenAI o3 模型的一个专门优化版本,专为软件工程任务设计。