跳到主要内容

1 篇博文 含有标签「performance-analysis」

查看所有标签

Claude AI在2025年11月:“极限推理”、Skills与电脑操作

· 阅读需 3 分钟
Claude Dev
Claude Dev

2025年11月,Anthropic 让 Claude 系列从“贴心聊天机器人”升级为“智能同事”。
以下是你在忙 Q4 时可能错过的三件大事。


1. “Extreme Reasoning” 发布——Opus 4 与 Sonnet 4 思考更久,编码更强

  • 更新点

    • Claude Opus 4 成为旗帜级编码模型,适配多小时的 agent 循环。
    • Claude Sonnet 4 提速 2 倍,指令执行更精准。
    • 两种模式可选:
      1. Fast(亚秒级)
      2. Extended-thinking(最长 5 分钟),允许模型自行检索、测试与调试输出。
  • 意义
    内部基准在 SWE-bench(真实 GitHub issue)上较 3.5-Sonnet 提升 42 %,允许 agent 迭代时 pass@1 超过 70 %。
    早期用户报告最长 7 小时的自主编码,能独立完成整条功能分支 [^14^]。

  • 如何试用

    • 现已在 claude.ai(Max/Team/Enterprise)与 Anthropic API 上线。
    • 在 UI 勾选 “Extended thinking”,或在 API 中设置 thinking_budget_tokens

2. Skills 正式版——把 Claude 变成你公司的“小同事”

  • 是什么
    Skills 是可携带的文件夹,打包指令、Python/R 脚本、品牌规范、SQL 查询——Claude 重复流程所需的一切。
    就像“Excel 宏”遇上“GPT”,但可版本管理,并能在席位间共享。

  • 自带 20 个预制包

    • “季度财报解析”:从 PDF 抽表格,生成 CEO 摘要
    • “Canva 品牌卫士”:按模板裁剪,导出 4 个尺寸
    • “Jira→Slack 冲刺简报”
  • 谁能用
    Pro、Max、Team、Enterprise 计划用户皆可。API 与 Agent SDK 支持已于 11 月 18 日上线 [^3^]。


3. 电脑操作毕业出 beta——Claude 现在能驱动你的桌面

10 月首度亮相的 3.5 版本,如今能看屏幕、移鼠标、敲键盘,并达到生产级。

  • 11 月新特性

    • 多应用工作流(如从 Snowflake 拉数,贴到 Google Slides 做图,再导出 PDF)。
    • 在 OSWorld 排行榜上的视觉准确率 ↑ 18 %。
    • 通过 SOC-2 Type II,获准进入合规行业 [^15^]。
  • 定价
    $0.60 / 成功任务(成功 = 用户点击“Approve”)。免费层在 2026 年 1 月促销结束前每月 25 个任务。


你可能划过的快讯

  • Web-search 退出 beta——现已覆盖所有付费层,自动插入引用 [^5^][^12^]。
  • 1 小时 prompt-cache——保持 100 万 token 上下文热启动,成本低于 $0.20,适合书长文档 [^14^]。
  • Claude Code 的 GitHub Actions——无需服务器也能跑夜间测试-修复循环 [^14^]。

向前看

Anthropic 在 11 月 29 日泄露的路线图透露:

  • Memory v2——为个人免费用户提供跨对话记忆(12 月)。
  • Claude 4 Haiku——200 Hz,低于 $0.10 / 1 K tokens,面向嵌入式设备(26 年 Q1)。
  • 欧洲区域——在爱尔兰提供 GDPR 合规端点(26 年 2 月)。

结论

11 月标志着 Claude 不再等待完美 prompt,而是带着自己的工具箱上班。
如果还没试过 Extended-thinkingSkills,抽 30 分钟开个沙盒——你的 2026 年会感谢你。

Happy building!