跳到主要内容

Claude 1M Context GA:团队落地实战指南

· 阅读需 4 分钟
Claude Dev
Claude Dev

Claude 的 1M token context 已经不只是 beta 试验。

截至 2026 年 3 月 13 日,Anthropic 已宣布 Opus 4.6Sonnet 4.6 正式 GA 支持 1M context。这会直接改变团队设计长代码、长文档工作流的方式。

这篇文章聚焦三个问题:现在到底可用到什么程度、还有哪些约束、以及如何安全上线。

到底更新了什么(含准确日期)

时间线很关键:

  • 2025 年 8 月 12 日:Anthropic 宣布 Sonnet 4 进入 1M context 公测。
  • 2025 年 8 月 26 日:可用性扩展,包含 Google Cloud Vertex AI。
  • 2026 年 3 月 13 日:Anthropic 宣布 Opus 4.6 / Sonnet 4.6 的 1M context GA。

2026 年 3 月的 GA 更新强调了 4.6 模型的四点变化:

  • 1M 全窗口按标准价格计费(无长上下文溢价)
  • 各上下文长度下都使用标准吞吐策略
  • 超过 200K 请求不再需要 beta header
  • 单次请求最多支持 600 张图片或 PDF 页

当前模型现状(截至 2026 年 3 月 14 日)

根据 Anthropic 当前文档与公告:

  • Opus 4.6 / Sonnet 4.6
    在 Claude Platform 上可直接使用 1M context,不需要 context-1m-2025-08-07

  • Sonnet 4.5 / Sonnet 4
    超过 200K input tokens 仍需 context-1m-2025-08-07 beta header,并受层级限制与长上下文溢价影响。

这意味着:很多团队可以把长上下文流量迁移到 4.6,明显简化请求分支逻辑。

为什么工程团队要重视

1M context 不只是“prompt 变长”。

它带来的核心收益是架构复杂度下降:

  • 减少上下文切块流水线
  • 减少多步骤间有损摘要
  • 更稳定地进行跨文件/跨文档一次性推理
  • 多步 agent 会话在压缩前可维持更长上下文连续性

如果你当前系统里有大量检索拼接、手工截断、prompt 分片逻辑,4.6 的 1M context 往往可以删掉很大一部分胶水代码。

迁移检查清单

建议直接放进 rollout PR:

  1. 将长上下文请求切到 claude-opus-4-6claude-sonnet-4-6
  2. 在 4.6 路径移除 context-1m-2025-08-07
  3. 仅在 Sonnet 4.5 / Sonnet 4 回退路径保留该 beta header。
  4. 用真实生产 trace 重建延迟与 token 成本基线。
  5. 重新调整 prompt caching 与缓存分段策略。
  6. 增加请求体大小与 token 异常告警,不只盯 RPM/ITPM/OTPM。

最小 API 意图示例:

curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "content-type: application/json" \
-d '{
"model": "claude-sonnet-4-6",
"max_tokens": 4096,
"messages": [{"role":"user","content":"Analyze this large corpus..."}]
}'

成本与稳定性注意点

  • Opus 4.6 / Sonnet 4.6 的 1M 按标准 token 费率计价。
  • Prompt caching 依然关键;重复传大上下文会显著抬高成本与延迟。
  • 600 媒体项提高了上限,但请求大小约束仍然存在。
  • 超长持续会话仍要做服务端压缩与会话治理。

“有 1M 了”并不代表可以不做 token 预算。更合理的做法是:减少回合数、提高每回合上下文打包质量。

常见上线错误

  • 保留旧切块逻辑导致质量反而下降
  • 在 4.6 路径忘记移除 beta header
  • 误以为所有模型都具有相同 1M 行为
  • 从 200K 迁到 1M 后忽略缓存策略重设
  • 把长上下文当成 eval 的替代品

总结

截至 2026 年 3 月 14 日,Claude 的 1M context 已是 4.6 长上下文场景的生产能力。

真正的收益不只是 prompt 更长,而是系统更简单:更少上下文接力、更少脆弱胶水层、更高端到端推理稳定性。

有度量地迁移,才能把能力红利转成业务收益;只做“无脑加长”通常只会增加账单。

Sources (checked March 14, 2026)