Claude 1M Context GA: Hướng dẫn rollout thực dụng
1M token context của Claude không còn là thử nghiệm beta.
Tính đến ngày 13 tháng 3 năm 2026, Anthropic công bố 1M context đã GA cho Opus 4.6 và Sonnet 4.6. Điều này thay đổi cách team thiết kế workflow xử lý codebase và tài liệu dài.
Bài này tập trung vào ba điểm: hiện tại có gì, còn giới hạn gì, và rollout production sao cho an toàn.
Đã thay đổi gì (kèm mốc thời gian chính xác)
- 12/08/2025: Anthropic công bố 1M context public beta cho Sonnet 4.
- 26/08/2025: Mở rộng khả dụng, bao gồm Google Cloud Vertex AI.
- 13/03/2026: Anthropic công bố GA 1M context cho Opus 4.6 và Sonnet 4.6.
Trong thông báo GA tháng 3/2026, 4.6 có 4 điểm vận hành đáng chú ý:
- Giá chuẩn trên toàn bộ cửa sổ 1M (không cộng phí long-context)
- Throughput chuẩn ở mọi mức độ dài context
- Không cần beta header cho request >200K
- Tối đa 600 ảnh/trang PDF mỗi request
Trạng thái model hiện tại (14/03/2026)
-
Opus 4.6 / Sonnet 4.6
Dùng 1M context trực tiếp trên Claude Platform, không cầncontext-1m-2025-08-07. -
Sonnet 4.5 / Sonnet 4
Với request trên 200K input tokens, vẫn cầncontext-1m-2025-08-07, kèm ràng buộc tier và long-context premium.
Tóm lại, long-context workload nên được chuyển dần sang 4.6 để đơn giản code path.
Vì sao team kỹ thuật nên quan tâm
1M context không chỉ là prompt dài hơn. Nó giảm bớt overhead kiến trúc:
- Ít pipeline chia nhỏ context hơn
- Ít summarization có mất mát giữa các bước tool
- Suy luận xuyên nhiều file/tài liệu tốt hơn trong một lượt
- Phiên agent nhiều bước ổn định hơn trước khi phải compaction
Nếu hệ thống hiện có nhiều retrieval stitching, truncation thủ công và prompt sharding, 1M trên 4.6 giúp bỏ được nhiều lớp glue code.
Checklist migration
- Chuyển traffic long-context sang
claude-opus-4-6hoặcclaude-sonnet-4-6. - Bỏ
context-1m-2025-08-07ở các path 4.6. - Chỉ giữ beta header cho fallback Sonnet 4.5 / Sonnet 4.
- Đo lại latency và token cost bằng production traces.
- Tinh chỉnh lại prompt caching và breakpoint cache.
- Thêm alert cho request-size và token spike, không chỉ RPM/ITPM/OTPM.
Ví dụ API tối thiểu:
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "content-type: application/json" \
-d '{
"model": "claude-sonnet-4-6",
"max_tokens": 4096,
"messages": [{"role":"user","content":"Analyze this large corpus..."}]
}'
Ghi chú chi phí và độ ổn định
- Với Opus 4.6 / Sonnet 4.6, 1M chạy theo mức giá token chuẩn.
- Prompt caching vẫn cực kỳ quan trọng khi context lớn lặp lại.
- Giới hạn 600 media items giúp tăng trần, nhưng giới hạn kích thước request vẫn còn.
- Session chạy rất dài vẫn cần cơ chế compaction phía server.
“Đã có 1M” không đồng nghĩa bỏ token budget. Đúng hơn là thiết kế lại budget để ít lượt hơn nhưng mỗi lượt đóng gói tốt hơn.
Lỗi rollout thường gặp
- Giữ nguyên logic chunking cũ làm chất lượng giảm
- Quên bỏ beta header trên path 4.6
- Giả định mọi model đều có hành vi 1M như nhau
- Không cập nhật chiến lược cache khi từ 200K lên 1M
- Coi long context là thay thế cho eval
Kết luận
Tính đến 14/03/2026, Claude 1M context đã sẵn sàng production cho workload long-context trên 4.6.
Lợi ích chiến lược không chỉ là prompt lớn hơn, mà là hệ thống đơn giản hơn: ít handoff context hơn, ít lớp glue dễ vỡ hơn, và chất lượng suy luận end-to-end tốt hơn.