Xây Agent Skills tốt hơn với Test-Measure-Refine
Phần lớn agent skills thất bại vì một lý do rất quen: ta chỉnh prompt, chạy lại một lần, rồi kết luận là “đã tốt hơn”.
Bản cập nhật Skill Creator mới của Anthropic đẩy một vòng lặp mang tính kỹ thuật hơn: test trước, đo hành vi, rồi refine. Nếu bạn đang xây workflow agent nội bộ, đây mới là thay đổi quan trọng.
Bài này viết lại nội dung công bố chính thức thành một workflow dành cho developer mà bạn có thể chạy mỗi tuần.
Ý chính: Đừng chỉnh prompt theo cảm tính
Bản cập nhật chính thức không chỉ là “prompt generation tốt hơn”. Nó là một vòng lặp chất lượng:
- Định nghĩa hành vi đo được ngay từ đầu
- Tạo test suite từ hành vi đó
- Chạy đánh giá giữa bản cũ/bản mới
- Dùng feedback từ evaluator để bỏ xung đột và chỉ dẫn thừa
- Lặp dựa trên bằng chứng, không dựa vào cảm giác
Nếu nghe giống CI cho prompts thì đó chính là mục tiêu.
Skill Creator thay đổi gì (góc nhìn developer)
Từ bài chính thức, các thay đổi thực dụng đáng quan tâm là:
-
Golden prompts trước khi triển khai
Bạn viết (hoặc đồng tạo) các prompt cụ thể đại diện cho tác vụ thật. Chúng trở thành baseline cases. -
test-creatorđể tạo skill tests tự động
Skill Creator có thể sinh test từ yêu cầu của bạn, thay vì bạn tự viết tay mọi case. -
Skill evaluator tích hợp
Feedback từ evaluator chỉ ra xung đột chỉ dẫn, chồng chéo và điểm yếu để bạn siết lại skill spec. -
Refine dựa trên tín hiệu chất lượng
Bạn được kỳ vọng lặp qua nhiều phiên bản, đo thay đổi qua test outputs thay vì “thấy có vẻ tốt hơn”.
Điều này hợp với kỹ sư hơn vì skill được xem như artifact có version, không phải prompt dùng một lần.
Workflow thực dụng có thể dùng ngay
Bước 1) Viết acceptance criteria như hành vi API
Trước khi sửa skill text, hãy viết kỳ vọng theo dạng chặt chẽ:
- Input shape
- Output schema
- Must-do rules
- Must-not-do rules
- Failure behavior (làm gì khi thiếu context)
Criteria mơ hồ thì test cũng mơ hồ.
Bước 2) Tạo golden prompt set từ tình huống thật
Dùng logs, tickets hoặc requests thật trong team. Nên có:
- Normal case
- Noisy/ambiguous case
- Missing-context case
- Out-of-scope case
Đây là regression suite của bạn. Nhỏ nhưng tín hiệu cao.
Bước 3) Sinh test và chạy test
Dùng Skill Creator + test-creator để tạo structured skill tests. Sau đó chạy cả:
- Skill production hiện tại
- Skill candidate đã cập nhật
So sánh chất lượng output trên cùng một test set.
Bước 4) Chạy evaluator feedback và cắt bớt chỉ dẫn
Tìm các pattern lỗi lặp lại:
- Chỉ dẫn mâu thuẫn
- Chỉ dẫn quá rộng
- Giả định ẩn
- Định dạng output thiếu ổn định
Mỗi vòng chỉ chỉnh 1-2 biến để quy kết được cải thiện đến từ đâu.
Bước 5) Chỉ promote khi metric tăng
Đừng ship chỉ vì một ví dụ trông ổn. Chỉ promote khi:
- Pass rate tăng trên toàn bộ suite
- Failure modes giảm thật, không chỉ bị dời chỗ
- Output format vẫn ổn định ở edge cases
Team thường mắc kẹt ở đâu
Đây là các failure mode phổ biến trong team kỹ thuật:
-
Nhồi quá nhiều rule vào một skill
Một mega-skill vừa summary, planning, classification, policy interpretation thường xuống chất lượng rất nhanh. -
Không version test data
Nếu golden prompts không có version, bạn không thể tin trend line. -
Không có refusal behavior
Skill cần định nghĩa rõ phải làm gì khi thiếu dữ liệu hoặc out-of-scope. -
Refine không có giả thuyết
“Chỉnh câu chữ thử xem” mà không có giả thuyết đo được sẽ tốn chu kỳ.
Mô hình tư duy tốt hơn
Hãy coi skill như sau:
- Prompt text = implementation
- Golden prompts = unit tests
- Evaluator + test runs = regression checks
- Release note = changelog
Khi team áp dụng mô hình này, chất lượng skill trở nên dễ dự đoán hơn.
Template tối thiểu cho Skill PR tiếp theo
Dùng cấu trúc này trong mô tả PR nội bộ:
## Goal
What user job this skill solves.
## Behavior Contract
- Inputs
- Outputs
- Guardrails
- Refusal policy
## Test Set
- Golden prompts: N
- Edge cases included: yes/no
## Results
- Baseline pass rate: X%
- Candidate pass rate: Y%
- Known regressions: ...
## Decision
Promote / Hold / Roll back
Cách này giúp review thay đổi skill bằng cùng chuẩn với review code.
Kết luận
Điểm đáng giá nhất trong cập nhật Skill Creator của Anthropic không phải “sinh prompt thông minh hơn”.
Mà là skills giờ đã đi theo vòng đời quen thuộc với developer:
design -> test -> evaluate -> refine -> release
Nếu team của bạn xây workflow agent nghiêm túc, đây là cách chặn prompt drift và ship skills ổn định.
Nguồn
- Anthropic official blog: Improving Skill Creator: Test, measure, and refine agent skills
https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills