Xây Agent Skills tốt hơn với Test-Measure-Refine

7 tháng 3, 2026 · 5 phút để đọc

Phần lớn agent skills thất bại vì một lý do rất quen: ta chỉnh prompt, chạy lại một lần, rồi kết luận là “đã tốt hơn”.

Bản cập nhật Skill Creator mới của Anthropic đẩy một vòng lặp mang tính kỹ thuật hơn: test trước, đo hành vi, rồi refine. Nếu bạn đang xây workflow agent nội bộ, đây mới là thay đổi quan trọng.

Bài này viết lại nội dung công bố chính thức thành một workflow dành cho developer mà bạn có thể chạy mỗi tuần.

Ý chính: Đừng chỉnh prompt theo cảm tính

Bản cập nhật chính thức không chỉ là “prompt generation tốt hơn”. Nó là một vòng lặp chất lượng:

Định nghĩa hành vi đo được ngay từ đầu
Tạo test suite từ hành vi đó
Chạy đánh giá giữa bản cũ/bản mới
Dùng feedback từ evaluator để bỏ xung đột và chỉ dẫn thừa
Lặp dựa trên bằng chứng, không dựa vào cảm giác

Nếu nghe giống CI cho prompts thì đó chính là mục tiêu.

Skill Creator thay đổi gì (góc nhìn developer)

Từ bài chính thức, các thay đổi thực dụng đáng quan tâm là:

Golden prompts trước khi triển khai
Bạn viết (hoặc đồng tạo) các prompt cụ thể đại diện cho tác vụ thật. Chúng trở thành baseline cases.
test-creator để tạo skill tests tự động
Skill Creator có thể sinh test từ yêu cầu của bạn, thay vì bạn tự viết tay mọi case.
Skill evaluator tích hợp
Feedback từ evaluator chỉ ra xung đột chỉ dẫn, chồng chéo và điểm yếu để bạn siết lại skill spec.
Refine dựa trên tín hiệu chất lượng
Bạn được kỳ vọng lặp qua nhiều phiên bản, đo thay đổi qua test outputs thay vì “thấy có vẻ tốt hơn”.

Điều này hợp với kỹ sư hơn vì skill được xem như artifact có version, không phải prompt dùng một lần.

Workflow thực dụng có thể dùng ngay

Bước 1) Viết acceptance criteria như hành vi API

Trước khi sửa skill text, hãy viết kỳ vọng theo dạng chặt chẽ:

Input shape
Output schema
Must-do rules
Must-not-do rules
Failure behavior (làm gì khi thiếu context)

Criteria mơ hồ thì test cũng mơ hồ.

Bước 2) Tạo golden prompt set từ tình huống thật

Dùng logs, tickets hoặc requests thật trong team. Nên có:

Normal case
Noisy/ambiguous case
Missing-context case
Out-of-scope case

Đây là regression suite của bạn. Nhỏ nhưng tín hiệu cao.

Bước 3) Sinh test và chạy test

Dùng Skill Creator + test-creator để tạo structured skill tests. Sau đó chạy cả:

Skill production hiện tại
Skill candidate đã cập nhật

So sánh chất lượng output trên cùng một test set.

Bước 4) Chạy evaluator feedback và cắt bớt chỉ dẫn

Tìm các pattern lỗi lặp lại:

Chỉ dẫn mâu thuẫn
Chỉ dẫn quá rộng
Giả định ẩn
Định dạng output thiếu ổn định

Mỗi vòng chỉ chỉnh 1-2 biến để quy kết được cải thiện đến từ đâu.

Bước 5) Chỉ promote khi metric tăng

Đừng ship chỉ vì một ví dụ trông ổn. Chỉ promote khi:

Pass rate tăng trên toàn bộ suite
Failure modes giảm thật, không chỉ bị dời chỗ
Output format vẫn ổn định ở edge cases

Team thường mắc kẹt ở đâu

Đây là các failure mode phổ biến trong team kỹ thuật:

Nhồi quá nhiều rule vào một skill
Một mega-skill vừa summary, planning, classification, policy interpretation thường xuống chất lượng rất nhanh.
Không version test data
Nếu golden prompts không có version, bạn không thể tin trend line.
Không có refusal behavior
Skill cần định nghĩa rõ phải làm gì khi thiếu dữ liệu hoặc out-of-scope.
Refine không có giả thuyết
“Chỉnh câu chữ thử xem” mà không có giả thuyết đo được sẽ tốn chu kỳ.

Mô hình tư duy tốt hơn

Hãy coi skill như sau:

Prompt text = implementation
Golden prompts = unit tests
Evaluator + test runs = regression checks
Release note = changelog

Khi team áp dụng mô hình này, chất lượng skill trở nên dễ dự đoán hơn.

Template tối thiểu cho Skill PR tiếp theo

Dùng cấu trúc này trong mô tả PR nội bộ:

## Goal
What user job this skill solves.

## Behavior Contract
- Inputs
- Outputs
- Guardrails
- Refusal policy

## Test Set
- Golden prompts: N
- Edge cases included: yes/no

## Results
- Baseline pass rate: X%
- Candidate pass rate: Y%
- Known regressions: ...

## Decision
Promote / Hold / Roll back

Cách này giúp review thay đổi skill bằng cùng chuẩn với review code.

Kết luận

Điểm đáng giá nhất trong cập nhật Skill Creator của Anthropic không phải “sinh prompt thông minh hơn”.

Mà là skills giờ đã đi theo vòng đời quen thuộc với developer:

design -> test -> evaluate -> refine -> release

Nếu team của bạn xây workflow agent nghiêm túc, đây là cách chặn prompt drift và ship skills ổn định.

Nguồn

Anthropic official blog: Improving Skill Creator: Test, measure, and refine agent skills
https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills

Ý chính: Đừng chỉnh prompt theo cảm tính​

Skill Creator thay đổi gì (góc nhìn developer)​

Workflow thực dụng có thể dùng ngay​

Bước 1) Viết acceptance criteria như hành vi API​

Bước 2) Tạo golden prompt set từ tình huống thật​

Bước 3) Sinh test và chạy test​

Bước 4) Chạy evaluator feedback và cắt bớt chỉ dẫn​

Bước 5) Chỉ promote khi metric tăng​

Team thường mắc kẹt ở đâu​

Mô hình tư duy tốt hơn​

Template tối thiểu cho Skill PR tiếp theo​

Kết luận​

Nguồn​