Chuyển tới nội dung chính

Xây Agent Skills tốt hơn với Test-Measure-Refine

· 5 phút để đọc
Claude Dev
Claude Dev

Phần lớn agent skills thất bại vì một lý do rất quen: ta chỉnh prompt, chạy lại một lần, rồi kết luận là “đã tốt hơn”.

Bản cập nhật Skill Creator mới của Anthropic đẩy một vòng lặp mang tính kỹ thuật hơn: test trước, đo hành vi, rồi refine. Nếu bạn đang xây workflow agent nội bộ, đây mới là thay đổi quan trọng.

Bài này viết lại nội dung công bố chính thức thành một workflow dành cho developer mà bạn có thể chạy mỗi tuần.

Ý chính: Đừng chỉnh prompt theo cảm tính

Bản cập nhật chính thức không chỉ là “prompt generation tốt hơn”. Nó là một vòng lặp chất lượng:

  1. Định nghĩa hành vi đo được ngay từ đầu
  2. Tạo test suite từ hành vi đó
  3. Chạy đánh giá giữa bản cũ/bản mới
  4. Dùng feedback từ evaluator để bỏ xung đột và chỉ dẫn thừa
  5. Lặp dựa trên bằng chứng, không dựa vào cảm giác

Nếu nghe giống CI cho prompts thì đó chính là mục tiêu.


Skill Creator thay đổi gì (góc nhìn developer)

Từ bài chính thức, các thay đổi thực dụng đáng quan tâm là:

  • Golden prompts trước khi triển khai
    Bạn viết (hoặc đồng tạo) các prompt cụ thể đại diện cho tác vụ thật. Chúng trở thành baseline cases.

  • test-creator để tạo skill tests tự động
    Skill Creator có thể sinh test từ yêu cầu của bạn, thay vì bạn tự viết tay mọi case.

  • Skill evaluator tích hợp
    Feedback từ evaluator chỉ ra xung đột chỉ dẫn, chồng chéo và điểm yếu để bạn siết lại skill spec.

  • Refine dựa trên tín hiệu chất lượng
    Bạn được kỳ vọng lặp qua nhiều phiên bản, đo thay đổi qua test outputs thay vì “thấy có vẻ tốt hơn”.

Điều này hợp với kỹ sư hơn vì skill được xem như artifact có version, không phải prompt dùng một lần.


Workflow thực dụng có thể dùng ngay

Bước 1) Viết acceptance criteria như hành vi API

Trước khi sửa skill text, hãy viết kỳ vọng theo dạng chặt chẽ:

  • Input shape
  • Output schema
  • Must-do rules
  • Must-not-do rules
  • Failure behavior (làm gì khi thiếu context)

Criteria mơ hồ thì test cũng mơ hồ.

Bước 2) Tạo golden prompt set từ tình huống thật

Dùng logs, tickets hoặc requests thật trong team. Nên có:

  • Normal case
  • Noisy/ambiguous case
  • Missing-context case
  • Out-of-scope case

Đây là regression suite của bạn. Nhỏ nhưng tín hiệu cao.

Bước 3) Sinh test và chạy test

Dùng Skill Creator + test-creator để tạo structured skill tests. Sau đó chạy cả:

  • Skill production hiện tại
  • Skill candidate đã cập nhật

So sánh chất lượng output trên cùng một test set.

Bước 4) Chạy evaluator feedback và cắt bớt chỉ dẫn

Tìm các pattern lỗi lặp lại:

  • Chỉ dẫn mâu thuẫn
  • Chỉ dẫn quá rộng
  • Giả định ẩn
  • Định dạng output thiếu ổn định

Mỗi vòng chỉ chỉnh 1-2 biến để quy kết được cải thiện đến từ đâu.

Bước 5) Chỉ promote khi metric tăng

Đừng ship chỉ vì một ví dụ trông ổn. Chỉ promote khi:

  • Pass rate tăng trên toàn bộ suite
  • Failure modes giảm thật, không chỉ bị dời chỗ
  • Output format vẫn ổn định ở edge cases

Team thường mắc kẹt ở đâu

Đây là các failure mode phổ biến trong team kỹ thuật:

  • Nhồi quá nhiều rule vào một skill
    Một mega-skill vừa summary, planning, classification, policy interpretation thường xuống chất lượng rất nhanh.

  • Không version test data
    Nếu golden prompts không có version, bạn không thể tin trend line.

  • Không có refusal behavior
    Skill cần định nghĩa rõ phải làm gì khi thiếu dữ liệu hoặc out-of-scope.

  • Refine không có giả thuyết
    “Chỉnh câu chữ thử xem” mà không có giả thuyết đo được sẽ tốn chu kỳ.


Mô hình tư duy tốt hơn

Hãy coi skill như sau:

  • Prompt text = implementation
  • Golden prompts = unit tests
  • Evaluator + test runs = regression checks
  • Release note = changelog

Khi team áp dụng mô hình này, chất lượng skill trở nên dễ dự đoán hơn.


Template tối thiểu cho Skill PR tiếp theo

Dùng cấu trúc này trong mô tả PR nội bộ:

## Goal
What user job this skill solves.

## Behavior Contract
- Inputs
- Outputs
- Guardrails
- Refusal policy

## Test Set
- Golden prompts: N
- Edge cases included: yes/no

## Results
- Baseline pass rate: X%
- Candidate pass rate: Y%
- Known regressions: ...

## Decision
Promote / Hold / Roll back

Cách này giúp review thay đổi skill bằng cùng chuẩn với review code.


Kết luận

Điểm đáng giá nhất trong cập nhật Skill Creator của Anthropic không phải “sinh prompt thông minh hơn”.

Mà là skills giờ đã đi theo vòng đời quen thuộc với developer:

design -> test -> evaluate -> refine -> release

Nếu team của bạn xây workflow agent nghiêm túc, đây là cách chặn prompt drift và ship skills ổn định.

Nguồn