メインコンテンツまでスキップ

Test-Measure-RefineでAgent Skillsを改善する

· 約5分
Claude Dev
Claude Dev

多くの agent skills が失敗する理由は単純です。プロンプトを少し直して1回実行し、「良くなった」と判断してしまうことです。

Anthropic の最新 Skill Creator 更新は、よりエンジニアリング寄りのループを示しています。先にテストし、挙動を測定し、その後に改善する という流れです。社内の agent ワークフローを作っているなら、ここが本質的な変化です。

この投稿では、公式発表を開発者が毎週回せる実践ワークフローに書き換えます。

コアアイデア:勘でプロンプトをいじらない

今回の公式アップデートは、単なる「プロンプト生成の改善」ではありません。品質ループです。

  1. まず測定可能な挙動を定義する
  2. その挙動からテストスイートを作る
  3. 旧版/新版で評価を実行する
  4. evaluator のフィードバックで競合指示や不要指示を除去する
  5. 雰囲気ではなく証拠で反復する

これが「プロンプト向け CI」に聞こえるなら、その理解で合っています。


Skill Creatorの変更点(開発者向け)

公式記事から、実務的に重要なのは次です。

  • 実装前に golden prompts を作る
    実タスクを表す具体的なプロンプトを作成(または共同作成)し、基準ケースとして使います。

  • test-creator による自動テスト生成
    要件からスキルテストを生成できるため、全ケースを手書きしなくてよくなります。

  • 統合された skill evaluator
    指示の競合、重複、弱点を可視化し、仕様を引き締められます。

  • 品質シグナルにもとづく改善
    「なんとなく良い」ではなく、テスト出力の比較で複数バージョンを反復します。

この考え方は、スキルをワンショットのプロンプトではなく、バージョン管理可能な成果物として扱える点で開発者向きです。


すぐ使える実践ワークフロー

Step 1) APIのように受け入れ条件を書く

スキル文面を編集する前に、期待挙動を厳密に定義します。

  • 入力形式
  • 出力スキーマ
  • 必須ルール
  • 禁止ルール
  • 失敗時の挙動(文脈不足時にどうするか)

条件が曖昧なら、テストも曖昧になります。

Step 2) 実ケースから golden prompt セットを作る

チームの実ログ、チケット、依頼を使い、次を含めます。

  • 通常ケース
  • ノイズ/曖昧ケース
  • 文脈不足ケース
  • スコープ外ケース

これが回帰テストです。小さくても高シグナルにします。

Step 3) テストを生成して実行する

Skill Creator + test-creator で構造化テストを生成し、以下を両方実行します。

  • 現行の本番スキル
  • 更新候補スキル

同じテストセットで出力品質を比較します。

Step 4) evaluator フィードバックで指示を整理する

繰り返し発生する失敗パターンを確認します。

  • 指示の矛盾
  • 過度に広い指示
  • 隠れた前提
  • 出力フォーマットの不安定さ

1回の反復で変更する変数は1〜2個に絞ります。

Step 5) 指標改善がある場合だけ昇格する

1つの成功例だけでリリースしないこと。次を満たした時だけ昇格します。

  • テストスイート全体の通過率が上がる
  • 失敗モードが移動ではなく減少している
  • エッジケースでも出力形式が安定している

チームが詰まりやすいポイント

開発チームでよくある失敗モードは次です。

  • 1つのスキルにルールを詰め込みすぎる
    要約、計画、分類、ポリシー解釈を1つでやる mega-skill は劣化しやすいです。

  • テストデータがバージョン管理されていない
    golden prompts を版管理しないと傾向分析が信頼できません。

  • 拒否動作が定義されていない
    データ不足やスコープ外でどう振る舞うかを明文化すべきです。

  • 仮説なしで改善している
    測定可能な仮説なしに文言だけ調整すると、反復コストが増えます。


より良いメンタルモデル

スキルを次のように扱います。

  • Prompt text = 実装
  • Golden prompts = ユニットテスト
  • Evaluator + test runs = 回帰チェック
  • Release note = 変更履歴

このモデルを採用すると、スキル品質は予測可能になります。


次の Skill PR 向けミニテンプレート

社内PR説明に次の構成を使ってください。

## Goal
What user job this skill solves.

## Behavior Contract
- Inputs
- Outputs
- Guardrails
- Refusal policy

## Test Set
- Golden prompts: N
- Edge cases included: yes/no

## Results
- Baseline pass rate: X%
- Candidate pass rate: Y%
- Known regressions: ...

## Decision
Promote / Hold / Roll back

これで skill 変更をコード変更と同じ基準でレビューできます。


まとめ

Anthropic の Skill Creator 更新で価値が高いのは「生成が賢くなった」点だけではありません。

本質は、skills が開発者に自然なライフサイクルに乗ったことです。

design -> test -> evaluate -> refine -> release

本格的な agent ワークフローを作るチームにとって、これは prompt drift を抑え、信頼できる skills を継続的に出す方法です。

Source