Test-Measure-RefineでAgent Skillsを改善する

2026年3月7日 · 約5分

多くの agent skills が失敗する理由は単純です。プロンプトを少し直して1回実行し、「良くなった」と判断してしまうことです。

Anthropic の最新 Skill Creator 更新は、よりエンジニアリング寄りのループを示しています。先にテストし、挙動を測定し、その後に改善する という流れです。社内の agent ワークフローを作っているなら、ここが本質的な変化です。

この投稿では、公式発表を開発者が毎週回せる実践ワークフローに書き換えます。

コアアイデア：勘でプロンプトをいじらない

今回の公式アップデートは、単なる「プロンプト生成の改善」ではありません。品質ループです。

まず測定可能な挙動を定義する
その挙動からテストスイートを作る
旧版/新版で評価を実行する
evaluator のフィードバックで競合指示や不要指示を除去する
雰囲気ではなく証拠で反復する

これが「プロンプト向け CI」に聞こえるなら、その理解で合っています。

Skill Creatorの変更点（開発者向け）

公式記事から、実務的に重要なのは次です。

実装前に golden prompts を作る
実タスクを表す具体的なプロンプトを作成（または共同作成）し、基準ケースとして使います。
test-creator による自動テスト生成
要件からスキルテストを生成できるため、全ケースを手書きしなくてよくなります。
統合された skill evaluator
指示の競合、重複、弱点を可視化し、仕様を引き締められます。
品質シグナルにもとづく改善
「なんとなく良い」ではなく、テスト出力の比較で複数バージョンを反復します。

この考え方は、スキルをワンショットのプロンプトではなく、バージョン管理可能な成果物として扱える点で開発者向きです。

すぐ使える実践ワークフロー

Step 1) APIのように受け入れ条件を書く

スキル文面を編集する前に、期待挙動を厳密に定義します。

入力形式
出力スキーマ
必須ルール
禁止ルール
失敗時の挙動（文脈不足時にどうするか）

条件が曖昧なら、テストも曖昧になります。

Step 2) 実ケースから golden prompt セットを作る

チームの実ログ、チケット、依頼を使い、次を含めます。

通常ケース
ノイズ/曖昧ケース
文脈不足ケース
スコープ外ケース

これが回帰テストです。小さくても高シグナルにします。

Step 3) テストを生成して実行する

Skill Creator + test-creator で構造化テストを生成し、以下を両方実行します。

現行の本番スキル
更新候補スキル

同じテストセットで出力品質を比較します。

Step 4) evaluator フィードバックで指示を整理する

繰り返し発生する失敗パターンを確認します。

指示の矛盾
過度に広い指示
隠れた前提
出力フォーマットの不安定さ

1回の反復で変更する変数は1〜2個に絞ります。

Step 5) 指標改善がある場合だけ昇格する

1つの成功例だけでリリースしないこと。次を満たした時だけ昇格します。

テストスイート全体の通過率が上がる
失敗モードが移動ではなく減少している
エッジケースでも出力形式が安定している

チームが詰まりやすいポイント

開発チームでよくある失敗モードは次です。

1つのスキルにルールを詰め込みすぎる
要約、計画、分類、ポリシー解釈を1つでやる mega-skill は劣化しやすいです。
テストデータがバージョン管理されていない
golden prompts を版管理しないと傾向分析が信頼できません。
拒否動作が定義されていない
データ不足やスコープ外でどう振る舞うかを明文化すべきです。
仮説なしで改善している
測定可能な仮説なしに文言だけ調整すると、反復コストが増えます。

より良いメンタルモデル

スキルを次のように扱います。

Prompt text = 実装
Golden prompts = ユニットテスト
Evaluator + test runs = 回帰チェック
Release note = 変更履歴

このモデルを採用すると、スキル品質は予測可能になります。

次の Skill PR 向けミニテンプレート

社内PR説明に次の構成を使ってください。

## Goal
What user job this skill solves.

## Behavior Contract
- Inputs
- Outputs
- Guardrails
- Refusal policy

## Test Set
- Golden prompts: N
- Edge cases included: yes/no

## Results
- Baseline pass rate: X%
- Candidate pass rate: Y%
- Known regressions: ...

## Decision
Promote / Hold / Roll back

これで skill 変更をコード変更と同じ基準でレビューできます。

まとめ

Anthropic の Skill Creator 更新で価値が高いのは「生成が賢くなった」点だけではありません。

本質は、skills が開発者に自然なライフサイクルに乗ったことです。

design -> test -> evaluate -> refine -> release

本格的な agent ワークフローを作るチームにとって、これは prompt drift を抑え、信頼できる skills を継続的に出す方法です。

Source

Anthropic official blog: Improving Skill Creator: Test, measure, and refine agent skills
https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills

コアアイデア：勘でプロンプトをいじらない​

Skill Creatorの変更点（開発者向け）​

すぐ使える実践ワークフロー​

Step 1) APIのように受け入れ条件を書く​

Step 2) 実ケースから golden prompt セットを作る​

Step 3) テストを生成して実行する​

Step 4) evaluator フィードバックで指示を整理する​

Step 5) 指標改善がある場合だけ昇格する​

チームが詰まりやすいポイント​

より良いメンタルモデル​

次の Skill PR 向けミニテンプレート​

まとめ​

Source​