Test-Measure-RefineでAgent Skillsを改善する
· 約5分
多くの agent skills が失敗する理由は単純です。プロンプトを少し直して1回実行し、「良くなった」と判断してしまうことです。
Anthropic の最新 Skill Creator 更新は、よりエンジニアリング寄りのループを示しています。先にテストし、挙動を測定し、その後に改善する という流れです。社内の agent ワークフローを作っているなら、ここが本質的な変化です。
この投稿では、公式発表を開発者が毎週回せる実践ワークフローに書き換えます。
コアアイデア:勘でプロンプトをいじらない
今回の公式アップデートは、単なる「プロンプト生成の改善」ではありません。品質ループです。
- まず測定可能な挙動を定義する
- その挙動からテストスイートを作る
- 旧版/新版で評価を実行する
- evaluator のフィードバックで競合指示や不要指示を除去する
- 雰囲気ではなく証拠で反復する
これが「プロンプト向け CI」に聞こえるなら、その理解で合っています。
Skill Creatorの変更点(開発者向け)
公式記事から、実務的に重要なのは次です。
-
実装前に golden prompts を作る
実タスクを表す具体的なプロンプトを作成(または共同作成)し、基準ケースとして使います。 -
test-creatorによる自動テスト生成
要件からスキルテストを生成できるため、全ケースを手書きしなくてよくなります。 -
統合された skill evaluator
指示の競合、重複、弱点を可視化し、仕様を引き締められます。 -
品質シグナルにもとづく改善
「なんとなく良い」ではなく、テスト出力の比較で複数バージョンを反復します。
この考え方は、スキルをワンショットのプロンプトではなく、バージョン管理可能な成果物として扱える点で開発者向きです。