Test-Measure-RefineでAgent Skillsを改善する
· 約5分
多くの agent skills が失敗する理由は単純です。プロンプトを少し直して1回実行し、「良くなった」と判断してしまうことです。
Anthropic の最新 Skill Creator 更新は、よりエンジニアリング寄りのループを示しています。先にテストし、挙動を測定し、その後に改善する という流れです。社内の agent ワークフローを作っているなら、ここが本質的な変化です。
この投稿では、公式発表を開発者が毎週回せる実践ワークフローに書き換えます。