Créer de meilleurs Agent Skills avec Test-Measure-Refine
La plupart des agent skills échouent pour une raison simple : on modifie le prompt, on relance une fois, puis on conclut que c’est “mieux”.
La dernière mise à jour de Skill Creator chez Anthropic pousse une boucle plus orientée ingénierie : tester d’abord, mesurer le comportement, puis affiner. Si vous construisez des workflows d’agents en interne, c’est ce changement qui compte vraiment.
Cet article réécrit l’annonce officielle en workflow développeur exécutable chaque semaine.
Idée centrale : arrêter de prompter à l’aveugle
La mise à jour officielle n’est pas seulement une “meilleure génération de prompts”. C’est une boucle qualité :
- Définir un comportement mesurable dès le départ
- Générer une suite de tests à partir de ce comportement
- Exécuter des évaluations sur l’ancienne et la nouvelle version
- Utiliser le feedback de l’evaluator pour supprimer conflits et instructions mortes
- Itérer avec des preuves, pas au ressenti
Si cela ressemble à de la CI pour prompts, c’est exactement l’objectif.
Ce qui change dans Skill Creator (version développeur)
D’après l’article officiel, voici les changements vraiment utiles :
-
Golden prompts avant l’implémentation
Vous écrivez (ou co-créez) des prompts concrets qui représentent des tâches réelles. Ils deviennent vos cas de base. -
test-creatorpour générer des tests de skill automatiquement
Skill Creator peut créer des tests à partir de vos exigences, donc vous n’écrivez pas tout à la main. -
Skill evaluator intégré
Le feedback de l’evaluator met en évidence conflits d’instructions, chevauchements et zones faibles pour durcir la spec. -
Affinage basé sur un signal qualité
Vous êtes censé itérer sur plusieurs versions, en mesurant les changements via les sorties de tests, pas via “ça semble mieux”.
Cette approche convient mieux aux ingénieurs, car elle traite les skills comme des artefacts versionnés.
Workflow pratique à utiliser tout de suite
Étape 1) Écrire les critères d’acceptation comme un contrat d’API
Avant de modifier le skill, formalisez le comportement attendu :
- Structure d’entrée
- Schéma de sortie
- Règles obligatoires
- Règles interdites
- Comportement en échec (que faire si le contexte manque)
Des critères flous donnent des tests flous.
Étape 2) Construire un set de golden prompts depuis des cas réels
Utilisez de vrais logs, tickets ou demandes de votre équipe. Incluez :
- Cas normal
- Cas bruité/ambigu
- Cas avec contexte manquant
- Cas hors périmètre
C’est votre suite de régression. Petite, mais avec un signal fort.
Étape 3) Générer et exécuter les tests
Utilisez Skill Creator + test-creator pour générer des tests structurés. Puis lancez :
- Le skill actuel en production
- Le skill candidat mis à jour
Comparez la qualité de sortie sur le même jeu de tests.
Étape 4) Exploiter le feedback evaluator et épurer les instructions
Cherchez les patterns d’échec récurrents :
- Instructions contradictoires
- Instructions trop larges
- Hypothèses cachées
- Instabilité du format de sortie
À chaque itération, ne modifiez qu’une ou deux variables.
Étape 5) Promouvoir uniquement si les métriques montent
Ne livrez pas parce qu’un exemple était bon. Promouvez seulement si :
- Le taux de réussite progresse sur toute la suite
- Les modes d’échec diminuent au lieu d’être déplacés
- Le format de sortie reste stable sur les edge cases
Là où les équipes bloquent le plus souvent
Voici les échecs classiques côté équipes dev :
-
Trop de règles dans un seul skill
Un mega-skill qui fait résumé, planification, classification et interprétation de policy se dégrade vite. -
Aucune version des données de test
Sans versionner les golden prompts, vous ne pouvez pas faire confiance aux tendances. -
Pas de comportement de refus
Un skill doit définir quoi faire quand les données sont insuffisantes ou hors périmètre. -
Affinage sans hypothèse
“On ajuste le wording” sans hypothèse mesurable gaspille des cycles.
Meilleur modèle mental
Traitez un skill comme ceci :
- Prompt text = implémentation
- Golden prompts = tests unitaires
- Evaluator + test runs = checks de régression
- Release note = changelog
Quand une équipe adopte ce modèle, la qualité des skills devient prévisible.
Template minimal pour votre prochain PR de skill
Utilisez cette structure dans votre description de PR interne :
## Goal
What user job this skill solves.
## Behavior Contract
- Inputs
- Outputs
- Guardrails
- Refusal policy
## Test Set
- Golden prompts: N
- Edge cases included: yes/no
## Results
- Baseline pass rate: X%
- Candidate pass rate: Y%
- Known regressions: ...
## Decision
Promote / Hold / Roll back
Cela rend les changements de skills révisables avec les mêmes standards que le code.
Conclusion
Le meilleur apport de la mise à jour Skill Creator d’Anthropic n’est pas une “génération plus intelligente”.
C’est le fait que les skills s’alignent désormais sur un cycle naturel pour développeurs :
design -> test -> evaluate -> refine -> release
Si votre équipe construit des workflows d’agents sérieux, c’est la méthode pour stopper le prompt drift et livrer des skills fiables.
Source
- Anthropic official blog: Improving Skill Creator: Test, measure, and refine agent skills
https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills