Construye mejores Agent Skills con Test-Measure-Refine
La mayoría de los agent skills fallan por una razón aburrida: editamos prompts, ejecutamos una vez y decimos que “ya está mejor”.
La última actualización de Skill Creator de Anthropic empuja un bucle más de ingeniería: primero probar, luego medir comportamiento y después refinar. Si construyes workflows de agentes internos, este es el cambio que realmente importa.
Este post reescribe el anuncio oficial como un flujo para developers que puedes ejecutar cada semana.
Idea central: dejar de promptear a ciegas
La actualización oficial no es solo “mejor generación de prompts”. Es un loop de calidad:
- Definir comportamiento medible desde el inicio
- Generar una suite de tests a partir de ese comportamiento
- Ejecutar evaluaciones entre versión vieja/nueva
- Usar feedback del evaluator para quitar conflictos e instrucciones muertas
- Iterar con evidencia, no con intuición
Si suena a CI para prompts, ese es exactamente el punto.
Qué cambió en Skill Creator (versión para developers)
Del post oficial, estos son los cambios prácticos que sí importan:
-
Golden prompts antes de implementar
Escribes (o co-creas) prompts concretos que representan tareas reales. Se vuelven tus casos base. -
test-creatorpara tests automáticos de skills
Skill Creator puede generar tests desde tus requisitos, así no escribes todo a mano. -
Skill evaluator integrado
El feedback del evaluator destaca conflictos de instrucciones, solapamientos y zonas débiles para ajustar la spec. -
Refinamiento basado en señal de calidad
Se espera que iteres entre versiones midiendo cambios contra outputs de test, no por “se siente mejor”.
Esto encaja mejor con ingeniería porque trata los skills como artefactos versionados.
Workflow práctico que puedes usar
Paso 1) Escribe criterios de aceptación como comportamiento de API
Antes de editar el skill, define comportamiento esperado en formato estricto:
- Forma de input
- Esquema de output
- Reglas obligatorias
- Reglas prohibidas
- Comportamiento de fallo (qué hacer cuando falta contexto)
Si los criterios son vagos, los tests también.
Paso 2) Construye un set de golden prompts desde casos reales
Usa logs, tickets o requests reales de tu equipo. Incluye:
- Caso normal
- Caso ruidoso/ambiguo
- Caso con contexto faltante
- Caso fuera de alcance
Esa es tu suite de regresión. Pequeña, pero con alta señal.
Paso 3) Genera y ejecuta tests
Usa Skill Creator + test-creator para generar tests estructurados. Luego ejecuta ambos:
- Skill actual en producción
- Skill candidato actualizado
Compara calidad de salida contra el mismo set de pruebas.
Paso 4) Corre feedback del evaluator y poda instrucciones
Busca patrones de fallo repetidos:
- Instrucciones contradictorias
- Instrucciones demasiado amplias
- Supuestos ocultos
- Inestabilidad de formato de salida
Refina solo una o dos variables por iteración.
Paso 5) Promociona solo si mejoran las métricas
No hagas deploy porque un ejemplo salió bien. Promociona solo cuando:
- Mejora la tasa de acierto en toda la suite
- Se reducen los modos de fallo, no solo se desplazan
- El formato de salida se mantiene estable en edge cases
Dónde suelen atascarse los equipos
Fallos comunes en equipos de desarrollo:
-
Demasiadas reglas en un solo skill
Un mega-skill que intenta resumir, planificar, clasificar e interpretar políticas suele degradarse rápido. -
Sin versionado de datos de prueba
Si no versionas golden prompts, no puedes confiar en las tendencias. -
Sin comportamiento de rechazo
El skill debe definir qué hacer cuando faltan datos o el caso está fuera de alcance. -
Refinar sin hipótesis
“Ajustemos wording” sin una hipótesis medible quema ciclos.
Un mejor modelo mental
Trata un skill así:
- Prompt text = implementación
- Golden prompts = tests unitarios
- Evaluator + test runs = checks de regresión
- Release note = changelog
Cuando los equipos adoptan este modelo, la calidad de skills se vuelve predecible.
Plantilla mínima para tu próximo PR de skills
Usa esta estructura en la descripción interna del PR:
## Goal
What user job this skill solves.
## Behavior Contract
- Inputs
- Outputs
- Guardrails
- Refusal policy
## Test Set
- Golden prompts: N
- Edge cases included: yes/no
## Results
- Baseline pass rate: X%
- Candidate pass rate: Y%
- Known regressions: ...
## Decision
Promote / Hold / Roll back
Esto hace que los cambios de skills se revisen con el mismo estándar que el código.
Conclusión
Lo mejor de la actualización de Skill Creator de Anthropic no es “generación más inteligente”.
Es que ahora los skills encajan en un ciclo de vida natural para developers:
design -> test -> evaluate -> refine -> release
Si tu equipo construye workflows de agentes serios, así detienes el prompt drift y empiezas a entregar skills confiables.
Fuente
- Anthropic official blog: Improving Skill Creator: Test, measure, and refine agent skills
https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills