Construye mejores Agent Skills con Test-Measure-Refine

7 de marzo de 2026 · 4 min de lectura

La mayoría de los agent skills fallan por una razón aburrida: editamos prompts, ejecutamos una vez y decimos que “ya está mejor”.

La última actualización de Skill Creator de Anthropic empuja un bucle más de ingeniería: primero probar, luego medir comportamiento y después refinar. Si construyes workflows de agentes internos, este es el cambio que realmente importa.

Este post reescribe el anuncio oficial como un flujo para developers que puedes ejecutar cada semana.

Idea central: dejar de promptear a ciegas

La actualización oficial no es solo “mejor generación de prompts”. Es un loop de calidad:

Definir comportamiento medible desde el inicio
Generar una suite de tests a partir de ese comportamiento
Ejecutar evaluaciones entre versión vieja/nueva
Usar feedback del evaluator para quitar conflictos e instrucciones muertas
Iterar con evidencia, no con intuición

Si suena a CI para prompts, ese es exactamente el punto.

Qué cambió en Skill Creator (versión para developers)

Del post oficial, estos son los cambios prácticos que sí importan:

Golden prompts antes de implementar
Escribes (o co-creas) prompts concretos que representan tareas reales. Se vuelven tus casos base.
test-creator para tests automáticos de skills
Skill Creator puede generar tests desde tus requisitos, así no escribes todo a mano.
Skill evaluator integrado
El feedback del evaluator destaca conflictos de instrucciones, solapamientos y zonas débiles para ajustar la spec.
Refinamiento basado en señal de calidad
Se espera que iteres entre versiones midiendo cambios contra outputs de test, no por “se siente mejor”.

Esto encaja mejor con ingeniería porque trata los skills como artefactos versionados.

Workflow práctico que puedes usar

Paso 1) Escribe criterios de aceptación como comportamiento de API

Antes de editar el skill, define comportamiento esperado en formato estricto:

Forma de input
Esquema de output
Reglas obligatorias
Reglas prohibidas
Comportamiento de fallo (qué hacer cuando falta contexto)

Si los criterios son vagos, los tests también.

Paso 2) Construye un set de golden prompts desde casos reales

Usa logs, tickets o requests reales de tu equipo. Incluye:

Caso normal
Caso ruidoso/ambiguo
Caso con contexto faltante
Caso fuera de alcance

Esa es tu suite de regresión. Pequeña, pero con alta señal.

Paso 3) Genera y ejecuta tests

Usa Skill Creator + test-creator para generar tests estructurados. Luego ejecuta ambos:

Skill actual en producción
Skill candidato actualizado

Compara calidad de salida contra el mismo set de pruebas.

Paso 4) Corre feedback del evaluator y poda instrucciones

Busca patrones de fallo repetidos:

Instrucciones contradictorias
Instrucciones demasiado amplias
Supuestos ocultos
Inestabilidad de formato de salida

Refina solo una o dos variables por iteración.

Paso 5) Promociona solo si mejoran las métricas

No hagas deploy porque un ejemplo salió bien. Promociona solo cuando:

Mejora la tasa de acierto en toda la suite
Se reducen los modos de fallo, no solo se desplazan
El formato de salida se mantiene estable en edge cases

Dónde suelen atascarse los equipos

Fallos comunes en equipos de desarrollo:

Demasiadas reglas en un solo skill
Un mega-skill que intenta resumir, planificar, clasificar e interpretar políticas suele degradarse rápido.
Sin versionado de datos de prueba
Si no versionas golden prompts, no puedes confiar en las tendencias.
Sin comportamiento de rechazo
El skill debe definir qué hacer cuando faltan datos o el caso está fuera de alcance.
Refinar sin hipótesis
“Ajustemos wording” sin una hipótesis medible quema ciclos.

Un mejor modelo mental

Trata un skill así:

Prompt text = implementación
Golden prompts = tests unitarios
Evaluator + test runs = checks de regresión
Release note = changelog

Cuando los equipos adoptan este modelo, la calidad de skills se vuelve predecible.

Plantilla mínima para tu próximo PR de skills

Usa esta estructura en la descripción interna del PR:

## Goal
What user job this skill solves.

## Behavior Contract
- Inputs
- Outputs
- Guardrails
- Refusal policy

## Test Set
- Golden prompts: N
- Edge cases included: yes/no

## Results
- Baseline pass rate: X%
- Candidate pass rate: Y%
- Known regressions: ...

## Decision
Promote / Hold / Roll back

Esto hace que los cambios de skills se revisen con el mismo estándar que el código.

Conclusión

Lo mejor de la actualización de Skill Creator de Anthropic no es “generación más inteligente”.

Es que ahora los skills encajan en un ciclo de vida natural para developers:

design -> test -> evaluate -> refine -> release

Si tu equipo construye workflows de agentes serios, así detienes el prompt drift y empiezas a entregar skills confiables.

Fuente

Anthropic official blog: Improving Skill Creator: Test, measure, and refine agent skills
https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills

Idea central: dejar de promptear a ciegas​

Qué cambió en Skill Creator (versión para developers)​

Workflow práctico que puedes usar​

Paso 1) Escribe criterios de aceptación como comportamiento de API​

Paso 2) Construye un set de golden prompts desde casos reales​

Paso 3) Genera y ejecuta tests​

Paso 4) Corre feedback del evaluator y poda instrucciones​

Paso 5) Promociona solo si mejoran las métricas​

Dónde suelen atascarse los equipos​

Un mejor modelo mental​

Plantilla mínima para tu próximo PR de skills​

Conclusión​

Fuente​