Tester un skill
Tester un skill avec le cycle TDD RED/GREEN/REFACTOR : 3 configs, 3 runs, grader independant, et pressure test.
Un skill non teste est un skill non valide. Le cycle TDD adapte aux skills garantit que chaque skill apporte une valeur mesurable.
Le cycle RED / GREEN / REFACTOR
RED -- baseline sans le skill
L'agent fait la tache sans le skill. Tu notes le resultat, le temps, et la qualite.
GREEN -- avec le skill
Meme tache, avec le skill charge. Le skill ajoute-t-il de la valeur mesurable ?
REFACTOR -- fermer les failles
Le skill a-t-il des loopholes ? Un agent malin peut-il contourner les regles ?
3 configurations obligatoires
| Config | Description |
|---|---|
| Normal | Tache standard, pas de pression |
| Pressured | Temps limite + sunk cost + fatigue simules |
| Without-skill | Baseline -- meme tache sans le skill |
Chaque configuration teste un aspect different. La config "Pressured" revele les regles que l'agent saute sous contrainte.
3 runs minimum par configuration
1 run = bruit. 3 runs = signal.
Calcule la moyenne et l'ecart type (mean +/- stddev) sur les 3 runs.
Un resultat isolement bon ne prouve rien.
Un seul run ne prouve rien
Le resultat d'1 run peut etre un coup de chance. 3 runs par config est le minimum pour obtenir un signal fiable.
Grader independant
Le grader n'est pas l'agent qui a cree le skill. Il critique aussi la qualite des assertions elles-memes.
| Principe | Detail |
|---|---|
| Separation createur/grader | L'auteur a un biais de confirmation |
| Le grader challenge les assertions | Pas juste PASS/FAIL, mais "cette assertion est-elle pertinente ?" |
| Score final sur 100 | Gate a 90 pour le FULL PATH |
Pressure test de la description
Un agent peut-il produire le bon output depuis la description seule, sans lire le body ?
- Oui -- la description leak le workflow. Reecris-la.
- Non -- la description est correcte.
Ce test detecte le probleme numero 1 des descriptions : le leak du workflow.
Checklist post-test
| Check | Statut |
|---|---|
| 3 configs testees ? | |
| 3 runs par config ? | |
| Baseline without-skill inclus ? | |
| Grader independant utilise ? | |
| Description shortcut test passe ? | |
| Score moyen >= 90 ? |
Si un check echoue, le skill retourne en phase CREATE ou ITERATE.
Lecture liee
- Iterer avec 3 agents -- ameliorer un skill qui ne passe pas le gate
- Les 13 pieges a eviter -- erreurs courantes en phase de test
- Lifecycle complet -- ou le test s'inscrit dans le cycle