Tester un skill

Tester un skill avec le cycle TDD RED/GREEN/REFACTOR : 3 configs, 3 runs, grader independant, et pressure test.

Un skill non teste est un skill non valide. Le cycle TDD adapte aux skills garantit que chaque skill apporte une valeur mesurable.

Le cycle RED / GREEN / REFACTOR

L'agent fait la tache sans le skill. Tu notes le resultat, le temps, et la qualite.

Meme tache, avec le skill charge. Le skill ajoute-t-il de la valeur mesurable ?

Le skill a-t-il des loopholes ? Un agent malin peut-il contourner les regles ?

Config	Description
Normal	Tache standard, pas de pression
Pressured	Temps limite + sunk cost + fatigue simules
Without-skill	Baseline -- meme tache sans le skill

Chaque configuration teste un aspect different. La config "Pressured" revele les regles que l'agent saute sous contrainte.

1 run = bruit. 3 runs = signal.

Calcule la moyenne et l'ecart type (mean +/- stddev) sur les 3 runs. Un resultat isolement bon ne prouve rien.

Un seul run ne prouve rien

Le resultat d'1 run peut etre un coup de chance. 3 runs par config est le minimum pour obtenir un signal fiable.

Le grader n'est pas l'agent qui a cree le skill. Il critique aussi la qualite des assertions elles-memes.

Principe	Detail
Separation createur/grader	L'auteur a un biais de confirmation
Le grader challenge les assertions	Pas juste PASS/FAIL, mais "cette assertion est-elle pertinente ?"
Score final sur 100	Gate a 90 pour le FULL PATH

Un agent peut-il produire le bon output depuis la description seule, sans lire le body ?

Ce test detecte le probleme numero 1 des descriptions : le leak du workflow.

Check	Statut
3 configs testees ?
3 runs par config ?
Baseline without-skill inclus ?
Grader independant utilise ?
Description shortcut test passe ?
Score moyen >= 90 ?

Si un check echoue, le skill retourne en phase CREATE ou ITERATE.