Agent OS
Systeme de Skills

Tester un skill

Tester un skill avec le cycle TDD RED/GREEN/REFACTOR : 3 configs, 3 runs, grader independant, et pressure test.

Un skill non teste est un skill non valide. Le cycle TDD adapte aux skills garantit que chaque skill apporte une valeur mesurable.

Le cycle RED / GREEN / REFACTOR

RED -- baseline sans le skill

L'agent fait la tache sans le skill. Tu notes le resultat, le temps, et la qualite.

GREEN -- avec le skill

Meme tache, avec le skill charge. Le skill ajoute-t-il de la valeur mesurable ?

REFACTOR -- fermer les failles

Le skill a-t-il des loopholes ? Un agent malin peut-il contourner les regles ?

3 configurations obligatoires

ConfigDescription
NormalTache standard, pas de pression
PressuredTemps limite + sunk cost + fatigue simules
Without-skillBaseline -- meme tache sans le skill

Chaque configuration teste un aspect different. La config "Pressured" revele les regles que l'agent saute sous contrainte.

3 runs minimum par configuration

1 run = bruit. 3 runs = signal.

Calcule la moyenne et l'ecart type (mean +/- stddev) sur les 3 runs. Un resultat isolement bon ne prouve rien.

Un seul run ne prouve rien

Le resultat d'1 run peut etre un coup de chance. 3 runs par config est le minimum pour obtenir un signal fiable.

Grader independant

Le grader n'est pas l'agent qui a cree le skill. Il critique aussi la qualite des assertions elles-memes.

PrincipeDetail
Separation createur/graderL'auteur a un biais de confirmation
Le grader challenge les assertionsPas juste PASS/FAIL, mais "cette assertion est-elle pertinente ?"
Score final sur 100Gate a 90 pour le FULL PATH

Pressure test de la description

Un agent peut-il produire le bon output depuis la description seule, sans lire le body ?

  • Oui -- la description leak le workflow. Reecris-la.
  • Non -- la description est correcte.

Ce test detecte le probleme numero 1 des descriptions : le leak du workflow.

Checklist post-test

CheckStatut
3 configs testees ?
3 runs par config ?
Baseline without-skill inclus ?
Grader independant utilise ?
Description shortcut test passe ?
Score moyen >= 90 ?

Si un check echoue, le skill retourne en phase CREATE ou ITERATE.

Lecture liee

On this page