Agent OS
Systeme de Skills

Les 13 pieges a eviter

13 anti-patterns compiles depuis l'analyse de 10 skills existants, avec table de rationalisation.

Ces 13 anti-patterns sont compiles a partir de l'analyse de 10 skills existants. Chacun est un piege reel, observe en production.

Les 13 anti-patterns

#Anti-patternPourquoi c'est un problemeFix
1Description qui leak le workflowL'agent saute le body et produit un resultat generiqueDescription = triggers seulement
2SKILL.md de plus de 500 lignesNoie le contexte, l'agent oublie des instructionsDebordement dans references/
3Auto-evaluation (pas de grader independant)Biais de confirmation, le createur ne trouve pas ses propres erreursGrader = agent different
41 seul run de testBruit, pas signal. Le resultat peut etre un coup de chanceMinimum 3 runs, calculer mean +/- stddev
5Pas de baseline without-skillImpossible de mesurer la valeur ajouteeToujours tester AVEC et SANS le skill
6Merge A+B sans tester la combinaisonLes 2 versions marchent seules mais pas ensembleTester la version mergee avant de commit
7ALWAYS/NEVER en caps sans expliquer le WHYL'agent obeit mecaniquement sans comprendreExpliquer la raison derriere chaque regle
8Overfitter aux test casesLe skill marche sur les tests mais pas en conditions reellesGeneraliser : le feedback est un signal, pas une commande
9Placeholder code, TODO, stubsLe skill est inacheve mais deploye comme completZero TODO. Si c'est pas fini, c'est pas publie
10Narrative storytelling au lieu de patternsL'agent lit une histoire mais ne sait pas quoi fairePatterns actionnables : quand/quoi/comment
11Recommander un skill sans verifier qualiteLe skill recommande peut etre casse ou obsoleteVerifier stars, usage, date de derniere update
12Critic trop genereux (scorer 8 quand c'est 6)Le skill passe le gate alors qu'il a de vrais problemesScorer honnetement. 7 = problemes reels
13Pas de versioningModifier sans trace, impossible de rollbackSemver des le jour 1, changelog a chaque modification

Table de rationalisation

Tu reconnais ces pensees ? Chacune est un signal d'alerte.

Tu penses caLa realite
"C'est trop simple pour tester"Les skills simples cassent. 3 runs prennent 30 secondes.
"Je sais que c'est bon"Tu ne sais pas. Le test prouve.
"Le user est presse"Utilise le FAST PATH (5 min). Ca inclut la validation.
"La validation est overkill"Les scripts attrapent ce que tu rates. 5 secondes a lancer.
"La description est fine"La description est le premier point de defaillance. Toujours verifier.
"Je vais ajouter les tests plus tard"Plus tard = jamais. RED avant GREEN.

La pression ne justifie jamais de skipper

Le FAST PATH prend 5 minutes et inclut la validation. Si tu n'as pas 5 minutes, tu ne devrais pas publier un skill.

Les 3 erreurs les plus frequentes

1. Description qui leak le workflow (anti-pattern 1)

Le probleme le plus courant. L'agent lit la description, produit un output generique, et ne consulte jamais le body du skill.

Test : demande a un agent de faire la tache en lisant uniquement la description. Si le resultat est acceptable, la description leak.

2. Pas de baseline (anti-pattern 5)

Sans baseline, tu ne peux pas prouver que le skill ajoute de la valeur. La comparaison AVEC/SANS est le seul moyen de mesurer l'impact.

3. Critic trop genereux (anti-pattern 12)

Un score de 7/10 signifie que des problemes reels existent. Un Critic qui score 8 quand la realite est a 6 laisse passer des skills defectueux.

Lecture liee

On this page