Agent OS
Systeme de Skills

Iterer avec la boucle 3-agents

Le pattern Brainstormer/Builder/Critic pour ameliorer un skill en boucle. Mutations A/B et detection de plateau.

La boucle 3-agents transforme un brouillon en skill de production. Elle combine 6 patterns eprouves : Iterative Refinement, Reflexion, Multi-Agent Debate, Constitutional AI, Evaluator-Optimizer, et Karpathy Loop.

Le pattern

BRAINSTORMER --> BUILDER --> CRITIC --> (loop si score inferieur a 9)

Chaque iteration, 3 agents specialises s'executent en sequence. L'output d'un agent nourrit le suivant.

Agent 1 -- Brainstormer (createur)

Le Brainstormer cree ou ameliore le skill avec tout le feedback accumule.

IterationComportement
PremiereVersion ambitieuse, viser 9/10 d'entree
SuivantesIntegrer chaque gap du Builder + chaque regle du Critic

Le Brainstormer marque ses changements avec [IMPROVED: raison] pour tracer l'evolution.

Agent 2 -- Builder (praticien)

Le Builder utilise le skill sur un scenario reel. Il note chaque blocage avec 4 champs :

WHERE : ou dans le skill
WHAT  : ce qui manque ou coince
WHY   : impact pratique (pas theorique)
SUGGEST : fix concret

Le Builder produit un score de praticabilite sur 10. Un score de 10 signifie zero confusion, zero blocage.

Agent 3 -- Critic (chercheur et juge)

Le Critic evalue et recherche les meilleures pratiques manquantes.

TacheDetail
Compliance checkLe skill respecte-t-il ses propres regles ?
Quality scoring5 dimensions : completeness, clarity, correctness, practicality (x2), elegance
Web researchQue font les meilleurs ? (Google, Microsoft, GitLab style guides)
Missing conceptsQu'est-ce qu'un expert ajouterait ?

Le Critic rend un verdict : PASS (score >= 9/10) ou FAIL (avec feedback priorise).

Regles de la boucle

RegleDetail
Max 4 iterations par defautAu-dela, le probleme est structurel
Plateau = stopSi le score stagne 2 rounds, signaler a l'utilisateur
Chaque iteration voit toutPas juste le dernier feedback -- accumulation complete
Builder teste en reelPas de test mental, utiliser le skill sur un vrai scenario

Detection de plateau

Si le score ne progresse plus apres 2 iterations, le probleme est structurel. Arrete la boucle et signale le blocage a l'utilisateur.

Mutations A/B (EVOLVE PATH)

Pour ameliorer un skill existant, cree deux variantes :

VersionStrategie
A (conservatrice)Petit ajustement cible
B (radicale)Restructuration complete

Un grader independant evalue les deux en aveugle, sans connaitre laquelle est A ou B. Le gagnant est merge. Le perdant est archive.

Exemple concret

Iteration 1 :
  Brainstormer --> skill v1 (score Builder : 6/10)
  Builder --> 4 gaps trouves (description vague, pas d'exemples, etc.)
  Critic --> score 5.8/10, FAIL, feedback : "ajouter exemples, preciser triggers"

Iteration 2 :
  Brainstormer --> skill v2, integre le feedback (score Builder : 8/10)
  Builder --> 1 gap restant (edge case non couvert)
  Critic --> score 7.5/10, FAIL, feedback : "couvrir le edge case X"

Iteration 3 :
  Brainstormer --> skill v3, edge case couvert (score Builder : 9/10)
  Critic --> score 9.2/10, PASS

Lecture liee

On this page