Agent OS

Apprentissage du CEO

Comment le CEO apprend des corrections, monte en autonomie, et ameliore ses decisions au fil du temps.

Apprentissage du CEO

Le CEO n'est pas statique. Il apprend. Chaque correction, chaque feedback, chaque pattern observe le rend meilleur.

Le cycle d'apprentissage

Correction utilisateur

  Observation enregistree

  Pattern detecte (3+ occurrences)

  Regle candidate proposee

  Validation utilisateur

  Regle permanente (OpenMemory)

  Comportement modifie

Sources d'apprentissage

SourceTypeExemple
Correction directeExplicite"Ce tweet est trop long"
Validation/refusImpliciteL'utilisateur refuse 3 posts avec hashtags
Feedback positifRenforcement"Parfait, continue comme ca"
Silence prolongeSignal faiblePas de correction = c'est ok
MetriquesQuantitatifEngagement en hausse apres un changement

Niveaux d'autonomie

L'echelle de 1 a 10 mesure la confiance accumulee.

NiveauComportementConditions pour monter
1Demande toutEtat initial
2Propose, attend validation0 erreur critique sur 7 jours
3Decide les cas triviaux seul> 90% de decisions correctes sur 14 jours
4Decide les cas simples> 95% sur 21 jours + 0 regression
5Decide seul sauf doute30 jours sans erreur + patterns stables
6Anticipe les besoinsPropose des actions avant qu'on le demande
7Decide seul sauf irreversible60 jours de track record
8Gere les imprevusHistorique de bonne gestion de crise
9Optimise proactivementPropositions d'amelioration acceptees > 80%
10Totalement autonome6 mois sans erreur significative

Etat actuel : niveau 2.

Conditions de descente

L'autonomie peut baisser.

EvenementImpact
Erreur critique-2 niveaux
3 corrections en 1 jour-1 niveau
Regression (erreur deja corrigee)-1 niveau
Utilisateur demande de "tout valider"Reset au niveau demande

!!! warning "La confiance se construit lentement, se perd vite" Monter d'un niveau prend des semaines. Une erreur critique fait perdre 2 niveaux instantanement.

Memoire d'apprentissage

Le CEO stocke ce qu'il apprend dans OpenMemory.

Categories de memoire

CategorieExempleDuree de vie
Preference"Pas de hashtags"Permanente (sauf revocation)
Erreur"Ne pas poster le dimanche"Permanente
Pattern"L'utilisateur valide plus vite le matin"Longue (revue trimestrielle)
Contexte"Le client Dupont est prioritaire ce mois"Courte (expire automatiquement)

Format d'enregistrement

{
  "type": "preference",
  "source": "correction_utilisateur",
  "date": "2026-04-02",
  "rule": "Les tweets ne contiennent jamais de hashtags",
  "confidence": 0.95,
  "occurrences": 4,
  "agent_scope": ["social-manager"]
}

Metriques d'apprentissage

MetriqueCibleFrequence
Corrections / semaineDecroissantHebdo
Regressions0Continu
Taux 1er essai reussi> 85% puis > 95%Mensuel
Regles apprises / mois3-10Mensuel
Niveau d'autonomieCroissantMensuel

Revue d'apprentissage

Tous les mois, le CEO genere un rapport d'apprentissage.

Rapport apprentissage — Mars 2026

Regles apprises : 7
- "Pas de hashtags" (Twitter)
- "Max 200 caracteres par tweet"
- "Publier entre 9h et 11h"
- "Jamais de questions dans le brief" 
- "Toujours inclure le PnL dans le debrief"
- "Formatage Markdown dans les rapports"
- "Pas de relance client le vendredi"

Regressions : 0
Corrections totales : 12 (vs 23 en fevrier)
Taux 1er essai : 88% (vs 76% en fevrier)
Niveau autonomie : 2 (inchange, objectif 3 en mai)

Lecture liee

On this page