Agent OS
Operate

Gestion des erreurs

Les 3 niveaux d'erreur, le plan B par composant, la correction, et le post-mortem.

Gestion des erreurs

Tout casse a un moment. La question n'est pas "si" mais "quand". Agent OS categorise les erreurs en 3 niveaux et a un plan B pour chaque composant.

Les 3 niveaux d'erreur

NiveauIconeSignificationDelai de reactionNotification
WARNINGJauneAnomalie detectee, pas de perteHeuresTelegram (brief suivant)
ERROROrangeEchec d'une action, impact limite< 1 heureTelegram (immediat)
CRITICALRougeSysteme down ou perte de donnees< 15 minTelegram + SMS

Exemples par niveau

WARNING :

  • Un cron a mis 2x plus de temps que d'habitude
  • Un agent a consomme plus de tokens que prevu
  • Engagement social en baisse de 20%
  • Espace disque a 80%

ERROR :

  • Un cron a echoue
  • Un agent ne repond plus
  • Une API retourne des erreurs
  • Un deploiement a echoue

CRITICAL :

  • Serveur principal down
  • Base Notion inaccessible
  • Perte de connexion Telegram (pas de canal de communication)
  • Stop-loss non execute (trading)
  • Sauvegarde corrompue

Plan B par composant

OpenClaw (runtime)

ProblemeDetectionPlan B
Gateway crashHealth check (CRON-001)Auto-restart via systemd
Agent bloqueTimeout depasseKill + restart de l'agent
Queue pleineMonitoring memoirePurge des taches anciennes
Config corrompueValidation au reloadRollback Git automatique

Telegram (communication)

ProblemeDetectionPlan B
Bot deconnectePas de delivery confirmRetry 3x puis alerte email
Rate limitHTTP 429Backoff exponentiel
API downConnection timeoutStocker les messages, envoyer au retour

Notion (donnees)

ProblemeDetectionPlan B
API indisponibleConnection errorCache local, sync au retour
Rate limitHTTP 429Batch les requetes
Page corrompueValidation schemaRestaurer depuis backup

Trading (Hyperliquid)

ProblemeDetectionPlan B
API downConnection timeoutStop-loss on-chain restent actifs
Ordre rejeteError responseRetry avec parametres ajustes
Position a risquePnL monitoringAlerte CRITICAL immediate

Infra (serveur)

ProblemeDetectionPlan B
Serveur downCRON-001Alerte + tentative auto-restart
Disque pleinMonitoring espacePurge logs anciens + alerte
RAM satureeMonitoring memoireKill processes non essentiels
SSL expireCRON-011Renouvellement auto (Cloudflare)

Processus de correction

1. Detecter

Les crons de monitoring detectent automatiquement. Le CEO categorise le niveau.

2. Notifier

Le CEO envoie une alerte sur Telegram avec :

  • Le niveau (WARNING/ERROR/CRITICAL)
  • Le composant affecte
  • L'impact
  • L'action recommandee
ERROR : Cron CRON-004 (Social Pulse) echoue.
Cause : API Twitter rate limit.
Impact : Pas de scan engagement aujourd'hui.
Action : Retry automatique dans 1h.
Intervention requise : Non.

3. Corriger

TypeQui corrigeComment
Auto-corrigeableLe systemeRetry, restart, fallback
Manuelle simpleLe CEOCommande de correction
Manuelle complexeL'utilisateurIntervention directe

4. Verifier

Apres correction, le CEO verifie que tout est revenu a la normale.

openclaw health check --verbose

Post-mortem

Pour chaque erreur ERROR ou CRITICAL, un post-mortem est genere.

Format du post-mortem

Post-mortem : [ID de l'incident]
Date : 2026-04-02
Niveau : ERROR
Composant : Trading Agent
Duree : 45 min

Chronologie :
- 14:30 : Ordre d'achat rejete par Hyperliquid
- 14:31 : Retry automatique echoue
- 14:35 : Alerte CEO
- 14:40 : Alerte utilisateur
- 14:50 : Investigation manuelle
- 15:15 : Cause identifiee (margin insuffisante)
- 15:15 : Resolution (ajout margin)

Cause racine : Le trading agent n'a pas verifie la margin disponible avant l'ordre.
Action corrective : Ajouter un check de margin pre-ordre.
Statut : Corrige et deploye.

!!! tip "Pas de blame, que des faits" Le post-mortem analyse la cause, pas le coupable. L'objectif : que l'erreur ne se reproduise pas.

Lecture liee

On this page