Le paradoxe
Vous ajoutez une règle dans lessons.md : « Toujours valider les entrées API. » Raisonnable. Un mois plus tard, votre agent refuse d'appeler une API interne sans écrire 30 lignes de validation — même quand l'entrée vient de votre propre code testé.
Vous ajoutez une autre règle : « Vérifier null avant d'accéder aux propriétés. » Sensé. Trois semaines plus tard, l'agent emballe chaque accès propriété dans des vérifications null, transformant du code propre en spaghetti défensif.
Vos instructions devaient aider. Elles finissent par nuire. Les instructions attaquent votre propre code.
C'est une maladie auto-immune.
Le mapping immunitaire
La fiabilité d'un agent fonctionne exactement comme l'immunité biologique — avec des défenses innées (rapides, non spécifiques) et adaptatives (apprises, spécifiques) :
- ADN → CLAUDE.md : Mute rarement, encode l'identité. Le code génétique de votre agent.
- Immunité innée → Hooks : Défenses rapides, déterministes. Lint, types, tests. Se déclenchent à chaque fois, sans jugement.
- Immunité adaptative → lessons.md : Réponses apprises. Puissantes — mais nécessitent une régulation.
- Lymphocytes T → Sous-agents : Répondeurs spécialisés pour des menaces spécifiques.
- Bibliothèque d'anticorps → SKILL.md : Patterns de réponse éprouvés, prêts quand le bon pathogène (tâche) apparaît.
- Vaccination → Promotion de leçon validée par l'humain : Exposition contrôlée créant une immunité durable.
L'insight clé : le système immunitaire a deux modes de défaillance. Tout le monde pense à l'immunodéficience (pas assez de défenses). Personne ne pense à l'auto-immunité (les défenses qui attaquent l'hôte).
La dérive auto-immune
La dérive auto-immune, c'est quand lessons.md accumule trop de règles et que l'agent commence à « attaquer » des patterns de code valides.
Symptômes
- Évitement de patterns : L'agent refuse un pattern qu'il utilisait avec succès
- Ballonnement défensif : Code protecteur inutile ajouté « au cas où »
- Sur-validation : L'agent ralentit sur les tâches routinières
- Contamination croisée : Règle backend appliquée au frontend (mauvais tissu, mauvais anticorps)
- Paralysie d'exploration : L'agent explore excessivement au lieu d'agir
La trajectoire
- Semaine 1 : 5 leçons. Toutes valides. L'agent performe bien.
- Mois 1 : 25 leçons. Chevauchements. L'agent commence à sur-vérifier.
- Mois 3 : 60 leçons. Contradictions. Comportement inconsistant.
- Mois 6 : 120 leçons. Cascade auto-immune complète.
Les preuves
Le papier AGENTS.md (février 2026)
Les résultats AGENTS.md sont un diagnostic clinique de maladie auto-immune :
- « Les fichiers de contexte réduisent les taux de réussite » comparé à aucun contexte. La réponse immunitaire nuit plus qu'elle n'aide.
- Le coût d'inférence augmente de plus de 20 % avec des fichiers de contexte. Le système immunitaire tourne en surrégime.
- Retirer la documentation et la remplacer par des fichiers de contexte fonctionne mieux qu'avoir les deux. Deux sources d'information en conflit = clash auto-immun.
Pythia : instabilité d'optimisation
Le papier Pythia décrit des performances qui oscillent entre 1,0 et 0,0 entre les itérations. L'intervention de l'agent guide amplifie le surapprentissage au lieu de le corriger. La correction aggrave la maladie.
SkillsBench : focalisé bat exhaustif
Les skills focalisés (2–3 modules) surpassent la documentation exhaustive. Les packages exhaustifs dégradent la performance de 2,9 pp. Plus de réponse immunitaire = plus de dégâts à l'hôte.
OpenClaw : injection de pathogènes
Skills malicieux = infection pathogène
- Cisco : 26 % des 31 000 skills analysés contenaient au moins une vulnérabilité
- VirusTotal : des centaines de skills OpenClaw activement malveillants détectés
- Le skill #1 communautaire (« What Would Elon Do? ») était fonctionnellement un malware
Partenariat VirusTotal = programme de vaccination
- Tous les skills ClawHub scannés via VirusTotal Code Insight
- « Bénin » → approuvé. « Suspect » → avertissement. « Malveillant » → bloqué.
- Re-scans quotidiens (surveillance immunitaire)
La vaccination gère les pathogènes externes. Le problème auto-immun — vos propres règles attaquant votre propre code — nécessite un traitement différent.
Checklist de diagnostic
- Comptez vos leçons. Plus de 30 entrées dans
lessons.md? Zone de risque. - Cherchez les contradictions. Règles en conflit entre elles ou avec
CLAUDE.md. - Testez l'acceptation de patterns. Demandez un pattern simple. Hésitation, sur-validation, refus ? Symptômes auto-immuns.
- Mesurez le temps de complétion. 2x plus long qu'il y a un mois ? Surcharge d'instructions probable.
- Vérifiez la contamination croisée. Règles backend affectant le frontend ? Propagation auto-immune.
Protocole de traitement
Triage immédiat
- Quarantaine. Copiez
lessons.mdverslessons-backup.md. Partez d'un fichier vide. Observez si la performance s'améliore. - Réintroduction sélective. Rajoutez les règles une catégorie à la fois. Mesurez après chaque lot.
Régulation immunitaire continue
- TTL sur toutes les leçons. Date d'expiration obligatoire. 60 jours par défaut.
- Scope tagging. Chaque leçon spécifie où elle s'applique :
backend,frontend,api,tests. - Score de confiance. Règles vérifiées = priorité haute. Règles auto-générées = expiration rapide.
- Élagage mensuel. Planifiez-le. Chaque leçon : « Est-ce que ça aide encore ? » Si pas de réponse claire — supprimez.
- Max règles par scope. Limite dure : 10 règles par scope. Pour ajouter la 11e, supprimez-en une.
Votre agent a besoin de régulation immunitaire, pas seulement de mémoire immunitaire. Élaguer les leçons obsolètes est aussi critique qu'en apprendre de nouvelles.
Partie 2 de la Série Eureka. Précédent : Votre Agent IA a 200K Tokens de RAM. Suivant : Le problème à trois corps des instructions agent.
Checklist de durcissement complète | Digest sécurité hebdomadaire
