Pourquoi les Instructions de Votre Agent IA Attaquent Votre Propre Code

Le paradoxe

Vous ajoutez une règle dans lessons.md : « Toujours valider les entrées API. » Raisonnable. Un mois plus tard, votre agent refuse d'appeler une API interne sans écrire 30 lignes de validation — même quand l'entrée vient de votre propre code testé.

Vous ajoutez une autre règle : « Vérifier null avant d'accéder aux propriétés. » Sensé. Trois semaines plus tard, l'agent emballe chaque accès propriété dans des vérifications null, transformant du code propre en spaghetti défensif.

Vos instructions devaient aider. Elles finissent par nuire. Les instructions attaquent votre propre code.

C'est une maladie auto-immune.

Le mapping immunitaire

La fiabilité d'un agent fonctionne exactement comme l'immunité biologique — avec des défenses innées (rapides, non spécifiques) et adaptatives (apprises, spécifiques) :

ADN → CLAUDE.md : Mute rarement, encode l'identité. Le code génétique de votre agent.
Immunité innée → Hooks : Défenses rapides, déterministes. Lint, types, tests. Se déclenchent à chaque fois, sans jugement.
Immunité adaptative → lessons.md : Réponses apprises. Puissantes — mais nécessitent une régulation.
Lymphocytes T → Sous-agents : Répondeurs spécialisés pour des menaces spécifiques.
Bibliothèque d'anticorps → SKILL.md : Patterns de réponse éprouvés, prêts quand le bon pathogène (tâche) apparaît.
Vaccination → Promotion de leçon validée par l'humain : Exposition contrôlée créant une immunité durable.

L'insight clé : le système immunitaire a deux modes de défaillance. Tout le monde pense à l'immunodéficience (pas assez de défenses). Personne ne pense à l'auto-immunité (les défenses qui attaquent l'hôte).

La dérive auto-immune

La dérive auto-immune, c'est quand lessons.md accumule trop de règles et que l'agent commence à « attaquer » des patterns de code valides.

Symptômes

Évitement de patterns : L'agent refuse un pattern qu'il utilisait avec succès
Ballonnement défensif : Code protecteur inutile ajouté « au cas où »
Sur-validation : L'agent ralentit sur les tâches routinières
Contamination croisée : Règle backend appliquée au frontend (mauvais tissu, mauvais anticorps)
Paralysie d'exploration : L'agent explore excessivement au lieu d'agir

La trajectoire

Semaine 1 : 5 leçons. Toutes valides. L'agent performe bien.
Mois 1 : 25 leçons. Chevauchements. L'agent commence à sur-vérifier.
Mois 3 : 60 leçons. Contradictions. Comportement inconsistant.
Mois 6 : 120 leçons. Cascade auto-immune complète.

Les preuves

Le papier AGENTS.md (février 2026)

Les résultats AGENTS.md sont un diagnostic clinique de maladie auto-immune :

« Les fichiers de contexte réduisent les taux de réussite » comparé à aucun contexte. La réponse immunitaire nuit plus qu'elle n'aide.
Le coût d'inférence augmente de plus de 20 % avec des fichiers de contexte. Le système immunitaire tourne en surrégime.
Retirer la documentation et la remplacer par des fichiers de contexte fonctionne mieux qu'avoir les deux. Deux sources d'information en conflit = clash auto-immun.

Pythia : instabilité d'optimisation

Le papier Pythia décrit des performances qui oscillent entre 1,0 et 0,0 entre les itérations. L'intervention de l'agent guide amplifie le surapprentissage au lieu de le corriger. La correction aggrave la maladie.

SkillsBench : focalisé bat exhaustif

Les skills focalisés (2–3 modules) surpassent la documentation exhaustive. Les packages exhaustifs dégradent la performance de 2,9 pp. Plus de réponse immunitaire = plus de dégâts à l'hôte.

OpenClaw : injection de pathogènes

Skills malicieux = infection pathogène

Cisco : 26 % des 31 000 skills analysés contenaient au moins une vulnérabilité
VirusTotal : des centaines de skills OpenClaw activement malveillants détectés
Le skill #1 communautaire (« What Would Elon Do? ») était fonctionnellement un malware

Partenariat VirusTotal = programme de vaccination

Tous les skills ClawHub scannés via VirusTotal Code Insight
« Bénin » → approuvé. « Suspect » → avertissement. « Malveillant » → bloqué.
Re-scans quotidiens (surveillance immunitaire)

La vaccination gère les pathogènes externes. Le problème auto-immun — vos propres règles attaquant votre propre code — nécessite un traitement différent.

Checklist de diagnostic

Comptez vos leçons. Plus de 30 entrées dans lessons.md ? Zone de risque.
Cherchez les contradictions. Règles en conflit entre elles ou avec CLAUDE.md.
Testez l'acceptation de patterns. Demandez un pattern simple. Hésitation, sur-validation, refus ? Symptômes auto-immuns.
Mesurez le temps de complétion. 2x plus long qu'il y a un mois ? Surcharge d'instructions probable.
Vérifiez la contamination croisée. Règles backend affectant le frontend ? Propagation auto-immune.

Protocole de traitement

Triage immédiat

Quarantaine. Copiez lessons.md vers lessons-backup.md. Partez d'un fichier vide. Observez si la performance s'améliore.
Réintroduction sélective. Rajoutez les règles une catégorie à la fois. Mesurez après chaque lot.

Régulation immunitaire continue

TTL sur toutes les leçons. Date d'expiration obligatoire. 60 jours par défaut.
Scope tagging. Chaque leçon spécifie où elle s'applique : backend, frontend, api, tests.
Score de confiance. Règles vérifiées = priorité haute. Règles auto-générées = expiration rapide.
Élagage mensuel. Planifiez-le. Chaque leçon : « Est-ce que ça aide encore ? » Si pas de réponse claire — supprimez.
Max règles par scope. Limite dure : 10 règles par scope. Pour ajouter la 11e, supprimez-en une.

Votre agent a besoin de régulation immunitaire, pas seulement de mémoire immunitaire. Élaguer les leçons obsolètes est aussi critique qu'en apprendre de nouvelles.

Partie 2 de la Série Eureka. Précédent : Votre Agent IA a 200K Tokens de RAM. Suivant : Le problème à trois corps des instructions agent.

Checklist de durcissement complète | Digest sécurité hebdomadaire

Pourquoi les Instructions de Votre Agent IA Attaquent Votre Propre Code

Sommaire

Auditez votre stack agent en 30 minutes