Pourquoi les Instructions de Votre Agent Attaquent Votre Code
analysis#eureka#autoimmune#lessons.md

Pourquoi les Instructions de Votre Agent IA Attaquent Votre Propre Code

Le papier AGENTS.md prouve que les fichiers d'instructions réduisent les taux de réussite. Ce n'est pas un bug — c'est une maladie auto-immune. Voici le modèle biologique qui explique la dérive.

25 février 20269 min de lecture
Partager

Auditez votre stack agent en 30 minutes

Obtenez la checklist de durcissement gratuite en 10 points. Configs prêtes à copier-coller pour Docker, Caddy, Nginx et UFW incluses.

Obtenir la checklist gratuite →

Le paradoxe

Vous ajoutez une règle dans lessons.md : « Toujours valider les entrées API. » Raisonnable. Un mois plus tard, votre agent refuse d'appeler une API interne sans écrire 30 lignes de validation — même quand l'entrée vient de votre propre code testé.

Vous ajoutez une autre règle : « Vérifier null avant d'accéder aux propriétés. » Sensé. Trois semaines plus tard, l'agent emballe chaque accès propriété dans des vérifications null, transformant du code propre en spaghetti défensif.

Vos instructions devaient aider. Elles finissent par nuire. Les instructions attaquent votre propre code.

C'est une maladie auto-immune.

Le mapping immunitaire

La fiabilité d'un agent fonctionne exactement comme l'immunité biologique — avec des défenses innées (rapides, non spécifiques) et adaptatives (apprises, spécifiques) :

  • ADN → CLAUDE.md : Mute rarement, encode l'identité. Le code génétique de votre agent.
  • Immunité innée → Hooks : Défenses rapides, déterministes. Lint, types, tests. Se déclenchent à chaque fois, sans jugement.
  • Immunité adaptative → lessons.md : Réponses apprises. Puissantes — mais nécessitent une régulation.
  • Lymphocytes T → Sous-agents : Répondeurs spécialisés pour des menaces spécifiques.
  • Bibliothèque d'anticorps → SKILL.md : Patterns de réponse éprouvés, prêts quand le bon pathogène (tâche) apparaît.
  • Vaccination → Promotion de leçon validée par l'humain : Exposition contrôlée créant une immunité durable.

L'insight clé : le système immunitaire a deux modes de défaillance. Tout le monde pense à l'immunodéficience (pas assez de défenses). Personne ne pense à l'auto-immunité (les défenses qui attaquent l'hôte).

La dérive auto-immune

La dérive auto-immune, c'est quand lessons.md accumule trop de règles et que l'agent commence à « attaquer » des patterns de code valides.

Symptômes

  • Évitement de patterns : L'agent refuse un pattern qu'il utilisait avec succès
  • Ballonnement défensif : Code protecteur inutile ajouté « au cas où »
  • Sur-validation : L'agent ralentit sur les tâches routinières
  • Contamination croisée : Règle backend appliquée au frontend (mauvais tissu, mauvais anticorps)
  • Paralysie d'exploration : L'agent explore excessivement au lieu d'agir

La trajectoire

  1. Semaine 1 : 5 leçons. Toutes valides. L'agent performe bien.
  2. Mois 1 : 25 leçons. Chevauchements. L'agent commence à sur-vérifier.
  3. Mois 3 : 60 leçons. Contradictions. Comportement inconsistant.
  4. Mois 6 : 120 leçons. Cascade auto-immune complète.

Les preuves

Le papier AGENTS.md (février 2026)

Les résultats AGENTS.md sont un diagnostic clinique de maladie auto-immune :

  • « Les fichiers de contexte réduisent les taux de réussite » comparé à aucun contexte. La réponse immunitaire nuit plus qu'elle n'aide.
  • Le coût d'inférence augmente de plus de 20 % avec des fichiers de contexte. Le système immunitaire tourne en surrégime.
  • Retirer la documentation et la remplacer par des fichiers de contexte fonctionne mieux qu'avoir les deux. Deux sources d'information en conflit = clash auto-immun.

Pythia : instabilité d'optimisation

Le papier Pythia décrit des performances qui oscillent entre 1,0 et 0,0 entre les itérations. L'intervention de l'agent guide amplifie le surapprentissage au lieu de le corriger. La correction aggrave la maladie.

SkillsBench : focalisé bat exhaustif

Les skills focalisés (2–3 modules) surpassent la documentation exhaustive. Les packages exhaustifs dégradent la performance de 2,9 pp. Plus de réponse immunitaire = plus de dégâts à l'hôte.

OpenClaw : injection de pathogènes

Skills malicieux = infection pathogène

  • Cisco : 26 % des 31 000 skills analysés contenaient au moins une vulnérabilité
  • VirusTotal : des centaines de skills OpenClaw activement malveillants détectés
  • Le skill #1 communautaire (« What Would Elon Do? ») était fonctionnellement un malware

Partenariat VirusTotal = programme de vaccination

  • Tous les skills ClawHub scannés via VirusTotal Code Insight
  • « Bénin » → approuvé. « Suspect » → avertissement. « Malveillant » → bloqué.
  • Re-scans quotidiens (surveillance immunitaire)

La vaccination gère les pathogènes externes. Le problème auto-immun — vos propres règles attaquant votre propre code — nécessite un traitement différent.

Checklist de diagnostic

  1. Comptez vos leçons. Plus de 30 entrées dans lessons.md ? Zone de risque.
  2. Cherchez les contradictions. Règles en conflit entre elles ou avec CLAUDE.md.
  3. Testez l'acceptation de patterns. Demandez un pattern simple. Hésitation, sur-validation, refus ? Symptômes auto-immuns.
  4. Mesurez le temps de complétion. 2x plus long qu'il y a un mois ? Surcharge d'instructions probable.
  5. Vérifiez la contamination croisée. Règles backend affectant le frontend ? Propagation auto-immune.

Protocole de traitement

Triage immédiat

  1. Quarantaine. Copiez lessons.md vers lessons-backup.md. Partez d'un fichier vide. Observez si la performance s'améliore.
  2. Réintroduction sélective. Rajoutez les règles une catégorie à la fois. Mesurez après chaque lot.

Régulation immunitaire continue

  1. TTL sur toutes les leçons. Date d'expiration obligatoire. 60 jours par défaut.
  2. Scope tagging. Chaque leçon spécifie où elle s'applique : backend, frontend, api, tests.
  3. Score de confiance. Règles vérifiées = priorité haute. Règles auto-générées = expiration rapide.
  4. Élagage mensuel. Planifiez-le. Chaque leçon : « Est-ce que ça aide encore ? » Si pas de réponse claire — supprimez.
  5. Max règles par scope. Limite dure : 10 règles par scope. Pour ajouter la 11e, supprimez-en une.

Votre agent a besoin de régulation immunitaire, pas seulement de mémoire immunitaire. Élaguer les leçons obsolètes est aussi critique qu'en apprendre de nouvelles.

Partie 2 de la Série Eureka. Précédent : Votre Agent IA a 200K Tokens de RAM. Suivant : Le problème à trois corps des instructions agent.

Checklist de durcissement complète | Digest sécurité hebdomadaire

🛡️

Déployez l'IA agentique sans exposer vos secrets

Rejoignez 300+ équipes sécurité qui reçoivent chaque semaine des guides de durcissement, alertes menaces et correctifs copier-coller pour les déploiements MCP/agent.

S'abonner gratuitement →

Checklist 10 points • Configs Caddy/Nginx • Durcissement Docker • Digest hebdo

#eureka#autoimmune#lessons.md#agent architecture#AGENTS.md#agentic AI#immune system

Ne manquez aucune mise à jour sécurité

Digest hebdomadaire gratuit : nouvelles menaces, revues d'outils et guides de durcissement pour équipes IA.

S'abonner gratuitement →
Partager

Gratuit : Checklist de durcissement en 10 points

Obtenir maintenant →