Votre Agent IA a 200K Tokens de RAM — Et Vous en Gaspillez 80 %

L'insight que personne n'aborde

En février 2026, un article de recherche intitulé AGENTS.md a lâché une bombe : les fichiers de contexte de dépôt — ces fichiers conçus pour aider les agents IA — tendent à réduire les taux de réussite par rapport à l'absence totale de contexte.

La plupart des gens ont pensé que l'étude était défaillante. Nous, on a pensé : évidemment. C'est la même chose qui se passe quand on charge un noyau de 30 Mo dans une machine avec 64 Mo de RAM.

Ce n'est pas une métaphore. C'est un isomorphisme — une équivalence structurelle entre deux systèmes qui permet de transférer les principes de conception de l'un vers l'autre.

Fenêtre de contexte = RAM

Votre agent IA a une fenêtre de contexte. Claude a 200K tokens. GPT-4o en a 128K. Ce chiffre est traité comme la taille d'un champ texte — combien on peut y coller.

C'est le mauvais modèle mental.

La fenêtre de contexte, c'est de la RAM. Tout ce qui y est chargé coûte de la mémoire. Chaque token d'instruction, chaque prompt système, chaque contenu de fichier, chaque tour de conversation — tout consomme des ressources cognitives finies qui pourraient servir au raisonnement réel.

Un CLAUDE.md surchargé, c'est comme un noyau qui consomme toute la RAM disponible avant même que les processus utilisateur ne démarrent.

Et comme la RAM, la fenêtre de contexte a des propriétés que les concepteurs d'OS avaient comprises il y a 50 ans :

Elle est finie. On ne crée pas du contexte à partir de rien.
La position compte. Les données en début et fin de contexte sont traitées plus fiablement que celles au milieu (prouvé par Stanford, « Lost in the Middle »).
La dégradation est non linéaire. La performance ne décline pas doucement — elle chute brusquement à certains seuils.
Charger plus ne veut pas dire utiliser plus. Au-delà d'un certain point, le contexte supplémentaire crée du bruit, pas du signal.

Le mapping noyau OS

Chaque problème résolu par les concepteurs d'OS dans les années 1970 a un équivalent exact en architecture agent :

flowchart LR subgraph os["🖥️ SYSTÈME D'EXPLOITATION"] A1["Config boot (/etc)"] A2["Appels système (libc)"] A3["Bloc de contrôle"] A4["Cache adaptatif"] A5["Interruptions mat."] A6["Processus isolés"] A7["RAM"] A8["Kernel Panic"] end subgraph agent["🤖 ARCHITECTURE AGENT IA"] B1["CLAUDE.md"] B2["SKILL.md"] B3["todo.md"] B4["lessons.md"] B5["Hooks"] B6["Sous-agents"] B7["Fenêtre de contexte"] B8["Context Overflow"] end A1 -..->|"↔"| B1 A2 -..->|"↔"| B2 A3 -..->|"↔"| B3 A4 -..->|"↔"| B4 A5 -..->|"↔"| B5 A6 -..->|"↔"| B6 A7 -..->|"↔"| B7 A8 -..->|"↔"| B8

Ce mapping n'est pas décoratif. Chaque correspondance déverrouille un principe de conception prouvé :

Boot Config → CLAUDE.md : Les configs noyau sont minimales. Votre CLAUDE.md devrait l'être aussi — pas une encyclopédie.
Appels système → SKILL.md : Les bibliothèques se chargent à la demande, pas compilées dans le noyau. Les skills doivent être invoquées quand c'est pertinent.
Cache → lessons.md : Les caches ont des politiques d'éviction (LRU, TTL). Vos leçons aussi — les règles obsolètes doivent expirer.
Isolation processus → Sous-agents : Les processus ont leur propre espace mémoire. Les sous-agents devraient avoir leur propre contexte minimal.

Thermodynamique des agents

Le contexte est de l'énergie. Les instructions sont de l'entropie. Et sans gouvernance active, le système se dégrade.

Première loi — Conservation du contexte

La fenêtre de contexte a un budget énergétique fixe. Chaque token d'instruction consomme de l'énergie qui pourrait servir au raisonnement.

Deuxième loi — L'entropie augmente toujours

Sans élagage actif, l'entropie des instructions augmente toujours. Les règles s'accumulent, se chevauchent, se contredisent. C'est une certitude thermodynamique.

Troisième loi — Le bruit zéro est impossible

Il y aura toujours du contexte non pertinent. L'objectif n'est pas la perfection — c'est maximiser le ratio travail utile / énergie totale dépensée.

Mort thermique = fenêtre de contexte saturée de règles obsolètes sans espace pour le travail réel.

Le ratio d'efficacité contextuelle (CER)

Si on traite le contexte agent comme une ressource système, il faut une métrique :

CER = Tokens utilisés pour le raisonnement / Tokens de contexte total

Cible : CER > 0.6
Attention : CER < 0.4 (surcharge d'instructions)
Critique : CER < 0.2 (mort thermique imminente)

La plupart des configurations que nous avons analysées tournent à un CER de 0,2–0,3. Le prompt système mange 20K tokens. L'historique 40K. L'agent a les instructions mais aucun espace pour raisonner.

Les preuves scientifiques

LOCA-bench (février 2026)

Le papier LOCA-bench démontre que « à mesure que le contexte croît, la fiabilité de l'agent se détériore » — phénomène qu'ils nomment context rot.

Chroma Context Rot (2025)

Chroma a mesuré 18 LLM : « les modèles n'utilisent pas leur contexte uniformément ». Le déclin n'est pas linéaire — c'est brutal et imprévisible, comme des OOM kills du noyau.

Stanford Lost-in-the-Middle

Avec 20 documents (~4 000 tokens), la précision chute de 75 % à 55 % selon la position seule. C'est la métaphore du paging RAM : où vous chargez les données compte autant que ce que vous chargez.

Factory.ai (2026)

Factory.ai l'a dit explicitement : « Les systèmes agentiques efficaces doivent traiter le contexte comme les OS traitent la mémoire et le CPU : des ressources finies à budgéter, compacter et pager intelligemment. »

OpenClaw : l'étude de cas

OpenClaw (ex-Clawdbot) — 220K+ étoiles GitHub — implémente littéralement le Markdown OS :

Skills = Appels système : Chaque SKILL.md s'injecte dans le prompt système quand ses outils sont disponibles.
Fichiers bootstrap = Boot noyau : AGENTS.md, SOUL.md, TOOLS.md sont injectés à chaque tour. La doc avertit explicitement que ces injections consomment des tokens.
Allowlist de skills = Budget mémoire : Le système skills.entries[name].enabled est littéralement de la gestion de budget contextuel.
Architecture sécurité = Ring 0/1/2/3 : Identité d'abord → Périmètre ensuite → Modèle en dernier.

Principes de conception

Minimiser le contexte de boot. Votre CLAUDE.md doit être un noyau minimal.
Charger à la demande. Les skills et la doc doivent se charger quand c'est pertinent.
Évincer les données périmées. TTL sur les leçons. Une règle de 3 mois sur un bug corrigé consomme de la RAM pour rien.
Isoler les processus. Les sous-agents ont leur propre contexte minimal.
Mesurer le CER. En dessous de 0,4 = surcharge d'instructions.
Positionner stratégiquement. Les instructions critiques en début ou fin de contexte.

Plan d'action

Auditez votre prompt système. Plus de 5K tokens = surcharge. Identifiez ce qui peut devenir un skill à la demande.
Implémentez le chargement de skills. Déplacez les procédures de CLAUDE.md vers des SKILL.md à chargement conditionnel.
Ajoutez des TTL aux leçons. Plus vieille que 60 jours sans hit récent ? À élaguer.
Calculez votre CER. Cible : au-dessus de 0,6.
Surveillez la mort thermique. Si votre agent refuse des patterns valides, votre contexte est thermodynamiquement mort.

Appliquez au contexte agent la même discipline que les concepteurs d'OS appliquent à la mémoire du noyau : ne charger que le nécessaire, quand c'est nécessaire, et évincer ce qui est obsolète.

Ceci est la Partie 1 de la Série Eureka — appliquer des disciplines d'ingénierie établies à l'architecture agent IA. Suivant : Pourquoi les instructions de votre agent attaquent votre propre code.

Obtenez la checklist de durcissement complète | Abonnez-vous au digest sécurité hebdomadaire

Votre Agent IA a 200K Tokens de RAM — Et Vous en Gaspillez 80 %

Sommaire

Auditez votre stack agent en 30 minutes