Qu'est-ce que le prompt injection?
Le prompt injection se produit lorsqu'un attaquant insère des instructions malveillantes dans une entrée traitée par un LLM, amenant le modèle à dévier de son comportement prévu.
Deux types : injection directe (l'attaquant interagit directement avec l'IA) et injection indirecte (instructions malveillantes intégrées dans des données que l'IA traite).
Pourquoi c'est pire dans les systèmes agentiques
Dans un chatbot simple, une injection réussie peut provoquer un comportement inapproprié. Dans un système agentique, elle peut provoquer des actions réelles irréversibles : exécuter des commandes shell, lire et exfiltrer des fichiers, faire des requêtes HTTP, envoyer des emails.
Exemples réels de l'incident Clawdbot
Attaque par commentaire HTML caché. Empoisonnement de documents. Manipulation des sorties d'outils.
Stratégies de défense efficaces
- Hiérarchie d'instructions stricte dans le system prompt
- Sandboxing des permissions d'outils
- Validation des sorties
- Isolation du contexte
- Détection d'anomalies
