Sicherheit von KI-Agenten
Wenn ein KI-Agent eine Webseite, die Antwort eines Sub-Agenten oder die Dateien eines Pakets liest, wird dieser Text Teil dessen, was das Modell „weiß“ – und er kann in einen Befehl umgewandelt werden. Diese Tools ziehen eine Grenze zwischen Daten, die der Agent liest und Anweisungen, denen der Agent folgt.
Warum das wichtig ist
Diese Art von Angriff wird als indirekte prompt injection bezeichnet, und OWASP stuft die prompt injection in seinen Top 10 für LLM-Anwendungen als LLM01 – das größte Risiko ein. Das ist keine Theorie: Forscher haben Fälle dokumentiert, in denen Agenten dazu gebracht wurden, geheime Informationen preiszugeben und Befehle auszuführen, nur weil sie bestimmte Inhalte gelesen haben.
Die eingeschleusten Befehle sind für den Menschen unsichtbar – versteckt in Unicode-Zeichen ohne Breite, außerhalb des Bildschirms liegendem CSS, HTML-Kommentaren oder manipulierten Konfigurationsdateien –, werden aber vom Modell klar und deutlich gelesen, das keine Möglichkeit hat zu erkennen, dass der Text aus einer nicht vertrauenswürdigen Quelle stammt. Bleibt ein Agent ungeschützt, kann er Dein CLAUDE.md umschreiben und jede zukünftige Session manipulieren, einen „Diagnose“-Befehl von einer Seite abgreifen, der Deine Anmeldedaten abzieht, oder die payload eines Angreifers über einen node -e-Einzeiler ausführen. Bei der TrapDoor-Kampagne im Mai 2026 taten bösartige Pakete genau das – sie platzierten versteckte Anweisungen in CLAUDE.md / .cursorrules, um KI-Assistenten zu Komplizen zu machen.
→ Ausführliche Erklärung: Was ist prompt injection? – wie es funktioniert, warum Modelle darauf hereinfallen, die Angriffsvektoren und wie man sich dagegen schützen kann.
Weiterführende Literatur: OWASP — LLM01: Prompt injection · Palo Alto Unit 42 — Prompt injection bei KI-Agenten · TrapDoor (The Hacker News ).
Die Werkzeuge
safe-fetch
Sobald Dein KI-Agent eine Webseite öffnet, kann alles, was darauf versteckt ist, anfangen, Deinem Agenten Befehle zu erteilen. safe-fetch fetcht diese Seite in einem abgeschotteten Einweg-Container, entfernt still und leise die versteckten Fallen und gibt den Text klar gekennzeichnet als etwas zum Lesen, keine Befehle, denen man folgen muss zurück – damit Dein Agent das Web nutzen kann, ohne hereingelegt zu werden.
Mehr über safe-fetch erfahren →
mcp-safe-fetch
Nutzt Du Claude Desktop oder einen anderen MCP-Client? Mit „mcp-safe-fetch“ genießt Du nach einer einmaligen Einrichtung denselben Schutz: Jede Seite, die Dein Assistent fetcht, wird zuerst bereinigt, und er kann nicht unbemerkt dazu gebracht werden, private Adressen in Deinem eigenen Netzwerk anzuzapfen.
Mehr über mcp-safe-fetch erfahren →
claude-code-prompt-injection-gate
Claude Code liest den ganzen Tag lang Webseiten, Antworten anderer Agenten und die Dateien in Paketen – und in jedem davon könnte sich ein Befehl verstecken. claude-code-prompt-injection-gate zieht eine klare Grenze, sodass Text nur gelesen, niemals ausgeführt wird, und sperrt die Dateien ab, die ein Angreifer am liebsten überschreiben würde, wie zum Beispiel Dein CLAUDE.md.
Mehr über claude-code-prompt-injection-gate erfahren →
Bist Du neu bei diesem Thema?
Fang mit der ausführlichen Erklärung an — Was ist prompt injection? .
Und dieselbe TrapDoor-Kampagne hat auch bösartige Pakete eingeschleust – die andere Hälfte der Bedrohung – siehe die supply-chain gates , die diese blockieren, bevor sie installiert werden.
