Geometry-Lite: Interpretierbare Sicherheitsprüfung über schichtenweise Rand-Geometrie
arXiv:2605.20241v1 Ankündigungstyp: neu Zusammenfassung: Prompt-Level-Sicherheitsprüfer für Large Language Models verwenden versteckte Zustandsdarstellungen, um sichere von unsicheren Prompts zu trennen, doch starke durchschnittliche Erkennungsleistung erklärt nicht die Geometrie dieser Trennung. Besonders bleibt unklar, wie