22-04-2026
arXiv AI+ML
🔬 Forschung

Verständnis der Robustheit von Sparse Autoencodern

arXiv:2604.18756v1 Large Language Models (LLMs) bleiben anfällig für optimierungsbasierte Jailbreak-Angriffe, die interne Gradientenstrukturen ausnutzen. Während Sparse Autoencoders (SAEs) häufig für Interpretierbarkeit verwendet werden, bleiben ihre Robustheitsauswirkungen unterexplort…

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #cybersecurity