Verständnis der Robustheit von Sparse Autoencodern
arXiv:2604.18756v1 Large Language Models (LLMs) bleiben anfällig für optimierungsbasierte Jailbreak-Angriffe, die interne Gradientenstrukturen ausnutzen. Während Sparse Autoencoders (SAEs) häufig für Interpretierbarkeit verwendet werden, bleiben ihre Robustheitsauswirkungen unterexplort…