Minimale, lokale, kausale Erklärungen für Jailbreak-Erfolg in großen Sprachmodellen

arXiv:2605.00123v1 Ankündigungstyp: neu Abstract: Sicherheitstrainierte große Sprachmodelle (LLMs) können oft dazu veranlasst werden, schädliche Anfragen durch Jailbreak-Prompts zu beantworten. Da uns ein robustes Verständnis dafür fehlt, warum LLMs anfällig für Jailbreaks sind, werden zukünftige Frontier-Modelle…