04-05-2026
arXiv AI+ML
🔬 Forschung

Minimale, lokale, kausale Erklärungen für Jailbreak-Erfolg in großen Sprachmodellen

arXiv:2605.00123v1 Ankündigungstyp: neu Abstract: Sicherheitstrainierte große Sprachmodelle (LLMs) können oft dazu veranlasst werden, schädliche Anfragen durch Jailbreak-Prompts zu beantworten. Da uns ein robustes Verständnis dafür fehlt, warum LLMs anfällig für Jailbreaks sind, werden zukünftige Frontier-Modelle…

Originalartikel lesen bei arXiv AI+ML →

#llm #ki #cybersecurity