06-05-2026
arXiv AI+ML
🔬 Forschung

Wenn die Safety-Geometrie zusammenbricht: Fine-Tuning-Anfälligkeiten in Agentic Guard Models

arXiv:2605.02914v1 Ankündigungstyp: neu Abstract: Ein Guard-Modell, das auf vollständig gutartigen Daten fine-getuned wird, kann sämtliche Safety-Ausrichtung verlieren – nicht durch gegnerische Manipulation, sondern durch Standard-Domänen-Spezialisierung. Wir demonstrieren diesen Fehler über drei speziell entwickelte Safety-Klassifikatoren – LlamaGuard

Originalartikel lesen bei arXiv AI+ML →

#ki #cybersecurity