Wenn die Safety-Geometrie zusammenbricht: Fine-Tuning-Anfälligkeiten in Agentic Guard Models

arXiv:2605.02914v1 Ankündigungstyp: neu Abstract: Ein Guard-Modell, das auf vollständig gutartigen Daten fine-getuned wird, kann sämtliche Safety-Ausrichtung verlieren – nicht durch gegnerische Manipulation, sondern durch Standard-Domänen-Spezialisierung. Wir demonstrieren diesen Fehler über drei speziell entwickelte Safety-Klassifikatoren – LlamaGuard