Verständnis von emergentem Misalignment durch Feature-Superposition-Geometrie

arXiv:2605.00842v1 Emergentes Misalignment, bei dem Fine-Tuning auf engen, harmlosen Aufgaben schädliches Verhalten hervorruft, stellt eine Schlüsselherausforderung für AI Safety in LLMs dar. Trotz wachsender empirischer Evidenz bleibt der zugrunde liegende Mechanismus unklar