05-05-2026
arXiv AI+ML
🔬 Forschung

Verständnis von emergentem Misalignment durch Feature-Superposition-Geometrie

arXiv:2605.00842v1 Emergentes Misalignment, bei dem Fine-Tuning auf engen, harmlosen Aufgaben schädliches Verhalten hervorruft, stellt eine Schlüsselherausforderung für AI Safety in LLMs dar. Trotz wachsender empirischer Evidenz bleibt der zugrunde liegende Mechanismus unklar

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #forschung