29-05-2026
arXiv AI+ML
🔬 Forschung

Mechanistische Ursprünge des katastrophalen Vergessens: warum RL Circuits besser bewahrt als SFT?

arXiv:2605.28860v1 Ankündigungstyp: neu Zusammenfassung: Fine-Tuning von großen Sprachmodellen (LLMs) induziert häufig katastrophales Vergessen früherer Fähigkeiten. Jüngste Arbeiten haben gezeigt, dass Reinforcement Learning (RL) frühere Fähigkeiten effektiver behält als Supervised Fine-Tuning (SFT), wird zugeschrieben

Originalartikel lesen bei arXiv AI+ML →

#llm #ki #forschung