Mechanistische Ursprünge des katastrophalen Vergessens: warum RL Circuits besser bewahrt als SFT?

arXiv:2605.28860v1 Ankündigungstyp: neu Zusammenfassung: Fine-Tuning von großen Sprachmodellen (LLMs) induziert häufig katastrophales Vergessen früherer Fähigkeiten. Jüngste Arbeiten haben gezeigt, dass Reinforcement Learning (RL) frühere Fähigkeiten effektiver behält als Supervised Fine-Tuning (SFT), wird zugeschrieben