Feature-Geometrie von LoRA-Adaptern: Eine Sparse Autoencoder-Analyse von Repräsentationsdivergenz in Fine-Tuned Sprachmodellen

arXiv:2605.28896v1 Ankündigungstyp: neu Zusammenfassung: Low-Rank Adaptation (LoRA) hat sich als weit verbreitete Methode zur Anpassung großer Sprachmodelle etabliert, doch die durch LoRA Fine-Tuning induzierten internen Repräsentationsänderungen bleiben unzureichend verstanden. In dieser Arbeit untersuchen wir die Geometrie von