Strukturelle Instabilität von Feature-Komposition
arXiv:2605.05223v1 Ankündigungstyp: neu Abstract: Sparse Autoencoders (SAEs) haben sich als paradigmatisches Verfahren zur Entwirrrung von Feature-Überlagerung in Transformer-basierten Architekturen etabliert und ermöglichen präzise Kontrolle durch Aktivierungssteuerung. Jedoch sind die theoretischen Grundlagen der kompositionalen Steuerung