Der Lebenszyklus der Spektralkante: Von Gradient Learning zur Weight-Decay-Kompression

arXiv:2604.07380v1 Announcement Type: new Abstract: Wir zerlegen die Spektralkante - die dominierende Richtung der Gram-Matrix von Parameterupdates - in ihre Gradient- und Weight-Decay-Komponenten während Grokking in zwei Sequenzaufgaben (Dyck-1 und SCAN). Wir finden einen scharfen zweigeteilten Lebenszyklus: vor Grokking