Die lange Verzögerung bei arithmetischer Verallgemeinerung: Wenn gelernte Repräsentationen das Verhalten übertreffen

arXiv:2604.13082v1 Grokking in Transformern, die auf algorithmischen Aufgaben trainiert sind, wird durch eine lange Verzögerung zwischen dem Anpassungspegel des Trainingssatzes und abrupter Verallgemeinerung charakterisiert, aber die Quelle dieser Verzögerung bleibt schlecht verstanden. In Encoder-Decoder-Arithmetikmodellen argumentieren wir, dass dies