Subkritische Signalausbreitung bei Initialisierung in normalisierungsfreien Transformern

arXiv:2604.11890v1 Ankündigungstyp: Neu Abstract: Wir untersuchen die Signalausbreitung bei Initialisierung in Transformern durch die durchschnittliche partielle Jacobi-Norm (APJN), ein Maß für die Gradient-Verstärkung über Schichten hinweg. Wir erweitern die APJN-Analyse auf Transformer mit bidirektionaler Aufmerksamkeit und Permutationssymmetrie…