Adaptive Berechnungstiefe durch erlernte Token-Routing in Transformern

arXiv:2605.05222v1 Ankündigungstyp: neu Abstract: Standard-Transformer-Architekturen wenden die gleiche Anzahl von Schichten auf jeden Token an, unabhängig von der kontextuellen Schwierigkeit. Wir präsentieren Token-Selective Attention (TSA), ein ergelerntes pro-Token-Gating auf Residual-Updates zwischen konsekutiven Transformer-Blöcken. Jedes