08-05-2026
arXiv AI+ML
🔬 Forschung

Adaptive Berechnungstiefe durch erlernte Token-Routing in Transformern

arXiv:2605.05222v1 Ankündigungstyp: neu Abstract: Standard-Transformer-Architekturen wenden die gleiche Anzahl von Schichten auf jeden Token an, unabhängig von der kontextuellen Schwierigkeit. Wir präsentieren Token-Selective Attention (TSA), ein ergelerntes pro-Token-Gating auf Residual-Updates zwischen konsekutiven Transformer-Blöcken. Jedes

Originalartikel lesen bei arXiv AI+ML →

#llm #ki