LayerBoost: Schicht-bewusste Aufmerksamkeitsreduktion für effiziente LLMs

arXiv:2604.22050v1 Announcement Type: neu Abstract: Transformer verlassen sich hauptsächlich auf Softmax-Aufmerksamkeit, die quadratische Komplexität in Bezug auf Sequenzlänge einführt und weiterhin ein Hauptengpass für effiziente Inferenz bleibt. Frühere Arbeiten zu linearer oder hybrider Aufmerksamkeit ersetzen typischerweise Softmax-Aufmerksamkeit