20-04-2026
arXiv AI+ML
🔬 Forschung

Dispatch-bewusste Ragged Attention für beschnittene Vision Transformer

arXiv:2604.15408v1 Ankündigungstyp: neu Abstract: Token-Pruning-Methoden für Vision Transformer (ViTs) versprechen quadratische Reduktionen bei Attention-FLOPs durch das Verwerfen uninformativer Patches. Doch wenn beschnittene Sequenzen mit modernsten Variable-Length-Attention-APIs ausgeführt werden – einschließlich FlashAttention…

Originalartikel lesen bei arXiv AI+ML →

#ki #forschung #hardware