Dispatch-bewusste Ragged Attention für beschnittene Vision Transformer
arXiv:2604.15408v1 Ankündigungstyp: neu Abstract: Token-Pruning-Methoden für Vision Transformer (ViTs) versprechen quadratische Reduktionen bei Attention-FLOPs durch das Verwerfen uninformativer Patches. Doch wenn beschnittene Sequenzen mit modernsten Variable-Length-Attention-APIs ausgeführt werden – einschließlich FlashAttention…