Sparse Prefix Caching für hybride und rekurrente LLM-Inferenz

arXiv:2605.05219v1 Ankündigungstyp: neu Abstract: Prefix Caching ist eine wichtige Latenz-Optimierung für autoregressive LLM-Inferenz, aber bestehende Systeme gehen von dichter pro-Token Key/Value-Wiederverwendung aus. State-Space Models ändern die Problemstruktur: eine rekurrente Schicht kann von einem einzigen gespeicherten Zustand fortfahren