08-05-2026
arXiv AI+ML
🔬 Forschung

Sparse Prefix Caching für hybride und rekurrente LLM-Inferenz

arXiv:2605.05219v1 Ankündigungstyp: neu Abstract: Prefix Caching ist eine wichtige Latenz-Optimierung für autoregressive LLM-Inferenz, aber bestehende Systeme gehen von dichter pro-Token Key/Value-Wiederverwendung aus. State-Space Models ändern die Problemstruktur: eine rekurrente Schicht kann von einem einzigen gespeicherten Zustand fortfahren

Originalartikel lesen bei arXiv AI+ML →

#llm #ki