06-05-2026
arXiv AI+ML
🔬 Forschung

eOptShrinkQ: Quasi-verlustfreie KV-Cache-Komprimierung durch optimales spektrales Entrauschen und Quantisierung

arXiv:2605.02905v1 Ankündigungstyp: neu Abstract: Wir zeigen, dass der Key-Value (KV)-Cache in Transformer-Attention-Köpfen eine natürliche Zerlegung in eine niedrig-rangige gemeinsame Kontext-Komponente und einen vollrangigen Token-Residuum zulässt, der gut durch das Spike Random Matrix Modell beschrieben wird. Diese Beobachtung

Originalartikel lesen bei arXiv AI+ML →

#ki #llm