eOptShrinkQ: Quasi-verlustfreie KV-Cache-Komprimierung durch optimales spektrales Entrauschen und Quantisierung

arXiv:2605.02905v1 Ankündigungstyp: neu Abstract: Wir zeigen, dass der Key-Value (KV)-Cache in Transformer-Attention-Köpfen eine natürliche Zerlegung in eine niedrig-rangige gemeinsame Kontext-Komponente und einen vollrangigen Token-Residuum zulässt, der gut durch das Spike Random Matrix Modell beschrieben wird. Diese Beobachtung