Sequenzielle KV-Cache-Kompression via probabilistische Language Tries: Jenseits der Shannon-Grenze pro Vektor

arXiv:2604.15356v1 Ankündigungstyp: neu Abstract: Aktuelle Arbeiten zur KV-Cache-Quantisierung, kulminierend in TurboQuant, haben sich der Shannon-Entropie-Grenze für die Pro-Vektor-Kompression von Transformer Key-Value-Caches genähert. Wir beobachten, dass diese Grenze für ein deutlich schwächeres Problem gilt als das, das tatsächlich…