11-05-2026
arXiv AI+ML
🔬 Forschung

RateQuant: Optimale Mixed-Precision KV-Cache-Quantisierung durch Rate-Distortion-Theorie

arXiv:2605.06675v1 Large Language Models speichern alle zuvor berechneten Key-Value (KV) Paare während der Generierung, und dieser KV-Cache wächst linear mit der Sequenzlänge, was ihn zu einem primären Memory-Engpass beim Deployment macht. Die Quantisierung des KV-Cache auf weniger Bits reduziert diesen

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #forschung