16-04-2026
arXiv AI+ML
🔬 Forschung

KV Packet: Recomputation-freies kontextunabhängiges KV-Caching für LLMs

arXiv:2604.13226v1 Large Language Models (LLMs) verlassen sich stark auf Key-Value (KV) Caching, um Inferenzlatenz zu minimieren. Allerdings sind Standard-KV-Caches kontextabhängig: die Wiederverwendung eines gecachten Dokuments in einem neuen Kontext erfordert die Neuberechnung von KV-Zuständen, um Verschiebungen in der Aufmerksamkeit zu berücksichtigen.

Originalartikel lesen bei arXiv AI+ML →

#llm #forschung