KV Packet: Recomputation-freies kontextunabhängiges KV-Caching für LLMs

arXiv:2604.13226v1 Large Language Models (LLMs) verlassen sich stark auf Key-Value (KV) Caching, um Inferenzlatenz zu minimieren. Allerdings sind Standard-KV-Caches kontextabhängig: die Wiederverwendung eines gecachten Dokuments in einem neuen Kontext erfordert die Neuberechnung von KV-Zuständen, um Verschiebungen in der Aufmerksamkeit zu berücksichtigen.