Tensor Cache: Eviction-basierter asoziativer Speicher für Transformer
arXiv:2605.22884v1 Announce Type: new Abstract: Autoregressive Transformer KV-Caches wachsen linear mit der Kontextlänge; Sliding-Window-Caching begrenzt den Speicher, verwirft aber verdrängte Token vollständig, sodass relevante Belege außerhalb des Fensters unzugänglich werden. Wir stellen Tensor Cache vor, einen zweistufigen