LKV: End-to-End Learning von kopfweisen Budgets und Token-Selektion für LLM KV-Cache-Eviction

arXiv:2605.06676v1 Long-Context Inference in Large Language Models (LLMs) ist durch das lineare Wachstum des Key-Value (KV) Cache Memory begrenzt. Bestehende KV-Cache-Kompressions-Paradigmen sind grundlegend durch Heuristiken limitiert: heuristische Budgetierung beruht auf statistischen Priors