11-05-2026
arXiv AI+ML
🔬 Forschung

LKV: End-to-End Learning von kopfweisen Budgets und Token-Selektion für LLM KV-Cache-Eviction

arXiv:2605.06676v1 Long-Context Inference in Large Language Models (LLMs) ist durch das lineare Wachstum des Key-Value (KV) Cache Memory begrenzt. Bestehende KV-Cache-Kompressions-Paradigmen sind grundlegend durch Heuristiken limitiert: heuristische Budgetierung beruht auf statistischen Priors

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #forschung