13-04-2026
arXiv AI+ML
🔬 Forschung

CSAttention: Centroid-Scoring Attention zur Beschleunigung von LLM Inference

arXiv:2604.08584v1 Ankündigungstyp: neu Abstract: Langkontext-LLMs verlassen sich zunehmend auf erweiterte, wiederverwendbare Prefill-Prompts für Agenten und Domain Q&A, was Attention und KV-Cache zu den dominanten Decode-Zeit-Engpässen macht. Während Sparse Attention Berechnung und Transferkosten reduziert, hat sie Einschränkungen

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #hardware