CSAttention: Centroid-Scoring Attention zur Beschleunigung von LLM Inference
arXiv:2604.08584v1 Ankündigungstyp: neu Abstract: Langkontext-LLMs verlassen sich zunehmend auf erweiterte, wiederverwendbare Prefill-Prompts für Agenten und Domain Q&A, was Attention und KV-Cache zu den dominanten Decode-Zeit-Engpässen macht. Während Sparse Attention Berechnung und Transferkosten reduziert, hat sie Einschränkungen