20-04-2026
arXiv AI+ML
🔬 Forschung

Die Illusion der Äquivalenz: Systematische FP16-Divergenz bei KV-gecachtem autoregressivem Inference

arXiv:2604.15409v1 Ankündigungstyp: neu Abstract: KV-Caching ist eine verbreitete Optimierung beim autoregressiven Transformer-Inference, lange Zeit als numerisch äquivalent zur Cache-freien Berechnung angenommen. Diese Annahme scheitert bei Standard-FP16-Präzision: Cache-AN und Cache-AUS-Ausführungspfade nutzen unterschiedliche…

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #forschung