Die Illusion der Äquivalenz: Systematische FP16-Divergenz bei KV-gecachtem autoregressivem Inference
arXiv:2604.15409v1 Ankündigungstyp: neu Abstract: KV-Caching ist eine verbreitete Optimierung beim autoregressiven Transformer-Inference, lange Zeit als numerisch äquivalent zur Cache-freien Berechnung angenommen. Diese Annahme scheitert bei Standard-FP16-Präzision: Cache-AN und Cache-AUS-Ausführungspfade nutzen unterschiedliche…