Theoretisch-optimale Quantisierung basierend auf Flachheit

arXiv:2605.18800v1 Ankündigungstyp: neu Abstract: Post-Training Quantisierung hat sich als weit verbreitete Technik zur Kompression und Beschleunigung der Inferenz großer Sprachmodelle etabliert. Die primären Herausforderungen bei LLM-Quantisierung entstehen durch Aktivierungs-Ausreißer, die erheblich