InfoQuant: Gestaltung von Aktivierungsverteilungen für Low-Bit-LLM-Quantisierung

arXiv:2605.26175v1 Ankündigungstyp: neu Abstract: Low-Bit-Aktivierungsquantisierung bleibt ein großer Engpass in der effizienten Bereitstellung großer Sprachmodelle (LLM). Die Schwierigkeit besteht nicht nur darin, dass Aktivierungen Ausreißer enthalten, sondern dass ihre Verteilungen oft schlecht für uniforme Low-Bit-Quantisierung geeignet sind