Prune-Quantize-Distill: Eine geordnete Pipeline für effiziente neuronale Netzwerk-Kompression

arXiv:2604.04988v1 Moderne Deployment erfordert oft, Genauigkeit gegen Effizienz unter engen CPU- und Speicherbeschränkungen einzutauschen, doch gängige Kompressor-Proxies wie Parameteranzahl oder FLOPs sagen zuverlässig nicht die Inferenzzeit vorhersagen