MACS: Modalitäts-bewusste Kapazitätsskalierung für effiziente multimodale MoE-Inferenz
arXiv:2605.05225v1 Ankündigungstyp: neu Abstract: Mixture-of-Experts Multimodale Large Language Models (MoE MLLMs) leiden unter einem signifikanten Effizienzengpass während Expert Parallelism (EP) Inferenz aufgrund des Straggler-Effekts. Dieses Problem wird im multimodalen Kontext verschärft, da bestehende Token-Co