08-05-2026
arXiv AI+ML
🔬 Forschung

MACS: Modalitäts-bewusste Kapazitätsskalierung für effiziente multimodale MoE-Inferenz

arXiv:2605.05225v1 Ankündigungstyp: neu Abstract: Mixture-of-Experts Multimodale Large Language Models (MoE MLLMs) leiden unter einem signifikanten Effizienzengpass während Expert Parallelism (EP) Inferenz aufgrund des Straggler-Effekts. Dieses Problem wird im multimodalen Kontext verschärft, da bestehende Token-Co

Originalartikel lesen bei arXiv AI+ML →

#llm #ki