Dormante Experten erwecken: Counterfactual Routing zur Minderung von MoE-Halluzinationen

arXiv:2604.14246v1 Sparse Mixture-of-Experts (MoE) Modelle haben bemerkenswerte Skalierbarkeit erreicht, bleiben aber anfällig für Halluzinationen, insbesondere bei der Verarbeitung von Long-Tail-Wissen. Dies resultiert aus statischem Top-k-Routing, wobei Router dazu neigen.