HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation für Mixture-of-Experts-Modelle

arXiv:2605.18795v1 Ankündigungstyp: neu Abstract: Low-Rank Adaptation (LoRA) dominiert das parametereffiziente Fine-Tuning großer Sprachmodelle, doch die meisten Varianten zielen auf dichte Architekturen. Mixture-of-Experts (MoE) Modelle skalieren Parameter mit nahezu konstanten Pro-Token-Berechnungen, und ihre spärlichen Aktivierungen