Ein selbstaufmerksamkeitsbasierter Meta-Optimizer mit gruppenadaptiven Lernraten und Weight Decay
arXiv:2605.04055v1 Ankündigungstyp: neu Abstract: Adaptive Optimizers wie AdamW wenden einheitliche Hyperparameter auf alle Parametergruppen an und ignorieren heterogene Optimierungsdynamiken über Schichten und Module hinweg. Wir beheben diese Limitierung, indem wir MetaAdamW vorschlagen - einen neuen Optimizer, der einen Self