07-05-2026
arXiv AI+ML
🔬 Forschung

Ein selbstaufmerksamkeitsbasierter Meta-Optimizer mit gruppenadaptiven Lernraten und Weight Decay

arXiv:2605.04055v1 Ankündigungstyp: neu Abstract: Adaptive Optimizers wie AdamW wenden einheitliche Hyperparameter auf alle Parametergruppen an und ignorieren heterogene Optimierungsdynamiken über Schichten und Module hinweg. Wir beheben diese Limitierung, indem wir MetaAdamW vorschlagen - einen neuen Optimizer, der einen Self

Originalartikel lesen bei arXiv AI+ML →

#ki #forschung