StoSignSGD: Unverzerrte strukturelle Stochastizität behebt SignSGD zum Training großer Sprachmodelle

arXiv:2604.15416v1 Ankündigungstyp: neu Abstract: Sign-basierte Optimierungsalgorithmen wie SignSGD haben große Aufmerksamkeit für ihre bemerkenswerte Leistung beim verteilten Lernen und Training großer Foundation Models erhalten. Trotz ihrer empirischen Überlegenheit ist bekannt, dass SignSGD bei…