SignMuon: Kommunikationseffiziente verteilte Muon-Optimierung
arXiv:2605.16311v1 Ankündigung: neu Abstract: Verteiltes Training großer neuronaler Netze wird durch vollständige Gradient-Kommunikation und koordinatenweise Optimierer begrenzt, die die Matrizenstruktur von Gewichtstensoren ignorieren. Wir schlagen Sign-Muon vor, einen 1-Bit-, matrizengestützten Optimierer, der kombiniert