Orth-Dion: Beseitigung geometrischer Fehlanpassung in verteilter niedrig-rangiger Spektral-Optimierung
arXiv:2605.16341v1 Ankündigung: neu Abstract: Niedrig-rangige Gradient-Kompression reduziert Kommunikation im verteilten Training durch Darstellung von Updates mit Rang-$r$-Faktoren. Dion ist eine kürzliche Methode, die Muon, einen spektralen Optimierer, der Momentum orthogonalisiert, unter Verwendung eines Schritts der Power-Iterationen approximiert