BASIS: Balanced Activation Sketching mit invarianten Skalaren für Ghost Backpropagation
arXiv:2604.16324v1 Der Aktivierungsspeicher für exakte Backpropagation skaliert linear mit Netzwerktiefe, Kontextlänge und Feature-Dimensionalität und bildet einen räumlichen Engpass O(L * BN), wobei B die Sequence-Batch-Kardinalität und N die Feature-Dimension ist