Sind flache Minima eine Illusion?

arXiv:2605.05209v1 Ankündigungstyp: neu Abstract: Neuronale Netzwerke, die in flachen Regionen der Verlustlandschaft landen, generalisieren besser als solche in scharfen Regionen. Sharpness-Aware Minimisation nutzt dies, um die Generalisierung zu verbessern. Aber funktionserhaltende Umparametrisierung kann die Hess