Kontinuierliche Destillation von Lehrermodellen aus verschiedenen Domänen

arXiv:2605.04059v1 Ankündigungstyp: neu Abstract: Deep Learning Modelle wachsen weiter, wobei einige mehr Speicher benötigen als viele große Datensätze. Deshalb führen wir ein neues Paradigma ein: Continual Distillation (CD), wobei ein Student sequenziell von einem Stream von Lehrermodellen ohne Beibehaltung lernt