GEM: Geometrisches Entropie-Mischen für optimale LLM-Datenkuration
arXiv:2605.26121v1 Ankündigungstyp: neu Abstract: Die Effizienz des LLM-Vortrainings hängt zunehmend von der Datenzusammensetzung ab, nicht vom reinen Volumen. Das optimale Mischen wird jedoch durch Kategorisierungsfehler behindert: menschliche Taxonomien leiden unter ontologischen Fehlausrichtungen, und Euklidisches Clustering kann Einbettungsfehler nicht beheben