27-05-2026
arXiv AI+ML
🔬 Forschung

GEM: Geometrisches Entropie-Mischen für optimale LLM-Datenkuration

arXiv:2605.26121v1 Ankündigungstyp: neu Abstract: Die Effizienz des LLM-Vortrainings hängt zunehmend von der Datenzusammensetzung ab, nicht vom reinen Volumen. Das optimale Mischen wird jedoch durch Kategorisierungsfehler behindert: menschliche Taxonomien leiden unter ontologischen Fehlausrichtungen, und Euklidisches Clustering kann Einbettungsfehler nicht beheben

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #forschung