Benchmark Shadows: Dateneralignment, Parameter-Footprints und Generalisierung in Large Language Models

arXiv:2604.07363v1 Announcement Type: new Abstract: Large Language Models erzielen oft starke Benchmark-Gewinne ohne entsprechende Verbesserungen der breiteren Fähigkeiten. Wir vermuten, dass diese Diskrepanz aus Unterschieden in Trainingsregimen herrührt, die durch Datenverteilungen entstehen. Um dies zu untersuchen