22-05-2026
arXiv AI+ML
🔬 Forschung

Beweisbare gemeinsame Dekontamination für das Benchmarking mehrerer großer Sprachmodelle

Benchmark-Datenkontamination ist zu einer zentralen Herausforderung in der LLM-Bewertung geworden: Wenn Bewertungsbeispiele in den Trainingsdaten eines oder mehrerer geprüfter Modelle vorkommen, kann die gemeldete Leistung überhöht sein und Modellvergleiche werden unzuverlässig.

Originalartikel lesen bei arXiv AI+ML →

#llm #forschung