Beweisbare gemeinsame Dekontamination für das Benchmarking mehrerer großer Sprachmodelle
Benchmark-Datenkontamination ist zu einer zentralen Herausforderung in der LLM-Bewertung geworden: Wenn Bewertungsbeispiele in den Trainingsdaten eines oder mehrerer geprüfter Modelle vorkommen, kann die gemeldete Leistung überhöht sein und Modellvergleiche werden unzuverlässig.