NumLeak: Öffentliche numerische Benchmarks als latente Labels in Foundation Models
arXiv:2605.30393v1 Ankündigungstyp: neu Zusammenfassung: Öffentliche numerische Benchmarks erscheinen im Pretraining, daher kann eine Evaluierung, die an ein Datum gebunden ist, eher memorierte Rückrufleistung als Out-of-Sample-Fähigkeit messen. Wir stellen NumLeak vor, ein Messwert-Framework, das API-Boundary-Tests auf Production