Verzögerung, Plateau oder Zusammenbruch: Evaluierung der Auswirkungen systematischer Verifikationsfehler auf RLVR

arXiv:2605.02909v1 Ankündigungstyp: neu Abstract: Reinforcement Learning mit verifizierbaren Rewards (RLVR) ist ein leistungsstarker Ansatz zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle geworden. Während RLVR für Aufgaben mit verifizierbaren Ground-Truth-Antworten konzipiert ist, arbeiten reale Verifikatoren