Multi-Rollout On-Policy Distillation über Peer-Erfolge und -Fehler

arXiv:2605.12652v1 Ankündigungstyp: neu Abstract: Large Language Models werden oft mit spärlichen Verifizierer-Rewards post-trainiert, die anzeigen, ob eine gesampelte Trajektorie erfolgreich ist, aber begrenzte Hinweise geben, wo Reasoning erfolgreich ist oder fehlschlägt. On-Policy Distillation (OPD) bietet dichtere Token-Level