14-05-2026
arXiv AI+ML
🔬 Forschung

Multi-Rollout On-Policy Distillation über Peer-Erfolge und -Fehler

arXiv:2605.12652v1 Ankündigungstyp: neu Abstract: Large Language Models werden oft mit spärlichen Verifizierer-Rewards post-trainiert, die anzeigen, ob eine gesampelte Trajektorie erfolgreich ist, aber begrenzte Hinweise geben, wo Reasoning erfolgreich ist oder fehlschlägt. On-Policy Distillation (OPD) bietet dichtere Token-Level

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #forschung