01-06-2026
arXiv AI+ML
🔬 Forschung

VeriGate: Verifier-Gated Schritt-Ebenen-Supervision für GRPO

arXiv:2605.30451v1 Ankündigungstyp: neu Zusammenfassung: Group Relative Policy Optimization (GRPO) ist ein effektives Rezept zum Trainieren von Reasoning-Modellen mit verifier-basierten Outcome-Rewards, aber seine Supervision ist spärlich: Wenn alle gesampelten Trajektorien für einen Prompt das gleiche Verifier-Reward erhalten, ist die Gruppen-Re

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #forschung