VeriGate: Verifier-Gated Schritt-Ebenen-Supervision für GRPO
arXiv:2605.30451v1 Ankündigungstyp: neu Zusammenfassung: Group Relative Policy Optimization (GRPO) ist ein effektives Rezept zum Trainieren von Reasoning-Modellen mit verifier-basierten Outcome-Rewards, aber seine Supervision ist spärlich: Wenn alle gesampelten Trajektorien für einen Prompt das gleiche Verifier-Reward erhalten, ist die Gruppen-Re