Designbedingungen für gruppeninternes Lernen von Sequenz-Level-Rewards: Token-Gradienten-Aufhebung
arXiv:2604.13088v1 Bei spärlichen Abschlussrewards sind gruppeninterne Vergleiche zum dominanten Paradigma für die Optimierung von Reasoning-Modellen mittels Reinforcement Learning geworden. Jedoch führt langanhaltendes Training oft zu Problemen wie ineffektiver Akkumulation von Updates (Learning Tax).