16-04-2026
arXiv AI+ML
🔬 Forschung

Designbedingungen für gruppeninternes Lernen von Sequenz-Level-Rewards: Token-Gradienten-Aufhebung

arXiv:2604.13088v1 Bei spärlichen Abschlussrewards sind gruppeninterne Vergleiche zum dominanten Paradigma für die Optimierung von Reasoning-Modellen mittels Reinforcement Learning geworden. Jedoch führt langanhaltendes Training oft zu Problemen wie ineffektiver Akkumulation von Updates (Learning Tax).

Originalartikel lesen bei arXiv AI+ML →

#ki #forschung #llm