Internalisierung von Outcome Supervision in Process Supervision: Ein neues Paradigma für Reinforcement Learning zum Reasoning
arXiv:2605.05226v1 Ankündigungstyp: neu Abstract: Die zentrale Herausforderung des Reinforcement Learning zum Reasoning liegt nicht nur in der Spärlichkeit der Outcome-Level Überwachung, sondern fundamental darin, wie Feedback, das nur am Ende einer Sequenz bereitgestellt wird, in feinkörnige Lernsignale umgewandelt wird