Reduzierung der Credit-Assignment-Varianz durch kontrafaktische Reasoning-Pfade
arXiv:2605.16302v1 Ankündigung: neu Abstract: Reinforcement Learning für Multi-Step-Reasoning mit großen Language Models (LLMs) verlässt sich oft auf spärliche terminalbasierte Rewards, was zu schlechten Credit-Assignment-Bedingungen führt, bei denen das finale Feedback gleichmäßig über alle Zwischenschritte verteilt wird. Dies