19-05-2026
arXiv AI+ML
🔬 Forschung

Reduzierung der Credit-Assignment-Varianz durch kontrafaktische Reasoning-Pfade

arXiv:2605.16302v1 Ankündigung: neu Abstract: Reinforcement Learning für Multi-Step-Reasoning mit großen Language Models (LLMs) verlässt sich oft auf spärliche terminalbasierte Rewards, was zu schlechten Credit-Assignment-Bedingungen führt, bei denen das finale Feedback gleichmäßig über alle Zwischenschritte verteilt wird. Dies

Originalartikel lesen bei arXiv AI+ML →

#llm #ki #forschung