09-04-2026
arXiv AI+ML
🔬 Forschung

RAGEN-2: Reasoning Collapse in Agentic RL

RL-Training von Multi-Turn-LLM-Agenten ist inhärent instabil, und die Reasoning-Qualität bestimmt direkt die Task-Leistung. Entropy wird weit verbreitet zur Verfolgung der Reasoning-Stabilität verwendet. Allerdings misst Entropy nur die Diversität innerhalb derselben Eingabe…

Originalartikel lesen bei arXiv AI+ML →

#llm #forschung