RAGEN-2: Reasoning Collapse in Agentic RL
RL-Training von Multi-Turn-LLM-Agenten ist inhärent instabil, und die Reasoning-Qualität bestimmt direkt die Task-Leistung. Entropy wird weit verbreitet zur Verfolgung der Reasoning-Stabilität verwendet. Allerdings misst Entropy nur die Diversität innerhalb derselben Eingabe…