Generieren, Filtern, Steuern, Abspielen: Eine umfassende Übersicht der Rollout-Strategien für LLM Reinforcement Learning

arXiv:2605.02913v1 Ankündigungstyp: neu Abstract: Reinforcement Learning (RL) ist ein zentrales Post-Training-Werkzeug zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle geworden. In diesen Systemen ist der Rollout die von einem Prompt bis zur Beendigung gezogene Trajektorie, einschließlich zwischengeschalteter Reasoning-Schritte