Verbesserung der Stichprobeneffizienz beim Reinforcement-Learning-basierten Durchsatzregelung: Ersatz des Kritikers durch ein adaptives Reduced-Order-Modell

arXiv:2604.04986v1 Modellfreie Deep Reinforcement Learning (DRL)-Methoden leiden unter schlechter Stichprobeneffizienz. Um diese Einschränkung zu überwinden, stellt diese Arbeit ein adaptives Reduced-Order-Model (ROM)-basiertes Reinforcement-Learning-Framework für aktive Durchsatzregelung vor