Verhaltensinduziertes Mirror-Prox Temporal-Difference Learning für schnellere Off-Policy Vorhersage

arXiv:2605.28849v1 Ankündigungstyp: neu Zusammenfassung: Gradient Temporal-Difference-Methoden bieten stabile Off-Policy-Vorhersagen mit linearer Funktionsapproximation, aber ihre praktische Leistung wird stark durch die Geometrie beeinflusst, die durch die Hilfsmetrik induziert wird. Bestehende Mirror-Prox TD-Methoden