29-05-2026
arXiv AI+ML
🔬 Forschung

Verhaltensinduziertes Mirror-Prox Temporal-Difference Learning für schnellere Off-Policy Vorhersage

arXiv:2605.28849v1 Ankündigungstyp: neu Zusammenfassung: Gradient Temporal-Difference-Methoden bieten stabile Off-Policy-Vorhersagen mit linearer Funktionsapproximation, aber ihre praktische Leistung wird stark durch die Geometrie beeinflusst, die durch die Hilfsmetrik induziert wird. Bestehende Mirror-Prox TD-Methoden

Originalartikel lesen bei arXiv AI+ML →

#ki #forschung