Curiosity-Critic: Kumulative Vorhersagefehler-Verbesserung als nachvollziehbare intrinsische Belohnung für World-Model-Training
arXiv:2604.18701v1 Auf lokalem Vorhersagefehler basierende Neugierde-Belohnungen konzentrieren sich auf die aktuelle Transition, ohne den kumulativen Vorhersagefehler des World Models über alle besuchten Transitionen zu berücksichtigen. Wir präsentieren Curiosity-Critic, das seine intrinsische Belohnung auf…