TMPO: Trajectory Matching Policy Optimization für vielfältige und effiziente Diffusionsalignment

arXiv:2605.10983v1 Ankündigungstyp: neu Zusammenfassung: Reinforcement Learning (RL) hat außergewöhnliches Potenzial bei der Ausrichtung von Diffusionsmodellen auf nachgelagerte Aufgaben gezeigt, aber die meisten leiden immer noch unter erheblichem Reward Hacking, das die generative Vielfalt und Qualität durch visuelle Mode Collapse verschlechtert