Jenseits von Mode-Seeking RL: Trajectory-Balance Post-Training für Diffusion Language Models

arXiv:2605.13935v1 Ankündigungstyp: neu Abstract: Diffusion Language Models sind eine vielversprechende Alternative zu autoregressiven Modellen, doch Post-Training-Methoden für diese adaptieren weitgehend belohnungsmaximierende Ziele. Wir identifizieren einen zentralen Fehlermodus in dieser Einstellung, den wir Trajectory Locking nennen: gesampelte Belohnung…