Diskrete Tilt-Anpassung
arXiv:2604.18739v1 Maskierte Diffusions-Large Language Models (dLLMs) sind eine vielversprechende Alternative zur autoregressiven Generierung. Während Reinforcement-Learning (RL) Methoden kürzlich für dLLM Fine-Tuning adaptiert wurden, hängen ihre Ziele typischerweise von Sequenz-Level-Margen ab…