ξ-DPO: Direct Preference Optimization via Ratio Reward Margin
arXiv:2605.10981v1 Ankündigungstyp: neu Zusammenfassung: Referenz-freie Preference Optimization hat sich als effiziente Alternative zu Reinforcement Learning from Human Feedback etabliert, wobei Simple Preference Optimization (SimPO) starke Leistung durch die Beseitigung des expliziten Referenzmodells demonstriert