13-05-2026
arXiv AI+ML
🔬 Forschung

ξ-DPO: Direct Preference Optimization via Ratio Reward Margin

arXiv:2605.10981v1 Ankündigungstyp: neu Zusammenfassung: Referenz-freie Preference Optimization hat sich als effiziente Alternative zu Reinforcement Learning from Human Feedback etabliert, wobei Simple Preference Optimization (SimPO) starke Leistung durch die Beseitigung des expliziten Referenzmodells demonstriert

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #forschung