ODRPO: Ordinale Zerlegungen diskreter Rewards für robuste Policy-Optimierung
arXiv:2605.12667v1 Ankündigungstyp: neu Abstract: Die Ausrichtung von Large Language Models nutzt Reinforcement Learning from AI Feedback (RLAIF) für nicht-verifizierbare Domänen wie offene Beantwortung von Fragen und Instruction Following. Diese Domänen verlassen sich oft auf LLM-basierte Auto-Bewertung