14-05-2026
arXiv AI+ML
🔬 Forschung

ODRPO: Ordinale Zerlegungen diskreter Rewards für robuste Policy-Optimierung

arXiv:2605.12667v1 Ankündigungstyp: neu Abstract: Die Ausrichtung von Large Language Models nutzt Reinforcement Learning from AI Feedback (RLAIF) für nicht-verifizierbare Domänen wie offene Beantwortung von Fragen und Instruction Following. Diese Domänen verlassen sich oft auf LLM-basierte Auto-Bewertung

Originalartikel lesen bei arXiv AI+ML →

#llm #ki #forschung