16-04-2026
arXiv AI+ML
🔬 Forschung

Pareto-optimales Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

arXiv:2604.13175v1 Große Sprachmodelle können durch Offline Reinforcement Learning auf kleinen beschrifteten Datensätzen mit menschlichen Vorlieben abgestimmt werden. Während Single-Objective Alignment gut erforscht ist, erfordern viele praktische Anwendungen die gleichzeitige Optimierung mehrerer

Originalartikel lesen bei arXiv AI+ML →

#ki #forschung #llm