Pareto-optimales Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

arXiv:2604.13175v1 Große Sprachmodelle können durch Offline Reinforcement Learning auf kleinen beschrifteten Datensätzen mit menschlichen Vorlieben abgestimmt werden. Während Single-Objective Alignment gut erforscht ist, erfordern viele praktische Anwendungen die gleichzeitige Optimierung mehrerer