Präferenzinstabilität in Reward-Modellen: Erkennung und Minderung durch Sparse Autoencodern

arXiv:2605.16339v1 Ankündigung: neu Abstract: Preference Learning in großen Language Models stützt sich auf Reward-Modelle als Stellvertreter für menschliches Urteilsvermögen. Jedoch zeigen diese Modelle häufig Präferenzinstabilität und produzieren widersprüchliche Präferenzzuweisungen als Reaktion auf subtile, bedeutungserhaltende