19-05-2026
arXiv AI+ML
🔬 Forschung

Präferenzinstabilität in Reward-Modellen: Erkennung und Minderung durch Sparse Autoencodern

arXiv:2605.16339v1 Ankündigung: neu Abstract: Preference Learning in großen Language Models stützt sich auf Reward-Modelle als Stellvertreter für menschliches Urteilsvermögen. Jedoch zeigen diese Modelle häufig Präferenzinstabilität und produzieren widersprüchliche Präferenzzuweisungen als Reaktion auf subtile, bedeutungserhaltende

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #sicherheit