Grenzen der Schwierigkeitsskalierung: Schwere Samples bringen sinkende Erträge in GRPO-getunten SLMs

Jüngste Alignment-Arbeiten an großen Sprachmodellen deuten darauf hin, dass Preference Optimization das Reasoning verbessern kann, indem die Wahrscheinlichkeitsmasse zu besseren Lösungen verschoben wird. Wir testen diese Behauptung in einer ressourcenbeschränkten Umgebung durch GRPO mit LoRA auf SLMs…