Distributionally Robust Token Optimization in RLHF

arXiv:2604.08577v1 Ankündigungstyp: neu Abstract: Large Language Models (LLMs) reagieren dazu, auf Prompts korrekt zu antworten, die mit ihren Trainings- und Fine-Tuning-Daten übereinstimmen. Doch kleine Änderungen bei der Formulierung, dem Format oder der Sprache können überraschend große Fehler auslösen, besonders bei mehrstufigem Reasoning