ICRL: Lernen, Selbstkritik mit Reinforcement Learning zu internalisieren

arXiv:2605.15224v1 Ankündigungstyp: neu Zusammenfassung: LLM-basierte Agenten machen Fehler, doch Kritik kann oft dasselbe Modell zu korrektem Verhalten führen. Wenn Kritik jedoch entfernt wird, kann das Modell bei derselben Anfrage erneut fehlschlagen, was anzeigt, dass es die Kritik nicht internalisiert hat