20-05-2026
arXiv AI+ML
🔬 Forschung

ReCrit: Transitions-bewusstes Reinforcement Learning für wissenschaftliche Critic-Reasoning

arXiv:2605.18799v1 Ankündigungstyp: neu Abstract: Große Sprachmodelle können in der Critic-Interaktion nicht nur durch falsche Antworten scheitern, sondern auch durch Aufgabe einer anfänglich korrekten wissenschaftlichen Lösung nach Benutzer-Kritik. Dies ist besonders riskant beim wissenschaftlichen Reasoning, wo Benutzer-Kritik

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #forschung