13-04-2026
arXiv AI+ML
🔬 Forschung

Robust Reasoning Benchmark

arXiv:2604.08571v1 Ankündigungstyp: neu Abstract: Während Large Language Models (LLMs) hohe Leistungen bei Standard-Mathematik-Benchmarks erreichen, bleiben ihre zugrunde liegenden Reasoning-Prozesse stark an Standard-Textformatierung überangepasst. Wir schlagen eine Störungs-Pipeline mit 14 Techniken vor

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #forschung