Robust Reasoning Benchmark
arXiv:2604.08571v1 Ankündigungstyp: neu Abstract: Während Large Language Models (LLMs) hohe Leistungen bei Standard-Mathematik-Benchmarks erreichen, bleiben ihre zugrunde liegenden Reasoning-Prozesse stark an Standard-Textformatierung überangepasst. Wir schlagen eine Störungs-Pipeline mit 14 Techniken vor