Collider-Bench: Benchmarking von AI-Agenten mit Teilchenphysik-Analyse-Reproduktion

arXiv:2605.13950v1 Ankündigungstyp: neu Abstract: Autonome Language-Model-Agenten werden zunehmend bei langfristigen Tool-Use-Aufgaben evaluiert, doch bestehende Benchmarks erfassen selten die Komplexität und Nuance echter wissenschaftlicher Arbeit. Um diese Lücke zu schließen, stellen wir Collider-Bench vor, einen Benchmark zur Evaluierung…