PRL-Bench: Ein umfassendes Benchmark zur Evaluierung der Fähigkeiten von LLMs in der Grundlagenphysik-Forschung

arXiv:2604.15411v1 Ankündigungstyp: neu Abstract: Das Paradigma der agentic science erfordert KI-Systeme, die robustes Reasoning durchführen und sich in langfristige, autonome Exploration engagieren können. Aktuelle wissenschaftliche Benchmarks beschränken sich jedoch auf Domain-Wissensverständnis und komplexes Reasoning, wobei sie…