20-04-2026
arXiv AI+ML
🔬 Forschung

PRL-Bench: Ein umfassendes Benchmark zur Evaluierung der Fähigkeiten von LLMs in der Grundlagenphysik-Forschung

arXiv:2604.15411v1 Ankündigungstyp: neu Abstract: Das Paradigma der agentic science erfordert KI-Systeme, die robustes Reasoning durchführen und sich in langfristige, autonome Exploration engagieren können. Aktuelle wissenschaftliche Benchmarks beschränken sich jedoch auf Domain-Wissensverständnis und komplexes Reasoning, wobei sie…

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #forschung