ThermoQA: Ein dreistufiges Benchmark zur Bewertung thermodynamischen Reasoning in Large Language Models

arXiv:2604.19758v1 Wir präsentieren ThermoQA, ein Benchmark mit 293 offenen technischen Thermodynamik-Aufgaben in drei Ebenen: Property Lookups (110 F), Komponenten-Analyse (101 F) und vollständige Zyklus-Analyse (82 F). Ground Truth wird programmatisch aus CoolProp 7.2.0 berechnet