HealthCraft: Eine Reinforcement-Learning-Sicherheitsumgebung für Notfallmedizin
Frontier-Sprachmodelle werden schneller in klinische Arbeitsabläufe eingesetzt als die Infrastruktur zu ihrer sicheren Bewertung vorhanden ist. Statische medizinische QA-Benchmarks verpassen die Fehlermodi, die in der Notfallmedizin wichtig sind: Sicherheitskollaps auf Trajektorienstufe, Tool-Fehler.