GAZE: Grounded Agentic Zero-shot Evaluation mit Viewer-Level-Tools und Literaturabfrage bei seltenen Gehirn-MRIs

arXiv:2605.00876v1 Vision-Language-Modelle (VLMs) lesen ein Bild und erzeugen Text in einem einzigen Forward Pass, während Radiologen ein Bild typischerweise mehrmals untersuchen und die Literatur konsultieren, bevor sie einen Bericht schreiben. Wir stellen GAZE vor (Grounded Agentic Zero-shot Evaluation)