Zweimal überlegen, einmal handeln: Verifizierer-gesteuerte Aktionsauswahl für Embodied Agents
arXiv:2605.12620v1 Ankündigungstyp: neu Abstract: Der Aufbau generalistischer Embodied Agents, die komplexe reale Aufgaben lösen können, bleibt eine fundamentale Herausforderung in der AI. Multimodale Large Language Models (MLLMs) haben die Reasoning-Fähigkeiten solcher Agenten durch starke Vision-