21-05-2026
arXiv AI+ML
🔬 Forschung

GROW: Ausrichtung von GRPO mit State-Action-Modellierung für Open-World-VLM-Agenten

arXiv:2605.20246v1 Ankündigungstyp: neu Zusammenfassung: Kürzlich haben Vision-Language-Model (VLM)-Agenten vielversprechende Fortschritte bei Open-World-Aufgaben gezeigt, wobei erfolgreiche Aufgabenvervollständigung oft mehrere Durchläufe visueller Wahrnehmung und Aktionsausführung erfordert. Bestehende Methoden verlassen sich jedoch hauptsächlich auf

Originalartikel lesen bei arXiv AI+ML →

#ki #forschung