Makro-Aktion basiertes Multi-Agent Instruction Following durch Value Cancellation

arXiv:2605.12655v1 Ankündigungstyp: neu Abstract: Multi-Agent Reinforcement Learning (MARL) in realen Anwendungsfällen muss sich möglicherweise an externe natürlichsprachliche Anweisungen anpassen, die laufendes Verhalten unterbrechen und mit langfristigen Zielen konfligieren. Allerdings führt die Konditionierung von Rewards auf Anweisungen ein