Territory Paint Wars: Diagnose und Entschärfung von Fehlermodi im wettbewerbsfähigen Multi-Agent PPO
arXiv:2604.04983v1 Wir präsentieren Territory Paint Wars, eine minimale wettbewerbsfähige Multi-Agent-Reinforcement-Learning-Umgebung, implementiert in Unity, und nutzen sie, um Fehlermodi der Proximal Policy Optimisation (PPO) unter Self-Play systematisch zu untersuchen