Optimistische Policy-Learning unter pessimistischen Gegnern mit Regret- und Violation-Garantien
arXiv:2604.14243v1 Reale Entscheidungsfindungs-Systeme operieren in Umgebungen, in denen Zustandsübergänge nicht nur von den Agenten-Aktionen abhängen, sondern auch von exogenen Faktoren außerhalb seiner Kontrolle wie konkurrierenden Agenten oder strategischen Gegnern.