LongDS-Bench: Über das Versagen der langfristigen agentischen Datenanalyse

arXiv:2605.30434v1 Ankündigungstyp: neu Zusammenfassung: Echte Datenanalyse ist inhärent iterativ, aber bestehende Benchmarks evaluieren meist isolierte oder kurze interaktive Aufgaben, während die Fähigkeit von Agenten, den sich entwickelnden analytischen Kontext über lange Horizonte zu verfolgen, ungetestet bleibt. Wir führen LongDS ein, einen Benchmark für