Warum SWE-bench Verified nicht mehr die Grenzen der Codierungsfähigkeiten misst

Warum SWE-bench Verified nicht mehr die Grenzen der Codierungsfähigkeiten misst