N-Day-Bench – Können LLMs echte Sicherheitslücken in echten Codebasen finden?