Beyond Verifiable Rewards: Rubrik-basierte GRM für verstärktes Fine-Tuning von SWE Agents
arXiv:2604.16335v1 Trotz jüngster Fortschritte bei LLM Agents für Software Engineering Aufgaben stützt sich End-to-End Fine-Tuning typischerweise auf verifizierbare Finalrewards wie das Bestehen aller Unit Tests. Während diese binären Signale widerspiegeln, ob alle Tests bestanden werden