UCCI: Kalibrierte Unsicherheit für kostenoptimales LLM-Cascade-Routing
arXiv:2605.18796v1 Ankündigungstyp: neu Abstract: LLM-Cascades und Model Routing versprechen niedrigere Inferenzkosten durch Senden einfacher Abfragen an ein kleines Modell und Eskalation schwieriger zu großen Modellen, doch die meisten eingesetzten Router verwenden unkalibrierte Konfidenzscores und erfordern pro Workload Threshold-Tuning. Wir