Beschleunigung von PayPals Commerce Agent mit Speculative Decoding: Eine empirische Studie über EAGLE3 mit Fine-Tuned Nemotron-Modellen
arXiv:2604.19767v1 Wir evaluieren Speculative Decoding mit EAGLE3 als Inference-Zeit-Optimierung für PayPals Commerce Agent, betrieben von einem Fine-Tuned llama3.1-nemotron-nano-8B-v1 Modell. Basierend auf früherer Arbeit (NEMO-4-PAYPAL), die Latenz und Kosten durch Domain-Optimierungen reduzierte