Cactus: Beschleunigung der Auto-regressiven Dekodierung mit eingeschränkter Akzeptanz-Spekulation

arXiv:2604.04987v1 Speculative Sampling (SpS) war erfolgreich bei der Beschleunigung des Dekodier-Durchsatzes von auto-regressiven Large Language Models durch die Nutzung kleinerer Draft-Modelle. SpS erzwingt streng, dass die generierte Verteilung derjenigen des Verifizierer-LLM entspricht