Speculative Decoding reduziert LLM-Inferenzlatenz um bis zu 3x ohne Genauigkeitsverlust

Große Sprachmodelle generieren Text Token für Token, und jedes Token erfordert einen vollständigen Vorwärtsdurchlauf durch Milliarden von Parametern. Diese serielle Abhängigkeit ist der Hauptgrund, warum Inferenz teuer ist. Speculative Decoding durchbricht diesen Engpass – nicht durch Änderung des Modells, sondern durch Änderung der Generierungsstrategie. Die Technik kann die Wanduhr-Latenz bei Aufgaben wie Code-Vervollständigung und Chat um das 2- bis 3-fache reduzieren, ohne Einbußen bei der Ausgabequalität.

Der Kernmechanismus

Speculative Decoding verwendet zwei Modelle: ein kleines "Draft"-Modell und das große "Target"-Modell. Das Draft-Modell generiert schnell mehrere Kandidaten-Token. Das Target-Modell evaluiert dann alle diese Kandidaten in einem einzigen parallelen Vorwärtsdurchlauf – akzeptiert Token, die es selbst vorhergesagt hätte, und lehnt die restlichen ab. Wenn ein Token abgelehnt wird, fällt die Generierung auf die Verteilung des Target-Modells für diese Position zurück, und der Prozess beginnt von neuem. Da der Vorwärtsdurchlauf des Target-Modells über einen Batch von Kandidaten-Token (dank GPU-Parallelität) nur geringfügig teurer ist als ein Einzel-Token-Durchlauf, ist das Nettoergebnis mehr Token pro Recheneinheit. Die Mathematik funktioniert, wenn das Draft-Modell eine vernünftige Übereinstimmung mit dem Target aufweist – typischerweise 70–85 % Token-Akzeptanzraten bei faktischen und strukturierten Aufgaben wie Code-Generierung.

Warum die Akzeptanzrate alles ist

Der Geschwindigkeitsgewinn durch Speculative Decoding skaliert direkt mit der durchschnittlichen Anzahl akzeptierter Draft-Token vor einer Ablehnung. Bei gängigen Coding-Benchmarks wie HumanEval liegen die Akzeptanzraten mit einem gut abgestimmten Draft-Modell bei etwa 75–80 %, was eine Latenzreduktion um das 2,5- bis 3-fache ergibt. Bei kreativen Aufgaben mit offenem Ende sinken die Akzeptanzraten auf 55–65 %, und der Geschwindigkeitsgewinn schrumpft auf das 1,5- bis 2-fache. Das bedeutet, dass die Wahl des Draft-Modells enorm wichtig ist. Forschung von DeepMind aus dem Jahr 2023 (das ursprüngliche Speculative Decoding Paper von Leviathan et al.) zeigte, dass selbst ein Größenunterschied von drei Größenordnungen – ein 7B-Draft vs. ein 70B-Target – noch sinnvolle Geschwindigkeitsgewinne erzielt, weil die Vorhersagen des kleineren Modells bei strukturierten Aufgaben überraschend gut mit dem größeren übereinstimmen.

Self-Speculative Decoding: Kein Draft-Modell erforderlich

Ein praktisches Hindernis für Speculative Decoding im Produktionseinsatz ist der Aufwand für den Betrieb und die Wartung eines separaten Draft-Modells. Self-Speculative Decoding, 2024 von Forschern der CMU und Microsoft eingeführt, macht diese Anforderung überflüssig. Der Ansatz nutzt den vorzeitigen Ausstieg aus Zwischenschichten des Target-Modells selbst als Draft-Mechanismus. Konkret werden Token durch eine Teilmenge der Modellschichten geleitet, um einen schnellen Draft zu erzeugen, der dann mit dem vollständigen Modell validiert wird. Die EAGLE-2-Methode (von Forschern der Peking-Universität, ebenfalls 2024) verfolgt einen anderen Ansatz: Sie trainiert einen leichten einschichtigen "Draft-Head", der am Target-Modell ansetzt und zukünftige Token basierend auf internen Hidden States vorhersagt. EAGLE-2 erreichte Akzeptanzraten über 80 % auf MT-Bench und übertraf frühere Spekulationsmethoden um 20–40 % im Durchsatz auf A100-GPUs. Der Draft-Head erhöht die Parameteranzahl des Modells um weniger als 1 %.

Produktionseinsätze

Speculative Decoding ist kein reines Forschungskuriosum mehr. Googles Produktionsinfrastruktur für Gemini nutzt es. Anthropic hat beschrieben, spekulative Ansätze im Claude-Serving einzusetzen. Das vLLM-Inferenz-Framework (die am weitesten verbreitete Open-Source-LLM-Serving-Bibliothek mit über 30.000 GitHub-Sternen) hat in Version 0.3 Anfang 2024 Unterstützung für Speculative Decoding ausgeliefert. Für Organisationen, die ihre eigenen Inferenz-Stacks betreiben, sind die praktischen Auswirkungen direkt: Dieselbe Hardware, die ein 70B-Modell mit 20 Token/Sekunde bedient, kann mit richtig abgestimmtem Speculative Decoding 50–60 Token/Sekunde erreichen. Das ist eine 2,5- bis 3-fache Reduzierung der Kosten pro Token ohne Modelländerungen, Quantisierung oder Genauigkeitskompromisse.

Grenzen und wann es nicht hilft

Speculative Decoding hilft bei der Latenz – der Zeit zur Generierung einer Antwort – reduziert aber nicht den Gesamtaufwand. Tatsächlich erhöht es die gesamten FLOPs leicht aufgrund abgelehnter Draft-Token. Das bedeutet, dass es die Energiekosten pro Anfrage nicht senkt; es senkt die Zeit bis zur Fertigstellung, was für die benutzerseitige Latenz wichtig ist, aber nicht für den Batch-Processing-Durchsatz. Außerdem funktioniert es am schlechtesten bei Aufgaben mit hoher Entropie: kreatives Schreiben, Brainstorming oder jede Ausgabe, bei der das Modell in jedem Schritt hohe Unsicherheit hat. In diesen Fällen fallen die Draft-Akzeptanzraten unter 60 % und der Overhead des Draft-Modells beginnt die Gewinne aufzuzehren.

Handlungsempfehlungen

Wenn Sie Llama 3.1 70B oder ähnliche Modelle mit vLLM betreiben: Aktivieren Sie Speculative Decoding mit einem passenden kleineren Modell (z. B. Llama 3.2 3B als Draft). Erwarten Sie eine 2- bis 2,5-fache Latenzverbesserung bei Chat-/Code-Aufgaben mit minimaler Konfiguration.
Wenn Sie auf gehosteten APIs aufbauen: Speculative Decoding läuft wahrscheinlich bereits im Backend. Konzentrieren Sie Ihre Optimierungsbemühungen stattdessen auf Prompt-Struktur und Token-Effizienz.
Wenn Latenz Ihr Engpass ist, aber nicht die Kosten: Speculative Decoding ist Ihr bester Hebel – es schlägt Quantisierung bei qualitätssensitiven Aufgaben und erfordert kein Modell-Retraining.
Wenn Sie Batch-Inferenz durchführen (Zusammenfassung, Klassifikation in großem Maßstab): Speculative Decoding hilft nicht. Setzen Sie stattdessen auf Continuous Batching und Quantisierung.