IRCNF

Le décodage spéculatif réduit la latence d'inférence des LLM jusqu'à 3x sans perte de précision

Partager:
Le décodage spéculatif réduit la latence d'inférence des LLM jusqu'à 3x sans perte de précision

Les grands modèles de langage génèrent du texte un token à la fois, et chaque token nécessite un passage avant complet à travers des milliards de paramètres. Cette dépendance série est la raison principale pour laquelle l'inférence est coûteuse. Le décodage spéculatif brise ce goulot d'étranglement — non pas en modifiant le modèle, mais en changeant la stratégie de génération. La technique peut réduire la latence murale de 2 à 3 fois sur des tâches comme la complétion de code et le chat, sans dégradation de la qualité de sortie.

Le mécanisme central

Le décodage spéculatif utilise deux modèles : un petit modèle draft et le grand modèle cible. Le modèle draft génère rapidement plusieurs tokens candidats. Le modèle cible évalue ensuite tous ces candidats en un seul passage avant parallèle — acceptant les tokens qu'il aurait lui-même prédits et rejetant les autres. Lorsqu'un token est rejeté, la génération revient à la distribution du modèle cible pour cette position, et le processus redémarre.

Comme le passage avant du modèle cible sur un lot de tokens candidats n'est que marginalement plus coûteux qu'un passage avant sur un seul token (grâce au parallélisme des GPU), le résultat net est plus de tokens générés par unité de calcul. Le calcul fonctionne lorsque le modèle draft a un accord raisonnable avec le modèle cible — typiquement des taux d'acceptation de tokens de 70 à 85 % sur des tâches factuelles et structurées comme la génération de code.

Pourquoi le taux d'acceptation est primordial

L'accélération du décodage spéculatif varie directement avec le nombre moyen de tokens draft acceptés avant un rejet. Sur des benchmarks de codage courants comme HumanEval, les taux d'acceptation avec un modèle draft bien adapté se situent autour de 75 à 80 %, résultant en une réduction de latence de 2,5 à 3 fois. Sur des tâches créatives ouvertes, les taux d'acceptation tombent à 55–65 %, et l'accélération se réduit à 1,5–2 fois.

Cela signifie que le choix du modèle draft est extrêmement important. Les recherches de DeepMind en 2023 (l'article original sur le décodage spéculatif par Leviathan et al.) ont montré que même une différence de taille de 3 ordres de grandeur — un draft de 7B contre une cible de 70B — produit encore une accélération significative parce que les prédictions du petit modèle sont étonnamment alignées avec celles du grand modèle sur les tâches structurées.

Décodage spéculatif autonome : pas de modèle draft nécessaire

Un obstacle pratique au décodage spéculatif en production est la surcharge liée à l'exécution et à la maintenance d'un modèle draft séparé. Le décodage spéculatif autonome, introduit en 2024 par des chercheurs de l'Université Carnegie Mellon et de Microsoft, élimine cette contrainte. L'approche utilise une sortie anticipée des couches intermédiaires du modèle cible lui-même comme mécanisme de draft. Plus précisément, elle achemine les tokens à travers un sous-ensemble des couches du modèle pour produire un draft rapide, puis valide avec le modèle complet.

La méthode EAGLE-2 (de chercheurs de l'Université de Pékin, également 2024) adopte une approche différente : elle entraîne une légère tête de draft monocouche qui se fixe au modèle cible et prédit les tokens futurs sur la base des états cachés internes. EAGLE-2 a atteint des taux d'acceptation supérieurs à 80 % sur MT-Bench et a surpassé les méthodes spéculatives antérieures de 20 à 40 % en débit sur les GPU A100. La tête de draft ajoute moins de 1 % au nombre de paramètres du modèle.

Déploiements en production

Le décodage spéculatif n'est plus une simple curiosité de recherche. L'infrastructure de production de Google pour Gemini l'utilise. Anthropic a décrit l'utilisation d'approches spéculatives dans le service Claude. Le framework d'inférence vLLM (la bibliothèque d'hébergement de LLM Open Source la plus utilisée, avec plus de 30 000 étoiles GitHub) a intégré le support du décodage spéculatif dans sa version 0.3 au début de 2024.

Pour les organisations qui gèrent leurs propres piles d'inférence, les implications pratiques sont directes : le même matériel servant un modèle de 70B à 20 tokens par seconde peut servir 50 à 60 tokens par seconde avec un décodage spéculatif correctement réglé. Cela représente une réduction de 2,5 à 3 fois du coût par token sans aucune modification de modèle, quantification ou compromis sur la précision.

Limites et quand cela n'aide pas

Le décodage spéculatif aide sur la latence — le temps pour générer une réponse — mais ne réduit pas le calcul total. En fait, il augmente légèrement le nombre total de FLOPs en raison des tokens draft rejetés. Cela signifie qu'il ne réduit pas les coûts énergétiques par requête ; il réduit le temps d'achèvement, ce qui est important pour la latence côté utilisateur mais pas pour le débit du traitement par lots.

Il fonctionne également moins bien sur les tâches à haute entropie : écriture créative, remue-méninges, ou toute sortie où le modèle a une grande incertitude à chaque étape. Dans ces cas, les taux d'acceptation du draft tombent en dessous de 60 % et la surcharge liée à l'exécution du modèle draft commence à gruger les gains.

Points clés à retenir

  • Si vous utilisez Llama 3.1 70B ou des modèles similaires avec vLLM : activez le décodage spéculatif avec un modèle plus petit correspondant (par exemple, Llama 3.2 3B comme draft). Attendez-vous à une amélioration de la latence de 2 à 2,5 fois sur les tâches de chat/code avec une configuration minimale.
  • Si vous développez sur des API hébergées : le décodage spéculatif est probablement déjà en cours d'exécution en backend. Concentrez plutôt vos efforts d'optimisation sur la structure du Prompt et l'efficacité des tokens.
  • Si la latence est votre goulot d'étranglement mais pas le coût : le décodage spéculatif est votre meilleur levier — il bat la quantification pour les tâches sensibles à la qualité et ne nécessite pas de réentraînement du modèle.
  • Si vous faites de l'inférence par lots (résumé, classification à grande échelle) : le décodage spéculatif n'aidera pas. Regardez plutôt le regroupement continu et la quantification.
Partager:
Le décodage spéculatif réduit la latence d'inférence des LLM jusqu'à 3x sans perte de précision | IRCNF - Intelligent Reliable Custom Next-gen Frameworks