Mixture of Experts : comment les modèles d'IA épars montent en échelle sans augmenter les coûts

Mixture of Experts (MoE) est l'astuce architecturale derrière certains des modèles d'IA les plus performants en production aujourd'hui. GPT-4, Gemini 1.5, Mixtral 8x22B et DeepSeek V3 l'utilisent tous. L'idée est élégante : au lieu que chaque entrée traverse l'intégralité du réseau neuronal, une couche de routage apprise sélectionne un petit sous-ensemble de sous-réseaux spécialisés — appelés « experts » — pour traiter chaque token. Le reste reste inactif.

Le résultat est un modèle qui peut avoir des centaines de milliards de paramètres tout en n'activant qu'une fraction d'entre eux à un moment donné. Mixtral 8x22B a 141 milliards de paramètres totaux mais seulement 39 milliards sont actifs par passage avant. On pense largement que Gemini 1.5 Pro a environ 1 billion de paramètres totaux, avec 2 à 32 experts activés par token selon la tâche. Le coût de calcul suit les paramètres actifs, pas le total — c'est pourquoi les modèles MoE peuvent offrir des performances de modèle dense à une fraction du coût d'inférence.

Pourquoi les modèles denses butent sur un mur

Les transformers denses — où chaque paramètre traite chaque token — sont confrontés à une loi d'échelle brutale : doubler la qualité du modèle nécessite environ 8 fois plus de calcul. Les 175 milliards de paramètres de GPT-3 ont coûté des centaines de millions de dollars à entraîner. Passer à GPT-4 a nécessité des changements architecturaux, pas seulement plus de paramètres, car le coût de calcul brut d'un modèle vraiment dense à cette échelle aurait été prohibitif pour tous les laboratoires sauf les plus grands.

MoE contourne ce problème en découplant le nombre de paramètres du calcul. Un modèle avec 1 billion de paramètres répartis sur 64 experts, dont 2 sont actifs à la fois, traite chaque token via environ 30 milliards de paramètres actifs. Vous obtenez la capacité représentationnelle d'un modèle massif sans payer la facture d'inférence complète à chaque requête.

Le problème du routage

Le composant critique de tout modèle MoE est le routeur — un petit réseau appris qui décide quels experts gèrent quels tokens. Les premiers systèmes MoE utilisaient le routage top-k : envoyer chaque token aux k experts ayant les scores les plus élevés. Simple, mais sujet à l'effondrement. Le routeur a tendance à surutiliser quelques experts populaires et à ignorer les autres, gaspillant la capacité pour laquelle vous avez payé lors de l'entraînement.

Les approches modernes résolvent ce problème avec l'équilibrage de charge. Mixtral utilise un routeur noisy top-2 qui ajoute du bruit gaussien pendant l'entraînement pour encourager l'exploration. DeepSeek V3 a introduit un équilibrage de charge sans fonction de perte auxiliaire, utilisant un terme de biais pour orienter les tokens vers les experts sous-utilisés sans polluer l'objectif d'entraînement principal. Le Switch Transformer de Google a utilisé un facteur de capacité — une limite stricte sur le nombre de tokens qu'un seul expert peut traiter par lot — pour forcer la distribution.

La spécialisation des experts émerge naturellement de l'entraînement, sans être explicitement programmée. Les chercheurs étudiant les internes de Mixtral ont découvert que différents experts se regroupent autour de domaines linguistiques : certains se spécialisent dans le code, d'autres dans le raisonnement en langage naturel, d'autres encore dans le texte multilingue. Le routeur ne le sait pas explicitement — il apprend quel expert appeler en observant quelle combinaison produit de meilleures sorties pendant l'entraînement.

Servir MoE : le défi de la mémoire

Les gains d'efficacité ont un revers. Les paramètres totaux d'un modèle doivent tenir dans la mémoire du GPU, même si seule une fraction est active par token. Mixtral 8x22B nécessite environ 280 Go de mémoire GPU en float16 — un minimum de quatre GPU A100 80 Go haut de gamme. Pour l'inférence à grande échelle, cela signifie soit un matériel coûteux, soit une quantification agressive.

La quantification aide considérablement. Exécuter Mixtral 8x22B en précision 4 bits réduit les besoins en mémoire à environ 70 Go — réalisable sur deux GPU A100. La perte de qualité est minime pour la plupart des tâches. La quantification 8 bits avec les méthodes GPTQ ou AWQ est désormais standard pour les déploiements MoE en production, et les méthodes 4 bits comme GGUF (utilisé par llama.cpp) permettent aux plus grands modèles MoE open source de fonctionner sur du matériel grand public avec 64 à 128 Go de RAM.

Un autre défi est le parallélisme des experts dans le service distribué. Lorsque les experts résident sur différents GPU, la décision de routage détermine quel GPU traite quel token — nécessitant une communication de tous à tous à chaque couche MoE. À l'échelle de l'inférence, cette surcharge réseau s'accumule. Des frameworks comme vLLM et DeepSpeed ont ajouté des optimisations de service MoE spécialisées pour minimiser les tours de communication et appeler efficacement les experts par lots.

MoE vs Dense : quand il gagne vraiment

Les modèles MoE excellent dans deux scénarios : les tâches nécessitant une large connaissance dans de nombreux domaines, et l'inférence à haut débit où l'exécution parallèle des experts peut être exploitée.

Pour un assistant de codage qui gère également des questions en langage naturel, du texte juridique et du raisonnement mathématique, MoE permet au modèle de maintenir des circuits spécialisés pour chaque domaine sans augmenter proportionnellement le calcul. Mixtral 8x7B — 13 milliards de paramètres actifs sur 47 milliards totaux — bat constamment Llama 2 70B sur les benchmarks standard tout en étant plus rapide à servir. C'est un modèle dense avec 5 fois plus de paramètres actifs qui perd face à un modèle épars.

Le compromis apparaît dans les applications sensibles à la latence. Le routage MoE ajoute une étape, et la sélection des experts doit avoir lieu avant le calcul, donc le temps jusqu'au premier token est légèrement plus élevé que pour un modèle dense de taille comparable. Pour l'inférence par lots — traitement de plusieurs requêtes simultanément — cela importe à peine. Pour les applications en temps réel à requête unique, l'écart est perceptible, bien que mesuré en millisecondes plutôt qu'en secondes.

Ce qui arrive : des experts granulaires et partagés

DeepSeek V3 a introduit un raffinement appelé experts partagés — un sous-ensemble d'emplacements d'experts qui reçoivent chaque token indépendamment du routage. Ceux-ci capturent les connaissances communes à toutes les entrées, tandis que les experts routés spécialisés gèrent le traitement spécifique au domaine. Le résultat est un entraînement plus stable et de meilleures performances sur les benchmarks généraux, sans l'instabilité qui vient du routage épars pur.

Une autre direction est une granularité plus fine : au lieu de 8 ou 16 grands experts, utilisez 64 ou 128 petits experts et routez chaque token vers 4 à 8 d'entre eux. Plus de décisions de routage, mais une meilleure répartition de la charge et une spécialisation plus précise. DeepSeek-MoE a démontré cette approche, montrant que le MoE granulaire surpasse le MoE grossier à nombre de paramètres actifs équivalent.

Il y a aussi un intérêt croissant pour l'application des principes MoE à des modalités au-delà du texte. Mixture of Experts pour les transformers de vision, appliqué à différentes régions d'image ou composantes de fréquence, est une direction de recherche active. Si les résultats textuels se confirment, le MoE multimodal pourrait permettre à un seul modèle de gérer des images, du code et du langage à un niveau de qualité qui nécessiterait autrement des modèles spécialisés séparés.

MoE n'est pas une solution miracle. Il échange de la mémoire contre du calcul, exige un équilibrage de charge minutieux et complique l'inférence distribuée. Mais à mesure que les coûts de service deviennent une contrainte stratégique pour chaque laboratoire d'IA et entreprise déployant des modèles à grande échelle, le choix architectural entre dense et épars n'est plus académique. Presque tous les modèles de pointe publiés en 2025-2026 utilisent une forme d'activation éparse.

Ce n'est pas une coïncidence. C'est un changement structurel dans la façon dont les grands modèles de langage sont construits — et il est déjà intégré dans les modèles que vous utilisez aujourd'hui.