Mixture of Experts: Wie sparse KI-Modelle skalieren, ohne die Kosten in die Höhe zu treiben

Mixture of Experts (MoE) ist der architektonische Trick hinter einigen der leistungsfähigsten KI-Modelle, die heute im Einsatz sind. GPT-4, Gemini 1.5, Mixtral 8x22B und DeepSeek V3 verwenden es alle. Die Idee ist elegant: Anstatt dass jeder Input das gesamte neuronale Netzwerk durchläuft, wählt eine gelernte Routing-Schicht eine kleine Teilmenge spezialisierter Subnetzwerke – sogenannte "Experts" – aus, um jeden Token zu verarbeiten. Der Rest bleibt inaktiv.

Das Ergebnis ist ein Modell, das Hunderte Milliarden Parameter haben kann, aber zu jedem Zeitpunkt nur einen Bruchteil davon aktiviert. Mixtral 8x22B hat insgesamt 141 Milliarden Parameter, aber nur 39 Milliarden sind pro Forward Pass aktiv. Gemini 1.5 Pro soll insgesamt rund 1 Billion Parameter haben, wobei je nach Aufgabe 2 bis 32 Experts pro Token aktiviert werden. Die Rechenkosten richten sich nach den aktiven Parametern, nicht nach der Gesamtzahl – weshalb MoE-Modelle die Leistung dichter Modelle zu einem Bruchteil der Inferenzkosten liefern können.

Warum dichte Modelle an eine Grenze stoßen

Dichte Transformer – bei denen jeder Parameter jeden Token verarbeitet – stehen vor einem brutalen Skalierungsgesetz: Eine Verdopplung der Modellqualität erfordert etwa die 8-fache Rechenleistung. GPT-3 mit seinen 175 Milliarden Parametern kostete Hunderte Millionen Dollar zum Trainieren. Der Sprung zu GPT-4 erforderte architektonische Änderungen, nicht nur mehr Parameter, weil die rohen Rechenkosten eines wirklich dichten Modells in dieser Größenordnung für alle außer den größten Labs unerschwinglich gewesen wären.

MoE umgeht dies, indem es die Parameterzahl von der Rechenleistung entkoppelt. Ein Modell mit 1 Billion Parametern über 64 Experts, von denen jeweils 2 aktiv sind, verarbeitet jeden Token durch etwa 30 Milliarden aktive Parameter. Sie erhalten die Repräsentationskapazität eines massiven Modells, ohne bei jeder Abfrage die volle Inferenzrechnung bezahlen zu müssen.

Das Routing-Problem

Die entscheidende Komponente jedes MoE-Modells ist der Router – ein kleines gelerntes Netzwerk, das entscheidet, welche Experts welche Token bearbeiten. Frühe MoE-Systeme verwendeten Top-k-Routing: Sende jeden Token an die k höchstbewerteten Experts. Einfach, aber anfällig für Kollaps. Der Router neigt dazu, einige beliebte Experts übermäßig zu nutzen und andere zu ignorieren, wodurch die Kapazität verschwendet wird, die man beim Training bezahlt hat.

Moderne Ansätze begegnen dem mit Load Balancing. Mixtral verwendet einen Noisy Top-2 Router, der während des Trainings Gaußsches Rauschen hinzufügt, um die Exploration zu fördern. DeepSeek V3 führte ein Auxiliary-Loss-freies Load Balancing ein, das einen Bias-Term verwendet, um Token zu untergenutzten Experts zu lenken, ohne das Haupttrainingsziel zu beeinträchtigen. Googles Switch Transformer verwendete einen Kapazitätsfaktor – eine harte Grenze dafür, wie viele Token ein einzelner Expert pro Batch verarbeiten kann –, um eine Verteilung zu erzwingen.

Die Spezialisierung der Experts ergibt sich auf natürliche Weise aus dem Training, ohne explizit programmiert zu werden. Forscher, die Mixtrals Inneres untersuchten, fanden heraus, dass sich verschiedene Experts um linguistische Domänen gruppieren: Einige spezialisieren sich auf Code, andere auf Reasoning in natürlicher Sprache, wieder andere auf mehrsprachigen Text. Der Router weiß das nicht explizit – er lernt, welchen Expert er aufrufen soll, indem er beobachtet, welche Kombination während des Trainings bessere Ausgaben erzeugt.

Serving MoE: Die Speicherherausforderung

Die Effizienzgewinne haben einen Haken. Die gesamten Parameter eines Modells müssen in den GPU-Speicher passen, auch wenn nur ein Bruchteil pro Token aktiv ist. Mixtral 8x22B benötigt etwa 280 GB GPU-Speicher in float16 – mindestens vier High-End-A100-80GB-GPUs. Für Inference in großem Maßstab bedeutet das entweder teure Hardware oder aggressive Quantisierung.

Quantisierung hilft erheblich. Der Betrieb von Mixtral 8x22B mit 4-Bit-Präzision senkt den Speicherbedarf auf rund 70 GB – erreichbar auf zwei A100 GPUs. Der Qualitätsverlust ist für die meisten Aufgaben minimal. 8-Bit-Quantisierung mit GPTQ- oder AWQ-Methoden ist heute Standard für Produktions-MoE-Deployments, und 4-Bit-Methoden wie GGUF (verwendet von llama.cpp) lassen die größten offenen MoE-Modelle auf Consumer-Hardware mit 64-128 GB RAM laufen.

Eine weitere Herausforderung ist der Expert Parallelism im verteilten Serving. Wenn Experts auf verschiedenen GPUs liegen, bestimmt die Routing-Entscheidung, welche GPU welchen Token verarbeitet – was eine All-to-All-Kommunikation auf jeder MoE-Schicht erfordert. Im Inference-Maßstab summiert sich dieser Netzwerk-Overhead. Frameworks wie vLLM und DeepSpeed haben spezielle MoE-Serving-Optimierungen hinzugefügt, um die Kommunikationsrunden zu minimieren und Expert-Aufrufe effizient zu bündeln.

MoE vs. Dense: Wann es tatsächlich gewinnt

MoE-Modelle zeichnen sich in zwei Szenarien aus: Aufgaben, die eine breite Wissensbasis über viele Domänen erfordern, und High-Throughput-Inference, bei der die parallele Ausführung von Experts genutzt werden kann.

Für einen Coding-Assistenten, der auch Fragen in natürlicher Sprache, juristische Texte und mathematisches Reasoning bearbeitet, ermöglicht MoE dem Modell, spezialisierte Schaltkreise für jede Domäne zu unterhalten, ohne die Rechenleistung proportional zu skalieren. Mixtral 8x7B – 13 Milliarden aktive Parameter von insgesamt 47 Milliarden – schlägt Llama 2 70B durchweg in Standard-Benchmarks und ist dabei schneller im Serving. Das ist ein dichtes Modell mit 5-mal mehr aktiven Parametern, das gegen ein sparse Modell verliert.

Der Kompromiss zeigt sich bei latenzsensiblen Anwendungen. MoE-Routing fügt einen Schritt hinzu, und die Expertenauswahl muss vor der Berechnung erfolgen, sodass die Time-to-First-Token etwas höher ist als bei einem vergleichbar großen dichten Modell. Bei Batch-Inference – der gleichzeitigen Verarbeitung vieler Abfragen – spielt dies kaum eine Rolle. Bei Echtzeit-Einzelabfragen ist der Unterschied spürbar, wenn auch in Millisekunden statt Sekunden gemessen.

Was kommt: Granulare und Shared Experts

DeepSeek V3 führte eine Verfeinerung namens Shared Experts ein – eine Teilmenge von Expert-Slots, die unabhängig vom Routing jeden Token erhalten. Diese erfassen gemeinsames Wissen über alle Eingaben hinweg, während die spezialisierten gerouteten Experts die domänenspezifische Verarbeitung übernehmen. Das Ergebnis ist stabileres Training und bessere Leistung in allgemeinen Benchmarks, ohne die Instabilität, die von reinem Sparse-Routing herrührt.

Eine weitere Richtung ist feinere Granularität: Statt 8 oder 16 großen Experts verwendet man 64 oder 128 kleine Experts und routet jeden Token zu 4-8 von ihnen. Mehr Routing-Entscheidungen, aber bessere Lastverteilung und präzisere Spezialisierung. DeepSeek-MoE demonstrierte diesen Ansatz und zeigte, dass granular MoE grobes MoE bei gleicher Anzahl aktiver Parameter übertrifft.

Es gibt auch wachsendes Interesse daran, MoE-Prinzipien auf Modalitäten jenseits von Text anzuwenden. Mixture of Experts für Vision Transformer, angewendet auf verschiedene Bildregionen oder Frequenzkomponenten, ist eine aktive Forschungsrichtung. Wenn die Text-Ergebnisse Bestand haben, könnte multimodales MoE es einem einzigen Modell ermöglichen, Bilder, Code und Sprache auf einem Qualitätsniveau zu verarbeiten, das ansonsten separate spezialisierte Modelle erfordern würde.

MoE ist keine Zauberkugel. Es tauscht Speicher gegen Rechenleistung, erfordert sorgfältiges Load Balancing und erschwert verteilte Inference. Aber da Serving-Kosten zu einer strategischen Einschränkung für jedes KI-Lab und jedes Unternehmen werden, das Modelle in großem Maßstab einsetzt, ist die architektonische Wahl zwischen dicht und sparse nicht länger akademisch. Fast jedes Frontier-Modell, das 2025-2026 veröffentlicht wurde, verwendet eine Form von sparse Activation.

Das ist kein Zufall. Es ist ein struktureller Wandel in der Art und Weise, wie große Sprachmodelle gebaut werden – und er ist bereits in den Modellen enthalten, die Sie heute verwenden.