Mixture of Experts: Cómo los modelos de IA dispersos escalan sin aumentar costos

Mixture of Experts (MoE) es el truco arquitectónico detrás de algunos de los modelos de IA más capaces en producción hoy. GPT-4, Gemini 1.5, Mixtral 8x22B y DeepSeek V3 lo utilizan. La idea es elegante: en lugar de que cada entrada pase por toda la red neuronal, una capa de enrutamiento aprendida selecciona un pequeño subconjunto de subredes especializadas — llamadas "expertos" — para manejar cada token. El resto permanece inactivo.

El resultado es un modelo que puede tener cientos de miles de millones de parámetros mientras activa solo una fracción de ellos en cualquier momento. Mixtral 8x22B tiene 141 mil millones de parámetros totales, pero solo 39 mil millones están activos por paso forward. Se cree ampliamente que Gemini 1.5 Pro tiene alrededor de 1 billón de parámetros totales, con 2 a 32 expertos activados por token dependiendo de la tarea. El costo computacional sigue a los parámetros activos, no al total — por eso los modelos MoE pueden ofrecer rendimiento de modelo denso a una fracción del costo de inferencia.

Por qué los modelos densos chocan contra un muro

Los transformers densos — donde cada parámetro procesa cada token — se enfrentan a una dura ley de escalado: duplicar la calidad del modelo requiere aproximadamente 8 veces la computación. Los 175 mil millones de parámetros de GPT-3 costaron cientos de millones de dólares entrenar. Escalar a GPT-4 requirió cambios arquitectónicos, no solo más parámetros, porque el costo computacional bruto de un modelo verdaderamente denso a esa escala habría sido prohibitivo para todos excepto los laboratorios más grandes.

MoE evita esto desacoplando el número de parámetros de la computación. Un modelo con 1 billón de parámetros distribuidos en 64 expertos, donde 2 están activos a la vez, procesa cada token a través de aproximadamente 30 mil millones de parámetros activos. Obtienes la capacidad representacional de un modelo masivo sin pagar la factura completa de inferencia en cada consulta.

El problema del enrutamiento

El componente crítico de cualquier modelo MoE es el enrutador — una pequeña red aprendida que decide qué expertos manejan qué tokens. Los primeros sistemas MoE usaban enrutamiento top-k: enviar cada token a los k expertos con mayor puntuación. Simple, pero propenso al colapso. El enrutador tiende a usar en exceso algunos expertos populares e ignorar otros, desperdiciando la capacidad por la que pagaste en el entrenamiento.

Los enfoques modernos abordan esto con balanceo de carga. Mixtral usa un enrutador noisy top-2 que agrega ruido Gaussiano durante el entrenamiento para fomentar la exploración. DeepSeek V3 introdujo balanceo de carga sin pérdida auxiliar, usando un término de sesgo para dirigir tokens hacia expertos infrautilizados sin contaminar el objetivo principal de entrenamiento. El Switch Transformer de Google usó un factor de capacidad — un límite estricto en cuántos tokens puede procesar cualquier experto por lote — para forzar la distribución.

La especialización de los expertos surge naturalmente del entrenamiento, sin ser programada explícitamente. Investigadores que estudiaron los internos de Mixtral encontraron que diferentes expertos se agrupan en torno a dominios lingüísticos: algunos se especializan en código, otros en razonamiento en lenguaje natural, otros en texto multilingüe. El enrutador no lo sabe explícitamente — aprende qué experto llamar observando qué combinación produce mejores salidas durante el entrenamiento.

Sirviendo MoE: El desafío de la memoria

Las ganancias de eficiencia vienen con una trampa. Los parámetros totales de un modelo deben caber en la memoria de la GPU, incluso si solo una fracción está activa por token. Mixtral 8x22B requiere alrededor de 280 GB de memoria GPU en float16 — un mínimo de cuatro GPUs A100 80GB de gama alta. Para inferencia a escala, esto significa hardware costoso o cuantización agresiva.

La cuantización ayuda significativamente. Ejecutar Mixtral 8x22B a precisión de 4 bits reduce los requisitos de memoria a unos 70 GB — alcanzable en dos GPUs A100. La pérdida de calidad es mínima para la mayoría de las tareas. La cuantización de 8 bits con métodos GPTQ o AWQ es ahora estándar para despliegues de MoE en producción, y los métodos de 4 bits como GGUF (usado por llama.cpp) permiten que los modelos MoE abiertos más grandes se ejecuten en hardware de consumo con 64-128 GB de RAM.

Otro desafío es el paralelismo de expertos en el servicio distribuido. Cuando los expertos residen en diferentes GPUs, la decisión de enrutamiento determina qué GPU procesa qué token — requiriendo comunicación de todos a todos en cada capa MoE. A escala de inferencia, esta sobrecarga de red se acumula. Frameworks como vLLM y DeepSpeed han agregado optimizaciones especializadas de servicio MoE para minimizar las rondas de comunicación y llamar a los expertos por lotes de manera eficiente.

MoE vs Denso: Cuándo realmente gana

Los modelos MoE sobresalen en dos escenarios: tareas que requieren amplitud de conocimiento en muchos dominios, e inferencia de alto rendimiento donde se puede explotar la ejecución paralela de expertos.

Para un asistente de codificación que también maneja preguntas en lenguaje natural, texto legal y razonamiento matemático, MoE permite que el modelo mantenga circuitos especializados para cada dominio sin escalar la computación proporcionalmente. Mixtral 8x7B — 13 mil millones de parámetros activos de 47 mil millones totales — supera consistentemente a Llama 2 70B en benchmarks estándar mientras es más rápido de servir. Eso es un modelo denso con 5 veces más parámetros activos, perdiendo contra uno disperso.

La compensación aparece en aplicaciones sensibles a la latencia. El enrutamiento MoE agrega un paso, y la selección de expertos debe ocurrir antes del cálculo, por lo que el tiempo hasta el primer token es ligeramente mayor que el de un modelo denso de tamaño comparable. Para inferencia por lotes — procesar múltiples consultas simultáneamente — esto apenas importa. Para aplicaciones en tiempo real de consulta única, la brecha es perceptible, aunque medida en milisegundos en lugar de segundos.

Lo que viene: Expertos granulares y compartidos

DeepSeek V3 introdujo un refinamiento llamado expertos compartidos — un subconjunto de ranuras de expertos que reciben cada token independientemente del enrutamiento. Estos capturan conocimiento común en todas las entradas, mientras que los expertos enrutados especializados manejan el procesamiento específico del dominio. El resultado es un entrenamiento más estable y un mejor rendimiento en benchmarks generales, sin la inestabilidad que proviene del enrutamiento disperso puro.

Otra dirección es una granularidad más fina: en lugar de 8 o 16 expertos grandes, usa 64 o 128 expertos pequeños y enruta cada token a 4-8 de ellos. Más decisiones de enrutamiento, pero mejor distribución de carga y especialización más precisa. DeepSeek-MoE demostró este enfoque, mostrando que MoE granular supera a MoE grueso en recuentos de parámetros activos equivalentes.

También hay un interés creciente en aplicar principios MoE a modalidades más allá del texto. Mixture of Experts para transformers de visión, aplicado a diferentes regiones de imagen o componentes de frecuencia, es una dirección de investigación activa. Si los resultados de texto se mantienen, MoE multimodal podría permitir que un solo modelo maneje imágenes, código y lenguaje a un nivel de calidad que de otra forma requeriría modelos especializados separados.

MoE no es una bala mágica. Intercambia memoria por computación, exige un balanceo de carga cuidadoso y complica la inferencia distribuida. Pero a medida que los costos de servicio se convierten en una restricción estratégica para cada laboratorio de IA y empresa que despliega modelos a escala, la elección arquitectónica entre denso y disperso ya no es académica. Casi todos los modelos de frontera lanzados en 2025-2026 utilizan alguna forma de activación dispersa.

Eso no es una coincidencia. Es un cambio estructural en cómo se construyen los grandes modelos de lenguaje — y ya está integrado en los modelos que estás usando hoy.