IRCNF

Mixture of Experts: Como modelos de IA esparsos escalam sem aumentar custos

Compartilhar:
Mixture of Experts: Como modelos de IA esparsos escalam sem aumentar custos

Mixture of Experts (MoE) é o truque arquitetônico por trás de alguns dos modelos de IA mais capazes em produção hoje. GPT-4, Gemini 1.5, Mixtral 8x22B e DeepSeek V3 usam isso. A ideia é elegante: em vez de cada entrada passar por toda a rede neural, uma camada de roteamento aprendida seleciona um pequeno subconjunto de sub-redes especializadas — chamadas "especialistas" — para lidar com cada token. O resto permanece ocioso.

O resultado é um modelo que pode ter centenas de bilhões de parâmetros enquanto ativa apenas uma fração deles a qualquer momento. Mixtral 8x22B tem 141 bilhões de parâmetros totais, mas apenas 39 bilhões estão ativos por forward pass. Acredita-se amplamente que o Gemini 1.5 Pro tenha cerca de 1 trilhão de parâmetros totais, com 2 a 32 especialistas ativados por token dependendo da tarefa. O custo computacional acompanha os parâmetros ativos, não o total — é por isso que modelos MoE podem oferecer desempenho de modelo denso a uma fração do custo de inferência.

Por que modelos densos batem em uma parede

Transformers densos — onde cada parâmetro processa cada token — enfrentam uma lei de escala brutal: dobrar a qualidade do modelo requer aproximadamente 8 vezes a computação. Os 175 bilhões de parâmetros do GPT-3 custaram centenas de milhões de dólares para treinar. Escalar para o GPT-4 exigiu mudanças arquitetônicas, não apenas mais parâmetros, porque o custo computacional bruto de um modelo verdadeiramente denso nessa escala teria sido proibitivo para todos, exceto os maiores laboratórios.

MoE contorna isso desacoplando a contagem de parâmetros da computação. Um modelo com 1 trilhão de parâmetros em 64 especialistas, onde 2 estão ativos por vez, processa cada token através de aproximadamente 30 bilhões de parâmetros ativos. Você obtém a capacidade representacional de um modelo massivo sem pagar a conta completa de inferência em cada consulta.

O problema do roteamento

O componente crítico de qualquer modelo MoE é o roteador — uma pequena rede aprendida que decide quais especialistas lidam com quais tokens. Sistemas MoE iniciais usavam roteamento top-k: enviar cada token para os k especialistas com maior pontuação. Simples, mas propenso a colapso. O roteador tende a usar demais alguns especialistas populares e ignorar outros, desperdiçando a capacidade que você pagou no treinamento.

Abordagens modernas lidam com isso através do balanceamento de carga. Mixtral usa um roteador noisy top-2 que adiciona ruído Gaussiano durante o treinamento para incentivar a exploração. DeepSeek V3 introduziu balanceamento de carga sem função de perda auxiliar, usando um termo de viés para direcionar tokens para especialistas subutilizados sem poluir o objetivo principal de treinamento. O Switch Transformer do Google usou um fator de capacidade — um limite rígido sobre quantos tokens qualquer especialista pode processar por lote — para forçar a distribuição.

A especialização dos especialistas emerge naturalmente do treinamento, sem ser explicitamente programada. Pesquisadores que estudaram os internos do Mixtral descobriram que diferentes especialistas se agrupam em torno de domínios linguísticos: alguns se especializam em código, outros em raciocínio em linguagem natural, outros em texto multilíngue. O roteador não sabe disso explicitamente — ele aprende qual especialista chamar observando qual combinação produz melhores saídas durante o treinamento.

Servindo MoE: O desafio da memória

Os ganhos de eficiência vêm com uma desvantagem. Os parâmetros totais de um modelo devem caber na memória da GPU, mesmo que apenas uma fração esteja ativa por token. Mixtral 8x22B requer cerca de 280 GB de memória GPU em float16 — um mínimo de quatro GPUs A100 80GB de ponta. Para inferência em escala, isso significa hardware caro ou quantização agressiva.

A quantização ajuda significativamente. Executar Mixtral 8x22B em precisão de 4 bits reduz os requisitos de memória para cerca de 70 GB — alcançável em duas GPUs A100. A perda de qualidade é mínima para a maioria das tarefas. A quantização de 8 bits com métodos GPTQ ou AWQ é agora padrão para implantações MoE em produção, e métodos de 4 bits como GGUF (usado pelo llama.cpp) permitem que os maiores modelos MoE open source rodem em hardware de consumo com 64-128 GB de RAM.

Outro desafio é o paralelismo de especialistas no serviço distribuído. Quando os especialistas residem em GPUs diferentes, a decisão de roteamento determina qual GPU processa qual token — exigindo comunicação all-to-all em cada camada MoE. Na escala de inferência, essa sobrecarga de rede se acumula. Frameworks como vLLM e DeepSpeed adicionaram otimizações especializadas de serviço MoE para minimizar as rodadas de comunicação e chamar especialistas em lote de forma eficiente.

MoE vs Denso: Quando realmente ganha

Modelos MoE se destacam em dois cenários: tarefas que exigem amplitude de conhecimento em muitos domínios, e inferência de alto rendimento onde a execução paralela de especialistas pode ser explorada.

Para um assistente de codificação que também lida com perguntas em linguagem natural, texto jurídico e raciocínio matemático, MoE permite que o modelo mantenha circuitos especializados para cada domínio sem escalar a computação proporcionalmente. Mixtral 8x7B — 13 bilhões de parâmetros ativos de 47 bilhões totais — supera consistentemente o Llama 2 70B em benchmarks padrão enquanto é mais rápido de servir. Isso é um modelo denso com 5 vezes mais parâmetros ativos, perdendo para um modelo esparso.

A compensação aparece em aplicações sensíveis à latência. O roteamento MoE adiciona uma etapa, e a seleção de especialistas deve ocorrer antes do cálculo, então o tempo até o primeiro token é ligeiramente maior do que um modelo denso de tamanho comparável. Para inferência em lote — processando múltiplas consultas simultaneamente — isso quase não importa. Para aplicações em tempo real de consulta única, a diferença é perceptível, embora medida em milissegundos em vez de segundos.

O que está por vir: Especialistas granulares e compartilhados

DeepSeek V3 introduziu um refinamento chamado especialistas compartilhados — um subconjunto de slots de especialistas que recebem cada token independentemente do roteamento. Estes capturam conhecimento comum a todas as entradas, enquanto os especialistas roteados especializados lidam com o processamento específico do domínio. O resultado é um treinamento mais estável e melhor desempenho em benchmarks gerais, sem a instabilidade que vem do roteamento esparso puro.

Outra direção é granularidade mais fina: em vez de 8 ou 16 especialistas grandes, use 64 ou 128 especialistas pequenos e roteie cada token para 4-8 deles. Mais decisões de roteamento, mas melhor distribuição de carga e especialização mais precisa. DeepSeek-MoE demonstrou essa abordagem, mostrando que MoE granular supera MoE grosso em contagens equivalentes de parâmetros ativos.

Há também um interesse crescente em aplicar princípios MoE a modalidades além do texto. Mixture of Experts para transformers de visão, aplicado a diferentes regiões de imagem ou componentes de frequência, é uma direção de pesquisa ativa. Se os resultados de texto se mantiverem, MoE multimodal poderia permitir que um único modelo lide com imagens, código e linguagem em um nível de qualidade que de outra forma exigiria modelos especializados separados.

MoE não é uma bala mágica. Ele troca memória por computação, exige balanceamento de carga cuidadoso e complica a inferência distribuída. Mas à medida que os custos de serviço se tornam uma restrição estratégica para todos os laboratórios de IA e empresas que implantam modelos em escala, a escolha arquitetônica entre denso e esparso não é mais acadêmica. Quase todos os modelos de fronteira lançados em 2025-2026 usam alguma forma de ativação esparsa.

Isso não é coincidência. É uma mudança estrutural em como grandes modelos de linguagem são construídos — e já está incorporada nos modelos que você está usando hoje.

Compartilhar:
Mixture of Experts: Como modelos de IA esparsos escalam sem aumentar custos | IRCNF - Intelligent Reliable Custom Next-gen Frameworks