IRCNF

Microsoft lanza su primer modelo de razonamiento propio — y supera a Claude Sonnet 4.6 en pruebas ciegas

Microsoft AI
Compartir:
Microsoft lanza su primer modelo de razonamiento propio — y supera a Claude Sonnet 4.6 en pruebas ciegas

Microsoft anunció MAI-Thinking-1 en Build 2026 el 2 de junio — su primer modelo de razonamiento interno emblemático, construido sin datos de entrenamiento de OpenAI, y el primer movimiento de la que la compañía denomina su familia de modelos MAI. El anuncio marca un giro significativo: Microsoft ha sido el mayor cliente y distribuidor de OpenAI del mundo, y ahora tiene su propio modelo de razonamiento competitivo.

El momento es relevante. MAI-Thinking-1 llega cuando el mercado de modelos de inteligencia artificial se está comprimiendo, con alternativas Open Source de gran calidad reduciendo la brecha con los modelos propietarios de frontera. La decisión de Microsoft de construir y lanzar su propio modelo — en lugar de simplemente revender o hacer fine-tuning de los de OpenAI — refleja tanto la economía (poseer el modelo reduce los costos por inferencia) como la realidad estratégica de que depender completamente de un proveedor que además es competidor es una posición que la mayoría de las empresas quiere diversificar.

Lo que dicen realmente los benchmarks

MAI-Thinking-1 es un modelo de 35 mil millones de parámetros activos con una ventana de contexto de 128K (256K en algunas configuraciones). Microsoft publicó los siguientes resultados de benchmark:

  • SWE-Bench Pro: 52.8% — Microsoft afirma que esto iguala a Claude Opus 4.6 en tareas de programación
  • AIME 2025: 97.0%
  • AIME 2026: 94.5%
  • LiveCodeBench v6: 87.7%

La afirmación principal — que evaluadores humanos independientes en pruebas ciegas prefirieron MAI-Thinking-1 por encima del Claude Sonnet 4.6 de Anthropic en calidad general en tareas de una y múltiples interacciones — es el tipo de benchmark que requiere análisis crítico. Las "evaluaciones de preferencia humana" pueden variar sustancialmente según la selección de prompts, el grupo de evaluadores y el diseño de las tareas. Microsoft no ha publicado la metodología completa. Dicho esto, el puntaje en SWE-Bench Pro es un benchmark concreto y reproducible, y el 52.8% es competitivo con el nivel superior de los modelos disponibles públicamente.

La especificación de "entrenado sin datos de OpenAI" es significativa tanto legal como técnicamente. Establece que MAI-Thinking-1 no es un derivado de los modelos de la familia GPT y que las capacidades de IA de Microsoft no dependen de su asociación con OpenAI. Si esa independencia se extiende a toda la familia de modelos o solo a este lanzamiento aún no está claro.

El protocolo MRC: redes para IA a gran escala

El segundo anuncio importante de Build que merece atención es el protocolo Multipath Reliable Connection (MRC) — un estándar de redes basado en RDMA desarrollado por OpenAI en colaboración con Microsoft, AMD, Broadcom, Intel y NVIDIA.

MRC está diseñado para resolver un problema específico y relevante: ejecutar trabajos de entrenamiento de IA sincrónicos a través de miles de GPUs requiere redes que puedan manejar los patrones de comunicación all-reduce simultáneos del entrenamiento a gran escala con alta fiabilidad y baja latencia. Los clústeres de IA actuales usan InfiniBand o RoCE (RDMA over Converged Ethernet); ambos tienen limitaciones en cómo manejan la congestión y las fallas de hardware durante los entrenamientos.

MRC extiende RoCE con multipath packet spraying — distribuyendo el tráfico a través de múltiples rutas simultáneas en lugar de una sola — y enrutamiento SRv6, que permite al emisor especificar explícitamente la ruta de los paquetes a través de la red. Combinados, estos mecanismos permiten a MRC sortear dinámicamente congestión y fallas de hardware, sin que el trabajo de entrenamiento se detenga o necesite reiniciar desde un checkpoint.

Lo crucial es que MRC ya está en producción. OpenAI y Microsoft lo han desplegado en sus clústeres de entrenamiento más grandes, incluidos sistemas basados en hardware NVIDIA GB200. La especificación se ha publicado en el Open Compute Project — el consorcio industrial que estandariza diseños abiertos de hardware y redes — lo que lo pone a disposición de otros operadores para su implementación sin costos de licencia.

Si MRC logra una adopción amplia, representa la expansión más significativa de Ethernet en la infraestructura de entrenamiento de IA, un ámbito que InfiniBand ha dominado históricamente en el nivel más alto de rendimiento. El respaldo del consorcio — AMD, Broadcom, Intel, NVIDIA, OpenAI, Microsoft — le da suficiente peso industrial para ser tomado en serio por los operadores de centros de datos que evalúan arquitecturas de red para nuevos clústeres de IA.

Lo que la independencia de modelo de Microsoft significa para el mercado

La asociación entre Microsoft y OpenAI se ha estructurado de modo que Microsoft revende los modelos de OpenAI a través de Azure y los integra en sus productos. MAI-Thinking-1 crea una opción interna alternativa. Microsoft no ha dicho que MAI reemplace sus acuerdos con OpenAI — las dos empresas siguen estrechamente vinculadas — pero tener un modelo propio le da a Microsoft poder de negociación, reduce su exposición a las decisiones de precios de OpenAI y le permite ofrecer el servicio de modelos con márgenes que dependen de sus propios costos de cómputo en lugar de las tarifas de la API de OpenAI.

Para los clientes empresariales que actualmente usan endpoints de Azure OpenAI, la implicación práctica es una nueva opción: un modelo nativo de Microsoft disponible a través de Microsoft Foundry (actualmente en vista previa privada) que no requiere enrutamiento a través de la infraestructura de OpenAI. Si las empresas prefieren MAI-Thinking-1 a Claude o GPT-5 para sus cargas de trabajo específicas dependerá de evaluaciones independientes más allá de lo que Microsoft ha publicado.

El modelo aún no está disponible públicamente. El acceso a la vista previa privada de Microsoft Foundry es el punto de entrada actual. La disponibilidad completa y los precios no se han anunciado.

Fuentes: Microsoft AI; Blog de Microsoft; Neowin

Originally reported by Microsoft AI. Read the original article for additional details.

View original source
Compartir: