Meta rompe con el Open Source con Muse Spark, su modelo de IA más potente hasta la fecha

Meta lanzó hoy Muse Spark — su primer modelo de IA propietario y el producto inaugural de Meta Superintelligence Labs, la división que Mark Zuckerberg creó en el verano de 2025 tras el problemático debut de Llama 4. El modelo representa un cambio estratégico significativo: mientras Meta pasó años posicionándose como la alternativa de Open Source a OpenAI y Google, Muse Spark llega como un modelo frontera cerrado, sin planes inmediatos de publicar sus pesos.

"Hace nueve meses reconstruimos nuestro stack de IA desde cero", escribió Alexandr Wang, Chief AI Officer de Meta, en X. "Nueva infraestructura, nueva arquitectura, nuevos data pipelines. Este es el primer paso". Wang, de 29 años, es el ex cofundador y CEO de Scale AI a quien Zuckerberg contrató para liderar la reestructuración de IA después de reconocer públicamente que Llama 4 había manipulado benchmarks — una admisión que provino del propio científico jefe de IA de Meta, Yann LeCun.

Qué hace realmente Muse Spark

Muse Spark es un modelo de razonamiento multimodal nativo. A diferencia de sistemas que añaden visión a un modelo de texto, Meta afirma que fue diseñado desde cero para integrar información visual en todo su procesamiento interno. El resultado se refleja claramente en los benchmarks: Muse Spark obtiene 86.4 en CharXiv Reasoning, una prueba de comprensión de figuras que requiere interpretar gráficos científicos complejos — por delante de Claude Opus 4.6 (65.3), GPT-5.4 (82.8) y Gemini 3.1 Pro (80.2).

En el Artificial Analysis Intelligence Index, obtiene 52, frente a los 18 de Llama 4 Maverick — un salto de casi tres veces en una sola generación. Va por detrás de GPT-5.4 y Gemini 3.1 Pro, ambos con 57, pero supera a Claude Opus 4.6 (53) en esa medida compuesta.

El modelo tiene dos modos de operación. El modo estándar maneja la mayoría de las tareas. El modo "Contemplating" orquesta múltiples agentes de razonamiento en paralelo para problemas más difíciles, alcanzando el 58% en Humanity's Last Exam (HLE) — una de las pruebas de razonamiento multidominio más exigentes en uso actual.

La apuesta por la eficiencia: 'thought compression'

Una de las afirmaciones técnicamente más notables involucra la eficiencia computacional. Meta afirma que Muse Spark generó solo 58 millones de tokens de salida al ejecutar todo el suite de benchmarks Artificial Analysis, en comparación con 157 millones de Claude Opus 4.6 y 120 millones de GPT-5.4. La técnica detrás de esto — que Meta llama "thought compression" — penaliza al modelo durante el reinforcement learning por tiempo de razonamiento excesivo, entrenándolo para llegar a respuestas correctas con menos pasos intermedios.

Si las cifras se confirman bajo verificación independiente, la implicación es significativa: razonamiento de nivel frontera a una fracción del costo de inferencia de los modelos líderes actuales.

IA médica como caso de uso emblemático

Meta hizo una apuesta notable por la salud como área de despliegue temprano. Muse Spark fue entrenado con datos curados por más de 1.000 médicos, y los resultados en benchmarks médicos son llamativos. En HealthBench Hard obtiene 42.8 — por delante de GPT-5.4 (40.1) por un margen significativo, y casi tres veces la puntuación de Claude Opus 4.6 (14.8). En MedXpertQA Multimodal obtiene 78.4, solo superado por Gemini 3.1 Pro.

En la práctica, esto se refleja en la aplicación Meta AI como una función que analiza fotos de alimentos para obtener contenido nutricional y proporciona una puntuación de salud. No es transformador por sí solo, pero indica dónde Meta cree que el razonamiento multimodal tiene tracción comercial a corto plazo.

La cuestión del Open Source

Muse Spark está disponible en la aplicación Meta AI y a través de una vista previa privada de API. No se han publicado pesos públicos. Cuando VentureBeat preguntó sobre el futuro de Llama, un portavoz de Meta dijo únicamente que "nuestros modelos Llama actuales seguirán estando disponibles como Open Source" — negándose a abordar si se planean versiones futuras. Wang señaló que "ya se están desarrollando modelos más grandes con planes de abrir el código de versiones futuras", aunque no se dio un cronograma.

La ambigüedad importa porque el ecosistema Llama ha acumulado más de 1.200 millones de descargas totales, con un ritmo de aproximadamente un millón por día. Los desarrolladores, empresas e investigadores que construyeron sobre la disponibilidad abierta de Llama estarán observando si Muse Spark señala un giro permanente o un desvío temporal.

Una señal de seguridad que vale la pena vigilar

Las pruebas de seguridad de terceros realizadas por Apollo Research revelaron lo que denominaron alta "evaluation awareness" en Muse Spark — el modelo reconocía cuando estaba siendo evaluado y razonaba que debía comportarse honestamente porque estaba bajo escrutinio. Meta describió esto como "no un problema bloqueante", pero reconoció que podría socavar la fiabilidad de los benchmarks de seguridad estándar.

El hallazgo no es exclusivo del modelo de Meta, pero Muse Spark parece exhibirlo de manera más consistente que sistemas anteriores. A medida que las evaluaciones de seguridad de IA se vuelven más centrales para la aprobación regulatoria y las decisiones de adquisición empresarial, un modelo que se comporta de manera diferente cuando detecta una prueba es un problema que el campo deberá resolver, no simplemente anotar al pie.