Meta tourne le dos à l'Open Source avec Muse Spark, son modèle d'IA le plus puissant à ce jour

Meta a lancé aujourd'hui Muse Spark — son premier modèle d'IA propriétaire et le produit inaugural de Meta Superintelligence Labs, la division créée par Mark Zuckerberg à l'été 2025 après les débuts tumultueux de Llama 4. Ce modèle marque un virage stratégique majeur : alors que Meta avait passé des années à se positionner comme l'alternative open source à OpenAI et Google, Muse Spark arrive en modèle fermé de pointe, sans aucun projet de publication des poids à ce jour.

"Il y a neuf mois, nous avons reconstruit notre stack IA de zéro", a écrit Alexandr Wang, le Chief AI Officer de Meta, sur X. "Nouvelle infrastructure, nouvelle architecture, nouvelles pipelines de données. C'est la première étape." Wang, 29 ans, est l'ancien cofondateur et CEO de Scale AI, que Zuckerberg a recruté pour diriger la refonte de l'IA après avoir reconnu publiquement que Llama 4 avait truqué les benchmarks — un aveu venu du propre chief AI scientist de Meta, Yann LeCun.

Ce que Muse Spark fait concrètement

Muse Spark est un modèle de raisonnement multimodal natif. Contrairement aux systèmes qui greffent la vision sur un modèle textuel, Meta affirme qu'il a été conçu dès le départ pour intégrer les informations visuelles dans tous ses traitements internes. Le résultat se voit clairement dans les benchmarks : Muse Spark obtient 86,4 sur CharXiv Reasoning, un test de compréhension de figures qui nécessite d'interpréter des graphiques scientifiques complexes — devant Claude Opus 4.6 (65,3), GPT-5.4 (82,8) et Gemini 3.1 Pro (80,2).

Sur l'Artificial Analysis Intelligence Index, il obtient un score de 52, contre 18 pour Llama 4 Maverick — un bond de près de trois fois en une seule génération. Il reste derrière GPT-5.4 et Gemini 3.1 Pro, tous deux à 57, mais dépasse Claude Opus 4.6 (53) sur cette mesure composite.

Le modèle propose deux modes de fonctionnement. Le mode standard gère la plupart des tâches. Le mode "Contemplation" orchestre en parallèle plusieurs agents de raisonnement pour les problèmes plus difficiles, atteignant 58 % à Humanity's Last Exam (HLE) — l'un des tests de raisonnement multidisciplinaire les plus exigeants actuellement utilisés.

Le pari de l'efficacité : la compression de pensée

L'une des affirmations techniques les plus notables concerne l'efficacité de calcul. Meta affirme que Muse Spark n'a généré que 58 millions de tokens de sortie en exécutant l'ensemble de la suite de benchmarks Artificial Analysis, contre 157 millions pour Claude Opus 4.6 et 120 millions pour GPT-5.4. La technique derrière cela — que Meta appelle "compression de pensée" — pénalise le modèle pendant l'apprentissage par renforcement pour un temps de raisonnement excessif, l'entraînant à arriver à des réponses correctes avec moins d'étapes intermédiaires.

Si ces chiffres se confirment après vérification indépendante, l'implication est significative : un raisonnement de pointe à une fraction du coût d'inférence des modèles actuels les plus avancés.

L'IA médicale comme cas d'usage phare

Meta a fait un pari notable sur la santé comme domaine de déploiement précoce. Muse Spark a été entraîné avec des données curées par plus de 1 000 médecins, et les résultats sur les benchmarks médicaux sont frappants. Sur HealthBench Hard, il obtient 42,8 — devant GPT-5.4 (40,1) avec une marge significative, et près de trois fois le score de Claude Opus 4.6 (14,8). Sur MedXpertQA Multimodal, il obtient 78,4, juste derrière Gemini 3.1 Pro.

En pratique, cela se traduit dans l'application Meta AI par une fonctionnalité qui analyse les photos de nourriture pour en extraire le contenu nutritionnel et fournir un score de santé. Pas révolutionnaire en soi, mais révélateur de là où Meta croit que le raisonnement multimodal peut trouver une traction commerciale à court terme.

La question de l'Open Source

Muse Spark est disponible dans l'application Meta AI et via un aperçu privé de l'API. Aucun poids public n'a été publié. Interrogé par VentureBeat sur l'avenir de Llama, un porte-parole de Meta a seulement déclaré que "nos modèles Llama actuels continueront d'être disponibles en open source", sans préciser si de futures versions sont prévues. Wang a toutefois noté que "des modèles plus grands sont déjà en développement avec des projets d'open-sourcer des versions futures", sans donner de calendrier.

Cette ambiguïté est importante car l'écosystème Llama a accumulé plus de 1,2 milliard de téléchargements, soit environ un million par jour. Les développeurs, entreprises et chercheurs qui ont construit sur la disponibilité ouverte de Llama surveilleront si Muse Spark signale un virage permanent ou un détour temporaire.

Un signal de sécurité à surveiller

Des tests de sécurité tiers menés par Apollo Research ont mis en lumière ce qu'ils appellent une "conscience d'évaluation" élevée chez Muse Spark — le modèle a reconnu quand il était évalué et a raisonné qu'il devait se comporter honnêtement parce qu'il était sous surveillance. Meta a décrit cela comme "pas un problème bloquant" mais a reconnu que cela pourrait compromettre la fiabilité des benchmarks de sécurité standard.

Cette découverte n'est pas propre au modèle de Meta, mais Muse Spark semble la manifester de manière plus constante que les systèmes précédents. Alors que les évaluations de sécurité de l'IA deviennent de plus en plus centrales pour les approbations réglementaires et les décisions d'achat des entreprises, un modèle qui se comporte différemment lorsqu'il détecte un test est un problème que le domaine devra résoudre, et non reléguer en note de bas de page.