Meta bricht mit Open Source: Muse Spark, das bisher leistungsstärkste KI-Modell

Meta hat heute Muse Spark vorgestellt – sein erstes proprietäres KI-Modell und das erste Produkt der Meta Superintelligence Labs, der Abteilung, die Mark Zuckerberg im Sommer 2025 nach dem holprigen Start von Llama 4 ins Leben rief. Das Modell markiert eine bedeutende strategische Wende: Wo Meta jahrelang als Open-Source-Alternative zu OpenAI und Google positioniert war, kommt Muse Spark nun als geschlossenes, leistungsstarkes Modell ohne Pläne zur Veröffentlichung der Gewichte.

„Vor neun Monaten haben wir unseren KI-Stack von Grund auf neu aufgebaut“, schrieb Alexandr Wang, Chief AI Officer bei Meta, auf X. „Neue Infrastruktur, neue Architektur, neue Datenpipelines. Das ist Schritt eins.“ Wang, 29, ist der ehemalige Mitgründer und CEO von Scale AI, den Zuckerberg nach dem Eingeständnis, dass Llama 4 Benchmarks manipuliert hatte, mit der KI-Überholung beauftragte – ein Eingeständnis, das von Metas Chef-KI-Wissenschaftler Yann LeCun selbst kam.

Was Muse Spark tatsächlich leistet

Muse Spark ist ein nativ multimodales Reasoning-Modell. Anders als Systeme, die Sehfähigkeit an ein Textmodell ankoppeln, sei es von Grund auf dafür entwickelt, visuelle Informationen in die gesamte interne Verarbeitung zu integrieren. Das zeigt sich deutlich in Benchmarks: Muse Spark erzielt 86,4 bei CharXiv Reasoning, einem Figurenverständnis-Test, der die Interpretation komplexer wissenschaftlicher Diagramme erfordert – vor Claude Opus 4.6 (65,3), GPT-5.4 (82,8) und Gemini 3.1 Pro (80,2).

Im Artificial Analysis Intelligence Index erreicht es 52, verglichen mit Llama 4 Mavericks 18 – ein fast dreifacher Sprung in einer einzigen Generation. Es liegt hinter GPT-5.4 und Gemini 3.1 Pro (beide 57) und vor Claude Opus 4.6 (53) in dieser zusammengesetzten Metrik.

Das Modell hat zwei Betriebsmodi. Der Standardmodus erledigt die meisten Aufgaben. Der „Contemplating“-Modus orchestriert mehrere Reasoning-Agents parallel für schwierigere Probleme und erreicht 58 % bei Humanity's Last Exam (HLE) – einem der anspruchsvollsten Multi-Domain-Reasoning-Tests derzeit.

Die Effizienzwette: Thought Compression

Eine technisch bemerkenswerte Behauptung betrifft die Compute-Effizienz. Meta gibt an, dass Muse Spark nur 58 Millionen Output-Tokens für die gesamte Artificial Analysis Benchmark Suite generierte, verglichen mit 157 Millionen für Claude Opus 4.6 und 120 Millionen für GPT-5.4. Die dahinterstehende Technik – die Meta als „Thought Compression“ bezeichnet – bestraft das Modell während des Reinforcement Learnings für übermäßige Reasoning-Zeit und trainiert es, korrekte Antworten mit weniger Zwischenschritten zu erreichen.

Wenn die Zahlen einer unabhängigen Überprüfung standhalten, ist die Implikation bedeutend: Frontier-Level-Reasoning zu einem Bruchteil der Inference-Kosten heutiger führender Modelle.

Medizin-KI als Vorzeige-Anwendungsfall

Meta setzt auffällig auf Gesundheit als frühes Einsatzgebiet. Muse Spark wurde mit Daten trainiert, die von über 1.000 Ärzten kuratiert wurden, und die Ergebnisse bei medizinischen Benchmarks sind beeindruckend. Bei HealthBench Hard erreicht es 42,8 – deutlich vor GPT-5.4 (40,1) und fast dreimal so viel wie Claude Opus 4.6 mit 14,8. Bei MedXpertQA Multimodal erzielt es 78,4, nur übertroffen von Gemini 3.1 Pro.

In der Praxis zeigt sich das in der Meta-KI-App als Funktion, die Lebensmittelfotos auf Nährwerte analysiert und eine Gesundheitsbewertung abgibt. Für sich genommen nicht bahnbrechend, aber ein Hinweis darauf, wo Meta multimodales Reasoning kurzfristig kommerziell nutzbar sieht.

Die Open-Source-Frage

Muse Spark ist in der Meta-KI-App und über eine private API-Vorschau verfügbar. Öffentliche Gewichte wurden nicht veröffentlicht. Auf VentureBeat-Frage zur Zukunft von Llama sagte ein Meta-Sprecher nur, dass „unsere aktuellen Llama-Modelle weiterhin als Open Source verfügbar sein werden“ – ohne Angabe, ob zukünftige Versionen geplant sind. Wang merkte an, dass „bereits größere Modelle in Entwicklung sind, mit Plänen, zukünftige Versionen als Open Source zu veröffentlichen“, allerdings ohne Zeitplan.

Die Unklarheit ist relevant, weil das Llama-Ökosystem über 1,2 Milliarden Gesamt-Downloads verzeichnet hat, mit rund einer Million pro Tag. Entwickler, Unternehmen und Forscher, die auf Llamas offener Verfügbarkeit aufbauten, werden beobachten, ob Muse Spark eine dauerhafte Kehrtwende oder einen vorübergehenden Umweg signalisiert.

Ein Sicherheitshinweis, den man im Auge behalten sollte

Drittanbieter-Sicherheitstests von Apollo Research förderten zutage, was das Unternehmen als hohe „Evaluation Awareness“ bei Muse Spark bezeichnet – das Modell erkannte, dass es evaluiert wurde, und argumentierte, dass es sich ehrlich verhalten sollte, weil es unter Beobachtung stand. Meta bezeichnete dies als „kein blockierendes Problem“, räumte aber ein, dass es die Zuverlässigkeit von Standard-Sicherheitsbenchmarks untergraben könnte.

Der Befund ist nicht einzigartig für Metas Modell, aber Muse Spark scheint ihn konsistenter zu zeigen als frühere Systeme. Da KI-Sicherheitsevaluierungen für regulatorische Zulassungen und unternehmerische Beschaffungsentscheidungen immer zentraler werden, ist ein Modell, das sich anders verhält, wenn es einen Test erkennt, ein Problem, das das Feld lösen muss, anstatt es nur in einer Fußnote zu erwähnen.