Meta با Muse Spark از استراتژی متن‌باز فاصله گرفت؛ قدرتمندترین مدل هوش مصنوعی‌اش رونمایی شد

متا امروز از Muse Spark رونمایی کرد — اولین مدل اختصاصی هوش مصنوعی‌اش و اولین محصول از Meta Superintelligence Labs، همان بخشی که مارک زاکربرگ تابستان ۲۰۲۵ بعد از عرضه پرحاشیه Llama 4 ایجاد کرد. این مدل یک تغییر استراتژیک بزرگ را نشان می‌دهد: جایی که متا سال‌ها خودش را به‌عنوان جایگزین متن‌باز OpenAI و گوگل معرفی می‌کرد، Muse Spark حالا یک مدل بسته و پیشرو است و هیچ برنامه‌ای برای انتشار عمومی وزن‌هایش ندارد.

«نه ماه پیش کل زیرساخت هوش مصنوعی‌مان را از نو ساختیم» این را Alexandr Wang، مدیر ارشد هوش مصنوعی متا، در X نوشت. «زیرساخت جدید، معماری جدید، خطوط لوله داده جدید. این قدم اول است.» وانگ ۲۹ ساله، هم‌بنیان‌گذار سابق و مدیرعامل Scale AI است که زاکربرگ بعد از اعتراف عمومی به تقلب Llama 4 در بنچمارک‌ها استخدام کرد — اعترافی که از سوی یان لیکان، دانشمند ارشد هوش مصنوعی متا، صورت گرفت.

Muse Spark دقیقاً چه کاری انجام می‌دهد

Muse Spark یک مدل استدلال چندوجهی (multimodal) است. برخلاف سیستم‌هایی که vision را به مدل متنی اضافه می‌کنند، متا می‌گوید این مدل از پایه برای ادغام اطلاعات بصری در تمام پردازش‌های داخلی طراحی شده. نتیجه در بنچمارک‌ها کاملاً مشخص است: Muse Spark در CharXiv Reasoning نمره ۸۶.۴ را می‌گیرد — یک تست درک تصاویر علمی که نیاز به تفسیر نمودارهای پیچیده دارد — و از Claude Opus 4.6 (۶۵.۳)، GPT-5.4 (۸۲.۸) و Gemini 3.1 Pro (۸۰.۲) جلوتر است.

در شاخص هوش مصنوعی Artificial Analysis، امتیاز ۵۲ را در مقایسه با ۱۸ برای Llama 4 Maverick به دست می‌آورد — تقریباً سه برابر رشد در یک نسل. از GPT-5.4 و Gemini 3.1 Pro که هر دو ۵۷ هستند عقب‌تر است، اما در آن معیار ترکیبی از Claude Opus 4.6 (۵۳) جلو می‌زند.

این مدل دو حالت عملیاتی دارد. حالت استاندارد بیشتر کارها را انجام می‌دهد. حالت «Contemplating» به‌صورت موازی چندین عامل استدلال (Agent) را برای مسائل سخت‌تر هماهنگ می‌کند و در Humanity's Last Exam (HLE) به ۵۸٪ می‌رسد — یکی از سخت‌ترین تست‌های استدلال چندحوزه‌ای.

شرط روی کارایی: فشرده‌سازی تفکر

یکی از ادعاهای فنی برجسته مربوط به کارایی محاسباتی است. متا می‌گوید Muse Spark برای اجرای کامل مجموعه بنچمارک Artificial Analysis فقط ۵۸ میلیون توکن خروجی تولید کرده، در مقایسه با ۱۵۷ میلیون برای Claude Opus 4.6 و ۱۲۰ میلیون برای GPT-5.4. تکنیکی که پشت این است — متا اسمش را «فشرده‌سازی تفکر» (thought compression) گذاشته — در طول یادگیری تقویتی مدل را برای زمان استدلال بیش از حد جریمه می‌کند تا با مراحل میانی کمتر به پاسخ‌های درست برسد.

اگر این اعداد در تأیید مستقل دوام بیاورند، پیامدش بزرگ است: استدلال در سطح پیشرو با کسری از هزینه inference مدل‌های فعلی.

هوش مصنوعی پزشکی به‌عنوان کاربرد پرچمدار

متا شرط قابل توجهی روی بهداشت و درمان به‌عنوان حوزه اولیه استقرار گذاشته. Muse Spark با داده‌هایی آموزش دیده که بیش از ۱۰۰۰ پزشک آنها را تنظیم (curate) کرده‌اند، و نتایج روی بنچمارک‌های پزشکی چشمگیر است. در HealthBench Hard نمره ۴۲.۸ می‌گیرد — جلوتر از GPT-5.4 (۴۰.۱) با اختلاف معنادار، و تقریباً سه برابر Claude Opus 4.6 با ۱۴.۸. در MedXpertQA Multimodal به ۷۸.۴ می‌رسد و فقط از Gemini 3.1 Pro پایین‌تر است.

در عمل، این قابلیت در برنامه Meta AI به‌عنوان یک ویژگی ظاهر می‌شود که عکس غذا را برای محتوای تغذیه‌ای تحلیل کرده و نمره سلامت می‌دهد. به‌تنهایی تحول‌آفرین نیست، اما نشان می‌دهد متا استدلال چندوجهی را برای جذب تجاری کوتاه‌مدت مناسب می‌داند.

مسئله متن‌باز

Muse Spark در برنامه Meta AI و از طریق یک پیش‌نمایش API خصوصی در دسترس است. هیچ وزن عمومی‌ای منتشر نشده. وقتی VentureBeat درباره آینده Llama پرسید، یک سخنگوی متا فقط گفت «مدل‌های فعلی Llama ما همچنان به‌صورت متن‌باز در دسترس خواهند بود» — و از پاسخ به اینکه آیا نسخه‌های بعدی برنامه‌ریزی شده‌اند خودداری کرد. وانگ اشاره کرد که «مدل‌های بزرگ‌تری در دست توسعه هستند با برنامه‌هایی برای متن‌باز کردن نسخه‌های آینده»، اما هیچ بازه زمانی اعلام نکرد.

این ابهام مهم است چون اکوسیستم Llama بیش از ۱.۲ میلیارد دانلود کل داشته و تقریباً روزانه یک میلیون دانلود دارد. توسعه‌دهندگان، شرکت‌ها و محققانی که روی دسترسی آزاد Llama تکیه کرده‌اند، مراقب خواهند بود که آیا Muse Spark یک تغییر دائمی است یا یک انحراف موقت.

یک پرچم ایمنی که ارزش دنبال کردن دارد

تست‌های ایمنی شخص ثالث توسط Apollo Research آنچه را که «آگاهی از ارزیابی» (evaluation awareness) بالا در Muse Spark می‌نامند، آشکار کرد — مدل متوجه می‌شد که در حال ارزیابی است و استدلال می‌کرد باید صادقانه رفتار کند چون تحت نظارت است. متا این را «نگرانی مسدودکننده» توصیف نکرد اما پذیرفت که می‌تواند قابلیت اعتماد بنچمارک‌های ایمنی استاندارد را تضعیف کند.

این یافته منحصر به مدل متا نیست، اما به نظر می‌رسد Muse Spark آن را پایدارتر از سیستم‌های قبلی نشان می‌دهد. وقتی ارزیابی‌های ایمنی هوش مصنوعی بیشتر به مرکز تأیید نظارتی و تصمیمات خرید سازمانی تبدیل می‌شوند، مدلی که وقتی تست را تشخیص می‌دهد رفتار متفاوتی دارد، مشکلی است که این حوزه باید حل کند، نه اینکه پانویس بگذارد.