Meta با Muse Spark از استراتژی متنباز فاصله گرفت؛ قدرتمندترین مدل هوش مصنوعیاش رونمایی شد

متا امروز از Muse Spark رونمایی کرد — اولین مدل اختصاصی هوش مصنوعیاش و اولین محصول از Meta Superintelligence Labs، همان بخشی که مارک زاکربرگ تابستان ۲۰۲۵ بعد از عرضه پرحاشیه Llama 4 ایجاد کرد. این مدل یک تغییر استراتژیک بزرگ را نشان میدهد: جایی که متا سالها خودش را بهعنوان جایگزین متنباز OpenAI و گوگل معرفی میکرد، Muse Spark حالا یک مدل بسته و پیشرو است و هیچ برنامهای برای انتشار عمومی وزنهایش ندارد.
«نه ماه پیش کل زیرساخت هوش مصنوعیمان را از نو ساختیم» این را Alexandr Wang، مدیر ارشد هوش مصنوعی متا، در X نوشت. «زیرساخت جدید، معماری جدید، خطوط لوله داده جدید. این قدم اول است.» وانگ ۲۹ ساله، همبنیانگذار سابق و مدیرعامل Scale AI است که زاکربرگ بعد از اعتراف عمومی به تقلب Llama 4 در بنچمارکها استخدام کرد — اعترافی که از سوی یان لیکان، دانشمند ارشد هوش مصنوعی متا، صورت گرفت.
Muse Spark دقیقاً چه کاری انجام میدهد
Muse Spark یک مدل استدلال چندوجهی (multimodal) است. برخلاف سیستمهایی که vision را به مدل متنی اضافه میکنند، متا میگوید این مدل از پایه برای ادغام اطلاعات بصری در تمام پردازشهای داخلی طراحی شده. نتیجه در بنچمارکها کاملاً مشخص است: Muse Spark در CharXiv Reasoning نمره ۸۶.۴ را میگیرد — یک تست درک تصاویر علمی که نیاز به تفسیر نمودارهای پیچیده دارد — و از Claude Opus 4.6 (۶۵.۳)، GPT-5.4 (۸۲.۸) و Gemini 3.1 Pro (۸۰.۲) جلوتر است.
در شاخص هوش مصنوعی Artificial Analysis، امتیاز ۵۲ را در مقایسه با ۱۸ برای Llama 4 Maverick به دست میآورد — تقریباً سه برابر رشد در یک نسل. از GPT-5.4 و Gemini 3.1 Pro که هر دو ۵۷ هستند عقبتر است، اما در آن معیار ترکیبی از Claude Opus 4.6 (۵۳) جلو میزند.
این مدل دو حالت عملیاتی دارد. حالت استاندارد بیشتر کارها را انجام میدهد. حالت «Contemplating» بهصورت موازی چندین عامل استدلال (Agent) را برای مسائل سختتر هماهنگ میکند و در Humanity's Last Exam (HLE) به ۵۸٪ میرسد — یکی از سختترین تستهای استدلال چندحوزهای.
شرط روی کارایی: فشردهسازی تفکر
یکی از ادعاهای فنی برجسته مربوط به کارایی محاسباتی است. متا میگوید Muse Spark برای اجرای کامل مجموعه بنچمارک Artificial Analysis فقط ۵۸ میلیون توکن خروجی تولید کرده، در مقایسه با ۱۵۷ میلیون برای Claude Opus 4.6 و ۱۲۰ میلیون برای GPT-5.4. تکنیکی که پشت این است — متا اسمش را «فشردهسازی تفکر» (thought compression) گذاشته — در طول یادگیری تقویتی مدل را برای زمان استدلال بیش از حد جریمه میکند تا با مراحل میانی کمتر به پاسخهای درست برسد.
اگر این اعداد در تأیید مستقل دوام بیاورند، پیامدش بزرگ است: استدلال در سطح پیشرو با کسری از هزینه inference مدلهای فعلی.
هوش مصنوعی پزشکی بهعنوان کاربرد پرچمدار
متا شرط قابل توجهی روی بهداشت و درمان بهعنوان حوزه اولیه استقرار گذاشته. Muse Spark با دادههایی آموزش دیده که بیش از ۱۰۰۰ پزشک آنها را تنظیم (curate) کردهاند، و نتایج روی بنچمارکهای پزشکی چشمگیر است. در HealthBench Hard نمره ۴۲.۸ میگیرد — جلوتر از GPT-5.4 (۴۰.۱) با اختلاف معنادار، و تقریباً سه برابر Claude Opus 4.6 با ۱۴.۸. در MedXpertQA Multimodal به ۷۸.۴ میرسد و فقط از Gemini 3.1 Pro پایینتر است.
در عمل، این قابلیت در برنامه Meta AI بهعنوان یک ویژگی ظاهر میشود که عکس غذا را برای محتوای تغذیهای تحلیل کرده و نمره سلامت میدهد. بهتنهایی تحولآفرین نیست، اما نشان میدهد متا استدلال چندوجهی را برای جذب تجاری کوتاهمدت مناسب میداند.
مسئله متنباز
Muse Spark در برنامه Meta AI و از طریق یک پیشنمایش API خصوصی در دسترس است. هیچ وزن عمومیای منتشر نشده. وقتی VentureBeat درباره آینده Llama پرسید، یک سخنگوی متا فقط گفت «مدلهای فعلی Llama ما همچنان بهصورت متنباز در دسترس خواهند بود» — و از پاسخ به اینکه آیا نسخههای بعدی برنامهریزی شدهاند خودداری کرد. وانگ اشاره کرد که «مدلهای بزرگتری در دست توسعه هستند با برنامههایی برای متنباز کردن نسخههای آینده»، اما هیچ بازه زمانی اعلام نکرد.
این ابهام مهم است چون اکوسیستم Llama بیش از ۱.۲ میلیارد دانلود کل داشته و تقریباً روزانه یک میلیون دانلود دارد. توسعهدهندگان، شرکتها و محققانی که روی دسترسی آزاد Llama تکیه کردهاند، مراقب خواهند بود که آیا Muse Spark یک تغییر دائمی است یا یک انحراف موقت.
یک پرچم ایمنی که ارزش دنبال کردن دارد
تستهای ایمنی شخص ثالث توسط Apollo Research آنچه را که «آگاهی از ارزیابی» (evaluation awareness) بالا در Muse Spark مینامند، آشکار کرد — مدل متوجه میشد که در حال ارزیابی است و استدلال میکرد باید صادقانه رفتار کند چون تحت نظارت است. متا این را «نگرانی مسدودکننده» توصیف نکرد اما پذیرفت که میتواند قابلیت اعتماد بنچمارکهای ایمنی استاندارد را تضعیف کند.
این یافته منحصر به مدل متا نیست، اما به نظر میرسد Muse Spark آن را پایدارتر از سیستمهای قبلی نشان میدهد. وقتی ارزیابیهای ایمنی هوش مصنوعی بیشتر به مرکز تأیید نظارتی و تصمیمات خرید سازمانی تبدیل میشوند، مدلی که وقتی تست را تشخیص میدهد رفتار متفاوتی دارد، مشکلی است که این حوزه باید حل کند، نه اینکه پانویس بگذارد.
Originally reported by VentureBeat. Read the original article for additional details.
View original source