هوش مصنوعی درون‌دستگاهی به آرامی قابلیت‌های گوشی‌های هوشمند را تغییر می‌دهد — بدون نیاز به اینترنت | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

دموهای هوش مصنوعی که توجه را جلب می‌کنند، شامل سرورهای ابری، میلیاردها پارامتر و یک اتصال اینترنتی پرسرعت هستند. اما هوش مصنوعی که در واقع نحوه استفاده صدها میلیون نفر از دستگاه‌های خود را تغییر می‌دهد، کوچک‌تر، سریع‌تر است و کاملاً روی سیلیکون داخل جیب آن‌ها اجرا می‌شود.

هر گوشی هوشمند پرچم‌داری که از سال ۲۰۲۴ به بعد عرضه شده است، شامل یک واحد پردازش عصبی (Neural Processing Unit) — یک بلوک سخت‌افزاری اختصاصی است که به طور خاص برای اجرای عملیات ماتریسی و استنتاج شبکه عصبی با سرعت بالا و توان کم طراحی شده است. Apple A18 Pro در سری iPhone 16، Qualcomm Snapdragon 8 Elite و Samsung Exynos 2500 همگی با NPUهایی عرضه می‌شوند که قادر به انجام ۱۰ تا ۳۸ تریلیون عملیات در ثانیه هستند. این‌ها پردازنده‌های همه‌منظوره‌ای نیستند که برای هوش مصنوعی تغییر کاربری داده شده باشند — بلکه سیلیکون سفارشی هستند که از ابتدا برای الگوهای محاسباتی خاص مورد نیاز شبکه‌های عصبی طراحی شده‌اند.

NPUها در واقع چه کاری انجام می‌دهند

واحدهای پردازش عصبی برای عملیات ضرب ماتریس و کانولوشن که بار کاری شبکه‌های عصبی را تشکیل می‌دهند، بهینه شده‌اند. یک CPU می‌تواند این عملیات را انجام دهد، اما به صورت ناکارآمد — باید داده‌ها را از حافظه بارگذاری کند، عملیات را به صورت ترتیبی انجام دهد و نتایج را بازنویسی کند، که اغلب بیشتر ظرفیت محاسباتی خود را بیکار می‌گذارد. یک GPU موازی‌سازی بهتری دارد اما توان مصرفی بسیار بیشتری نسبت به آنچه روی یک دستگاه باتری‌دار پایدار است، مصرف می‌کند. یک NPU هدفمند ساخته شده است: آرایه‌های حافظه محلی در مجاورت واحدهای ضرب-انباشت قرار دارند، داده‌ها را به صورت کاشی‌هایی پردازش می‌کند که استفاده مجدد را به حداکثر می‌رساند و با کسری از بودجه توان یک GPU کار می‌کند.

Apple Neural Engine در A18 Pro با توان مصرفی که امکان استنتاج پایدار بدون کاهش سرعت را فراهم می‌کند، ۳۸ تریلیون عملیات در ثانیه پردازش می‌کند. Hexagon NPU کوالکام در Snapdragon 8 Elite به ۴۵ TOPS (تریلیون عملیات در ثانیه) می‌رسد — بالاترین میزان در هر تراشه موبایلی تا سال ۲۰۲۶. NPU سامسونگ در Exynos 2500 به ۳۴.۴ TOPS می‌رسد. این اعداد نشان‌دهنده بهبود ۳ تا ۴ برابری نسبت به نسل مشابه دو سال قبل است، و از مسیری پیروی می‌کند که نشان می‌دهد عملکرد NPU موبایل تقریباً هر ۱۸ ماه دو برابر می‌شود.

آنچه در سال ۲۰۲۶ به صورت درون‌دستگاهی اجرا می‌شود

کاربردهای عملی که به صورت محلی روی گوشی‌های پرچم‌دار در سال ۲۰۲۶ اجرا می‌شوند، بسیار فراتر از تشخیص گفتار ساده و دسته‌بندی عکس نسل‌های قبلی است. ترجمه زنده اکنون کاملاً روی دستگاه کار می‌کند: حالت مترجم Pixel 9 Pro مکالمه گفتاری را به صورت بلادرنگ بین ۴۸ جفت زبان بدون هیچ اتصال شبکه‌ای ترجمه می‌کند، صدا را پردازش، به متن تبدیل، ترجمه و گفتار را در کمتر از ۴۰۰ میلی‌ثانیه ترکیب می‌کند. مدل ترجمه درون‌دستگاهی گوگل یک مدل ۱.۵ میلیارد پارامتری تغلیظ شده است که در ۶۰۰ مگابایت حافظه جا می‌گیرد و کاملاً روی NPU Tensor G4 اجرا می‌شود.

مجموعه Galaxy AI سامسونگ که روی Snapdragon 8 Elite اجرا می‌شود، شامل ویرایش عکس درون‌دستگاهی است که می‌تواند اشیا را حذف کرده، پس‌زمینه را گسترش دهد و تصاویر را با استفاده از یک مدل انتشار فشرده شده برای اجرا در محدودیت حافظه NPU دوباره ترکیب کند. مدل‌های ویرایش عکس به طور قابل توجهی کوچک‌تر از معادل‌های ابری هستند — حدود ۵۰۰ میلیون پارامتر در مقابل ۳ تا ۸ میلیارد در ابزارهای عکس ابری — اما نتایجی تولید می‌کنند که برای اکثر موارد استفاده غیرقابل تشخیص هستند.

Apple Intelligence که در iOS 18 معرفی و در طول ۲۰۲۵ و ۲۰۲۶ اصلاح شد، مجموعه‌ای از مدل‌ها را روی دستگاه اجرا می‌کند: یک دستیار نوشتاری، یک سیستم تولید تصویر به نام Image Playground، یک موتور خلاصه‌سازی و Siri بهبود یافته که می‌تواند وظایف چندمرحله‌ای را در بین برنامه‌ها انجام دهد. مدل‌های درون‌دستگاهی حداکثر حدود ۳ میلیارد پارامتر دارند و روی Neural Engine اجرا می‌شوند. وظایفی که به قابلیت‌های مدل بزرگ‌تری نیاز دارند، به Private Cloud Compute اپل هدایت می‌شوند که درخواست‌ها را روی سرورهای اپل سیلیکون پردازش کرده و به صورت رمزنگاری تضمین می‌کند که داده‌ها ذخیره یا ثبت نمی‌شوند.

مزیت حریم خصوصی

پردازش داده‌ها به صورت محلی معادله حریم خصوصی را به روش‌هایی تغییر می‌دهد که زبان بازاریابی اغلب مبهم می‌کند، اما پیامدهای فنی واقعی هستند. وقتی تلفن شما یک یادداشت صوتی را روی دستگاه تبدیل به متن می‌کند، آن صدا هرگز دستگاه را ترک نمی‌کند. وقتی یک مدل درون‌دستگاهی یک ایمیل را خلاصه می‌کند، محتوای ایمیل هرگز از شبکه عبور نمی‌کند. وقتی ویرایش عکس به صورت محلی انجام می‌شود، عکس‌ها برای پردازش به سرور شخص ثالث آپلود نمی‌شوند.

این موضوع در زمینه‌هایی که پردازش ابری مواجهه قانونی یا عملی ایجاد می‌کند، اهمیت دارد: متخصصان پزشکی که یادداشت‌ها را دیکته می‌کنند، وکلایی که در مورد مسائل مشتری بحث می‌کنند، روزنامه‌نگارانی که از منابع محافظت می‌کنند و هر کسی در حوزه قضایی با قوانین تهاجمی نگهداری داده. مزیت عملی این است که پردازش درون‌دستگاهی سؤالات مربوط به سیاست حریم خصوصی را کاملاً دور می‌زند — داده‌ای برای جمع‌آوری وجود ندارد زیرا چیزی دستگاه را ترک نمی‌کند.

محدودیت آن قابلیت است: مدل‌های درون‌دستگاهی لزوماً کوچک‌تر و کم‌توان‌تر از همتایان ابری خود هستند. یک مدل درون‌دستگاهی با ۳ میلیارد پارامتر مقاله بدتری نسبت به یک مدل ابری با ۷۰ میلیارد پارامتر می‌نویسد. این شکاف در حال کاهش بوده است — تکنیک‌های تغلیظ و کمی‌سازی به طور قابل توجهی بهبود یافته‌اند — اما هنوز بسته نشده است و برای وظایف استدلال پیچیده، مدل‌های ابری همچنان به طور قابل توجهی بهتر هستند.

مورد قابلیت اطمینان آفلاین

هوش مصنوعی درون‌دستگاهی همچنین به یک مشکل قابلیت اطمینان می‌پردازد که به راحتی دست کم گرفته می‌شود: وابستگی به ابر. یک ویژگی هوش مصنوعی که به اتصال سرور نیاز دارد، در هواپیما، در ساختمانی با پوشش ضعیف، در کشوری که سرورهای ارائه‌دهنده مسدود شده‌اند و در طول هرگونه اختلال در زیرساخت ارائه‌دهنده، در دسترس نیست.

گوگل این درس را با برنامه پیام‌رسان Allo در سال ۲۰۱۶ آموخت: ویژگی‌های هوش مصنوعی که نیاز به پردازش ابری داشتند، زمانی که کاربران آفلاین بودند، به سادگی وجود نداشتند که این امر پذیرش را محدود کرد. انتقال به پردازش درون‌دستگاهی برای اکثر ویژگی‌های رایج، یک تغییر استراتژیک عمدی در هر سه پلتفرم اصلی تلفن بوده است. هدف این است که ویژگی‌های هوش مصنوعی مانند ویژگی‌های دستگاه احساس شوند، نه ویژگی‌های یک سرویس — بدون توجه به اتصال، به طور قابل پیش‌بینی در دسترس باشند.

رقابت فشرده‌سازی مدل

شکاف قابلیت بین هوش مصنوعی درون‌دستگاهی و ابری از طریق ترکیبی از بهبودهای سخت‌افزاری و تحقیقات فشرده‌سازی مدل در حال بسته شدن است. کمی‌سازی — کاهش دقت وزن‌های مدل از ممیز شناور ۳۲ بیتی یا ۱۶ بیتی به اعداد صحیح ۸ بیتی یا ۴ بیتی — نیاز حافظه مدل را با جریمه دقت متوسط ۴ تا ۸ برابر کاهش می‌دهد. تغلیظ دانش (Knowledge Distillation) مدل‌های کوچک‌تری را آموزش می‌دهد تا رفتار مدل‌های بزرگ‌تر را تقلید کنند. هرس ساختاریافته نورون‌ها و لایه‌هایی را که کمترین سهم را در خروجی مدل دارند، حذف می‌کند.

نتیجه این است که مدل‌هایی که به طور خاص برای استقرار درون‌دستگاهی در سال ۲۰۲۶ طراحی شده‌اند، به قابلیت‌هایی دست می‌یابند که در سال ۲۰۲۳ نیاز به پردازش ابری داشتند. جعبه ابزار بهره‌وری مدل هوش مصنوعی کوالکام (Qualcomm AI Model Efficiency Toolkit) و چارچوب Core ML اپل هر دو شامل ابزارهایی برای گرفتن معماری‌های مدل استاندارد و بهینه‌سازی آن‌ها برای استقرار درون‌دستگاهی هستند. متا تحقیقات MobileVision و MobileNLP خود را به طور خاص با هدف استنتاج درون‌دستگاهی به صورت Open Source منتشر کرده است.

مسیر به سوی آینده‌ای نزدیک اشاره دارد که در آن مزایای تأخیر، حریم خصوصی و قابلیت اطمینان هوش مصنوعی درون‌دستگاهی — همراه با بهبودهای مستمر سخت‌افزاری — آن را به گزینه پیش‌فرض برای اکثر وظایف رایج تبدیل می‌کند و پردازش ابری برای مواردی که واقعاً به آن نیاز دارند، محفوظ می‌ماند. برای کاربران، این به معنای ویژگی‌های هوش مصنوعی است که آنی احساس می‌شوند و در همه جا کار می‌کنند. تغییر اساسی این است که هوشمندی به ویژگی دستگاه تبدیل می‌شود، نه سرویسی که از آن به دست می‌آید.