هوش مصنوعی دروندستگاهی به آرامی قابلیتهای گوشیهای هوشمند را تغییر میدهد — بدون نیاز به اینترنت

دموهای هوش مصنوعی که توجه را جلب میکنند، شامل سرورهای ابری، میلیاردها پارامتر و یک اتصال اینترنتی پرسرعت هستند. اما هوش مصنوعی که در واقع نحوه استفاده صدها میلیون نفر از دستگاههای خود را تغییر میدهد، کوچکتر، سریعتر است و کاملاً روی سیلیکون داخل جیب آنها اجرا میشود.
هر گوشی هوشمند پرچمداری که از سال ۲۰۲۴ به بعد عرضه شده است، شامل یک واحد پردازش عصبی (Neural Processing Unit) — یک بلوک سختافزاری اختصاصی است که به طور خاص برای اجرای عملیات ماتریسی و استنتاج شبکه عصبی با سرعت بالا و توان کم طراحی شده است. Apple A18 Pro در سری iPhone 16، Qualcomm Snapdragon 8 Elite و Samsung Exynos 2500 همگی با NPUهایی عرضه میشوند که قادر به انجام ۱۰ تا ۳۸ تریلیون عملیات در ثانیه هستند. اینها پردازندههای همهمنظورهای نیستند که برای هوش مصنوعی تغییر کاربری داده شده باشند — بلکه سیلیکون سفارشی هستند که از ابتدا برای الگوهای محاسباتی خاص مورد نیاز شبکههای عصبی طراحی شدهاند.
NPUها در واقع چه کاری انجام میدهند
واحدهای پردازش عصبی برای عملیات ضرب ماتریس و کانولوشن که بار کاری شبکههای عصبی را تشکیل میدهند، بهینه شدهاند. یک CPU میتواند این عملیات را انجام دهد، اما به صورت ناکارآمد — باید دادهها را از حافظه بارگذاری کند، عملیات را به صورت ترتیبی انجام دهد و نتایج را بازنویسی کند، که اغلب بیشتر ظرفیت محاسباتی خود را بیکار میگذارد. یک GPU موازیسازی بهتری دارد اما توان مصرفی بسیار بیشتری نسبت به آنچه روی یک دستگاه باتریدار پایدار است، مصرف میکند. یک NPU هدفمند ساخته شده است: آرایههای حافظه محلی در مجاورت واحدهای ضرب-انباشت قرار دارند، دادهها را به صورت کاشیهایی پردازش میکند که استفاده مجدد را به حداکثر میرساند و با کسری از بودجه توان یک GPU کار میکند.
Apple Neural Engine در A18 Pro با توان مصرفی که امکان استنتاج پایدار بدون کاهش سرعت را فراهم میکند، ۳۸ تریلیون عملیات در ثانیه پردازش میکند. Hexagon NPU کوالکام در Snapdragon 8 Elite به ۴۵ TOPS (تریلیون عملیات در ثانیه) میرسد — بالاترین میزان در هر تراشه موبایلی تا سال ۲۰۲۶. NPU سامسونگ در Exynos 2500 به ۳۴.۴ TOPS میرسد. این اعداد نشاندهنده بهبود ۳ تا ۴ برابری نسبت به نسل مشابه دو سال قبل است، و از مسیری پیروی میکند که نشان میدهد عملکرد NPU موبایل تقریباً هر ۱۸ ماه دو برابر میشود.
آنچه در سال ۲۰۲۶ به صورت دروندستگاهی اجرا میشود
کاربردهای عملی که به صورت محلی روی گوشیهای پرچمدار در سال ۲۰۲۶ اجرا میشوند، بسیار فراتر از تشخیص گفتار ساده و دستهبندی عکس نسلهای قبلی است. ترجمه زنده اکنون کاملاً روی دستگاه کار میکند: حالت مترجم Pixel 9 Pro مکالمه گفتاری را به صورت بلادرنگ بین ۴۸ جفت زبان بدون هیچ اتصال شبکهای ترجمه میکند، صدا را پردازش، به متن تبدیل، ترجمه و گفتار را در کمتر از ۴۰۰ میلیثانیه ترکیب میکند. مدل ترجمه دروندستگاهی گوگل یک مدل ۱.۵ میلیارد پارامتری تغلیظ شده است که در ۶۰۰ مگابایت حافظه جا میگیرد و کاملاً روی NPU Tensor G4 اجرا میشود.
مجموعه Galaxy AI سامسونگ که روی Snapdragon 8 Elite اجرا میشود، شامل ویرایش عکس دروندستگاهی است که میتواند اشیا را حذف کرده، پسزمینه را گسترش دهد و تصاویر را با استفاده از یک مدل انتشار فشرده شده برای اجرا در محدودیت حافظه NPU دوباره ترکیب کند. مدلهای ویرایش عکس به طور قابل توجهی کوچکتر از معادلهای ابری هستند — حدود ۵۰۰ میلیون پارامتر در مقابل ۳ تا ۸ میلیارد در ابزارهای عکس ابری — اما نتایجی تولید میکنند که برای اکثر موارد استفاده غیرقابل تشخیص هستند.
Apple Intelligence که در iOS 18 معرفی و در طول ۲۰۲۵ و ۲۰۲۶ اصلاح شد، مجموعهای از مدلها را روی دستگاه اجرا میکند: یک دستیار نوشتاری، یک سیستم تولید تصویر به نام Image Playground، یک موتور خلاصهسازی و Siri بهبود یافته که میتواند وظایف چندمرحلهای را در بین برنامهها انجام دهد. مدلهای دروندستگاهی حداکثر حدود ۳ میلیارد پارامتر دارند و روی Neural Engine اجرا میشوند. وظایفی که به قابلیتهای مدل بزرگتری نیاز دارند، به Private Cloud Compute اپل هدایت میشوند که درخواستها را روی سرورهای اپل سیلیکون پردازش کرده و به صورت رمزنگاری تضمین میکند که دادهها ذخیره یا ثبت نمیشوند.
مزیت حریم خصوصی
پردازش دادهها به صورت محلی معادله حریم خصوصی را به روشهایی تغییر میدهد که زبان بازاریابی اغلب مبهم میکند، اما پیامدهای فنی واقعی هستند. وقتی تلفن شما یک یادداشت صوتی را روی دستگاه تبدیل به متن میکند، آن صدا هرگز دستگاه را ترک نمیکند. وقتی یک مدل دروندستگاهی یک ایمیل را خلاصه میکند، محتوای ایمیل هرگز از شبکه عبور نمیکند. وقتی ویرایش عکس به صورت محلی انجام میشود، عکسها برای پردازش به سرور شخص ثالث آپلود نمیشوند.
این موضوع در زمینههایی که پردازش ابری مواجهه قانونی یا عملی ایجاد میکند، اهمیت دارد: متخصصان پزشکی که یادداشتها را دیکته میکنند، وکلایی که در مورد مسائل مشتری بحث میکنند، روزنامهنگارانی که از منابع محافظت میکنند و هر کسی در حوزه قضایی با قوانین تهاجمی نگهداری داده. مزیت عملی این است که پردازش دروندستگاهی سؤالات مربوط به سیاست حریم خصوصی را کاملاً دور میزند — دادهای برای جمعآوری وجود ندارد زیرا چیزی دستگاه را ترک نمیکند.
محدودیت آن قابلیت است: مدلهای دروندستگاهی لزوماً کوچکتر و کمتوانتر از همتایان ابری خود هستند. یک مدل دروندستگاهی با ۳ میلیارد پارامتر مقاله بدتری نسبت به یک مدل ابری با ۷۰ میلیارد پارامتر مینویسد. این شکاف در حال کاهش بوده است — تکنیکهای تغلیظ و کمیسازی به طور قابل توجهی بهبود یافتهاند — اما هنوز بسته نشده است و برای وظایف استدلال پیچیده، مدلهای ابری همچنان به طور قابل توجهی بهتر هستند.
مورد قابلیت اطمینان آفلاین
هوش مصنوعی دروندستگاهی همچنین به یک مشکل قابلیت اطمینان میپردازد که به راحتی دست کم گرفته میشود: وابستگی به ابر. یک ویژگی هوش مصنوعی که به اتصال سرور نیاز دارد، در هواپیما، در ساختمانی با پوشش ضعیف، در کشوری که سرورهای ارائهدهنده مسدود شدهاند و در طول هرگونه اختلال در زیرساخت ارائهدهنده، در دسترس نیست.
گوگل این درس را با برنامه پیامرسان Allo در سال ۲۰۱۶ آموخت: ویژگیهای هوش مصنوعی که نیاز به پردازش ابری داشتند، زمانی که کاربران آفلاین بودند، به سادگی وجود نداشتند که این امر پذیرش را محدود کرد. انتقال به پردازش دروندستگاهی برای اکثر ویژگیهای رایج، یک تغییر استراتژیک عمدی در هر سه پلتفرم اصلی تلفن بوده است. هدف این است که ویژگیهای هوش مصنوعی مانند ویژگیهای دستگاه احساس شوند، نه ویژگیهای یک سرویس — بدون توجه به اتصال، به طور قابل پیشبینی در دسترس باشند.
رقابت فشردهسازی مدل
شکاف قابلیت بین هوش مصنوعی دروندستگاهی و ابری از طریق ترکیبی از بهبودهای سختافزاری و تحقیقات فشردهسازی مدل در حال بسته شدن است. کمیسازی — کاهش دقت وزنهای مدل از ممیز شناور ۳۲ بیتی یا ۱۶ بیتی به اعداد صحیح ۸ بیتی یا ۴ بیتی — نیاز حافظه مدل را با جریمه دقت متوسط ۴ تا ۸ برابر کاهش میدهد. تغلیظ دانش (Knowledge Distillation) مدلهای کوچکتری را آموزش میدهد تا رفتار مدلهای بزرگتر را تقلید کنند. هرس ساختاریافته نورونها و لایههایی را که کمترین سهم را در خروجی مدل دارند، حذف میکند.
نتیجه این است که مدلهایی که به طور خاص برای استقرار دروندستگاهی در سال ۲۰۲۶ طراحی شدهاند، به قابلیتهایی دست مییابند که در سال ۲۰۲۳ نیاز به پردازش ابری داشتند. جعبه ابزار بهرهوری مدل هوش مصنوعی کوالکام (Qualcomm AI Model Efficiency Toolkit) و چارچوب Core ML اپل هر دو شامل ابزارهایی برای گرفتن معماریهای مدل استاندارد و بهینهسازی آنها برای استقرار دروندستگاهی هستند. متا تحقیقات MobileVision و MobileNLP خود را به طور خاص با هدف استنتاج دروندستگاهی به صورت Open Source منتشر کرده است.
مسیر به سوی آیندهای نزدیک اشاره دارد که در آن مزایای تأخیر، حریم خصوصی و قابلیت اطمینان هوش مصنوعی دروندستگاهی — همراه با بهبودهای مستمر سختافزاری — آن را به گزینه پیشفرض برای اکثر وظایف رایج تبدیل میکند و پردازش ابری برای مواردی که واقعاً به آن نیاز دارند، محفوظ میماند. برای کاربران، این به معنای ویژگیهای هوش مصنوعی است که آنی احساس میشوند و در همه جا کار میکنند. تغییر اساسی این است که هوشمندی به ویژگی دستگاه تبدیل میشود، نه سرویسی که از آن به دست میآید.