الذكاء الاصطناعي على الجهاز يغير بهدوء ما يمكن للهواتف الذكية فعله — بدون حاجة إلى الإنترنت

العروض التوضيحية للذكاء الاصطناعي التي تجذب الانتباه تشمل خوادم سحابية، ومليارات المعاملات، واتصال إنترنت سريع. لكن الذكاء الاصطناعي الذي يغير فعليًا كيفية استخدام مئات الملايين من الأشخاص لأجهزتهم هو أصغر حجمًا وأسرع، ويعمل بالكامل على السيليكون داخل جيوبهم.
كل هاتف ذكي رئيسي تم إطلاقه منذ عام 2024 يحتوي على وحدة معالجة عصبية (Neural Processing Unit) — وهي كتلة أجهزة مخصصة مصممة خصيصًا لتشغيل عمليات المصفوفات واستنتاج الشبكات العصبية بسرعة عالية وطاقة منخفضة. يأتي كل من Apple A18 Pro في سلسلة iPhone 16، وQualcomm Snapdragon 8 Elite، وSamsung Exynos 2500 مزودًا بوحدات NPU قادرة على تنفيذ 10–38 تريليون عملية في الثانية. هذه ليست معالجات عامة الغرض تم إعادة استخدامها للذكاء الاصطناعي — إنها سيليكون مخصص مصمم من الألف إلى الياء لأنماط الحساب المحددة التي تتطلبها الشبكات العصبية.
ما تفعله NPU في الواقع
وحدات المعالجة العصبية محسّنة لعمليات ضرب المصفوفات والالتفاف التي تهيمن على أعباء عمل الشبكات العصبية. يمكن لوحدة المعالجة المركزية تنفيذ هذه العمليات، ولكن بشكل غير فعال — يجب عليها تحميل البيانات من الذاكرة، وتنفيذ العمليات بالتسلسل، وكتابة النتائج مرة أخرى، وغالبًا ما تترك معظم قدرتها الحسابية خاملة. تقوم وحدة معالجة الرسومات بالتوازي بشكل أفضل ولكنها تستهلك طاقة أكثر بكثير مما هو مستدام على جهاز يعمل بالبطارية. إن NPU مصممة لغرض محدد: فهي تحتوي على مصفوفات ذاكرة محلية موضوعة بجوار وحدات الضرب-التراكم، وتعالج البيانات في بلاطات تزيد من إعادة الاستخدام، وتعمل بجزء صغير من ميزانية طاقة وحدة معالجة الرسومات.
يعالج Apple Neural Engine في A18 Pro 38 تريليون عملية في الثانية باستهلاك طاقة يسمح بالاستنتاج المستدام دون خفض السرعة. يصل Hexagon NPU من كوالكوم في Snapdragon 8 Elite إلى 45 TOPS (تريليون عملية في الثانية) — وهو الأعلى في أي شريحة جوال اعتبارًا من 2026. يصل NPU Samsung Exynos 2500 إلى 34.4 TOPS. تمثل هذه الأرقام تحسنًا بمقدار 3–4 مرات مقارنة بالجيل نفسه قبل عامين، متبعة مسارًا يشير إلى أن أداء NPU المحمول يتضاعف تقريبًا كل 18 شهرًا.
ما يعمل على الجهاز في 2026
التطبيقات العملية التي تعمل محليًا على الهواتف الرئيسية في 2026 تتجاوز بكثير التعرف البسيط على الكلام وتصنيف الصور في الأجيال السابقة. تعمل الترجمة الفورية الآن بالكامل على الجهاز: يقوم وضع المترجم في Pixel 9 Pro بترجمة المحادثة المنطوقة في الوقت الفعلي بين 48 زوجًا لغويًا دون أي اتصال بالشبكة، حيث يعالج الصوت ويحوله إلى نص ويترجمه ويصنع الكلام في أقل من 400 مللي ثانية. نموذج الترجمة على الجهاز من Google هو نموذج مقطر بحجم 1.5 مليار معامل يناسب 600 ميجابايت من الذاكرة ويعمل بالكامل على NPU Tensor G4.
تتضمن مجموعة Galaxy AI من سامسونج، التي تعمل على Snapdragon 8 Elite، تحرير الصور على الجهاز الذي يمكنه إزالة الكائنات، وتوسيع الخلفيات، وإعادة تكوين الصور باستخدام نموذج انتشار مضغوط ليعمل ضمن قيود ذاكرة NPU. نماذج تحرير الصور أصغر بشكل كبير من نظيراتها السحابية — حوالي 500 مليون معامل مقابل 3–8 مليار في أدوات الصور السحابية — ولكنها تنتج نتائج لا يمكن تمييزها في معظم حالات الاستخدام.
Apple Intelligence، التي تم تقديمها في iOS 18 وتم تنقيحها خلال 2025 و2026، تشغل مجموعة من النماذج على الجهاز: مساعد كتابة، ونظام لتوليد الصور يسمى Image Playground، ومحرك تلخيص، وSiri المحسّنة التي يمكنها تنفيذ مهام متعددة الخطوات عبر التطبيقات. تبلغ النماذج على الجهاز حدها الأقصى حوالي 3 مليارات معامل وتعمل على Neural Engine؛ يتم توجيه المهام التي تتطلب قدرات نموذج أكبر إلى Private Cloud Compute من Apple، والتي تعالج الطلبات على خوادم Apple Silicon وتضمن تشفيرًا أن البيانات لا يتم الاحتفاظ بها أو تسجيلها.
ميزة الخصوصية
معالجة البيانات محليًا تغير معادلة الخصوصية بطرق غالبًا ما تخفيها لغة التسويق ولكن الآثار الفنية حقيقية. عندما ينسخ هاتفك ملاحظة صوتية على الجهاز، فإن ذلك الصوت لا يغادر الجهاز أبدًا. عندما يلخص نموذج على الجهاز بريدًا إلكترونيًا، فإن محتوى البريد الإلكتروني لا يعبر الشبكة أبدًا. عندما يتم تحرير الصور محليًا، لا يتم تحميل الصور إلى خادم طرف ثالث للمعالجة.
هذا مهم في السياقات التي يخلق فيها المعالجة السحابية تعرضًا قانونيًا أو عمليًا: الأطباء الذين يمليون الملاحظات، والمحامون الذين يناقشون شؤون العملاء، والصحفيون الذين يحمون المصادر، وأي شخص في منطقة قضائية لديها قوانين عدوانية للاحتفاظ بالبيانات. الفائدة العملية هي أن المعالجة على الجهاز تتجاوز أسئلة سياسة الخصوصية تمامًا — لا توجد بيانات لجمعها لأن لا شيء يغادر الجهاز.
القيود هي القدرة: النماذج على الجهاز أصغر حجمًا وأقل قدرة بالضرورة من نظيراتها السحابية. نموذج على الجهاز بحجم 3 مليارات معامل سيكتب مقالة أسوأ من نموذج سحابي بحجم 70 مليار معامل. كانت الفجوة تضيق — تحسنت تقنيات التقطير والقياس بشكل كبير — لكنها لم تُغلق، وبالنسبة لمهام التفكير المعقدة، تظل النماذج السحابية أفضل بشكل كبير.
حالة الموثوقية دون اتصال
يعالج الذكاء الاصطناعي على الجهاز أيضًا مشكلة موثوقية يسهل الاستهانة بها: الاعتماد على السحابة. ميزة الذكاء الاصطناعي التي تتطلب اتصالاً بالخادم غير متوفرة على متن الطائرة، أو في مبنى ذي استقبال ضعيف، أو في بلد يتم فيه حظر خوادم المزود، أو أثناء أي انقطاع في البنية التحتية للمزود.
تعلمت Google هذا الدرس مع تطبيق المراسلة Allo في 2016: ميزات الذكاء الاصطناعي التي تتطلب معالجة سحابية كانت غائبة ببساطة عندما يكون المستخدمون غير متصلين، مما حد من الاعتماد. كان الانتقال إلى المعالجة على الجهاز لمعظم الميزات الشائعة تحولًا استراتيجيًا متعمدًا عبر جميع منصات الهواتف الرئيسية الثلاث. الهدف هو أن تشعر ميزات الذكاء الاصطناعي وكأنها ميزات للجهاز، وليست ميزات لخدمة — متاحة بشكل يمكن التنبؤ به بغض النظر عن الاتصال.
سباق ضغط النماذج
فجوة القدرة بين الذكاء الاصطناعي على الجهاز والسحابي تغلق من خلال مزيج من تحسينات الأجهزة وأبحاث ضغط النماذج. القياس — تقليل دقة أوزان النموذج من الفاصلة العائمة 32 بت أو 16 بت إلى أعداد صحيحة 8 بت أو 4 بت — يقلل متطلبات ذاكرة النموذج بمقدار 4–8 مرات مع عقوبات دقة متوسطة. التقطير المعرفي يدرب نماذج أصغر لتقليد سلوك النماذج الأكبر. التقليم المنظم يزيل الخلايا العصبية والطبقات التي تساهم بشكل أقل في مخرجات النموذج.
النتيجة هي أن النماذج المصممة خصيصًا للنشر على الجهاز في 2026 تحقق قدرات كانت ستتطلب معالجة سحابية في 2023. تتضمن مجموعة أدوات كفاءة نموذج الذكاء الاصطناعي من كوالكوم (Qualcomm AI Model Efficiency Toolkit) وإطار Core ML من Apple أدوات لأخذ بنى النماذج القياسية وتحسينها للنشر على الجهاز. قامت Meta بنشر أبحاث MobileVision وMobileNLP مفتوحة المصدر تستهدف تحديدًا الاستدلال على الجهاز.
يشير المسار نحو مستقبل قريب حيث تجعل فوائد زمن الاستجابة والخصوصية والموثوقية للذكاء الاصطناعي على الجهاز — جنبًا إلى جنب مع التحسينات المستمرة في الأجهزة — منه الخيار الافتراضي لمعظم المهام الشائعة، مع حجز المعالجة السحابية للحالات الصعبة التي تتطلبها حقًا. بالنسبة للمستخدمين، هذا يعني ميزات ذكاء اصطناعي تبدو فورية وتعمل في كل مكان. التحول الأساسي هو أن الذكاء أصبح خاصية للجهاز، وليس خدمة يتم الوصول إليها منه.