نماذج اللغات الكبيرة المكممة (Quantized LLMs) تعمل الآن على حاسوب محمول بسعة 16 جيجابايت — وتقلص الفجوة مع النماذج السحابية | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

قبل عامين، كان تشغيل نموذج لغة كبير قادر يتطلب إما GPU من مركز بيانات أو اشتراك API مكلف. اليوم، يمكن لحاسوب محمول مخصص للألعاب مزود بذاكرة RAM سعة 16 جيجابايت تشغيل نموذج يحتوي على 7 مليارات معلم محليًا بسرعة 30–50 Token في الثانية — وهي سرعة كافية للعمل الحقيقي. التقنية الرئيسية التي جعلت هذا ممكنًا هي التكميم (Quantization)، وقد أعادت رسم الحدود بين الذكاء الاصطناعي السحابي والذكاء الاصطناعي الطرفي (Edge AI) بهدوء.

المشكلة: نماذج لم تستطع مغادرة مركز البيانات

يخزن النموذج اللغوي ذكاءه في مليارات من الأعداد ذات الفاصلة العائمة تسمى الأوزان (Weights). النموذج الأصلي LLaMA الذي أصدرته Meta في 2023 خزن كل وزن كعدد عائم 16-بت (FP16)، مما يعني أن النسخة ذات 7 مليارات معلم كانت تتطلب حوالي 14 جيجابايت من ذاكرة GPU فقط للتحميل — قبل أي أعباء استنتاج. النسخة ذات 13 مليار معلم احتاجت 26 جيجابايت. أقصى ما توفره GPU الاستهلاكية هو 8–12 جيجابايت من VRAM، لذا كان تشغيل هذه النماذج محليًا مستحيلًا عمليًا لمعظم المطورين والهواة.

إلى جانب القيود الأجهزية، خلق النشر السحابي فقط مشاكل حقيقية: كل استعلام يُرسل إلى API هو كشف للخصوصية، ويعتمد زمن الوصول (Latency) على ظروف الشبكة، وتتراكم التكاليف مع الاستخدام. بالنسبة للمؤسسات التي تتعامل مع بيانات حساسة، غالبًا ما يكون إرسال المستندات إلى API طرف ثالث محظورًا قانونيًا أو تعاقديًا.

ما يفعله التكميم (Quantization) بالضبط

يقلل التكميم من الدقة العددية لأوزان النموذج. بدلاً من تخزين كل وزن كعدد عائم 32-بت (FP32) أو 16-بت (FP16)، تخزن النماذج المكممة الأوزان كأعداد صحيحة 8-بت (INT8) أو حتى 4-بت (INT4). التوفير في الذاكرة كبير: INT8 يخفض استخدام الذاكرة إلى النصف تقريبًا مقارنة بـFP16؛ INT4 يخفضه بنحو 75%.

المقابل هو الدقة. ضغط الأوزان يسبب أخطاء تقريب (Rounding errors) قد تدهور جودة المخرجات — لكن الباحثين اكتشفوا أن النماذج الكبيرة تتحمل التكميم بشكل مدهش. نموذج 7 مليارات معلم مكَمَّم إلى INT4 يفقد جودة هامشية فقط مقارنة بنسخته FP16 على معظم المعايير (Benchmarks)، وذلك لأن النموذج يمتلك عددًا كافيًا من المعلمات تجعل أخطاء الوزن الفردية تتوسط (average out).

المخططان المهيمنان للتكميم هما GPTQ (تكميم بعد التدريب باستخدام بيانات معايرة، طُوِّر أصلاً لنماذج GPT) وGGUF (تنسيق الملف المستخدم بواسطة llama.cpp، الذي يدعم التكميم بدقة مختلطة من 2-بت إلى 8-بت لكل وزن). حل GGUF محل التنسيق السابق GGML في 2023 وأصبح المعيار الفعلي لتوزيع النماذج المكممة للاستنتاج المحلي.

الأدوات: llama.cpp وOllama والنظام البيئي

llama.cpp، الذي كتبه جورجي جيرغانوف، هو المشروع الأساسي. إنه محرك استنتاج خالص بلغة C/C++ يقوم بتحميل نماذج GGUF وتشغيلها بكفاءة على CPU — مع إمكانية التفريغ الاختياري على GPU. نظرًا لعدم اعتماده على بيئة تشغيل Python وقابليته للترجمة على أي منصة، أصبح الطبقة الأساسية لعشرات الأدوات المحلية للذكاء الاصطناعي. على شريحة Apple M-series، يستخدم llama.cpp تسريع Metal ويحقق سرعات استنتاج منافسة لأجهزة GPU المخصصة.

Ollama يغلف llama.cpp في واجهة سطر أوامر نظيفة وواجهة برمجة تطبيقات REST محلية. أمر واحد — ollama run llama3.1 — يقوم بتحميل النموذج المكمم ويبدأ في خدمته. يتولى Ollama إصدار النموذج، وكشف الأجهزة، وإدارة الذاكرة تلقائيًا، مما يجعل نشر LLM المحلي في متناول المطورين الذين لا يريدون إدارة ملفات GGUF الخام.

أدوات أخرى بارزة في هذه المجموعة تشمل LM Studio (واجهة رسومية لاستعراض وتشغيل نماذج GGUF)، Jan (بديل مفتوح المصدر لـ ChatGPT يعمل محليًا)، وvLLM (محسّن لاستنتاج GPU بإنتاجية أعلى، ويُستخدم أكثر في سياقات الخوادم الطرفية).

النماذج التي غيرت كل شيء

Llama 3.1 (Meta، صدر في يوليو 2024) هو المعيار الحالي للنماذج مفتوحة الأوزان. النسخة 8 مليارات معلم المكممة إلى Q4_K_M — وهو متغير تكميم من GGUF — تتطلب حوالي 5 جيجابايت RAM وتعمل على أي حاسوب محمول حديث. نسخته 70 مليار معلم، المكممة إلى Q4، تحتاج حوالي 40 جيجابايت وتعمل على Mac Studio أو محطة عمل مزودة بعدة GPU. الأداء في مهام البرمجة والاستدلال منافس لـ GPT-3.5 ويقترب من GPT-4 على عدة معايير.

Mistral 7B (Mistral AI، 2023) كان أول نموذج مفتوح الأوزان يتفوق بشكل مقنع على Llama 2 13B بنصف عدد المعلمات — مما يدل على أن كفاءة الهندسة المعمارية لا تقل أهمية عن الحجم. أثار اهتمامًا واسعًا بنماذج أصغر وأكثر كفاءة محسَّنة للنشر المحلي.

Phi-3 Mini (Microsoft، 2024) هو نموذج بـ 3.8 مليار معلم يحقق أداءً مشابهًا لنماذج أكبر بكثير عن طريق التدريب على بيانات ذات جودة أعلى بدلاً من زيادة المعلمات. عند تكميم Q4، يتناسب مع أقل من 3 جيجابايت ويعمل بسرعة تزيد عن 40 Token في الثانية على CPU حديث — مما يجعله قابلاً للتطبيق على الأجهزة ذات الذاكرة المحدودة.

Gemma 2 (Google DeepMind، 2024) قدم تحسينات معمارية بما في ذلك طبقات انتباه محلية وعالمية متبادلة، مما أدى إلى أداء قوي بأحجام 2 مليار و9 مليار معلم. النسخة 2 مليار معلم المكممة إلى INT4 تعمل على أجهزة تحتوي على 2 جيجابايت فقط من الذاكرة المتاحة.

ماذا يعني هذا عمليًا

الخصوصية: الاستنتاج المحلي يعني أن الاستعلامات لا تغادر الجهاز أبدًا. بالنسبة للتطبيقات الطبية والقانونية والمالية — حيث متطلبات إقامة البيانات صارمة — هذا هو الفرق بين استخدام الذكاء الاصطناعي وعدم استخدامه على الإطلاق. يمكن للمستشفى تشغيل أداة تلخيص الملاحظات السريرية في الموقع دون توجيه بيانات المرضى عبر أي API خارجي.

التشغيل بدون اتصال: الأجهزة الاستهلاكية في المواقع النائية والطائرات والغواصات أو أي بيئة ذات اتصال غير موثوق يمكنها تشغيل تطبيقات الذكاء الاصطناعي التي كانت ستعتمد على السحابة.

التكرار التطويري: تشغيل النموذج محليًا يلغي حدود معدل API وتكاليف كل Token أثناء التطوير. يمكن للمطور تشغيل آلاف استدعاءات الاستنتاج ضد نموذج Mistral أو Llama محلي لاختبار Prompt، أو ضبط منطق التقييم، أو توليد بيانات تدريب اصطناعية دون تراكم تكاليف API.

النشر الطرفي المؤسسي: المصانع ومتاجر التجزئة ومراكز الخدمات اللوجستية تنشر نماذج مكممة صغيرة على خوادم محلية لتشغيل تطبيقات تتطلب زمن وصول منخفض ولا تتحمل الذهاب والإياب السحابي. نظام مراقبة الجودة الذي يحلل العيوب على خط التجميع لا يمكنه تحمل 200 مللي ثانية من زمن الوصول السحابي لكل استعلام.

ما الأجهزة التي تحتاجها اليوم

للاستنتاج المحلي الجاد، الحد الأدنى العملي هو 16 جيجابايت من الذاكرة الموحدة (على Apple Silicon) أو 16 جيجابايت RAM مع GPU منفصل. هذا يغطي نماذج Llama 3.1 8B وMistral 7B وPhi-3 Medium عند تكميم Q4 بشكل مريح. يمكن لـ MacBook Pro M3 Pro المزود بذاكرة موحدة سعة 18 جيجابايت تشغيل Llama 3.1 8B بسرعة 35–45 Token في الثانية — بالسرعة الكافية ليكون عنق الزجاجة هو القراءة، وليس الانتظار.

للنماذج ذات 70 مليار معلم، تحتاج إما Mac Studio بذاكرة موحدة 64+ جيجابايت، أو محطة عمل مع 2× RTX 4090 GPU (إجمالي 48 جيجابايت VRAM)، أو خادم مع GPU عالية الذاكرة. لم تعد هذه تكوينات غريبة — Mac Studio سعة 64 جيجابايت يكلف أقل من 2,000 دولار، والبرنامج لتشغيلها مجاني.

ابدأ بـ ollama run phi3:mini إذا كنت تريد أسرع استجابة ممكنة على أجهزة متواضعة، أو ollama run llama3.1:8b لنموذج يتعامل مع مهام الاستدلال والبرمجة المعقدة. كلاهما يُحمَّل في دقائق ويعمل دون أي تكوين. البنية التحتية التي جعلت الذكاء الاصطناعي غير متاح لأي شخص بدون حساب سحابي قد ولت — السؤال الآن هو ماذا نبني به.