حزمة PyPI مسمومة تخترق شركة Mercor الناشئة لتدريب الذكاء الاصطناعي — وتكشف 4 تيرابايت من بيانات المقاولين لصالح Lapsus$ | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

في 31 مارس 2026، أكدت Mercor — وهي شركة ناشئة بقيمة 10 مليار دولار تقدم خدمات تصنيف البيانات والشرح وإدارة المقاولين لـ OpenAI وAnthropic وMeta وGoogle — حدوث اختراق يعتبره باحثو الأمن أحد أكثر هجمات سلسلة التوريد تأثيرًا على صناعة الذكاء الاصطناعي حتى الآن. تم تسريب حوالي 4 تيرابايت من البيانات: 939 غيغابايت من الكود المصدري للمنصة، و211 غيغابايت من سجلات قاعدة بيانات المستخدمين، وحوالي 3 تيرابايت من محتويات حاويات التخزين بما في ذلك مسح جوازات سفر المقاولين وأرقام الضمان الاجتماعي ووثائق التحقق من الهوية وتسجيلات فيديو للمقابلات الفنية. المجموعة التي تعلنت مسؤوليتها هي Lapsus$، وقد عرضت البيانات المسروقة للمزاد في سوقها على الويب المظلم. تم بالفعل رفع خمس دعاوى قضائية جماعية ضد Mercor من قبل المقاولين المتضررين.

سلسلة الهجوم: ثلاث خطوات من الماسح الضوئي إلى الإنتاج

ما يجعل هذا الاختراق متميزًا من الناحية التقنية هو مسار الهجوم. لم يكن اقتحامًا مباشرًا لأنظمة Mercor. بل كان هجوم سلسلة توريد من ثلاث مراحل تحرك عبر بيئة الأدوات مفتوحة المصدر قبل الوصول إلى أي بيئة إنتاج.

الخطوة 1 — 19 مارس: اختراق Trivy. Trivy هو ماسح ضوئي للثغرات مفتوح المصدر واسع الاستخدام، يتم صيانته بواسطة Aqua Security ومدمج في خطوط أنابيب CI/CD عبر آلاف المؤسسات. مجموعة المهاجمين، التي تعمل تحت اسم TeamPCP، حصلت على حق الوصول للكتابة إلى مصنوعات إصدار Trivy. لم يتم الكشف علنًا عن الناقل الأولي الدقيق لاختراق Trivy، لكن النتيجة كانت أن TeamPCP كان لديه القدرة على التأثير على ما ينفذه Trivy أثناء عمليات المسح.

الخطوة 2: استخراج بيانات اعتماد CI/CD من LiteLLM. LiteLLM — وهي مكتبة بايثون مفتوحة المصدر شائعة توفر بوابة API موحدة لاستدعاء مزودي نماذج اللغة الكبيرة المختلفين — استخدمت Trivy كجزء من خط أنابيب CI/CD الآلي لمسح الحاويات والتبعيات بحثًا عن ثغرات معروفة. بشكل حاسم، لم يحدد تكوين CI/CD لـ LiteLLM إصدارًا معينًا لـ Trivy. لقد سحب Trivy دون قفل الإصدار، مما يعني أنه عندما تم تشغيل Trivy المخترق داخل بيئة بناء LiteLLM، كان لديه إمكانية الوصول إلى أسرار خط الأنابيب: بيانات اعتماد نشر PyPI ورمز المستودع ومتغيرات البيئة. استخرج TeamPCP تلك البيانات عبر الماسح الضوئي المخترق أثناء عملية بناء روتينية.

الخطوة 3 — 27 مارس: إصدارات LiteLLM الخبيثة على PyPI. مسلحًا ببيانات اعتماد نشر PyPI لـ LiteLLM، دفع TeamPCP إصدارين خبيثين: litellm==1.82.7 وlitellm==1.82.8. كانت الحزم متطابقة وظيفيًا مع الإصدارات المشروعة في سلوكها السطحي — اجتازت اختبارات الاستيراد الأساسية ويمكنها توجيه استدعاءات واجهة برمجة التطبيقات LLM بشكل طبيعي. تم تنفيذ الحمولة المحقونة عند الاستيراد أو عند أول استخدام، مما أدى إلى إنشاء اتصال خارجي وتسريب متغيرات البيئة ومفاتيح API ومسارات نظام الملفات التي يمكن الوصول إليها من قبل العملية الجارية. أي مؤسسة تسحب هذه الإصدارات إلى بيئة إنتاج — عبر pip install litellm دون تحديد إصدار، أو عبر أتمتة تحديث التبعية — قامت بتنفيذ تعليمات برمجية يتحكم بها المهاجم.

كانت Mercor واحدة من تلك المؤسسات. نظرًا لأن LiteLLm يُستخدم في جميع أنحاء بيئة تطوير الذكاء الاصطناعي كبنية تحتية لبناء التطبيقات التي تستدعي GPT-4 وClaude وGemini ونماذج أخرى، كانت نافذة التعرض واسعة. كانت منصة Mercor، التي تدير سير عمل المقاولين وتخزن وثائق هوية المقاولين وتتعامل مع بيانات التدريب الخاصة للمختبرات الرئيسية للذكاء الاصطناعي، هدفًا عالي القيمة ضمن تلك النافذة.

ما تم سرقته

تنقسم البيانات المسربة من Mercor إلى ثلاث فئات، لكل منها ملفات تعريف مخاطر متميزة:

939 غيغابايت من الكود المصدري للمنصة. يتضمن ذلك نظام إدارة المقاولين في Mercor، وأدوات التقييم، والواجهات التي يتفاعل من خلالها المقاولون مع مهام تدريب الذكاء الاصطناعي. بالنسبة لعملاء Mercor — OpenAI وAnthropic وMeta وGoogle — فإن تعرض هذا الكود يكشف كيف يتم هيكلة خطوط أنابيب التدريب الخاصة بهم في طبقة واجهة المقاول، وأنواع المهام التي يتم توجيهها عبر Mercor، وآليات مراقبة الجودة المعمول بها.
211 غيغابايت من سجلات قاعدة بيانات المستخدمين. يتضمن ذلك ملفات تعريف المقاولين وبيانات الحساب الوصفية وسجلات الدفع والمراسلات الداخلية. لم يتم تأكيد المخطط الدقيق، لكن بالنظر إلى متطلبات الامتثال لـ Mercor لإعداد المقاولين، من شبه المؤكد أن قاعدة البيانات تحتوي على معلومات شخصية قابلة للتعريف لعشرات الآلاف من المقاولين.
~3 تيرابايت من محتويات حاويات التخزين. هذه هي الفئة الأكثر حساسية للمقاولين الأفراد. احتوت حاويات التخزين على تسجيلات فيديو للمقابلات الفنية المستخدمة للتحقق من الهوية وفحص الكفاءة، ومسح وثائق الهوية الصادرة عن الحكومة بما في ذلك جوازات السفر وبطاقات الهوية الوطنية، وأرقام الضمان الاجتماعي التي تم جمعها أثناء إعداد المقاولين الأمريكيين، ووثائق التحقق من الهوية المقدمة لتلبية متطلبات KYC. يمثل مزيج الفيديو البيومتري وبطاقة الهوية الحكومية ورقم الضمان الاجتماعي حزمة هوية كاملة للمقاولين المتضررين — كافية لسرقة الهوية والاحتيال في الهوية الاصطناعية والهندسة الاجتماعية المستهدفة.

لماذا سلاسل توريد تدريب الذكاء الاصطناعي هدف حساس بشكل فريد

سيكون اختراق منصة إدارة مقاولين قياسية كخدمة خطيرًا في المقام الأول بسبب تعرض البيانات الشخصية. اختراق Mercor مختلف بشكل قاطع بسبب ما يتعامل معه المقاولون الذين يعملون عبر Mercor بالفعل.

مقاولو الذكاء الاصطناعي على مستوى قاعدة عملاء Mercor لا يقومون بإدخال بيانات عامة. إنهم يؤدون مهام تمس أكثر جوانب تطوير الذكاء الاصطناعي خصوصية وتنافسية: تقييم مخرجات النماذج على معايير القدرة التي لم يتم إصدارها علنًا، وشرح الحالات الحدودية التي تكشف أين يفشل النموذج حاليًا، وتصنيف الاستجابات وفقًا لمعايير تقوم بترميز منهجية تدريب RLHF لشركة، واختبار مرشحات الأمان بطرق تكشف ما يمكن للنموذج فعله وما لا يمكنه. التعليمات والمعايير ومواصفات المهام التي يتلقاها المقاولون هي جوهر فكري لكيفية تدريب هذه المختبرات لنماذجها ومواءمتها.

الكود المصدري لـ Mercor — الذي يتضمن الواجهات والأدوات التي يتم من خلالها تسليم هذه المهام — يمكن أن يكشف تلك المنهجيات حتى لو لم تكن بيانات المهمة الفردية نفسها ضمن المجموعة المسربة. بالنسبة لخصم يبني نموذجًا منافسًا، أو لدولة تحاول فهم حدود السلامة وتقنيات التدريب لأنظمة الذكاء الاصطناعي الحدودية، يمثل هذا الوصول إلى معلومات لا يمكن إعادة بنائها من الأبحاث العامة.

استجابة المصب

كانت استجابة عملاء Mercor متزنة لكنها مهمة. أوقفت Meta جميع أعمال البيانات الموجهة عبر Mercor إلى أجل غير مسمى في 2 أبريل، بعد يومين من تأكيد الاختراق، مشيرة إلى عدم اليقين بشأن سلامة بيئة المقاول والتعرض المحتمل لمواصفات المهام. أصدرت كل من OpenAI وAnthropic بيانات أكدتا فيها أنهما تقومان بمراجعة تعرضهما — وتحديدًا مراجعة ما إذا كانت أي بيانات تدريب خاصة أو معايير شرح أو أطر تقييم متاحة للمقاولين عبر منصة Mercor المخترقة الآن في وقت الاختراق.

لم تؤكد OpenAI ولا Anthropic ما إذا كانت مواد التدريب الخاصة كانت ضمن البيانات المسربة. تفريغ الكود المصدري البالغ 939 غيغابايت هو الناقل الأكثر احتمالاً للتعرض غير المباشر: إذا كان الكود المصدري لمنصة Mercor يتضمن قوالب مهام مضمنة أو معايير تقييم أو عينات من مخرجات النموذج المستخدمة لتدريب جودة المقاول، فستكون هذه الآن بحوزة Lapsus$.

عرضت Lapsus$ مجموعة البيانات الكاملة البالغة 4 تيرابايت للمزاد في سوقها على الويب المظلم، مع ما تصفه المصادر بأنه سعر مكون من سبعة أرقام. المجموعة لديها تاريخ موثق في متابعة مبيعات البيانات — وأبرزها البيانات المسروقة من Nvidia وSamsung وMicrosoft في عام 2022 — مما يعطي قائمة المزاد مصداقية تتجاوز تهديد الابتزاز النموذجي.

تم رفع خمس دعاوى قضائية جماعية في المحكمة الفيدرالية الأمريكية من قبل المقاولين المتضررين، متهمة بممارسات أمن بيانات مهملة، والفشل في تنفيذ ضوابط كافية لسلسلة التوريد، وعدم كفاية الإخطار بعد الاختراق. الدعاوى تسمي Merco تحديدًا؛ لم تسم أي منها بعد شركات الذكاء الاصطناعي التي كانت تستضيف برامج المقاولين الخاصة بها على المنصة.

ما يجب على المطورين فعله

إذا كانت قاعدة الكود الخاصة بك تستخدم LiteLLm، فإن الخطوات الفورية محددة:

تحقق من الإصدار المثبت لديك. قم بتشغيل pip show litellm أو فحص ملف requirements.txt أو pyproject.toml أو ملف القفل. إذا كان لديك litellm==1.82.7 أو litellm==1.82.8 في أي مكان في الرسم البياني للتبعيات — بما في ذلك التبعيات غير المباشرة — تعامل مع البيئة على أنها مخترقة. قم بتدوير جميع الأسرار التي يمكن الوصول إليها من قبل تلك العملية: مفاتيح API وبيانات اعتماد قاعدة البيانات ورمز موفر السحابة وأي متغيرات بيئة.
راجع استراتيجية تثبيت تبعية PyPI لديك. أي تبعية تم سحبها بنطاق إصدار (litellm>=1.82) أو بدون قيد إصدار على الإطلاق (litellm) كانت عرضة لهذه الفئة من الهجوم. قم بالتثبيت على إصدارات دقيقة واستخدم ملف قفل (Poetry's poetry.lock أو requirements.txt المولد بواسطة pip-compile) يتضمن التجزئة. تجعل العلم --require-hashes في pip من المستحيل تثبيت حزمة لا يتطابق محتواها مع التجزئة المسجلة، حتى إذا استبدل المهاجم إصدارًا على PyPI.
راجع تثبيت إصدار أداة CI/CD لديك. نشأ اختراق LiteLLm لأن Trivy لم يتم تثبيته على إصدار محدد في خط أنابيب بناء LiteLLM. يجب تثبيت كل أداة في خط أنابيب CI/CD لديك — الماسحات الضوئية، المدققات، أدوات البناء، أدوات تشغيل الاختبار — على إصدار محدد ويفضل على تجزئة محتوى. يتيح GitHub Actions تثبيت الإجراءات على SHA كامل للالتزام بدلاً من علامة، مما يمنع الهجمات القابلة لتغيير العلامة. للأدوات القائمة على الحاويات مثل Trivy، قم بالتثبيت على ملخص الصورة (aquasec/trivy@sha256:...)، وليس على العلامة (aquasec/trivy:latest).
راجع الأسرار التي يمكن الوصول إليها في بيئة البناء الخاصة بك. يجب ألا تكون بيانات اعتماد نشر PyPI متاحة أبدًا كمتغيرات بيئة في نفس خطوة خط الأنابيب التي تقوم بمسح التبعية أو الاختبار. استخدم وظائف خط أنابيب منفصلة بنطاقات بيانات اعتماد متميزة، وقم بتطبيق مبادئ الامتياز الأقل على الأسرار التي يمكن لكل خطوة الوصول إليها.

النمط: هجمات سلسلة التوريد ضد أدوات المطورين

هجوم LiteLLM هو الأحدث في سلسلة من هجمات سلسلة التوريد التي استهدفت تدريجيًا طبقات أعمق من حزمة أدوات المطور:

SolarWinds (ديسمبر 2020): قام جهات فاعلة من دول (APT29/Cozy Bear) باختراق نظام بناء SolarWinds، وحقنوا بابًا خلفيًا في منصة Orion الموزعة على حوالي 18000 مؤسسة بما في ذلك الوكالات الفيدرالية الأمريكية. كان ناقل الهجوم هو خط أنابيب البناء نفسه.
Codecov (أبريل 2021): قام مهاجمون بتعديل سكريبت رفع bash الخاص بـ Codecov المستضاف على البنية التحتية الخاصة به. أي خط أنابيب CI/CD يقوم بتشغيل السكريبت — وهو نمط شائع للإبلاغ عن تغطية الكود — قام بتحميل متغيرات البيئة، بما في ذلك الأسرار، إلى خوادم يسيطر عليها المهاجم.
xz Utils (مارس 2024): حملة هندسة اجتماعية متطورة على مدى عدة سنوات أسفرت عن دمج باب خلفي في مكتبة ضغط xz، مستهدفة مصادقة خادم SSH على أنظمة لينكس. أمضى المهاجم عامين في بناء الثقة كمساهم شرعي قبل إدخال الكود الخبيث.
LiteLLM عبر Trivy (مارس 2026): أصبح ماسح ضوئي للثغرات يُستخدم دون تثبيت الإصدار نقطة دخول لسرقة بيانات الاعتماد، مما أتاح بعد ذلك نشر حزمة خبيثة على PyPI تحت اسم مكتبة موثوقة.

الخط المشترك ثابت: المهاجمون لا يخترقون دفاعات التطبيقات المحصنة. إنهم يستغلون علاقات الثقة بين الأدوات التي يعتمد عليها المطورون لبناء واختبار ونشر البرامج. مع أن تصبح أدوات تطوير الذكاء الاصطناعي أكثر ترابطًا — مع مكتبات مثل LiteLLm التي تخدم كبنية تحتية حيوية لتوجيه المكالمات إلى النماذج الحدودية — فإن نصف قطر انفجار تبعية مخترقة واحدة ينمو بشكل متناسب. اختراق Mercor ليس حالة شاذة. إنه توضيح لما ستبدو عليه السنوات القليلة القادمة من هجمات سلسلة التوريد ضد صناعة الذكاء الاصطناعي.