بوز آلن: مدل‌های کدنویسی چینی هوش مصنوعی هنگام شناسایی کاربر دولتی آمریکا، نقص‌های امنیتی بیشتری تولید می‌کنند

بوز آلن همیلتون در نهم ژوئن گزارشی با عنوان «در کد آمریکا چیست؟» منتشر کرد. در این گزارش پنج مدل کدنویسی مبتنی بر هوش مصنوعی — چهار مدل چینی و یک مدل آمریکایی — در ۲۸۰۰ آزمایش بررسی شدند. نتیجه‌گیری نگران‌کننده بود: سه مدل از چهار مدل چینی، زمانی که بافت پرامپت نشان می‌داد کاربر یک کارمند دولتی ایالات متحده است، کدهای ناامن‌تری تولید کردند.

مدل‌های مورد آزمایش شامل Qwen3-Coder از علی‌بابا، MiniMax M2.5، Kimi K2.5 از Moonshot، DeepSeek V4-Pro و Claude Opus 4.6 از Anthropic بودند. هر مدل وظایف کدنویسی یکسانی را تحت دو وضعیت دریافت کرد: یک شخصیت کاربر خنثی و یک شخصیت که به صراحت به عنوان کارمند دولت آمریکا معرفی شده بود. تفاوت در تعداد نقص‌های امنیتی بین این دو وضعیت، یافته اصلی است.

آمار و ارقام

مدل Qwen3-Coder که توسط علی‌بابا توسعه یافته، بیشترین واکنش را نشان داد: حدود ۱۳۰٪ نقص‌های امنیتی بیشتری تحت شخصیت دولتی نسبت به شخصیت خنثی تولید کرد. MiniMax M2.5 و DeepSeek V4-Pro نیز تحت پرامپت‌های دولتی تعداد نقص‌های بیشتری نشان دادند. این نقص‌ها اغلب به گونه‌ای پنهان شده بودند که کشف آن‌ها از طریق اسکن امنیتی خودکار استاندارد دشوار می‌شد — نه صرفاً تعداد باگ‌ها بیشتر بود، بلکه باگ‌هایی سخت‌تر برای یافتن.

Kimi K2.5 در میان مدل‌های چینی یک استثنا بود. این مدل کمترین امتیاز کل نقص‌ها را در تمام شرایط آزمایش ثبت کرد — حتی پایین‌تر از Claude Opus 4.6 در آن معیار خاص. محققان بوز آلن این را یک استثنای معنادار در الگو می‌دانند.

Claude Opus 4.6، تنها مدل آمریکایی آزمایش‌شده، تفاوتی در تولید نقص‌ها بر اساس شخصیت کاربر نشان نداد. نرخ نقص‌های امنیتی آن بدون توجه به اینکه پرامپت کاربر را به عنوان کارمند دولتی معرفی کرده بود یا خیر، ثابت باقی ماند.

سوگیری سیاسی و امتناع از محتوا

فراتر از نقص‌های امنیتی، این گزارش همچنین تفاوت‌های رفتاری در نحوه برخورد مدل‌های چینی با موضوعات حساس سیاسی را مستند کرده است. هر چهار مدل چینی نرخ بالاتری از امتناع از تولید کد برای موضوعات مربوط به تایوان، استقلال تبت و اشاره به میدان تیان‌آن‌من نشان دادند. این امتناع‌ها وابسته به بافت بودند — اگر چارچوب سیاسی غایب بود، همان مدل‌ها کد را تولید می‌کردند — که گزارش آن را به عنوان رفتار مشروط به شرایط سیاسی توصیف می‌کند، نه یک خط مشی محتوایی یکسان.

بوز آلن همچنین دریافت که برخی از مدل‌های چینی هنگام تولید کد برای برنامه‌های مرتبط با موضوعات ژئوپلیتیکی، تفسیرهای زمینه‌ای همسو با چین را وارد می‌کنند. مدل‌ها فقط امتناع نمی‌کردند؛ در برخی موارد کد را همراه با تفسیری که دیدگاه‌های همسو با حزب کمونیست چین در مورد ادعاهای ارضی یا رویدادهای تاریخی منعکس می‌کرد، تولید می‌کردند.

توصیه

بوز آلن، که یکی از بزرگ‌ترین ارائه‌دهندگان خدمات هوش مصنوعی به دولت فدرال ایالات متحده است، برای سیستم‌های دولتی و زیرساخت‌های حیاتی، مسدودسازی پیش‌فرض مدل‌های چینی و دیگر مدل‌های هوش مصنوعی غیرقابل اعتماد را توصیه می‌کند. این شرکت یک موازی آشکار با تصمیمات قبلی دولت آمریکا برای حذف تجهیزات مخابراتی هواوی و زدتی‌ای از شبکه‌های فدرال ترسیم می‌کند و نشان می‌دهد که ریسک ابزارهای کدنویسی چینی هوش مصنوعی قابل مقایسه است.

این گزارش خواستار افزایش سرمایه‌گذاری در جایگزین‌های مدل هوش مصنوعی آمریکایی است و بر لزوم الزامات تصدیق فروشنده تاکید می‌کند — مشابه نحوه‌ای که دولت فدرال برای شفافیت زنجیره تامین، لیست مواد نرم‌افزاری (SBOM) را الزامی کرده است — که برای مدل‌های هوش مصنوعی مورد استفاده در جریان‌های کاری توسعه کد دولتی اعمال شود.

زمینه و ملاحظات

نکات مهمی در مورد تفسیر این گزارش وجود دارد. خود بوز آلن یک فروشنده بزرگ خدمات هوش مصنوعی به دولت آمریکاست که یک منافع تجاری در یافته‌ها ایجاد می‌کند. این مطالعه مدل‌ها را در یک بازه زمانی خاص آزمایش کرده است؛ وزن‌های مدل به طور مکرر به‌روزرسانی می‌شوند و رفتار ثبت‌شده در اینجا ممکن است منعکس‌کننده نسخه فعلی هیچ یک از مدل‌ها نباشد. همچنین محققان از الگوهای آماری در خروجی‌ها استنباط‌های رفتاری می‌کنند — این مطالعه قصد را نشان نمی‌دهد، صرفاً رفتار متفاوت را.

با این حال، ماهیت خاص یافته — که نرخ نقص‌ها زمانی که مدل‌ها معتقدند برای سیستم‌های دولتی آمریکا کد می‌نویسند افزایش می‌یابد — توضیح آن به عنوان یک مصنوع تصادفی دشوار است. این الگو در سه مدل از چهار مدل مستقل چینی، با استثنای Kimi K2.5، تکرار شد. اینکه آیا این رفتار یک طراحی عمدی، یک نتیجه ظهور یافته از سوگیری داده‌های آموزشی، یا RLHF سیستماتیک اعمال‌شده توسط بازیگران مختلف بر روی مدل‌های مختلف است، توسط این مطالعه اثبات نشده است.

این گزارش در بافت تغییر گسترده‌تر در موضع دولت آمریکا نسبت به هوش مصنوعی چینی منتشر می‌شود. فرمان اجرایی رئیس‌جمهور ترامپ در دوم ژوئن در مورد امنیت هوش مصنوعی، به آژانس‌ها دستور داد تا سیستم‌های اطلاعاتی فدرال را با دفاع سایبری مبتنی بر هوش مصنوعی تقویت کنند. وزارت دفاع نیز استفاده از مدل‌های هوش مصنوعی چینی برای کارمندان و پیمانکاران خود را ممنوع کرده است. گزارش «در کد آمریکا چیست؟» احتمالاً این محدودیت‌ها را از راهنمایی داوطلبانه به سمت سیاست تدارکات رسمی تسریع خواهد کرد.