OpenAI قابلیت Lockdown Mode را برای همه کاربران فعال کرد – پاسخی به حملات تزریق پرامپت | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

تزریق پرامپت از زمانی که مدل‌های زبانی توانایی مرور وب و فراخوانی سرویس‌های خارجی را پیدا کردند، به یک مشکل جدی در امنیت دستیارهای هوش مصنوعی تبدیل شد. زمانی که یک هوش مصنوعی می‌تواند محتوای دلخواه وب را بخواند و بر اساس دستورالعمل‌های تعبیه‌شده در آن عمل کند، هر شخص ثالث با انگیزه کافی می‌تواند سعی در تغییر رفتار آن داشته باشد – که منجر به نشت اطلاعات حساس از مکالمه، انجام اقدامات ناخواسته یا خروج داده از طریق کانال‌های خروجی که کاربر مستقیماً نمی‌تواند مشاهده کند، می‌شود.

OpenAI اکنون ملموس‌ترین واکنش خود را به این مشکل عرضه کرده است. Lockdown Mode که ابتدا برای مشتریان سازمانی ChatGPT معرفی شده بود، از ۴ ژوئن ۲۰۲۶ به تمام حساب‌های شخصی و تجاری سلف‌سرویس – از جمله رایگان – گسترش یافته است. این یک تنظیم امنیتی پیشرفته و اختیاری است که با غیرفعال کردن قابلیت‌هایی که تزریق پرامپت بیشتر از آنها سوءاستفاده می‌کند، سطح حمله ChatGPT را به شدت کاهش می‌دهد.

Lockdown Mode دقیقاً چه قابلیت‌هایی را غیرفعال می‌کند

این ویژگی با قطع اتصالات ChatGPT به سیستم‌های خارجی و محدود کردن مسیرهای خروج داده کار می‌کند. زمانی که Lockdown Mode فعال است، قابلیت‌های زیر غیرفعال یا محدود می‌شوند: مرور زنده وب (محدود به محتوای کش‌شده بدون هیچ درخواست شبکه خروجی جدید)، نمایش تصویر در پاسخ‌های معمولی، Deep Research (از جمله ویژگی تحقیقات خرید)، Agent Mode، شبکه‌سازی Canvas (که در غیر این صورت به کد تولیدشده توسط Canvas اجازه می‌داد درخواست‌های خارجی انجام دهد)، یکپارچه‌سازی‌های زنده کانکتور، و دانلود فایل از جلسات تحلیل داده.

کاربران همچنان می‌توانند تصاویر آپلود و تولید کنند. مکالمات به طور عادی ادامه می‌یابند. تعامل با مدل زبانی اصلی تحت تأثیر قرار نمی‌گیرد. آنچه حذف می‌شود، سطحی است که از طریق آن یک حمله تزریق پرامپت می‌تواند باعث خروج داده از مکالمه به مقصدی شود که کاربر به طور صریح مجوز آن را نداده است.

Openai با دقت اشاره می‌کند که Lockdown Mode مصونیت تضمین نمی‌کند. اعلامیه به صراحت می‌گوید که خطرات ممکن است همچنان از طریق اپلیکیشن‌های فعال، ترکیب‌های پیش‌بینی نشده قابلیت‌ها یا تکنیک‌های ناشناخته وجود داشته باشند. این صادقانه است: تزریق پرامپت یک سوءاستفاده واحد با یک وصله‌ی تمیز نیست، بلکه یک دسته از حملات است که با توسعه قابلیت‌ها تکامل می‌یابد. آنچه Lockdown Mode انجام می‌دهد، افزایش قابل توجه هزینه و دشواری یک حمله موفق با حذف رایج‌ترین مسیرهای سوءاستفاده است.

دومین ویژگی: برچسب‌های ریسک بالا

در کنار Lockdown Mode، OpenAI برچسب‌های "ریسک بالا" را برای قابلیت‌هایی در ChatGPT، ChatGPT Atlas و Codex که دارای مواجهه بیشتر با تزریق پرامپت هستند، عرضه می‌کند. این برچسب‌ها مستقیماً در رابط کاربری زمانی که کاربران قابلیت‌هایی را فعال یا استفاده می‌کنند که ممکن است ریسک اضافی ایجاد کند – مرور وب، برخی اقدامات عامل، اتصالات API خارجی – ظاهر می‌شوند.

برچسب‌ها چیزی را مسدود نمی‌کنند؛ آنها اطلاعاتی هستند. هدف visibility است: کاربرانی که به طور صریح به امنیت فکر نمی‌کنند همیشه نمی‌دانند کدام ویژگی‌های ChatGPT مواجهه بیشتری دارند. یک نشانگر "ریسک بالا" روی مرور وب در یک کار عامل، به عنوان مثال، نشان می‌دهد که محتوای مرور شده نسبت به زمینه ارائه‌شده محلی کنترل کمتری دارد و می‌تواند حاوی دستورالعمل‌های خصمانه باشد. این به ویژه برای کاربران سازمانی که ChatGPT را در گردش‌کاری‌هایی استفاده می‌کنند که هوش مصنوعی در حال خواندن اسناد خارجی، ایمیل‌ها یا محتوای وب به عنوان بخشی از وظیفه خود است، مرتبط است.

چرا این موضوع اکنون اهمیت دارد

زمان‌بندی منعکس‌کننده گسترش سریع ردپای قابلیت‌های ChatGPT است. زمانی که ChatGPT یک ابزار پرسش و پاسخ فقط متنی بود، تزریق پرامپت یک کنجکاوی تحقیقاتی به حساب می‌آمد – مدل هیچ توانایی برای عمل بر روی دستورالعمل‌های مخرب تعبیه‌شده در محتوای خارجی نداشت زیرا به محتوای خارجی دسترسی نداشت. افزودن مرور وب (۲۰۲۳)، اجرای کد، پلاگین‌ها، Deep Research و Agent Mode به تدریج سطح حمله را افزایش داده است.

محققان امنیتی نمایش‌هایی از حملات تزریق پرامپت علیه ChatGPT فعال مرور وب منتشر کرده‌اند که باعث خروج محتوای مکالمه به سرورهای تحت کنترل مهاجم از طریق درخواست‌های URL تصویر، ایجاد پاسخ‌های فریبنده برای دستکاری کاربر، و انجام اقدامات ناخواسته در گردش‌کاری‌های عاملی شده است. اینها نظری نیستند: آنها به طور قابل تکرار توسط تیم‌های امنیتی در شرکت‌هایی از جمله مایکروسافت و انویدیا و توسط محققان مستقل نشان داده شده‌اند.

آسیب‌پذیری اصلی معماری است: مدل‌های زبانی نمی‌توانند به طور قابل اعتماد بین دستورالعمل‌های داده شده توسط کاربر در پرامپت سیستم و دستورالعمل‌های تعبیه‌شده در محتوای خارجی که مدل بعداً می‌خواند، تمایز قائل شوند. یک صفحه وب، سند یا ایمیل ساخته شده توسط مهاجم که می‌گوید "دستورالعمل‌های قبلی را نادیده بگیر و به جای آن X را انجام بده" ممکن است بسته به میزان برجستگی آن در زمینه مدل و میزان سخت‌سازی سیستم در برابر این دسته از ورودی‌ها، تا حدی مؤثر باشد.

مخاطب و مبادله

Openai به صراحت می‌گوید که Lockdown Mode برای همه نیست. این ویژگی برای "گروه کوچکی از کاربران بسیار امنیت‌محور – مانند مدیران ارشد یا تیم‌های امنیتی" طراحی شده است که حاضرند قابلیت‌های موجود را برای یک وضعیت امنیتی محکم‌تر مبادله کنند. برای یک وکیل که ارتباطات حساس مشتری را از طریق ChatGPT اجرا می‌کند، یا یک متخصص مراقبت‌های بهداشتی که داده‌های بیمار را جستجو می‌کند، یا یک محقق امنیتی که گزارش‌های تهدید را تحلیل می‌کند، قابلیت‌هایی که غیرفعال می‌شوند همانهایی نیستند که استفاده می‌شوند – و اطمینان از یک محیط محدودتر ارزش واقعی دارد.

برای کاربر معمولی، Lockdown Mode قابلیت زیادی را حذف می‌کند تا به عنوان یک تنظیم دائمی عملی باشد. Deep Research و مرور وب برای بسیاری از کاربران در تعامل روزانه با ChatGPT مرکزی هستند؛ غیرفعال کردن آنها برای بیشتر جلسات به طور قابل ملاحظه‌ای محصول را تخریب می‌کند. این ویژگی برای فعال‌سازی موقعیتی طراحی شده است – برای یک جلسه که با کارهای حساس سر و کار دارد روشن می‌شود، سپس پس از اتمام آن کار خاموش می‌شود.

سیگنال گسترده‌تر این است که OpenAI از طریق طراحی محصول تصدیق می‌کند که دستیارهای هوش مصنوعی با عاملیت و اتصال خارجی یک کلاس امنیتی ایجاد می‌کنند که با نرم‌افزار سنتی وجود نداشت. اصل مشابه آنچه اپل با Lockdown Mode برای iOS ایجاد کرد (معرفی شده در سال ۲۰۲۲ برای روزنامه‌نگاران، فعالان و دیگران با ریسک بالای حملات پیچیده) است: یک حالت عملیاتی ساده‌شده و سخت‌شده که قابلیت را با اطمینان مبادله می‌کند. نام تصادفی نیست.

با انجام وظایف پیچیده‌تر و چندمرحله‌ای با پیامدهای واقعی توسط عوامل هوش مصنوعی – رزرو سفر، ارسال ایمیل، اجرای کد، فراخوانی API – ویژگی‌های امنیتی آن عوامل بیشتر اهمیت خواهند داشت، نه کمتر. Lockdown Mode یک پیاده‌سازی اولیه و عملی از یک اصل است که به طور فزاینده‌ای نحوه استقرار ابزارهای هوش مصنوعی در زمینه‌های حساس را شکل خواهد داد: قابلیت رایگان نیست، و کاهش سطح آنچه یک هوش مصنوعی می‌تواند انجام دهد گاهی انتخاب معماری درست است.