Differential Privacy: تنها روشی که ناشناس‌سازی داده را به یک ادعای ریاضی تبدیل می‌کند

داده‌های «ناشناس‌شده» یک مشکل مستند دارند: نیستند. در سال ۲۰۰۶، محققان Arvind Narayanan و Vitaly Shmatikov مجموعه داده Netflix Prize را – که نتفلیکس نام و شناسه‌های شخصی را از آن حذف کرده بود – با تطبیق دادن با نقدهای عمومی IMDb دوباره شناسایی کردند. AOL در سال ۲۰۰۶ لاگ‌های جستجوی «ناشناس» را منتشر کرد؛ یک خبرنگار نیویورک تایمز کاربر شماره ۴۴۱۷۷۴۹ را به عنوان تلما آرنولد از لیلبرن، جورجیا، تنها با استفاده از جستجوهایش شناسایی کرد. یک مطالعه MIT در سال ۲۰۱۳ نشان داد که ردپاهای GPS که نام‌ها از آنها حذف شده، می‌توانند افراد را با دقت ۹۵٪ با فقط چهار نقطه مکانی دوباره شناسایی کنند.

Differential Privacy چیزی کاملاً متفاوت ارائه می‌دهد: یک تضمین ریاضی – نه یک وعده خط‌مشی، نه یک تیک‌باکس انطباق – که اطلاعات هیچ فردی از خروجی‌های یک مجموعه داده قابل استخراج نیست. اپل و گوگل سال‌هاست که از آن در تولید استفاده می‌کنند. اداره سرشماری آمریکا از آن برای سرشماری ۲۰۲۰ استفاده کرد. این مطلب معنای واقعی آن را توضیح می‌دهد.

ایده اصلی به زبان ساده

Differential Privacy یک سؤال خاص می‌پرسد: اگر داده‌های یک نفر به یک مجموعه داده اضافه یا از آن حذف شود، آیا خروجی یک Query به شکلی قابل تشخیص تغییر می‌کند؟ اگر حضور یا عدم حضور هیچ فردی به طور معناداری آنچه الگوریتم فاش می‌کند تغییر ندهد، آن الگوریتم differentially private است.

تعریف رسمی: یک الگوریتم M به طور ε-differentially private است اگر برای هر دو مجموعه داده D1 و D2 که تنها در یک رکورد تفاوت دارند، و هر مجموعه خروجی ممکن S:

P[M(D1) ∈ S] ≤ e^ε × P[M(D2) ∈ S]

پارامتر ε (اپسیلون) بودجه حریم خصوصی نامیده می‌شود. اپسیلون کوچکتر به معنای تضمین حریم خصوصی قوی‌تر است – اما همچنین به معنای آن است که الگوریتم باید نویز بیشتری به خروجی‌های خود اضافه کند تا مشارکت‌های فردی پنهان شوند. اپسیلون بزرگتر به معنای نویز کمتر، دقت بالاتر و حریم خصوصی ضعیف‌تر است.

در عمل، مقادیر معمول تولید بین ε = 1 و ε = 10 قرار دارد. اپل بسته به نوع آمار جمع‌آوری‌شده از ε = 2–8 استفاده می‌کند. گوگل از محدوده‌های مشابه استفاده می‌کند. این اعداد تصادفی نیستند – آنها یک معامله مهندسی عمدی بین میزان حریم خصوصی فردی حفظ‌شده و مفید بودن آمار حاصل را نشان می‌دهند.

چگونه اپل از آن استفاده می‌کند – Local Differential Privacy

اپل Differential Privacy را در سطح دستگاه اعمال می‌کند. این Local DP نامیده می‌شود – نویز روی آیفون شما اضافه می‌شود قبل از اینکه داده‌ای دستگاه را ترک کند. سرورهای اپل هرگز داده خام شما را نمی‌بینند؛ آنها فقط یک نسخه تصادفی دریافت می‌کنند که وقتی در میلیون‌ها کاربر جمع شود، الگوهای سطح جمعیت را بدون فاش کردن رفتار فردی نشان می‌دهد.

اپل موارد استفاده خاصی را افشا کرده است:

فرکانس ایموجی: کدام ایموجی بیشتر استفاده می‌شود، و در چه زمینه‌ای
پیشنهاد کلمات جدید: کلماتی که کاربران تایپ می‌کنند و در دیکشنری اپل نیستند (برای بهبود QuickType استفاده می‌شود)
الگوهای کرش Safari: کدام URLها و ساختارهای صفحه باعث کرش مرورگر می‌شوند
روندهای اپلیکیشن Health: توزیع معیارهای سلامت تجمیعی، بدون رکوردهای سلامت فردی

مکانیسم‌هایی که اپل استفاده می‌کند شامل RAPPOR (که ابتدا توسط گوگل توسعه داده شد)، الگوریتم Count Mean Sketch (CMS) خودشان، و روش‌های مبتنی بر Hadamard Transform برای تخمین فرکانس ابعاد بالا است. نتیجه: اپل می‌تواند تعیین کند که «ایموجی X تقریباً توسط N٪ از کاربران استفاده می‌شود» بدون اینکه هرگز پروفایلی از اینکه کدام کاربران خاص از آن ایموجی استفاده می‌کنند بسازد. تضمین حریم خصوصی به ازای هر کاربر است و به صورت ریاضی اعمال می‌شود – نه یک موضوع خط‌مشی اپل یا کنترل‌های دسترسی سمت سرور.

چگونه گوگل از آن استفاده می‌کند – Central Differential Privacy

گوگل رویکرد متفاوتی دارد: Central DP. داده خام روی سرورهای گوگل جمع‌آوری می‌شود، اما زمانی که Queryها علیه آن داده اجرا می‌شوند، نویز به نتایج Query قبل از استفاده داخلی یا انتشار عمومی اضافه می‌شود.

موارد استفاده افشا شده عبارتند از:

ساعت‌های شلوغ و زمان انتظار Google Maps: الگوهای بازدید تجمیعی با نویز DP اعمال‌شده برای جلوگیری از استنباط تاریخچه مکان‌های فردی
معیارهای YouTube: تعداد بازدیدها، نرخ تعامل، و داده‌های روند پردازش‌شده با تضمین‌های DP
آمار استفاده اندروید: الگوهای استفاده از اپ، فرکانس کرش، سیگنال‌های مصرف باتری

گوگل پیاده‌سازی خود را به عنوان Google Differential Privacy Library در GitHub به صورت Open Source منتشر کرده است که مکانیسم‌های Laplace و Gaussian – دو تکنیک استاندارد افزودن نویز در جعبه ابزار DP – را پیاده‌سازی می‌کند. پروتکل RAPPOR آنها برای جمع‌آوری سمت کلاینت نیز Open Source است و توسط Chrome برای جمع‌آوری معیارهای مرورگر در مقیاس وسیع استفاده می‌شود.

تفاوت کلیدی با رویکرد اپل: Central DP نیاز به اعتماد به سرورهای گوگل با داده خام قبل از ناشناس‌سازی دارد. Local DP (روش اپل) به سرور قابل اعتماد نیاز ندارد – اما برای رسیدن به همان دقت آماری به حدود ۱۰۰ برابر کاربران بیشتری نیاز دارد، زیرا داده هر فرد قبل از رسیدن به لایه تجمیع بسیار نویزدارتر است.

اداره سرشماری و استفاده فدرال

اداره سرشماری آمریکا Differential Privacy را به سرشماری ۲۰۲۰ اعمال کرد – و آن را به اولین سرشماری ملی در تاریخ تبدیل کرد که از تضمین‌های رسمی حریم خصوصی استفاده می‌کند. این تصمیم ناشی از یک تهدید خاص بود: حملات بازسازی پایگاه داده. محققان نشان داده بودند که انتشار جداول سرشماری دقیق (بدون DP) امکان بازسازی تقریباً کامل رکوردهای سطح فردی را با حل محدودیت‌های ترکیبی که توسط آمار منتشرشده دلالت می‌شود، فراهم می‌کند.

داده‌های بازتقسیم‌بندی ۲۰۲۰ از بودجه حریم خصوصی کل ε ≈ 17.14 استفاده کرد – نسبتاً ضعیف از نظر استانداردهای DP، اما برای حفظ دقت برای مناطق جغرافیایی کوچک که تعداد جمعیت باید برای تقسیم‌بندی کنگره صحیح باشد، انتخاب شد.

این معامله از نظر سیاسی جنجالی شد. محققان – از جمله برخی آماردانان – اعتراضاتی ثبت کردند مبنی بر اینکه نویز معرفی‌شده توسط DP تعداد جمعیت کوچک را مخدوش می‌کند و بر جوامع اقلیت به طور نامتناسبی تأثیر می‌گذارد. اداره سرشماری این تصمیم را به عنوان پاسخ ضروری به آسیب‌پذیری‌های بازسازی نشان‌داده‌شده دفاع کرد و استدلال کرد که انتشار داده‌های سرشماری «دقیق» میلیون‌ها فرد را در معرض خطر شناسایی مجدد قرار می‌دهد. این بحث یک تنش واقعی را آشکار کرد: در جوامع کوچک، حتی نویز متوسط می‌تواند شمارش‌ها را از آستانه‌هایی که از نظر قانونی و سیاسی مهم هستند جابه‌جا کند.

Federated Learning + DP: رویکرد ترکیبی

Federated Learning مدل‌های Machine Learning را روی داده‌های توزیع‌شده آموزش می‌دهد – به جای اینکه داده خام به یک سرور مرکزی حرکت کند، به‌روزرسانی‌های Gradient از دستگاه‌ها به سرور می‌روند. هیچ داده خام فردی هرگز منتقل نمی‌شود.

ترکیب Federated Learning با Differential Privacy شکاف حریم خصوصی باقی‌مانده را می‌بندد: هر دستگاه نویز کالیبره‌شده را به به‌روزرسانی Gradient خود قبل از اشتراک‌گذاری اضافه می‌کند. حتی اگر یک مهاجم همه به‌روزرسانی‌های Gradient از همه دستگاه‌ها را در طول آموزش رهگیری کند، نمی‌تواند داده هیچ فردی را بازسازی کند.

استقرارهای تولید:

Google Gboard: پیش‌بینی کلمه بعدی که روی میلیون‌ها دستگاه اندرویدی با استفاده از Federated Learning + DP آموزش دیده است. مدل بدون اینکه گوگل هرگز الگوهای تایپ فردی را ببیند بهبود می‌یابد.
Apple Siri: بهبود مدل صوتی با استفاده از Federated Learning روی دستگاه با Local DP اعمال‌شده بر بردارهای ویژگی صوتی.
توصیه‌های محتوای Meta: سیگنال‌های شخصی‌سازی که با DP پردازش می‌شوند تا استنباط سطح فردی از وزن‌های مدل محدود شود.

تضمین حریم خصوصی در این تنظیم به ازای هر دور آموزش است و در طول دورها جمع می‌شود – نکته‌ای حیاتی که اغلب در توصیف‌های بازاریابی این سیستم‌ها نادیده گرفته می‌شود.

محدودیت‌هایی که هیچکس درباره‌شان صحبت نمی‌کند

Differential Privacy از نظر ریاضی دقیق است اما یک سپر جادویی نیست. محدودیت‌ها واقعی هستند:

ترکیب (Composition): بودجه‌های حریم خصوصی ترکیب می‌شوند. اگر ۱۰۰ Query DP روی یک مجموعه داده اجرا کنید، هرکدام با ε = 0.1، هزینه کل حریم خصوصی ε = 10 است – نه 0.1. بیشتر سیستم‌های استقرار یافته این را به درستی حساب نمی‌کنند. قضایای ترکیب پیشرفته (Rényi DP، zero-concentrated DP) کمک می‌کنند، اما نیاز به حسابداری دقیق دارند.
شکاف دقت Local در مقابل Central: Local DP از نظر معماری قوی‌تر است – بدون نیاز به سرور قابل اعتماد – اما برای رسیدن به همان دقت آماری Central DP به حدود ۱۰۰ برابر کاربران بیشتری نیاز دارد. برای Queryهای خاص روی جمعیت‌های کوچک، Local DP اغلب آماری تولید می‌کند که برای مفید بودن بیش از حد نویزدار است.
کالیبراسیون اپسیلون استاندارد نیست: هیچ استاندارد صنعتی برای اینکه چه مقدار اپسیلون «به اندازه کافی خوب» است وجود ندارد. ε = 2 اپل و ε = 2 یک شرکت دیگر ممکن است تحت مدل‌های تهدید متفاوت، محاسبات حساسیت متفاوت، و روش‌های حسابداری ترکیب متفاوت عمل کنند – که مقایسه مستقیم را گمراه‌کننده می‌کند.
داده‌های ابعاد بالا: نویز DP که هنگام محاسبه یک آمار تجمیعی واحد (مثلاً میانگین سنی در ۱۰ میلیون کاربر) ناچیز است، می‌تواند زمانی که به پیش‌بینی‌های فردی ابعاد بالا اعمال شود، سودمندی را کاملاً از بین ببرد. به همین دلیل است که DP برای تحلیل‌های تجمیعی بسیار آسان‌تر از توصیه‌های شخصی‌سازی‌شده یا وظایف طبقه‌بندی دقیق قابل استقرار است.

چرا «ناشناس‌سازی» بدون DP یک تضمین حریم خصوصی نیست

هر دو قانون GDPR و CCPA به طور صریح داده‌های «ناشناس» را از الزامات انطباق خود مستثنی می‌کنند. این یک حفره قانونی قابل توجه ایجاد می‌کند: شرکت‌ها به طور معمول ادعا می‌کنند مجموعه داده‌ها ناشناس هستند در حالی که به سادگی شناسه‌های مستقیم – نام، آدرس ایمیل، شماره تامین اجتماعی – را بدون اعمال هیچ مکانیسم رسمی حریم خصوصی حذف کرده‌اند.

ادبیات علمی بدون ابهام است: حذف شناسه‌های مستقیم به هیچ معنای فنی ناشناس‌سازی نیست. شناسه‌های شبه (سن، کد پستی، جنسیت) برای شناسایی منحصر‌به‌فرد ۸۷٪ از آمریکایی‌ها کافی است، طبق تحقیقات بنیادی Latanya Sweeney. داده‌های رفتاری – ردپاهای مکان، تاریخچه خرید، الگوهای مرور – حتی بیشتر قابل شناسایی مجدد است زیرا اثر انگشت رفتاری منحصربه‌فردی را رمزگذاری می‌کند که حتی پس از حذف شناسه‌های آشکار باقی می‌ماند.

Differential Privacy تنها رویکرد در این زمینه است که در آن «این داده ناشناس است» یک ادعای ریاضی قابل اثبات است نه یک ادعا توسط تیم انطباق. تضمین به این بستگی ندارد که یک مهاجم به اندازه کافی باهوش نباشد؛ در برابر مهاجمان با اطلاعات کمکی دلخواه و قدرت محاسباتی نامحدود پابرجاست.

پاسخ مهندسی صادقانه

Differential Privacy همه مشکلات حریم خصوصی را حل نمی‌کند. یک مشکل خاص را خیلی خوب حل می‌کند: تضمین اینکه آمار تجمیعی درباره جمعیت‌ها نمی‌تواند برای استنباط رکوردهای مربوط به افراد استفاده شود. از نقض رضایت، نقض داده‌ها در حالت ذخیره، تهدیدات داخلی، یا جمع‌آوری داده‌هایی که اصلاً نباید جمع‌آوری شوند محافظت نمی‌کند.

اما برای هر سازمانی که داده کاربر را جمع‌آوری می‌کند و می‌خواهد بدون افشای افراد از آن اطلاعات استخراج کند – تحلیل محصول، تحقیقات سلامت، مدل‌سازی مالی، الگوهای رفتاری – DP پاسخ مهندسی صادقانه است. تضمین حریم خصوصی در ریاضیات است، نه در یک سند خط‌مشی یا یک رابطه اعتماد با یک فروشنده.

جایگزین این است که داده جمع‌آوری شود، نام‌ها حذف شوند، «ناشناس» نامیده شود، و امیدوار باشیم هیچ‌کس هرگز حمله بازناشناس‌سازی انجام ندهد. با توجه به اینکه ابزارهای انجام این کار به صورت رایگان در دسترس، به طور فزاینده خودکار، و به طور اثبات‌شدنی علیه مجموعه داده‌هایی که فقط یک دهه پیش ایمن در نظر گرفته می‌شدند، مؤثر هستند – آن امید یک استراتژی نیست.