DATA MINING
حفاظت از حریم شخصی در سیستمهای دادهكاوی
منبع مقاله : shabakeh-mag.com
موضوع : داده کاوی
حفاظت از حریم شخصی در سیستمهای دادهكاوی
منبع مقاله : shabakeh-mag.com
موضوع : داده کاوی
بر مبنای اصولی كه در ساختار شكل 1 و قانون «حداقلهای ضروری» برای رعایت شدن اصول پایه طراحی عنوان شدهاست، استراتژیای را برای حفظ حریم شخصی در سیستمهای دادهكاوی پیادهسازی كردهایم. قلب این استراتژی بر مبنای سه پروتكل است كه باید در هنگام تصمیمگیری در مورد افشای دادههای موجودیتهای سیستم، بررسی شوند:
1- جمعآوری داده (Data collection) كه در هنگام انتقال داده از تولیدكنندگان داده به سرورهای انباره داده، از حریم شخصی دادهها، حفاظت میكند.
2- كنترل نتیجه (Infereace control) كه حفاظت از حریم شخصی را هنگام انتقال داده از انبارهای داده به سرورهای دادهكاوی مدیریت میكند.
3- به اشتراكگذاری اطلاعات (information sharing) دادههای به اشتراك گذاشته شده بین سرورهای دادهكاوی در سیستمهای مختلف را كنترل میكند.
با در نظر گرفتن قانون «حداقلهای ضروری»، باید هدف مشترك این سیستمها، ساختن مدلهای دادهكاوی دقیق، با انتقال حداقل داده شخصی مورد نیاز برای دادهكاوی باشد. در عمل، ساختن سیستمی كه در عین كارایی بتواند به خوبی از دادههای شخصی محافظت كند، در اكثر موارد كار سختی است.
شکل1- معماری پایه برای حفاظت از حریم شخص در فرآیندهای داده کاوی. این معماری بهطور کلی شامل سه لایه است: تهیه کنندههای داده، که مالک داده هستند. سرورهای انبار داده، که از فرآیندهای تحلیلی آنلاین پشتیبانی میکنند و سرورهای داده کاوی که کارهای داده کاوی را انجام میدهند و اطلاعات خود را به اشتراک میگذارند. هدف اصلی کنترل کردن دادههای محرمانهای است که بین این موجودیتها رد و بدل میشود؛ بدون آن که مانع فرآیند داده کاوی شویم.
به این ترتیب میبینیم كه همیشه یك رابطه معكوس، بین ایجاد یك سیستم دادهكاوی دقیق یا ایجاد یك سیستم امن از نظر حفاظت از دادههای شخصی، وجود دارد. این پروتكلها، مبتنی بر متدهای اثباتشدهای هستند كه طراح سیستم میتواند برای برآوردهكردن نیازهای خاصی، آنها را در نظر گیرد و در مورد نسبت افشای دادههای شخصی به دقت دادهكاوی، حالتی را انتخاب كند كه بیشترین نفع را برای او داشته باشد. برای مثال، پروتكل «جمعآوری داده» میتواند از یكی از دو روش معمول برای جمعآوری داده استفاده كند كه هر یك منافع و معایب خاصی دارد.
پروتكل جمعآوری داده (Data collection) به تهیهكنندگان داده اجازه میدهد قسمت مربوط به مورد «حداقل داده شخصی مورد نیاز برای دادهكاوی» را رعایت كنند و تضمین میكند كه تنها بخش ضروری داده برای سرور انباره داده ارسال شود.
پروتكل جمعآوری داده از چندین فاكتور ایجاد شده است. اولین فاكتور ضروری، مقیاسپذیر بودن (قابل اندازهگیری) داده است؛ زیرا سرور انبار داده میتواند همانند سیستمهای نوع survey، با صدها هزار تهیهكننده داده در ارتباط باشد. ثانیاً هزینههای محاسباتی برای تهیهكنندگان داده باید كم باشد؛ زیرا آنها در مقایسه با سرورهای انبار داده، قدرت محاسباتی خیلی كمتری دارند و در نتیجه هزینه محاسباتی بالا میتواند آنها را از مشاركت در پروژههای دادهكاوی منصرف كند.
در نهایت، این پروتكل باید درست، ساده و مطمئن باشد. یعنی بتواند در عین حفاظت از حریم شخصی ارسال كننده داده، نتایج نسبتاً دقیقی را نیز ایجاد كند؛ حتی اگر ارسالكنندههای مختلف به صورت متفاوت با سیستم برخورد كنند. برای مثال، اگر بعضی از تهیهكنندگان داده در یك سیستم survey، از پروتكل سوءاستفاده كنند یا دادههای بیمعنی ارسال كنند، پروتكل جمعآوری داده باید تأثیرات ناشی از این برخورد غلط با سیستم را كنترل كند و تضمین كند كه نتایج نهایی حاصل از دادهكاوی به اندازه كافی دقیق بمانند.
شكل 2 ساختار درختی مربوط به پروتكلها و زیرپروتكلهای جمعآوری داده را نشان میدهد. همانطور كه میبینید پروتكل جمعآوری داده دو نوع اصلی را شامل میشود.
شکل2- ساختار درختی پروتکلهای جمعآوری داده. یک طراح باید تصمیم بگیرد که از کدام روش استفاده کند؛ روشهای مبتنی بر ارزش یا ابعاد، تا راهکارهای متناسب با آن روش به بهترین شکل با طراحی مورد استفاده تناسب داشته باشد.
هر یك از این مدلها، مزایا و معایبی دارد. روش مبتنی بر ارزش، مستقل از وظایف دادهكاوی عمل میكند و در نتیجه برای برنامههایی مناسب است كه برای وظایف دادهكاوی چندگانه یا وظایف تعریف نشده در جمعآوری داده مناسب است. از سوی دیگر، روش مبتنی بر ابعاد با وظایف دادهكاوی تكبعدی متناسب است؛ زیرا بعد از تفكیك و كم كردن ابعاد، اطلاعاتی كه باید بازیابی شوند، به هدف و وظیفه مورد نظر ما بستگی دارد.
تا كنون تحقیقات نتوانسته است یك مدل كلی و قابل استفاده از الگوی مبتنی بر Projection برای همه برنامهها ایجاد كند. با این وجود باز هم این روش از لحاظ نسبت كاهش دقت به افشای اطلاعات شخصی، در مقایسه با روش مبتنی بر ارزش مزیتهای زیادی دارد.
بیشتر روشهای مبتنی بر ارزش، با صفات مختلف، به روشهای مستقل و متفاوتی برخورد میكنند. در نتیجه بعضی از صفاتی كه در دادهكاوی اهمیتی ندارند نیز در همان سطح افشای دادههای مهم، برای سرور انباره داده، ارسال میشوند. مطالعات اخیر نشان میدهد كه در صورت استفاده از روش آشفتهسازی تصادفی، سرور انباره داده میتواند با نقض تكنیكهای حفظ حریم شخصی، آشفتگیها را از دادههای آشفته حذف كند و به این ترتیب حداقل بخشی از دادههای محرمانه را به دست آورد.
در روش مبتنی بر projection به خاطر بررسی رابطه بین صفات و ارایه دادههای صرفاً ضروری برای دادهكاوی از مشكلات معمول در سیستم روش مبتنی بر ارزش خبری نیست.
همچنین از طریق دریافت اطلاعات در مورد دادههای ضروری، میتواند از ارایه اطلاعات شخصی غیرضروری جلوگیری كند و به این ترتیب عملكرد آشفتهسازی داده را بهبود بخشد. من و یكی از همكارانم در یكی از پروژههای سابق، الگویی را ارایه كردیم كه بر مبنای دریافت راهنماییهای لازم و كاهش ابعاد داده متناسب با راهنماییهای دریافتی، پایهریزی شده بود.
این روش برای سیستمهای پویا نظیر سیستمهای survey طراحی شده بود كه در آنها تهیهكنندگان داده به صورت ناهمزمان به سیستم متصل شده و دادههای مورد نظر ما را تأمین میكنند. در این الگو برای راهنمایی تهیهكنندگان داده كه هنوز دادههای خود را ارسال نكردهاند، ابتدا دادههای جمعآوریشده از اعضای قبلی بررسی میشود و سپس با تحلیل آنها، دادههای ضروری برای دادهكاوی شناسایی و از تهیه كننده داده درخواست میشود. سپس سیستم درخواست دریافت صفات مورد نیاز را ارسال میكند. نمونههای قبلی نشان میدهد كه الگوها و برنامههای دارای راهنما، از الگوهایی كه فاقد راهنما باشند بهتر عمل میكنند.