DATA MINING

حفاظت از حریم شخصی در سیستم‌های داده‌كاوی

منبع مقاله : shabakeh-mag.com
موضوع : داده کاوی

نوشته شده در تاریخ سه شنبه 15 دی 1388    | توسط: بهراد زارعی    |    | Comments()

حفاظت از حریم شخصی در سیستم‌های داده‌كاوی

داده‌كاوی با استخراج موفقیت‌آمیز اطلاعات، دانش مورد نیاز برای استفاده در زمینه‌های مختلف از جمله، بازاریابی، هواشناسی، تحلیل‌های پزشكی و امنیت ملی را فراهم می‌سازد، ولی هنوز هیچ تضمینی ارایه نشده است كه بتوان داده‌های خاصی را مورد داده‌كاوی قرار داد؛ بدون آن‌كه به حریم خصوصی مالك آن اطلاعات تجاوز كرد. برای مثال، در یك سیستم پزشكی، نحوه انجام داده‌كاوی در اطلاعات خصوصی بیماران بدون افشای آن اطلاعات، یكی از مسائلی است كه با آن روبه‌رو هستیم. ارگان‌هایی نظیر سازمان بیمه سلامتی و بررسی وضع بهداشت در ایالا‌ت‌متحده (HIPPA) و سازمان مدیریت داده و سیستم‌های تحلیلی در اتحادیه اروپا، با درك حساسیت‌های به وجود آمده در این زمینه، مجموعه‌ای از قوانین اجباری را در زمینه مدیریت داده و تحلیل سیستم‌ها پدید آورده‌اند. این نوع نگرانی‌ها، به موازات گسترش استفاده از سیستم‌های تحلیل داده افزایش می‌یابند. سیستم‌های جمع‌آوری داده به صورت آنلا‌ین، نمونه‌ای از ده‌ها برنامه جدیدی هستند كه حریم شخصی افراد را تهدید می‌كنند. شركت‌های معتبر از چندی پیش با به اشتراك گذاشتن روش‌ها و مدل‌های موجود برای داده‌كاوی، به دنبال كسب داده بیشتر در مورد مشتریان مشترك هستند تا بتوانند در مورد عادت‌های آن‌ها در زمینه خرید كالا اطلاعات دقیق‌تری داشته‌ باشند. قبل از آن‌كه تكنیك‌های داده‌كاوی همه‌گیر شود و كلاف سردرگم حریم شخصی افراد را تهدید كند، باید بتوان راهی برای حفاظت از حریم و اطلاعات شخصی افراد پیدا كرد. مشكل اصلی از آنجا ناشی می‌شود كه چگونه می‌توان هم حریم شخصی افراد را در نظر گرفت و هم از نتایج مفید سیستم‌های داده‌كاوی بهره ‌برد. برای برطرف كردن موانع موجود در این زمینه، تحقیقات زیادی در حال انجام است، اما در عمل سیستم‌های داده‌كاوی كه بتوانند در عین حال حریم شخصی افراد را نیز حفظ كنند، هنوز در مرحله ابتدایی و آزمایشی هستند. بیشتر این تكنیك‌ها در لایه زیرین به جای بررسی مشكلات سیستم‌ها، روی ابزارهای محاسباتی‌ و الگوریتم‌ها متمركز شده‌اند. هدف ما از بررسی حریم شخصی، به دست آوردن یك دید سیستماتیك از نیازهای ساختاری و طراحی اصول و بررسی راه‌حل‌هایی است كه بتوانند در سیستم‌های داده‌كاوی به‌طور عملی از حریم شخصی افراد محافظت كنند.

نوشته شده در تاریخ سه شنبه 15 دی 1388    | توسط: بهراد زارعی    |    | نظرات()

طرح پایه‌

همان‌طور كه در شكل 1 مشاهده می‌شود(در تاپیک پروتکل های حریم شخصی در پایین)، داده‌كاوی به همراه حفاظت از حریم شخصی، شامل چندین مرحله می‌شود كه آن‌ها را در یك معماری سه لایه دسته‌بندی می‌كنند: در لایه پایین تهیه‌كنندگان داده (data providers) قرار دارند. یعنی كسانی كه مالك داده هستند و عموماً از لحاظ موقعیت مكانی در سطح گسترده‌ای توزیع شده‌اند.
تأمین‌كنندگان داده اطلاعات شخصی خود را به سرور انبار داده (data warehouse server) ارسال می‌كنند. این سرور كه لایه میانی به حساب می‌آید، از فرایندهای تحلیل آنلا‌ین داده‌ها، پشتیبانی می‌كند و از طریق تبدیل داده‌های خام كاربران به داده‌های گروهی، اطلاعاتی را برای سرورهای داده‌كاوی فراهم می‌كند كه امكان پردازش سریع‌تر آن‌ها فراهم است.
سرورهای انبار داده، با جمع‌آوری داده با یك نظم فیزیكی خاص، نظیر استفاده از ساختار مكعبیِ چندبعدی و استفاده از توابع جمعی نظیر Sum ،Average ،Max و Min پیش‌محاسبه‌های مختلفی از داده‌ها فراهم می‌كند. برای یك سیستم آنلا‌ین از نوع survey، پاسخ‌دهندگان در اصل تأمین‌كنندگان داده هستند كه داده‌های خود را به سرور انبار داده تحلیل از نوع survey، ارسال می‌كنند.
میانگین سن پاسخ‌دهندگان به برنامه، می‌تواند یك نمونه از اجماع داده‌ها در سیستم به حساب آید. پردازش داده‌های حاصل از توابع اجماع در سرور خیلی آسان‌تر از پردازش داده‌های خام ارسالی توسط تهیه‌كنندگان داده است.
سرورهای داده‌كاوی، در بالاترین لایه قرار می‌گیرند كه كار اصلی در زمینه داده‌كاوی توسط آن‌ها انجام می‌شود. در یك سیستم داده‌كاوی كه اصول حفاظت از حریم شخصی را رعایت كرده ‌باشد، این سرورها، نمی‌توانند آزادانه به همه داده‌های ذخیره‌شده در انبار‌های داده دسترسی داشته ‌باشند.

نوشته شده در تاریخ سه شنبه 15 دی 1388    | توسط: بهراد زارعی    |    | نظرات()

مثال

برای مثال، در یك سیستم بیمارستانی، اداره حسابداری باید فقط بتواند به داده‌های مالی بیماران دسترسی داشته ‌باشد و به هیچ ‌عنوان نباید به ركوردهای ثبت شده در مورد سوابق پزشكی آن‌ها دسترسی داشته‌ باشد. توسعه و ایجاد قوانین مؤثر برای دسترسی درست سرورهای داده‌كاوی به داده‌های انبار‌های داده، یكی از مشكلاتی است كه تحقیق در مورد آن به صورت ارسال و دریافت گسترده پیشنهادها، در حال انجام است.
به علاوه، یك سرور داده‌كاوی ممكن است با ایجاد مدل‌های داده‌كاوی روی سرور انبار داده، داده‌های آن را با سرورهای داده‌كاوی دیگر در سیستم‌های دیگر به اشتراك بگذارد. انگیزه اصلی از به اشتراك گذاشتن داده در این مدل‌ها، ایجاد مدل‌های مشابه برای داده‌كاوی در بین سیستم‌ها است.
برای مثال، شركت‌های اجاره‌‌دهنده سرور، ممكن است بخواهند روش‌های داده‌كاوی خود روی ركوردهای مشتریان را به اشتراك بگذارند تا به این ترتیب یك مدل جهانی داده‌كاوی در مورد رفتار مشتریان ایجاد كنند كه به نفع همه شركت‌ها خواهد بود. همان‌طوركه شكل 1 نشان می‌دهد، به اشتراك گذاشتن داده در بالاترین لایه رخ می‌دهد كه در آن هر سرور داده‌كاوی از مدل داده‌كاوی مخصوص خود استفاده می‌كند. بنابراین در اینجا «به اشتراك گذاشتن» به معنی به اشتراك گذاشتن مدل‌های داده‌كاوی محلی است، نه به اشتراك گذاشتن داده‌های خام.

نوشته شده در تاریخ سه شنبه 15 دی 1388    | توسط: بهراد زارعی    |    | نظرات()

حداقل‌های ضروری برای رعایت‌شدن اصول پایه طراحی‌

برای طراحی یك سیستم داده‌كاوی كه حریم شخصی را نیز رعایت كرده ‌باشد، باید ابتدا یك تعریف مشخص از حریم شخصی ارایه دهیم. تفسیر معمول برای این كلمه به این صورت است كه یك داده در صورتی شخصی تلقی می‌شود كه مالك آن حق داشته‌ باشد، در مورد محرمانه ماندن یا افشای آن تصمیم بگیرد و مختار باشد كه مشخص كند به چه علت یا تا چه اندازه می‌توان این داده‌ها را در اختیار دیگران قرار داد.
بیشتر نظریه‌پردازان تفسیر عبارت «حریم شخصی در مدل‌سازی داده» را به این صورت در نظر می‌گیرند كه مالك داده به صورت پیش‌فرض اجازه افشای داده‌های شخصی خود را نداده ‌است؛ مگر این‌كه برای اجرای داده‌كاوی حتماً به آن داده‌ها نیاز باشد.
این فرض به همراه تعریف مورد قبول برای حفاظت از اطلاعات، مبانی پایه و اصول پایه طراحی سیستم‌های داده‌كاوی با رعایت حریم شخصی را ایجاد می‌كنند:
در یك سیستم داده‌كاوی، اطلاعات شخص افشا شده باید شامل حداقل داده‌هایی باشد كه در داده‌كاوی به آن‌ها نیاز است.
در نوشتار حاضر منظور و معیار برای كلمه «حداقل»، كیفیت اطلاعات است، نه كمیت آن. از آنجا كه معیار كّمی برای اندازه‌گیری افشای اطلاعات شخصی، در سیستم‌های مختلف فرق می‌كند، پس حداقل دید مشترك این است كه نباید هیچ یك از اطلاعات شخصی غیرضروری افشا شود (در این نوشته منظور از غیرضروری، به سطح دقت مورد نیاز در نتایج حاصلی از سیستم‌های داده‌كاوی بستگی دارد.). بنابراین كلمه «حداقل» به این معنی است كه افشای حریم شخصی، بر مبنای نیاز به داده صورت می‌گیرد. خیلی از قوانین از جمله HIPPA، تبعیت از قانون حداقل نیازهای ضروری را الزامی می‌دانند.

نوشته شده در تاریخ سه شنبه 15 دی 1388    | توسط: بهراد زارعی    |    | نظرات()

پروتكل‌های حریم شخصی‌

بر مبنای اصولی كه در ساختار شكل 1 و قانون «حداقل‌های ضروری» برای رعایت شدن اصول پایه طراحی عنوان شده‌است، استراتژی‌ای را برای حفظ حریم شخصی در سیستم‌های داده‌كاوی پیاده‌سازی كرده‌ایم. قلب این استراتژی بر مبنای سه پروتكل است كه باید در هنگام تصمیم‌گیری در مورد افشای داده‌های موجودیت‌های سیستم، بررسی شوند:
1- جمع‌آوری داده (Data collection) كه در هنگام انتقال داده از تولیدكنندگان داده به سرورهای انباره داده، از حریم شخصی داده‌ها، حفاظت می‌كند.
2- كنترل نتیجه ‌(Infereace control) كه حفاظت از حریم شخصی را هنگام انتقال داده از انبارهای داده به سرورهای داده‌كاوی مدیریت می‌كند.
3- به اشتراك‌گذاری اطلاعات (information sharing) داده‌های به اشتراك گذاشته شده بین سرورهای داده‌كاوی در سیستم‌های مختلف را كنترل می‌كند.
با در نظر گرفتن قانون «حداقل‌های ضروری»، باید هدف مشترك این سیستم‌ها، ساختن مدل‌های داده‌كاوی دقیق، با انتقال حداقل داده شخصی مورد نیاز برای داده‌كاوی باشد. در عمل، ساختن سیستمی كه در عین كارایی بتواند به خوبی از داده‌های شخصی محافظت كند، در اكثر موارد كار سختی است.


شکل1- معماری پایه برای حفاظت از حریم شخص در فرآیندهای داده کاوی. این معماری به‌طور کلی شامل سه لایه است: تهیه کننده‌های داده، که مالک داده هستند. سرورهای انبار داده، که از فرآیندهای تحلیلی آنلاین پشتیبانی می‌کنند و سرورهای داده کاوی که کارهای داده کاوی را انجام می‌دهند و اطلاعات خود را به اشتراک می‌گذارند. هدف اصلی کنترل کردن داده‌های محرمانه‌ای است که بین این موجودیت‌ها رد و بدل می‌شود؛ بدون آن که مانع فرآیند داده کاوی شویم.

به این ترتیب می‌بینیم كه همیشه یك رابطه معكوس، بین ایجاد یك سیستم داده‌كاوی دقیق یا ایجاد یك سیستم امن از نظر حفاظت از داده‌های شخصی، وجود دارد. این پروتكل‌ها، مبتنی ‌بر متدهای اثبات‌شده‌ای هستند كه طراح سیستم می‌تواند برای برآورده‌كردن نیازهای خاصی، آن‌ها را در نظر گیرد و در مورد نسبت افشای داده‌های شخصی به دقت داده‌كاوی، حالتی را انتخاب كند كه بیشترین نفع را برای او داشته باشد. برای مثال، پروتكل «جمع‌آوری داده» می‌تواند از یكی از دو روش معمول برای جمع‌آوری داده استفاده كند كه هر یك منافع و معایب خاصی دارد.

نوشته شده در تاریخ سه شنبه 15 دی 1388    | توسط: بهراد زارعی    |    | نظرات()

پروتكل جمع‌آوری داده‌

پروتكل جمع‌آوری داده (Data collection) به تهیه‌كنندگان داده اجازه می‌دهد قسمت مربوط به مورد «حداقل داده شخصی مورد نیاز برای داده‌كاوی» را رعایت كنند و تضمین می‌كند كه تنها بخش ضروری داده برای سرور انباره داده ارسال شود.
پروتكل جمع‌آوری داده از چندین فاكتور ایجاد شده است. اولین فاكتور ضروری، مقیاس‌پذیر بودن (قابل اندازه‌گیری) داده است؛ زیرا سرور انبار ‌داده می‌تواند همانند سیستم‌های نوع survey، با صدها هزار تهیه‌كننده داده در ارتباط باشد. ثانیاً هزینه‌های محاسباتی برای تهیه‌كنندگان داده باید كم باشد؛ زیرا آن‌ها در مقایسه با سرورهای انبار داده، قدرت محاسباتی خیلی كمتری دارند و در نتیجه هزینه محاسباتی بالا می‌تواند آن‌ها را از مشاركت در پروژه‌های داده‌كاوی منصرف كند.
در نهایت، این پروتكل باید درست، ساده و مطمئن باشد. یعنی بتواند در عین حفاظت از حریم شخصی ارسال كننده داده، نتایج نسبتاً دقیقی را نیز ایجاد كند؛ حتی اگر ارسال‌كننده‌های مختلف به صورت متفاوت با سیستم برخورد كنند. برای مثال، اگر بعضی از تهیه‌كنندگان داده در یك سیستم survey، از پروتكل سوءاستفاده كنند یا داده‌های بی‌معنی ارسال كنند، پروتكل جمع‌آوری داده باید تأثیرات ناشی از این برخورد غلط با سیستم را كنترل كند و تضمین كند كه نتایج نهایی حاصل از داده‌كاوی به اندازه كافی دقیق بمانند.
شكل 2 ساختار درختی مربوط به پروتكل‌ها و زیرپروتكل‌های جمع‌آوری داده را نشان می‌دهد. همان‌طور كه می‌بینید پروتكل جمع‌آوری داده دو نوع اصلی را شامل می‌شود.


شکل2- ساختار درختی پروتکل‌های جمع‌آوری داده. یک طراح باید تصمیم بگیرد که از کدام روش استفاده کند؛ روش‌های مبتنی بر ارزش یا ابعاد، تا راهکارهای متناسب با آن روش به بهترین شکل با طراحی مورد استفاده تناسب داشته باشد.

نوشته شده در تاریخ سه شنبه 15 دی 1388    | توسط: بهراد زارعی    |    | نظرات()

روش مبتنی بر ارزش

با استفاده از روش مبتنی بر ارزش (Value-based method)، تهیه‌كنندگان داده به یكی از دو روش زیر به دستكاری مقادیر مربوط به هر داده می‌پردازند. روش مبتنی بر آشفته‌ كردن، خطا را مستقیماً در داده اعمال می‌كند. برای مثال، سن را از 23 به 30 یا تگزاس را به كالیفرنیا تغییر می‌دهد. روش مبتنی بر اجماع داده‌ها را مطابق با ساختار سلسله مراتبی آن‌ها به حالت كلی‌تر تبدیل می‌كند. برای مثال، سن 23 را به بازه 21 تا 25 یا تگزاس را به ایالات متحده تبدیل می‌كند.
روش مبتنی بر آشفته‌ كردن برای داده‌های اختیاری مناسب است. در حالی‌ كه روش مبتنی بر اجماع، به دانش سیستم در مورد سلسله مراتب مربوط به داده بستگی دارد و در عوض می‌تواند در تضمین مبهم ماندن داده نیز كمك كند. برای مثال، ابهام -k یعنی آن‌كه داده‌های هر ركورد داده‌ای آشفته‌شده از داده‌های 1-k ركورد دیگر، غیرقابل تشخیص است.
روش مبتنی بر ارزش فرض می‌كند كه رسیدن به داده‌های شخصی از طریق بررسی داده‌های دستكاری شده برای سرورهای انباره داده ناممكن یا حداقل خیلی سخت است، ولی سرور می‌تواند داده‌های اصلی را از روی توزیع داده‌های آشفته موجود بازیابی كند و در نتیجه امكان ایجاد مدل‌های داده‌كاوی دقیق را فراهم آورد.

نوشته شده در تاریخ سه شنبه 15 دی 1388    | توسط: بهراد زارعی    |    | نظرات()

روش مبتنی بر ابعاد

 دلیل استفاده از نام «روش مبتنی بر ابعاد» (Dimention-based method) این است كه داده‌ها‌ی مورد بررسی معمولاً صفات (ابعاد) زیادی دارند. ایده اصلی این است كه با حذف كردن تعداد بعدهای داده، آن قسمتی از داده‌ها را كه شخصی به حساب می‌آیند، جداسازی كنیم.
روش مبتنی بر block این كار را از طریق جداسازی بعضی از صفات شخصی انجام می‌دهد و این دسته از داده‌ها را در اختیار سرور انبار داده قرار نمی‌دهد، ولی این روش ممكن است باعث از دست دادن داده شود، ولی سرورهای داده‌كاوی نتوانند از روی این دسته از داده‌ها، نتایج دقیقی به دست آورند.
مدل پیچیده‌تری با نام مدل مبتنی بر Projection داده‌های اصلی را روی زیر فضاهایی با ابعاد كمتر منعكس می‌كند. این زیرفضاها با دقت زیادی طراحی شده‌اند تا تنها حداقل داده‌های مورد نیاز برای ایجاد مدل‌های داده‌كاوی دقیق را شامل شوند.

نوشته شده در تاریخ سه شنبه 15 دی 1388    | توسط: بهراد زارعی    |    | نظرات()

مزایا و معایب‌

هر یك از این مدل‌ها، مزایا و معایبی دارد. روش مبتنی بر ارزش، مستقل از وظایف داده‌كاوی عمل می‌كند و در نتیجه برای برنامه‌هایی مناسب است كه برای وظایف داده‌كاوی چندگانه یا وظایف تعریف نشده در جمع‌آوری داده مناسب است. از سوی دیگر، روش مبتنی بر ابعاد با وظایف داده‌كاوی تك‌بعدی متناسب است؛ زیرا بعد از تفكیك و كم كردن ابعاد، اطلاعاتی كه باید بازیابی شوند، به هدف و وظیفه مورد نظر ما بستگی دارد.
تا كنون تحقیقات نتوانسته است یك مدل كلی و قابل استفاده از الگوی مبتنی بر Projection برای همه برنامه‌ها ایجاد كند. با این وجود باز هم این روش از لحاظ نسبت كاهش دقت به افشای اطلاعات شخصی، در مقایسه با روش مبتنی بر ارزش مزیت‌های زیادی دارد.
بیشتر روش‌های مبتنی بر ارزش، با صفات مختلف، به روش‌های مستقل و متفاوتی برخورد می‌كنند. در نتیجه بعضی از صفاتی كه در داده‌كاوی اهمیتی ندارند نیز در همان سطح افشای داده‌های مهم، برای سرور انباره داده، ارسال می‌شوند. مطالعات اخیر نشان می‌دهد كه در صورت استفاده از روش آشفته‌سازی تصادفی، سرور انباره داده می‌تواند با نقض تكنیك‌های حفظ حریم شخصی، آشفتگی‌ها را از داده‌های آشفته حذف كند و به این ترتیب حداقل بخشی از داده‌های محرمانه را به دست آورد.
در روش مبتنی بر projection به خاطر بررسی رابطه بین صفات و ارایه داده‌‌های صرفاً ضروری برای داده‌كاوی از مشكلات معمول در سیستم روش مبتنی بر ارزش خبری نیست.
همچنین از طریق دریافت اطلاعات در مورد داده‌های ضروری، می‌تواند از ارایه اطلاعات شخصی غیرضروری جلوگیری كند و به این ترتیب عملكرد آشفته‌سازی داده را بهبود بخشد. من و یكی از همكارانم در یكی از پروژه‌های سابق، الگویی را ارایه كردیم كه بر مبنای دریافت راهنمایی‌های لازم و كاهش ابعاد داده متناسب با راهنمایی‌های دریافتی،‌ پایه‌ریزی شده‌ بود.
این روش برای سیستم‌های پویا نظیر سیستم‌های survey طراحی شده ‌بود كه در آن‌ها تهیه‌كنندگان داده به صورت ناهمزمان به سیستم متصل شده و داده‌های مورد نظر ما را تأمین می‌كنند. در این الگو برای راهنمایی تهیه‌كنندگان داده كه هنوز داده‌های خود را ارسال نكرده‌اند، ابتدا داده‌های جمع‌آوری‌شده از اعضای قبلی بررسی می‌شود و سپس با تحلیل آن‌ها، داده‌های ضروری برای داده‌كاوی شناسایی و از تهیه ‌كننده داده درخواست می‌شود. سپس سیستم درخواست دریافت صفات مورد نیاز را ارسال می‌كند. نمونه‌های قبلی نشان می‌دهد كه الگوها و برنامه‌های دارای راهنما، از الگوهایی كه فاقد راهنما باشند بهتر عمل می‌كنند.

نوشته شده در تاریخ سه شنبه 15 دی 1388    | توسط: بهراد زارعی    |    | نظرات()
RSS | Atom