تیتر خبرها
داده کاوی

داده کاوی چیست؟

داده کاوی چیست؟

مقدمه

داده کـاوی در حقیقت کشف ساختارهای جالب توجه،غیرمنتظره و با ارزش از روی‌ مجموعهء گستره‌ای از داده‌ها است و فعالیتی است که اساسا با‌ آمار و تحلیل موشکافانه‌ داده منطبق است.همچنین فعالیتی است که با سایر رشته‌ها مشخصا مانند تئوری‌ بانک اطلاعاتی،یادگیری مـاشین، الگوشناسی و هوش مصنوعی در تداخل است.هر یک از این رشته‌ها رنگ و بوی خاصی به‌ کار‌ داده کاوی می‌بخشد و هریک از آنها احساس تعلقی منطقی به قلمروی نوظهور داده کاوی دارند که ممکن است بروز تنشهائی را موجب شود.خوشبختانه این تنشها چـنانچه پژوهـشگران رشته‌های مختلف‌ بر دیدگاهها و نظرات‌ یکدیگر ارج نهند ثمربخش خواهد بود.

علت اینکه این مقوله بجای دو دهه گذشته اخیرا مطرح شده است این واقعیت است‌ که فن‌آوری امروزی به‌ انباشتگی‌ مجموعه‌های بسیار حـجیمی از دادهـ‌ها منجر شده‌ است. در این رابطه نمونه‌هائی را ارائه کرده است.این مجموعه‌ داده‌ها حاوی میلیونها و بلکه میلیاردها قلم سوابق ثبت شده است.این داده‌ها نوعا‌ به‌ این‌ منظور‌ استخراج می‌شون تا پاسخگوی سؤالاتی‌ باشند‌ که‌ صـرفا بـرای آنها جمع‌آوری و ذخیره شده‌اند.

امروزه ذخیره‌سازی اطلاعات بسیار ارزان است.طوری که توده‌های گسترده‌ای از داده‌های گوناگون در همه‌جا پراکنده است.آشکار است‌ و یا‌ حد اقل طرفداران داده‌ کاوی این نوید را می‌دهند‌ که‌ کوه‌های عظیم داده‌ها در دل خـود اطـلاعاتی دارنـد که‌ می‌تواند ارزشمند باشد.برای بهره‌برداری از ایـن مـخازن عـظیم تنها زحمتی که‌ باقی‌ می‌ماند‌ اقدام‌ به بیرون کشیدن آن اطلاعات ارزشمند است.بنابراین اصطلاح‌"داده‌ کاوی‌"برای گردآوری ناهمگن‌ ابزارها بمنظور استخراج اطلاعات بالقوه ارزشمند از درون سـلسله کـوه‌های عـظیم داده‌ها به کار می‌رود.

اهداف داده کاوی

در اینجا تمایز‌ بین‌ دو‌ نوع روش داده کـاوی مـفید بنظر می‌رسد.روش اول مدل‌سازی‌ داده‌ها است.در این‌ روش‌ هدف ارائه یک جمع‌بندی کلی از داده‌های مفروض است که‌ ویژگیهای عمدهء آنرا بدست دهد.بنابراین بـرای مـثال‌ مـی‌توانیم‌ شبکه‌ای‌ را مبتنی بر دیدگاه بیضی،مدل رگرسیونی،شبکه عصبی،مدل درختی و غیره ایجاد کـنیم.آشکار است که‌ هدف‌ در‌ اعمال این روش با هدف مدل‌سازی استاندارد آماری بسیار شباهت‌ دارد.به خصوص احتمال دارد که‌ الگوریتمهای‌ استاندارد‌ خیلی کـند بـاشد و مـدل‌سازی‌ استاندارد آماری نیز به مدلهای بیش از حد پیچیده منجر‌ شود‌ زیرا حـتی ویـژگیهای جزئی‌ هم کاملا معنی‌دار خواهند بود.در ادامهء بحث این نکات را‌ بررسی‌ خواهیم‌ کرد. احتمالا واقعیت دارد که بگوئیم بیشتر فـعالیتهای آمـاری بـه نحوی از انحاء با استنباطدر ارتباط‌ است.بدین معنی که هدف از بهره‌گیری از داده‌های موجود ارائه فـرضیات در خـصوص جـامعه‌ مولد‌ این‌ داده‌ها،ارزش مشاهدات آینده و سایر مقولات است.بیشتر فعالیتهای داده کاوی دارای همین ماهیت است.در چنین شـرایطی‌ بـه‌ دادهـ‌های موجود به‌ عنوان نمونه‌ای از جامعه‌ای منتخب با ارزشهای ویژه نگریسته می‌شود.ولی‌ در‌ بسیاری‌ از‌ شرائط داده کاوی کـلیه دادهـ‌های ممکن در دسترس است و هدف این نیست که‌ استنباطی که‌ صورت‌ می‌گیرد‌ از حدود این دادهـ‌ها فـراتر رود بـلکه آنچه مطلوب است‌ "توصیف‌"داده‌ها است. در این‌ حالت‌ استفاده از روشهای استنباط مانند آزمونهای فرض برای تعیین ایـنکه‌ اصولا کـدام یک از ویژگیهای مدل توصیف‌کننده‌ باید‌ مد نظر قرار گیرد،نامربوط به نظر می‌رسد.بنابراین باید از سـایر مـعیارها بـهره‌گیری شود.

نوع دوم‌ روش داده کاوی الگویابی است.در این روش‌ هدف‌ ساختن‌ مدلی توصیفی‌ که کاملا جامع و فراگیر باشد‌ نـیست‌ بـلکه کشف ویژگیها،بی‌قاعده‌گیها یا صرفا الگوهای‌ غیرمعمول یا توجه‌برانگیز در داده‌ها مد نظر است.لازم‌ بـه‌ ذکـر اسـت که آمارشناسان در اجرای‌ فعالیتها‌ توجه اصلی‌ خود‌ را‌ صرفا به الگویابی معطوف نکرده‌اند چونکه‌ هدف‌ (استنباطی)عمدتا‌ ارزیـابی‌"واقعیت‌"یک الگـو بـمحض کشف آن بوده است.هدف در داده کاوی در درجهء اول‌ یافتن‌ الگوها است و نوعا باید ثبت‌ واقـعیت،مطلوبیت و یـا ارزش‌ آن‌ الگو‌ بر عهده مالک بانک اطلاعات‌ یا‌ کارشناس ذیربط قرار گیرد.بنابراین کاوندهء داده‌ها ممکن است بـه دنـبال یافتن خوشه‌هائی از مردمی‌ باشد‌ که مبتلا به بیماریهای‌ خاص هستند‌ درحالیکه‌ متخصصین‌ بـیماریهای واگـیردار خوشه‌ موردنظر‌ را ارزیابی کنند تا ببینند‌ که‌ صـرفا بـرآمده از تـغییرات تصادفی است یا خیر.البته بیشتر مسائل در فـضاهای‌ داده‌های بـیش از‌ دو‌ متغیر(همراه با نقطه‌های زیاد)بروز می‌کند که‌ به‌ همین علت،باید‌ از راهکارهای‌ تحلیلی‌ رسمی بـهره‌گیری کنیم.

تصور مـن‌ این است که بیشتر خـوانندگان ایـن مقاله آشـنائی گـسترده‌ای بـا مدل‌سازی‌ دارند و به بحث من‌ که‌ بـیشتر حـول محور الگویابی دور می‌زند‌ عنایت‌ خواهند‌ کرد.

ما همواره الگوها‌ را‌ در مجموعه داده‌های گسترده خـواهیم یـافت.در درجه اول این‌ طبیعت قوهء درک انسان است کـه سعی می‌کند‌ تصاویر‌ یـا‌ سـایر محرکه‌ها را برحسب اشیاء شناخته شده تـفسیر‌ کـند.برای‌ مثال‌ همین‌ است‌ که‌ ما در ابرها صورتها و د الگوها ستاره‌ها کمان‌ها و خرچنگها را می‌بینیم و انواع شـکلهای مـختلف را در لکه‌های جوهر مشاهده می‌کنیم.

نکته این است کـه مـا سـاختاری را‌ که در داده‌ها مـشاهده مـی‌کنیم با مجموعهء وسیعی از الگـوهای شـناخته شده(اشیاء)تطبیق می‌دهیم تا الگوی مطلوب خود را بیابیم.چنانچه از پیش محدودیتی برای الگوی موردنظر خود قـائل نـشویم شناخت یک ساختار به‌ عنوان‌ یک‌ الگـو خـیلی دشوار نـخواهد بود.

دوم ایـنکه پدیـدار شدن برخی از الگوها در مـجموعه داده‌ها غیر قابل اجتناب است.با فرض اینکه عناصر مجموعه‌ای از داده‌ها بتوانند 001 ارزش احتمالی را احراز‌ کنند‌ و 101 موضوع هـم مـحاسبه شده باشد مطمئنا حد اقل دو تـا از آنـها از ارزش یـکسانی‌ برخوردار خـواهند بـود.چنانچه 10001 موضوع را برحسب ارزشـهائی‌ کـه‌ در مورد یک‌ متغیر احراز می‌کند‌ مرتب‌ کنیم بدین ترتیب این اطمینان حاصل می‌شود که می‌توانیم‌ 101 موضوع را بـیابیم کـه در مـورد هر متغیر دیگر رتبه‌ای صعودی یا نـزولی داشـته باشند.

سوم ایـنکه‌ چـنانچه مـجموعه‌ای از دادهـ‌های‌ بحد‌ کافی بزرگ در اختیار داشته باشیم‌ در نتیجه احتمال وجود هر الگوی کوچکی هم بزرگ خواهد بود.در مقابل اولین حالتی‌ که در فوق ذکر شد ما الگوهای(موضوعات)شناخته شده را با مـجموعهء وسیعی‌ از رخدادهای‌ بالقوه موجود در داده‌ها تطبیق می‌دهیم.احتمال اینکه هریک از سوابق ثبت‌ شده الگوئی خاص را نشان دهد فقط یک در یک میلیون است اما چنانچه 100 میلیون‌ مورد از سوابق ثبت شده‌ وجود‌ داشته باشد‌ نـباید از مـشاهدهء الگوی موردنظر خیلی‌ تعجب کنیم.

چنانچه الگوها خیلی محتمل باشند و یا حتی غیرقابل اجتناب باشند‌ چگونه‌می‌توانیم معین کنیم که الگوی مشاهده شده نمایانگر چیزی واقعی است؟و‌ یا‌ چیزی‌ است‌ که شناختن آن ارزش دارد؟البته هر دو سـوال بـاهم تفاوت دارند ولی در مقولهء داده‌ کاوی دارای یک ‌‌پاسخ‌ هستند:باید به کارشناس ذیربط رجوع شود.وظیف(کاوندهء داده‌ها یافتن الگوهاست تا آنها را به نظر‌ فردی‌ برساند‌ که اهمیت ذاتـی و بـالقوهء داده‌ها و الگوها را تشخیص می‌دهد.من در فـعالیتهای مـربوط به خود‌ دریافته‌ام که چنین کارشناسان‌ توانائی اغلب می‌توانند تحلیل‌های گذشته نگرانه را برای‌"الگو"ارائه کنند.

به علاوه‌ بنظرم می‌رشد که این‌ امر‌ را می‌توان به عنوان نماگر"واقعیت‌"تلقی کرد و مـطمئنا مـی‌توان آنرا نیز به عـنوان شـاخص اطمینانی در نظر گرفت که فرد باید در مورد الگوی کشف شده قائل شود. اگر شخص نتواند توجیهی را برای‌ چگونگی بروز ساختار الگو تصور کند باید نسبت‌ به مبنا قرار دادن ساختار مذکور برای تصمیمات و برنامه‌های آیـنده تـردید کند.

روشهای داده کاوی الگوهای زیادی را بدست می‌دهد.برای مثال از طریق تحلیل‌ سبد‌ بازار‌ می‌توان هزاران مورد از گروه‌هائی از کالاها را که خریداران در سوپرمارکتها مایل بخرید هستند مورد شناسائی قرار داد.ما ابزاری را برای یافتن خوشه‌های محلی‌ در داده‌ها تـهیه کـرده‌ایم که مـی‌تواند تعداد‌ زیادی‌ از این خوشه‌ها را بیابد.درحالیکه‌ اصولا می‌توان این تعداد از خوشه‌ها را به کارشناس ذیربط(برای مثال مدیر سوپر مارکت)انتقال داد ولی این امـر در عمل امکانپذیر نبوده است.در درجهء اول باید‌ روشی‌ را‌ برای انتخاب یکی از راهـکارها بـرگزید تـا از جهتی متضمن بیشترین نوید برای تحقق‌ هدف باشد.انتخاب برمبنای آزمون معنی‌دار بودن آماری مؤثر نخواهد بود.چنانچه‌ تعداد بسیاری از الگـوهای ‌ ‌بـالقوه مد نظر‌ قرار‌ گیرند،تفسیر‌ مبتنی بر احتمال شبهه‌آمیز خواهد بود‌ و چنانچه‌ میزان خطائی کـلی مـبتنی بـر تجربه اتخاذ شود این احتمال وجود دارد که هیچ الگوئی پذیرفت نشود.البته پاسخ کافی در این مـورد‌ وجود‌ ندارد.راهکار کاملا‌ پذیرفته شده استفاده از تابع نمره(امتیاز)یعنی معیاری از‌ توجه‌برانگیز‌ بودن، غیرمنتظره بودن یا غـیرمعمول بودن الگوها است و نـیز نـادیده گرفته الگوهائی است که‌بالاترین نمره را احراز می‌کنند.البته برخی‌ از‌ اوقات‌ تابع نمره(امتیاز)یک معیار شناخته‌ شدهء آماری است ولی فاقد تفسیر احتمالاتی‌ است.

 

کیفیت داده‌ها

داده‌های بی‌کیفیت همواره نتایج بی‌کیفیت بدست میدهد.اما مشکل،زمانی حادتر می‌شود که مجموعه داده‌ها وسیع باشد.همانطور کـه در بخش‌ 5 خاطر‌ نشان شده است چنانچه مجموعهء داده‌ها گسترده باشد حاکی از این معنی‌ است‌ که فرد لزوما از آن‌ دور می‌افتد به طوریکه چیزهای زیادی وجود دارد که در داخل مجموعه‌ تداوم‌ می‌یابند و‌ ممکن است به طـرق مـختلف مجموعه به خطا رود و فرد از‌ این‌ موارد‌ بی‌اطلاع باشد.

به علاوه مجموعه داده‌های بزرگ با احتمال بیشتری نسبت به مجموعه داده‌های‌ کوچک دچار‌ خطا‌ می‌شوند.در‌ حقیقت چنانچه مجموعه داده‌های ظاهرا شفاف در اختیار فرد قـرار گـیرد،این سؤال به درستی مطرح‌ می‌شود‌ که آیا این مجموعه را به طریقی‌ شفاف کرده‌اند؟آیا مشاهدات ناقص حذف شده‌اند یا‌ ارزشهای‌ گم‌ شده جانهی‌ شده‌اند؟آیا عوامل بیرونی حذف شده‌اند؟این موارد و سایر روشهای شـفاف‌سازی‌ داده‌ها مـی‌تواند در نتایج‌ تأثیر‌ بگذارد و این امر نیز اهمیت دارد که بدانیم آیا داده‌ها واقعا معرف آن‌ چیزی‌ هستند‌ که باید باشند.

حتی مجموعه داده‌هائی که فرد امیدوار است دقیق باشد ممکن است پر از‌ خطا باشد.در‌ تـحلیل مـجموعه‌ای از دادهـ‌هی مربوط به شرح بازپرداخت وامـهای بـانکی، متوجه شـدیم که‌ ارقام‌ کوچک‌ پرداخت شنده(مثال 1 P یا 2 P )به این معنی بود که‌ مشتریان به عنوان‌"بدهکار بدحساب‌"طبقه‌بندی‌ شده‌ بودند،که‌ ارزشهائی منفی از نظر مبلغ بدهی تـلقی مـی‌شد،و هـمچنین وامهای دوازده ماهه که‌ پس‌ از 42 ماه هنوز باز پرداخت نـشده بـودند(که از نظر فنی برطبق مقررات بانکی غیرمممکن است)و ترازهای‌ معوقه‌ به‌ صفر رسیده بودند و سپس مجددا مثبت شده بودند و نیز تـرازهائی‌ کـه‌ هـمیشه‌ صفر بودند و تعداد ماههای پس‌افتاده هم‌ برحسب‌ بیش‌ از یک رقم مـنفرد در یک ماه‌ درحال افزایش بود.و اینها فقط مواردی بودند که ما به آنها پی بردیم.تجاربی که‌ در‌ مورد بانک‌ها داریم نشان مـی‌دهد کـه‌ ایـن‌ موارد اصلا‌ غیرمعمول‌ نیست‌ بلکه روندی قابل‌ انتظار است.کیفیت داده‌ها مسئله‌ای‌ اسـاسی‌ در داده کـاوی است نه فقط به این خاطر که‌ داده‌های تحریف شده‌ بمعنی‌ نتایج تحریف شده تلقی می‌شود بـلکه‌ بـه ایـن علت هم‌ که‌ بسیاری‌ از الگوهای‌"توجه برانگیز"یا"غیرمعمول‌"کشف شده ممکن‌ است‌ مستقیما منتج از داده‌های معیوب باشند.

من بـا نـمونه‌های عـینی روبرو شده‌ام که همبستگی‌های زیاد‌ حاصل‌ از داده‌های‌ گمشده بوده است و الگوها‌ بواسطهء‌ روشی که گـروه‌بندی‌ شـده‌ بـودند تحمیل شده است‌ البته‌ نمونه‌های‌ دیگری هم وجود دارد.بدون اینکه از بسیاری از الگوهای توجه‌برانگیز ذکری به مـیان آورم مـن‌ و افراد گروهم الگوهائی را کشف کرده‌ایم‌ که‌ ساخته روشهای‌ اندازه‌گیری‌ هستند.در‌ حقیقت‌ ما الگوهای بـسیار زیـادی‌ را یـافته‌ایم که قابل انتساب به‌ مسائل مرتبط با داده‌ها هستند.در این ارتباط نظر من این‌ اسـت‌ کـه ممکن است اکثریت‌ الگوهای غیرمنتظره را‌ به‌ توان‌ به‌ همین‌ علت منتسب نمود‌ که‌ ایـن امـر بـرای آینده داده‌ کاوی به عنوان یک مقولهء ویژه حاوی پیامدهای آشکار خواهد بود.

تاکنون بحث‌ کیفیت‌ داده‌ها‌ حـول مـحور سوابق فردی دور زده است.شاید‌ مسائل‌ حاصل‌ از‌ اریب‌ انتخاب‌ به‌ این خاطر که غافلگیرکننده هـستند بـسیار حـاد باشند.چه‌ سوابق جامعی از روی بانک اطلاعاتی مفقود شده است،آیا این سوابق در سراسر جامعه به طور متفاوت مفقود شـده اسـت،آیا سـوابق‌ منتخب به این علت درج شده‌اند که‌ دستیابی به آنها آسان بوده است؟و سـایر پرسـشهائی که مطرح است.آمار مربوط به‌ حوادث در جاده‌ها نمونهء مطلوبی را از وجود خطرات بدست می‌دهد.معمولا حوادث‌ حادتری‌ که‌ منجر بـه تـلفات جانی می‌شود با دقت زیادی ثبت می‌شود اما حوادثی که‌ شدت آن کمتر اسـت مـانند مواردی که منجر به صدمات جزئی مـی‌شود یـا هـیچ صدمه‌ای‌ را ببار نمی‌آورد‌ چندان‌ دقیق ثبت نـمی‌شود.در حـقیقت نسبت بالائی اساسا ثبت نمی‌شود. این امر موجب انحراف در برداشتها می‌شود که منتج بـه نـتیجه‌گیریهای نادرست می‌شود. در بسیاری از‌ موارد‌ بدلیل مـشکل ارزیـابی داده‌ها(برای مـثال‌ چـنانچه‌ تـوزیع داده‌ها از طریق ماشینهای زیادی انجام گـیرد)و ایـن واقعیت که داده‌ها ممکن است پویا باشد فعالیتها ممکن است به طور مـغشوش انـجام شود.بنابراین ممکن است‌ لازم‌ شود کـه‌ تحلیل موردنظر برمبنای‌ زمان‌ واقـعی صـورت گیرد.

 

الگوریتمها داده کاوی

مجموعه داده‌های گسترده به این مـعنی اسـت که فرد نمی‌تواند داده‌های موردنظر را شناسائی کند.تحقیقات لازم باید از طریق برنامه‌های پیچیدهء کامپیوتری بـه عـنوان واسطه‌ صورت گیرد.از آنجائیکه این بـرنامه‌ها‌ نـیروی‌ لازم را فـراهم می‌آورند بدون آنـها اصـولا نمی‌توانیم پیش برویم.

البته این برنامه‌ها حـاوی ایـن معنی هم هستند که ما ممکن است دچار قصور در توجه‌ به موردی شویم که مـا را از‌ پیـشروی‌ باز دارد. نظر به این‌که این برنامه‌ها در مـورد مـجموعه‌های وسیعی از دادهـ‌ها اعـمال مـی‌شود باید از سرعت لازم برخوردار باشند.اعمال‌ روشـهای متوالی و انطباقی ضروری است و یک راهکار ساده ولی نسبتا‌ بهینه‌ باید‌ به روشی که از نظر تـئوری بـرتر است ولی مستلزم‌ صرف زمان بسیار طولانی اسـت تـرجیح داده شـود.برای ‌‌مـثال‌ مـا دریافته‌ایم که در بـسیاری‌ از مـسائل رگرسیونی خطی دارای مزیت‌های معنی‌داری نسبت به‌ رگرسیون‌ لجستیکی‌ است‌ هرچند که رگرسیون لجستیکی ممکن است مطلوب‌تر بـه نـظر رسد.

در مـقابل تأکیدی که بر استفاده‌ از مدلها در آمار وجـود دارد نـقش بـرنامه‌های کـلیدی‌ منجر بـه تـأکید بیشتر بر‌ الگوریتمها در کار داده‌ کاوی‌ شده است.ایده این است که فرد الگوریتم را به این منظور در مورد داده‌ها به کار می‌برد که از چگونگی عملکرد و خصوصیاتی که احراز مـی‌کند اطلاع حاصل کند بدون اینکه به مدل‌ یا الگوئی که ممکن‌ است بنا کد توجه نماید. 

قابل توجه عزیزان که دوره های کاربردی داده کاوی در آکادمی تحلیل آماری ایران برگزار می شود.

محسن مرادی

درباره ی admin

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *