گامهای متدولوژی داده کاوی
با توجه به این امر که داده کاوی فرآیند اکتشاف مدلهای گوناگون،خلاصهها و ارزشهای نشات گـرفته از مـجموعه خاصی از دادههاست ،برای پیادهسازی جنین فرآیندی باید از روش نظام یافته استفاده کرد.در این راسـتا مـتدولوژی«فرآیند اسـتاندارد میان صنعتی داده کاوی» (Crisp Data Mining) با تجزیه و تحلیل نمایندگیهای دایملر کرایسلر ایجاد شد .با توجه به روش داده کـاوی CRISP ،یـک پروژه چرخه عمری متشکل از 6 گام دارد.این گامها به صورت مستمر و تکراری در تمام فرآیند داده کـاوری بـه کـار گرفته میشوند.گامهای متدولوژی داده کاوی CRISP به شرح زیر میباشند.
- درک موقعیت کسب و کار: این گام خود شامل بـخشهای زیـر است:
- تعیین اهداف و نیازمندیهای پروژه در غالب مفاهیم واژگان مصطلح در کسبو کارهای مختلف
- ترجمه اهداف،محدودیتها و نـیازمندیهای ذکـر شـده در غالب فرمولها و تعاریف داده کاوی
- تعیین یک راهبرد اولیه برای دستیابی به اهداف فوق.
به منظور داشـتن درکـی مـوفق از مساله،معمولا تجربه و توانمندی در حیطه یک دانش خاص لازم است. بنابراین در این گام باید مـتخصص دادهـ کاوی از توان و تجربه متخصص کسب و کار بهرهمند گردد.البته در یک پروژه موفق داده کاوی این مشارکت در گام اولیه مـتوقف نـخواهد شد،بلکه در سراسر فرآیند داده کاوی ادامه خواهد داشت
- گام درک دادهها: این گام بـا مـراحل تولید و گردآوری دادهها در ارتباط است و خود شـامل چـهار بـخش به شرح ذیل میباشد:
- جمعآوری دادهها.معمولا این گـام بـه دو روش مداخلهای(تحت کنترل مدلساز) و مشاهدهای(بدون کنترل مدلساز)صورت میگیرد .
- به کارگیری تحلیل اکتشافی دادهها برای دسـتیابی بـه یک دید اولیه ج-ارزیابی کیفیت دادهـها و د-در صـورت امکان انـتخاب زیـر مـجموعهای که ممکن است شامل بعضی الگـوهای رفـتاری باشد.
- گام پیشپردازش دادهها.پس از گردآوری دادهها باید خطاهای احتمالی موجود در آنها را از بین بـرده و تـمیز نمود .این خطاهای احتمالی عبارتند از: مقادیر خـارج از رفتار یا حدی،ارزشهای گـم شـده،صفات تکراری،دادههایی که در فرم مناسب بـرای مـدلسازی نیستند
به طوری که پایل در کتابش تخمین زده است پیشپردازش دادهها به تنهایی در 60درصد از موارد مـورد نـیاز است. پیشپردازش دادهها شامل چهاربخش زیـر میباشد:
- آمادهسازی دادهـهای خام اولیه در قـالب مـجموعه دادهای نهایی که در دیـگر مـراحل داده کاوی مورد استفاده قرار میگیرد.
- انتخاب موارد و متغیرهایی برای تجزیه و تحلیل مورد نظر میباشند.
- در صـورت نـیاز تغییر شکل دادهها.
- حذف مقادیر حدی.
- گام مـدلسازی.انتخاب و پیـادهسازی تکنیک مـناسب داده کـاوی وظـیفه اصلی این مرحله اسـت.در عمل،چندین مدل به طور همزمان پیادهسازی شده و سپس بهترین آنها انتخاب میشود.شاید بتوان به طـور خـلاصه گفت که ماموریت اصلی کاوش دادهـها بـه عـهده ایـن گـام است.بخشهای مختلف ایـن گـام عبارتند از:
- انتخاب و استفاده از تکنیک مدلسازی مناسب.
- دستکاری و تنظیم مدل
- استفاده از الگوریتمها برای دستیابی به نتایج بهینه و در صـورت نـیاز بـرگشت به گام پیشپردازش.
- گام ارزیابی و استنتاج مدل.در ایـن گـام مـدل یـا مـدلهای کـه در گام مدلسازی مورد استفاده قرار گرفتهاند از نظر کیفیت و اثربخشی مورد آزمون قرار میگیرند.در تمام موارد،مدلهای داده کاوی باید به فرآیند تصمیمگیری کمک کنن.د این گام نیز به بخشهای زیـر تقسیم میشود.
- پاسخهای داده شده توسط مدلهای گام قبل از نظر کیفیت و اثربخشی مورد آزمون قرار گیرند.
- تخمین مجموعه خروجیهای مدل و ارزیابی آن با اهداف اولیه.
- مشخص نمودن جنبههایی از مساله که تاکنون مورد توجه قـرار نـگرفتهاند.
- تصمیمگیری بر اساس نتایج حاصل از مدلهای داده کاوی.
- گام به کارگیری.یک مدل تا زانی که در شرایط تجاری قرار نگیرد قدرت و ضعف خویش را نمایان نمیسازد..بنابراین باید مدل حاصله را در شرایط واقعی به کـاربرد.این گـام نیز شامل بخشهای زیر است.
- به کارگیری مدلهای مدل خلق شده
- . اخذ یک گزارش ساده.
- اخذ گزارشات پیچیدهتر.
دنبال کردن چنین متدولوژی است که به داده کاوی تـوان عـمیقتر نگاه کردن به مساله را میدهد.