تیتر خبرها

گام‌های متدولوژی داده کاوی

 

گام‌های متدولوژی داده کاوی

با توجه به این امر که داده کاوی فرآیند اکتشاف مدل‌های‌ گوناگون،خلاصه‌ها‌ و ارزش‌های نشات گـرفته از مـجموعه خاصی از داده‌هاست‌ ،برای پیاده‌سازی جنین فرآیندی باید از‌ روش‌ نظام یافته استفاده کرد.در این راسـتا مـتدولوژی«فرآیند اسـتاندارد میان صنعتی داده کاوی» (Crisp Data Mining) با‌ تجزیه‌ و تحلیل نمایندگی‌های دایملر کرایسلر ایجاد شد .با توجه به روش داده کـاوی‌ CRISP‌ ،یـک پروژه چرخه عمری متشکل از 6 گام‌ دارد.این‌ گام‌ها به صورت مستمر و تکراری در‌ تمام‌ فرآیند داده کـاوری بـه کـار گرفته می‌شوند.گام‌های متدولوژی داده کاوی CRISP به شرح‌ زیر‌ می‌باشند.

 

  1. درک موقعیت کسب‌ و کار: این گام‌ خود‌ شامل‌ بـخش‌های زیـر است:
  • تعیین اهداف و نیازمندی‌های‌ پروژه در غالب مفاهیم واژگان مصطلح در کسبو کارهای مختلف
  • ترجمه اهداف،محدودیت‌ها و نـیازمندی‌های‌ ذکـر شـده در غالب فرمول‌ها و تعاریف داده کاوی
  • تعیین‌ یک راهبرد اولیه برای دستیابی‌ به‌ اهداف فوق.

به منظور داشـتن درکـی مـوفق از مساله،معمولا تجربه و توانمندی در‌ حیطه‌ یک دانش خاص لازم است‌. بنابراین‌ در‌ این‌ گام باید مـتخصص‌ دادهـ‌ کاوی از توان و تجربه‌ متخصص کسب و کار بهره‌مند گردد.البته در یک پروژه موفق داده کاوی این مشارکت‌ در‌ گام اولیه مـتوقف نـخواهد شد،بلکه در‌ سراسر‌ فرآیند داده‌ کاوی‌ ادامه‌ خواهد داشت

  1. گام‌ درک داده‌ها: این گام بـا مـراحل تولید و گردآوری داده‌ها در ارتباط است و خود شـامل‌ چـهار‌ بـخش به شرح ذیل می‌باشد:
  • جمع‌آوری‌ داده‌ها.معمولا‌ این‌ گـام‌ بـه‌ دو روش مداخله‌ای(تحت‌ کنترل‌ مدلساز) و مشاهده‌ای(بدون کنترل مدل‌ساز)صورت می‌گیرد .
  • به کارگیری تحلیل اکتشافی داده‌ها برای دسـتیابی بـه یک دید اولیه‌ ج-ارزیابی‌ کیفیت‌ دادهـ‌ها‌ و د-در صـورت امکان انـتخاب زیـر مـجموعه‌ای‌ که‌ ممکن‌ است‌ شامل‌ بعضی‌ الگـوهای رفـتاری باشد.
  1. گام پیش‌پردازش داده‌ها.پس از گردآوری داده‌ها باید خطاهای احتمالی موجود در آنها را از بین بـرده و تـمیز نمود .این خطاهای احتمالی عبارتند از: مقادیر خـارج‌ از رفتار یا حدی،ارزش‌های گـم شـده،صفات تکراری،داده‌هایی که در فرم مناسب بـرای مـدل‌سازی نیستند

به طوری که پایل در کتابش تخمین زده است پیش‌پردازش داده‌ها به تنهایی در  60درصد از‌ موارد‌ مـورد نـیاز است‌. پیش‌پردازش داده‌ها شامل چهاربخش زیـر می‌باشد:

  • آماده‌سازی دادهـ‌های خام اولیه در قـالب مـجموعه داده‌ای نهایی که در دیـگر مـراحل داده کاوی مورد استفاده قرار می‌گیرد.
  • انتخاب موارد و متغیرهایی‌ برای تجزیه و تحلیل مورد نظر می‌باشند.
  • در صـورت نـیاز تغییر شکل داده‌ها.
  • حذف مقادیر حدی.
  1. گام مـدل‌سازی.انتخاب و پیـاده‌سازی تکنیک مـناسب داده کـاوی وظـیفه‌ اصلی‌ این مرحله اسـت.در عمل،چندین مدل‌ به‌ طور همزمان پیاده‌سازی شده و سپس بهترین آنها انتخاب می‌شود.شاید بتوان به طـور خـلاصه گفت که ماموریت اصلی کاوش دادهـ‌ها بـه عـهده ایـن گـام‌ است‌.بخش‌های‌ مختلف ایـن گـام عبارتند‌ از:
  • انتخاب و استفاده از تکنیک مدل‌سازی مناسب.
  • دست‌کاری و تنظیم مدل
  • استفاده از الگوریتم‌ها برای دستیابی به نتایج بهینه و در صـورت نـیاز بـرگشت به گام پیش‌پردازش.
  1. گام ارزیابی و استنتاج مدل.در‌ ایـن‌ گـام مـدل یـا مـدل‌های کـه در گام مدل‌سازی مورد استفاده قرار گرفته‌اند از نظر کیفیت و اثربخشی مورد آزمون قرار می‌گیرند.در تمام موارد،مدل‌های داده کاوی باید به فرآیند تصمیم‌گیری کمک‌ کنن.د این‌ گام نیز‌ به بخش‌های زیـر تقسیم می‌شود.
  • پاسخ‌های داده شده توسط مدل‌های گام قبل از نظر کیفیت و اثربخشی‌ مورد آزمون قرار گیرند.
  • تخمین مجموعه خروجی‌های مدل و ارزیابی آن با‌ اهداف‌ اولیه.‌
  • مشخص نمودن جنبه‌هایی از مساله که تاکنون مورد توجه قـرار نـگرفته‌اند.
  • تصمیم‌گیری بر اساس نتایج حاصل از ‌‌مدل‌های‌ داده کاوی.
  1. گام به کارگیری.یک مدل تا زانی که در شرایط تجاری قرار‌ نگیرد‌ قدرت‌ و ضعف خویش را نمایان نمی‌سازد..بنابراین باید مدل حاصله را در شرایط واقعی به کـاربرد.این‌ گـام نیز شامل بخش‌های زیر است.
  • به کارگیری مدل‌های مدل خلق شده
  • . اخذ یک‌ گزارش ساده.
  • اخذ گزارشات پیچیده‌تر.

دنبال‌ کردن چنین متدولوژی است که به داده کاوی تـوان عـمیق‌تر نگاه کردن به مساله را می‌دهد.

درباره ی admin

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *