مفاهیم کلیدی در تحلیل کلاستر
در مقالات گذشته ی سایت پیرامون پیرامون تحلیل کلاستر بحث کوچکی را آغاز کردیم و دیدیم که تحلیل کلاستر درصدد است تا مجموعه ای از گروه ها را شناسایی کند که از این طریق بتوان از یک طرف تفاوتهای درون گروهی را به حداقل رساند و از طرف دیگر تفاوتهای بین گروهی را به حداکثر میزان ممکن رساند.
سپس تعدادی از کاربردهای آن بیان شد و بعد در مقاله ای تحت عنوان خوشهبندی در داده کاوی به صورت مفصل مفهوم کلاسترینگ و الگوریتم های آن بحث شد. همچنین در سال 95 علی رغم برنامه ی متراکم کلاس های SPSS، LISREL، AMOS ، SMART PLS و…… آکادمی تحلیل آماری موفق شد که دو دوره بسیار موفق داده کاوی را برای سازمان ها برگزار نماید و به آن ها گواهی نامه بین المللی این دوره را اعطا کند. در این دوره ها نیز بخش عمده ای از آموزش داده کاوی با نرم افزار کلمنتاین به بحث کلاسترینگ اختصاص یافت. بنابراین تلاش است که با سلسله مقالاتی عزیزان را با این مفاهیم آشنا سازیم.
در این مقاله تلاش شده که با مفاهیم ابتدایی تحلیل کلاستر آشنا شویم تا در مقالات آتی آکادمی تحلیل آماری بتوانیم نحوه انجام آن در نرم افزار ها را نیز آموزش دهیم.
1-تشکیل کلاستر:یعنی اینکه چگونه کلاسترها تشکیل می شوند و چگونه محاسبات انجام می شود. در روش تحلیل کلاستر(خوشه بندی) سلسه مراتبی، هر پاسخگو در ابتدا به عنوان یک کلاستر قلمداد می شود. سپس دو پاسخگو با کمترین فاصله(یعنی با بیشترین تشابه) با همدیگر تشکیل یک کلاستر را می دهند. پاسخگویی که کم ترین فاصله را با یکی از دو پاسخگوی اول دارد، برای کلاستر بعدی مدنظر قرار می گیرد. اگر این پاسخگوی سوم به پاسخگوی چهارم نزدیکتر باشد، تا یکی از دو پاسخگوی اول در آن صورت پاسخگویان سوم و چهارم تشکیل دومین کلاستر با دوپاسخگو را می دهند. ولی اگر نه، پاسخگوی سوم به پاسخگویان اول و دوم نزدیک تر بود، تا پاسخگوی چهارم، در آن صورت پاسخگوی سوم به کلاستر اول اضافه می شود . این فرآیند همواره با اضافه کردن پاسخگویان به کلاسترهای موجود تکرار می شود تا کلاسترهای جدیدی ساخته شود یا اینکه کلاسترهایموجود برای رسیدن به تعداد نهایی مطلوب کلاسترها با همدیگر ترکیب و ادغام شوند.
2-فاصله:اولین مرحله در تحلیل کلاستر، تشکیل ماتریس فاصله است. برای سنجش فاصله چندین شاخص وجود دارد:
- فاصله اقلدیسی: رایج ترین شاخص فاصله، فاصله اقلدیسی است. در این روش یک جفت مشخص از پاسخگویان بر روی دو متغییر طراحی می شوند. فاصله اقلدیسی عبارت است از جذر مجموع مربعات X به علاوه مربع فاصله Y. در این روش، موقعی که برای تعیین فاصله از دو یا چند متغییر استفاده می شود، آن متغییری که اهمیت بیشتری دارد، مسلط خواهد شد. بنابراین لازم است که برای جلوگیری از بروز این مسئله تمامی متغییرها را استاندارد کنیم.بنابراین برای این که نزدیکترین کلاسترها را در گروه های کلی تر ادغام نمائیم ، و یا رابطه یک نقطه را با یک کلاستر بررسی کنیم، نیاز به یک معیار داریم. برای این کار، شاخص های متفاوتی از فواصل مشاهده و فواصل بین کلاستری وجود دارد که در زیر به آن اشاره می شود:
- نزدیک تریت همسایه: در این روش، فاصله بین دو کلاستر، بر اساس فاصله بین نزدیک ترین نقاط همسایگی آن دو کلاستر در نظر گرفته می شود.
- دورترین همسایه: در این روش، فاصله بین دو کلاستر، بر اساس فاصله بین دو مورد از دورترین نقاط همسایگی آن دو کلاستر لحاظ می شود.
- روش گروه های جفتی وزن داده شده با استفاده از میانگین:در این روش، فاصله بین دو کلاستر بر اساس میانگین فواصل بین تمامی جفت های احتمالی داخل کلاستر در نظر گرفته می شود. این روش، از آنجا که بر پایه اطلاعات بیش تری انجام می گیرد، لذا معمولا بر روش های نزدیک ترین و دورترین همسایه ترجیح داده می شود.
- متوسط پیوند داخل گروه ها: در این روش، میانگین فاصله بین تمامی جفت های احتمالی داخل کلاستر به عنوان فاصله بین دو کلاستر لحاظ می شود.
- روش وارد:این روش، نسبت مجموع مربعات فواصل هر پاسخگواز یک کلاستر درنظر می گیرد. بنابراین در این روش کلاستری که ادغام می شود، در واقع کلاستری است که مجموع حداقل مربعات را افزایش می دهد.
- روش محوریت یا مرکز ثقل: کلاستری که در این روش با کلاسترههای دیگر ادغام می شود، در واقع کلاستری است که کوچک ترین مجموع فواصل بین میانگین های کلاستر را در مورد تمامی متغییرها دارد.
- روش میانه: در این روش در هنگام محاسبه میزان محوریت با مرکزیت دو کلاستری که قرار است در همدیگر ادغام شوند، به کلاسترها بدون توجه به اندازه گروه وزن داده می شود.
3-تشابه:این نوع فاصله تعیین می کند که دو مشتهده تا چه فاصله از یکدیگر دورند> بنابراین، پاسخگویانی که شبیه هم هستند، در یک فاصله کم تر از مدیگر قرار می گیرند. در واقع، این روش تعیین می کند که دو پاسخگو چگونه با یکدیگر شباهت دارند. بنابراین، پاسخگویانی که شبیه هم هستند، از تشابه بالایی برخوردار می باشند. در این روش نیز، برای تعیین فاصله بین پاسخگویان چندین شیوه وجود دارد که در زیر به آنها اشاره می شود:
- همبستگی گویه ها: در این روش، که در واقع از طریق محاسبه همبستگی بین پاسخگویان، فاصله بین دو پاسخگو مشخص می شود، محقق جدول داده ها را طوری برعکس می کند که ستون ها را متغیرها و ردیف ها را پاسخگویان تشکیل می دهند. در نتیجه با جا به جا کردن ستون ها به عنوان پاسخگویان و ردیف ها به عنوان متغیرها، همبستگی بین پاسخگویان محاسبه شده و این همبستگی ها در واقع خانه های ماتریس تشابه را می سازند.
- جور کردن دوگانه: در این روش، که نوع دیگری از شاخص تشابه می باشد عدد(1) نشان گر وجود یک جفت از پاسخگویان و عدد(0) نیز نشان گر نبود یک جفت از پاسخگویان است. اینها در واقع ویژگی های جور شده چندگانه هستند و نمره تشابه نیز از تقسیم تعداد جورها بر تعداد ویژگی های جور شده شده به دست می آید. توجه داشته باشید که در روش جور کردن دوگانه، باید چندین ویژگی داشته باشید. چون این ریسک وجود دارد موقعی که تعداد ویژگی ها کم است این ویژگی های نسبت به هم متعامد یا بی ارتباط باشند و در نتیجه کلاستربندی ای که انجام می شود یک نوع کلاستربندی نامشخص و مبهم خواهد بود.(الدندلفر و همکاران، 1984)
آیدا میر الماسی
مقالات این سایت توسط خود سایت تولیدشده و بنابراین از استفاده از آن بدون ذکر سایت منبع خودداری شود