نمونه های پرت outliers
منظور از نمونه های پرت نمونه ها ای است که فاصله ی زیادی با سایر نمونه ها دارند. این نمونه ها با دور کردن میانگین داده ها از میانه ، روی شکل توزیع داده ها و نتایج بدست آمده تاثیر می گذارند. لذا شناسایی نمونه های پرت و اتخاذ راهکار مناسب برای مدیریت آنها امری ضروری است.
داده های پرت به دو دسته نمونه های پرت تک متغیره(univariate) و نمونه های پرت چند متغیره(multivariate) تقسیم می شوند.
نمونه های پرت تک متغیره
منظور از نمونه های پرت تک متغیره نمونه ای است که از منظر تنها یک متغیر فاصله ی زیادی با سایر نمونه ها دارد. مثلا در پژوهشی یکی از متغیر ها حقوق کارمندان یک اداره است و مشاهده می شود حقوق کلیه ی کارکنان بین 1 تا 2 ملیون تومان است اما حقوق رئیس آن مجموعه 15 ملیون تومان می باشد. در این میان اگر چه حقوق این فرد واقعی بوده است اما در میان حقوق سایر مجموعه یک نمونه پرت محسوب می شود.
نمونه های پرت چند متغیره
منظور از نمونه پرت چند متغیره نمونه ای است که با در نظر گرفتن چند متغیر به صورت همزمان، فاصله ای زیاد با سایر نمونه ها پدید آمده است. به عنوان مثال در تحقیق رابطه ی مثبت مطالعه دروس و بالا رفتن معدل درسی مورد مطالعه قرار می گیرد و مشاهده می شود که نمونه ای علی رغم بالا رفتن میزان مطالعه با کاهش معدل مواجه است.
در این مطالعه رفتار این نمونه نسبت به سایر نمونه ها پرت است و چنین نمنه ای می تواند شیب رابطه ی بین دو متغیر ( یا چند متغیر ) را تغییر دهد و باعث نتیجه گیری اشتباه در مورد جمعیت مورد مطالعه گردد.
حال که نمونه های پرت در هر دو بخش تک متغیره و چند متغیره شناسایی گردید باید آنها را مدیریت کرد. نحوه مدیریت چنین نمونه هایی در مقالات بعدی مورد بررسی قرار خواهد گرفت.