مدیریت داده های گمشده (missing)

یکی از مسائل مهم هنگام انجام هر تحلیل آماری مدیریت داده های missing یا گمشده است. فرض کنید از پرسشنامه NEO-PI-R استفاده کردید و می خواهید نمره یک مقیاس مثلا مقیاس روان رنجورخویی (Neuroticism) را به دست آورید. اگر بخواهید در SPSS برای این کار syntax بنویسید سه کد مختلف را می توانید استفاده کنید:

compute Neuroticism=NEO1+NEO6+NEO11+NEO16+NEO21+NEO26+NEO31+NEO36+NEO41+NEO46+NEO51+NEO56.
execute.

compute Neuroticism=SUM(NEO1,NEO6,NEO11,NEO16,NEO21,NEO26,NEO31,NEO36,NEO41,NEO46,NEO51,NEO56).
execute.

compute Neuroticism=MEAN(NEO1,NEO6,NEO11,NEO16,NEO21,NEO26,NEO31,NEO36,NEO41,NEO46,NEO51,NEO56)*12.
execute.

اگر شما داده گمشده ای نداشته باشید فرقی نمی کند از کدامیک از این کدها استفاده کنید هر سه به یک نتیجه می رسند، اما اگر داده گمشده داشته باشید. این سه کد به شکل زیر عمل می کنند:

کد اول نتیجه درستی به شما می دهد اما حاصل نمره Neuroticism برای تمام داده هایی که فقط یکی از آیتم های مربوطه برای آن ها missing باشد، missing خواهد شد. بنابراین این کد اگرچه منجر به نتیجه غلط نمی شود اما تعداد افراد مفید نمونه شما را کاهش می دهد.

کد دوم کاهشی در افراد نمونه نمی دهد اما نتیجه غلطی به شما می دهد چرا که اگر فردی چند سوال را جواب نداده باشد، حاصل نمره Neuroticism برای آن ها صفر خواهد بود در حالی که این درست نیست چراکه اگر فردی سوالی را پاسخ نداده نمره او حتی از خیلی مخالفم که نمره آن در لیکرت 5 تایی 1 است هم کم تر می شود، در حالی که عدم جواب دادن مساوی با حتی مخالف بودن نیست.

کد سوم صحیح ترین کد است که هم نتیجه درستی به شما می دهد و هم تعداد نمونه کاهش پیدا نمی کند. کد سوم از یک روش استاندارد برای مدیریت داده های گمشده استفاده می کند و آن این است که مقدار آیتم های گمشده با میانگین سایر آیتم ها جایگزین می شود. عدد 12 در آخر فرمول نشانگر تعداد آیتم هایی است که قصد جمع زدن آن ها را داریم. پس به طور کلی فرمول مناسب برای جمع آیتم های یک پرسشنامه که داده های گمشده در آن خوب مدیریت شوند فرمول زیر است:

compute A=MEAN(A1,A2,A3,A4,...,An)*n.
execute.

یک فکر در “مدیریت داده های گمشده (missing)”

  1. سلام
    در خصوص داده های گمشده وقتی داده ها از نوع پیوسته باشند درست است و نتیجه جایگزین داده گمشده نیز پیوسته خواهد بود اما وقتی داده های گمشده ما گسسته باشند چه کار کنیم؟چون از این روش نتیجه جایگزین داده ها، پیوسته خواهد بود و این برای ما نامطلوب است.مثلا من در تحقیقم سوالات با پاسخ بلی و خیر دارم که با اعداد 1 و 2 نمایش می دهم یا جنسیت زن و مرد دارم که با اعداد 1 و 2 نمایش می دهم وقتی در این داده ها گمشده دارم، و از این روش در spss استفاده می کنم(transform/replace missing data) داده های جایگزین شده برای گمشده ها پیوسته هستند مثلا برای جنسیت 1.5 در می ایند و برای پاسخ سوالات بلی یا خیر عدد 1.4 در می ایند.سوال من اینست برای این حالت چه کنم؟چون1.5 به درد من نمی خورد نه زن حساب می شود و نه مرد و یا 1.4 نه بلی حساب می شود و نه خیر. ممنون می شوم راهنمایی کنید.

    1. سلام
      ممنون از اینکه سوالتان را در اینجا مطرح کردید.
      دقت کنید که از روشی که در نوشته بالا مطرح شد تنها هنگامی استفاده می شود که قصد به دست آوردن مجموع چند آیتم برای یک مقیاس را دارید. حال حتی اگر آیتم های شما به صورت بلی/خیر باشند هم مشکلی وجود ندارد مانند آزمون MMPI-II. البته روش بالا مقادیر داده ها را تغییر نمی دهد بلکه هنگام جمع آن ها را با میانگین جایگزین می کند، اما حتی اگر از transform/replace missing data در spss استفاده کنید و داده شما با 1.4 جایگزین شود، مهم نیست که این داده معنی نداشته باشد، بلکه مهم این است که هنگامی که مجموعه داده ها مورد تحلیل قرار می گیرند این داده در مجموع آن ها مناسب به حساب می آید. البته به دو شرط: 1) اینکه تعداد داده های گمشده یک مقیاس زیاد نباشد و 2) اینکه هدف شما تحلیل مجموع آیتم ها باشد. به عنوان مثال اگر یک مقیاس 10 سوال بلی/خیر دارد و شخص به یکی از آن ها جواب نداده است، می توانید آن را با میانگین جایگزین کنید اما اگر به 5 سوال جواب نداده است، نمی توانید این کار را بکنید. مثال دوم اینکه در صورتی که می خواهید بر روی آیتم های بلی/خیر تحلیل عاملی انجام دهید نمی توانید داده های گمشده را با این روش حذف کنید و بهتر است داده ها در شکل اولیه خود باقی بمانند چون در تحلیل عاملی آیتم ها به صورت تک به تک معنا دارند و استفاده از transform/replace missing data شکل داده ها را همان طور که خودتان گفتید بر هم می زند. با توضیحات فوق به نظر من بهتر است از transform/replace missing data استفاده نکنید و به جای آن از سینتکس مربوطه برای جمع آیتم ها استفاده کنید تا همیشه داده های شما به شکل اولیه باقی بمانند.
      در مورد جنسیت اساسا ایده حذف گمشده ها ایده درستی نیست چون اگر برای یک شرکت کننده داده جنسیت را ندارید به هیچ وجه نمی توانید آن شرکت کننده را در تحلیلی که در آن جنسیت نقش دارد وارد کنید، پس ناچارید این داده را به صورت گمشده باقی بگذارید. اما در صورتی که تعداد داده های گمشده شما کم باشد و جنسیت نقش اساسی در تحلیل شما نداشته باشد، مثلا به عنوان یک متغیر تعدیل کننده در یک مدل رگرسیون بخواهید آن را وارد کنید، شاید جایگزینی آن با میانگین خدشه ای به تحلیل وارد نکند. باز هم اهمیتی ندارد که یک یا چند داده معدود 1.5 برای جنسیت داشته باشید. توجه کنید که به طور خاص این موضوع در مورد روش رگرسیون که یک روش با پایه پیوسته است، اشکالی ایجاد نخواهد کرد. در مورد تحلیل های دیگر ممکن است این کار کار درستی نباشد. به هر حال حتی در رگرسیون هم اگر مثلا جنسیت یک متغیر مستقل اساسی شما است، به نظر من حذف داده های گمشده به روش جایگزینی با میانگین درست نمی نماید.

دیدگاهی بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *