بایگانی برچسب‌ها : گمشده

مدیریت داده های گمشده (missing)

یکی از مسائل مهم هنگام انجام هر تحلیل آماری مدیریت داده های missing یا گمشده است. فرض کنید از پرسشنامه NEO-PI-R استفاده کردید و می خواهید نمره یک مقیاس مثلا مقیاس روان رنجورخویی (Neuroticism) را به دست آورید. اگر بخواهید در SPSS برای این کار syntax بنویسید سه کد مختلف را می توانید استفاده کنید:

compute Neuroticism=NEO1+NEO6+NEO11+NEO16+NEO21+NEO26+NEO31+NEO36+NEO41+NEO46+NEO51+NEO56.
execute.

compute Neuroticism=SUM(NEO1,NEO6,NEO11,NEO16,NEO21,NEO26,NEO31,NEO36,NEO41,NEO46,NEO51,NEO56).
execute.

compute Neuroticism=MEAN(NEO1,NEO6,NEO11,NEO16,NEO21,NEO26,NEO31,NEO36,NEO41,NEO46,NEO51,NEO56)*12.
execute.

اگر شما داده گمشده ای نداشته باشید فرقی نمی کند از کدامیک از این کدها استفاده کنید هر سه به یک نتیجه می رسند، اما اگر داده گمشده داشته باشید. این سه کد به شکل زیر عمل می کنند:

کد اول نتیجه درستی به شما می دهد اما حاصل نمره Neuroticism برای تمام داده هایی که فقط یکی از آیتم های مربوطه برای آن ها missing باشد، missing خواهد شد. بنابراین این کد اگرچه منجر به نتیجه غلط نمی شود اما تعداد افراد مفید نمونه شما را کاهش می دهد.

کد دوم کاهشی در افراد نمونه نمی دهد اما نتیجه غلطی به شما می دهد چرا که اگر فردی چند سوال را جواب نداده باشد، حاصل نمره Neuroticism برای آن ها صفر خواهد بود در حالی که این درست نیست چراکه اگر فردی سوالی را پاسخ نداده نمره او حتی از خیلی مخالفم که نمره آن در لیکرت 5 تایی 1 است هم کم تر می شود، در حالی که عدم جواب دادن مساوی با حتی مخالف بودن نیست.

کد سوم صحیح ترین کد است که هم نتیجه درستی به شما می دهد و هم تعداد نمونه کاهش پیدا نمی کند. کد سوم از یک روش استاندارد برای مدیریت داده های گمشده استفاده می کند و آن این است که مقدار آیتم های گمشده با میانگین سایر آیتم ها جایگزین می شود. عدد 12 در آخر فرمول نشانگر تعداد آیتم هایی است که قصد جمع زدن آن ها را داریم. پس به طور کلی فرمول مناسب برای جمع آیتم های یک پرسشنامه که داده های گمشده در آن خوب مدیریت شوند فرمول زیر است:

compute A=MEAN(A1,A2,A3,A4,...,An)*n.
execute.