查看原文
其他

遇到问卷“数据缺失”怎么办?亚洲一哥教你三招完美补救

2017-04-14 研究客


对于每一个做问卷调研的科研人员而言,最不愿遇到的情况就是“数据缺失”,那么如何在不违反学术伦理前提下,科学地完美地补救这些有缺失值的问卷呢,且听统计学亚洲一哥分享多年教学、数据分析、审稿经验所积累的补救大招!全文长度1700字,图片10幅。



内容版权 | “亚洲一哥”张伟豪

整理及推荐人 | 北京师范大学小杜博士



作为研究者,我们总是期望填问卷的人能够把题目都认真填完,但是总会有人漏填,这种情况在发放纸质问卷的时候最为常见,比如,年龄啊,性别啊、收入啊等类别变量以及更为常见的连续性变量。那么遇到这种情况应该怎么办?先给大家举一个最通俗的例子来解答这种情况怎么办。

这就好比,今天要去考场考试了,突然发现大脑一片空白,怎么办?要不要偷瞄同桌的答案呢?这个时候学渣就会在心中想,谁的答案准确率最高了,当然是看学霸的成绩会考的比较好。学渣经历了两个过程,首先发现自己头脑一片空白,然后就开始想偷瞄谁的答案。这和处理数据时的过程一样。发现缺失值,然后插补缺失值。接下来我们将分别为大家介绍如何查找和补救类别变量和连续变量的缺失。


1


类别变量如何查找和补救缺失值


在spss中将缺失值视为missing data,遇到missing data 不要自己填,放在那里就好。因为spss会自动识别。但是识别之后,只要是发现了就会被spss 删除,(what,要删除我的数据,这是绝对不可以的)所以一定要插补数据哦!!

一般来说,缺失值在5%是可以接受的,最高不超过10%,也就是假如有300个人,那么缺失值不能够超过30个,特使需要说明的是如果这30个没有填的选项都集中在一个变量上,就代表这个变量有争议了。就要考虑从问卷中删除了。如果都在合理的范围,就可以进行数据的插补。

注意:插补的都是连续变量,类别变量一半都是不插补的。类别变量一般都会猜猜看,对方会填什么

比如,如果性别没有填,通常默认为是“女性”(所以如果不想变性,就好好填)

如果收入没有填,一般默认为“最高”或者“最低”(赚太多有人抢,赚太低没有面子),这个时候可以根据教育程度判断是高的那群还是低的那群。这个称作热桌差补法(Hot Desk Imputation)。

再比如,如果年龄没有填,一般都是女性,大部分都是30-40间,如果女性年龄不填,就把30-40填进去。因为年轻的不怕暴漏年龄,年纪大的一眼就看出来,30-40 最想隐瞒。



你已被我看穿,so 还是乖乖填吧



2


连续变量如何查找和补救缺失值


那么连续变量怎么处理呢?处理缺失值,分两步走,检测缺失值和填补缺失值

第一步:检测缺失值

问题1:如何知道每个变量有多少个缺失值(Missing data),用手算吗?

解决方案:举例说明现在要检查变量是CS1-CS7中的缺失值个数(总样本数295)

软件操作:分析-> 描述性统计表-.>频率,将CS1-CS7 选中到变量窗口,点击“确定”,然后直接可以看见有多少个Missing Data。我们希望的是看见5%以内。


问题2:如果想要知道这个样本有多少个Missing Data 怎么办?

解决方案:必须采用NMiss函数,也就是number of missing,

软件操作:转换->计算变量。

在目标变量中,输入变量名nmissing(可以随意取名字),函数组选择全部,函数和特殊变量选择Nmiss,会自动显示在数学表达式中,将所有变量选中(使用的这份数据变量是从CS1-EI6),再将数字表达式改为NMISS(CS1 to EI6)(这个才是最重要的公式),也就是算第一个到最后一个连续变量的缺失值。点击 “确定”出结果。

1代表一个缺失值,2代表两个缺失值,0代表没有缺失值。

第二步:插补缺失值

知道了有多少个缺失值以后怎么插值呢? 先了解一下缺失值的填补方式:

先解释以下这几个方式的利弊:

1.连续平均值:用变量取值的平均值(用的最为普遍),但如果缺失值超过10%以上,就不要用这个方法了。

2.临近点的平均值:也就是前后值的均值取代,但如果Missing data 在第一个,就不会有结果(用得少)。

3.临近点的中间值:也就是前后值的中位数,但如果Missing data 在第一个,就不会有结果(用得少)。

4.线性插值法:如果缺失值超过10%,可以选择这种(常用),但如果变量的第一个值就缺失,是出不来的。


初步方案:线性插值法

软件操作:选择分析->替换缺失值

从频率表可以看出谁有缺失值,刚才有缺失值的是CS1-CS7,将有缺失值的CS1-CS7选好,放到右边的变量窗口点击“确定”


选择确定后,等5S时间,回到数据窗格的数据最尾端,就会发现新添加进来的数据啦!

但我们发现此时出现了一个怪现象,结果不对,oh, mygod!


没有关系,难不倒我

补救方案:连续平均值插法

软件操作:选择分析->替换缺失值

只要是有小数点的就是插值过后的数据! 成功!

低调奢华有内涵的分析方法。你学会了吗?快自己动手试试吧,是不是so easy!就是这么简单又实用。

“亚洲一哥”往期干货:(点击左下方阅读原文)

微课 | 揭开统计学神秘面纱——其实你每天都在使用统计学



更多定量研究实用干货、微课,敬请关注“研究客”,想要聆听“亚洲一哥”系统全面的训练与指导,2017遇见不可估“量”的你,敬请期待“亚洲一哥”系列定量研究课程。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存