查看原文
其他

SPSS分析大数据真的慢得像乌龟爬? 亚洲一哥一招让你的SPSS飞起来

2017-04-17 研究客

对于一个科研人员来说,大数据代表着杠杠的说服力,代表着文章更高的录用率。可是,SPSS运行大样本就像蜗牛爬。当跑几千个样本时,喝个咖啡回来继续盯着屏幕,数据像乌龟一样还在爬!SPSS不适合做大数据分析?!NO!NO!NO!听听统计学“亚洲一哥”分享,如何一招解除SPSS大数据封印。全文长度1200字,图片4幅。


内容版权 | “亚洲一哥”张伟豪

整理及推荐人 | 佛罗里达大学小芸博士


1


SPSS到底可以跑多大的数据量?

SPSS可以跑多少变量?一哥告诉我们:SPSS可以同时分析4,294, 967,295个变量。它可以跑多少样本数呢?65,535个样本数。(OMG!这么给力,从来没人告诉过我它这么厉害!)是的,它跑Big Data 绝对给力。而且SPSS有专门做大数据分析的功能模块——直销。可是,“为什么我每次跑几千个样本它就那么慢呢?”因为SPSS有个封印。好比,SPSS有个大宝藏一样的虚拟空间库,平时被一纸封条封了起来。只有解除封印,它才能释放出足够大的空间。快来跟一哥学,只需三步,解除封印,让你的SPSS飞起来。


2


如何解除封印?

第一步:弄清工作区间的总容量。

先从文件里打开语法档。了解SPSS现在的RAM占用多少。通过写语法档Set Workspace,设定工作区间(如图1),工作区间设置越大,可以抓取的运行区间越大。如果一开始设定的工作区间很少,它每一个计量很小,就会跑很久,所以先要知道工作区间有多大。这好比作为调兵遣将的将军,先要知道有多少士兵可以供我们调用。

(图1)

第二,根据最大值重新设置语法档。

如何设置语法档呢?用一个不符合语法的数字,比如在正常数据后面加一个点,比如-99999,然后Set Workspace,执行。它就会告诉你语法写错了(如图2)。对,是故意写错的,因为不写错,你就无法得到它的最大运行有多大。通过这种方式,我们可以看到,此项语法上面至少是6144,而且不能大于2097151,所以把它重新设置为2097151, 记住这个数字,将Set Workplace设置为2097151再将它执行一遍(如图3),相当于给电脑临时释放巨大空间,你的Work Space 将会变成2097151那么大,100万笔数据带进来照样会以闪电般的速度执行。“兵贵神速”,这好比我们兵法上使用一大招,探明敌人总共有多少的实力,然后根据这个最大的可能的实力来对己方排兵布阵。知己知彼,百战不殆。

(图2)


(图3)


3


怎样回归原设置?


最大可用空间的语法档设置会占用掉很大的RAM,导致别的软件动不起来。因此,当我们跑完大数据要记得再次设置语法档改回到最初的设置(如图4)。“好借好还”,借来的临时空间一定要记得及时归位哦。


(图4)

怎么样,一哥的这招让你在SPSS上的大数据运行如虎添翼吧。跑大数据就需要大空间,只需一招,几百万样本依旧神速运行。先修改Workspace的语法档,向你的SPSS借用它最大的临时空间,就会以闪电一样的速行。记得临时借来的空间要还(改)回去哦!

好啦,只有了解它,才能驾驭它!一哥如此机智有内涵的大招学会了吗?快快上手试试吧!一哥的大招让你大数据运行飞起来!

“亚洲一哥”往期干货:(点击左下方阅读原文)

微课 | 揭开统计学神秘面纱——其实你每天都在使用统计学



更多定量研究实用干货、微课,敬请关注“研究客”,想要聆听“亚洲一哥”系统全面的训练与指导,2017遇见不可估“量”的你,敬请期待“亚洲一哥”系列定量研究课程。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存