查看原文
其他

李毅 张涧清 杨焱灵 | 加强中国教育量化研究的可重复性

李毅 等 华东师范大学学报教育科学版 2024-01-09













本期

本期精彩

新刊速递 | 华东师范大学学报(教育科学版)2023年第11期目录

特稿

黄瑾 田方 乔慧 张萌 俞畅 | 教师主体在幼小双向衔接中的实践特征、现实困境与协同路向——基于11省市幼-小教师的实证调查

新刊速递 | 华东师范大学学报(教育科学版)2023年第11期目录

专题元宇宙教育

顾小清 宛平 王龚 | 教育元宇宙:让每一个学习者成为主角

翟雪松 楚肖燕 顾建民 李艳 王会军 | 从知识共享到知识共创:教育元宇宙的去中心化知识观

王琳 陈泓舟 蔡玮 | 元宇宙中的教育:现状与革新的未来

基本理论与基本问题

张广斌 薛克勋 | 数字教育学的底层逻辑与构建路径——兼论中国式数字教育学建设















加强中国教育量化研究的可重复性


李毅1,2,3,张涧清4,杨焱灵5


1. 西南大学教育学部

2. 西南大学基础教育研究中心

3. 中国基础教育质量监测协同创新西南大学分中心

4. 西南大学附属小学

5. 重庆市渝中区中华路小学




本研究理论辨析了可重复原则、研究的可重复性与重复性研究的关系, 探讨了重复性研究的精确重复、直接重复、概念重复等三种类型 及其验证和延展两重功能 , 并阐述了教育量化研究可重复性的意义和价值。在此基础上, 以我国37本教育学类CSSCI期刊在2015—2020年间发表的重复性量化研究为对象,分析了我国教育量化研究可重复性的现状和问题。研究发现:可重复性是创新性研究的基本立场未得到充分认识;量化研究基础薄弱致使可重复性的确证存在困难;对复现失败的误解带来了对“可重复危机”的恐慌;传统思维惯性阻碍原始研究团队的持续跟进。最后,本文建议加强对重复性研究价值的认识, 建立重复性研究激励机制;加强研究者量化研究方法训练,搭建开放科学平台促使“黑箱”变“白箱”;克服重复性研究“唯成功率”思想,打造稳定团体形成研究集群。

关键词:可重复性 ; 量化研究 ; 重复性研究 ; 科学化 ; 南大核心

本文发表在《华东师范大学学报(教育科学版)》2023年第11期 #基本理论与基本问题 栏目





作者简介





李毅,西南大学教育学部教授、博士生导师,重庆市第四类人才,美国普渡大学教育学博士。


/ 目录概览 /

第十期 2023


一、引言

二、可重复性与重复性研究

三、中国教育量化研究可重复性的现状与分析

四、加强教育量化研究可重复性的思路与对策



一、引言


自2015年首届“全国教育实证研究论坛”召开后,越来越多的教育学者采用量化研究方法分析教育问题,量化研究已经成为开展教育研究的重要方法。然而量化研究方法的科学性(吕晶, 2020),数据和结果的真实性(阎光才, 2013),结论的可推广性屡遭质疑(周明, 2016),应用价值比较有限(何克抗, 2016),可以说,我国教育量化研究正面临着一场“可重复性危机”。相似的状况也出现在国外,例如《自然》杂志在对许多权威杂志进行可重复性问题调查时就发现,许多研究都存在着难以重复的问题(Enserink & Martin, 2011)。近年来,可重复性在欧美发达国家的教育量化研究中日益受到关注,有研究发现对教育量化研究可重复性理论和实践的探讨远远落后于社会学、心理学等其他学科,且分析了其原因并提供了相关对策(Travers et al., 2016)。相较而言,当前我国学界对于量化研究的可重复性还有所忽视,还未认识到可重复性对于教育量化研究科学化的价值和意义,片面地认为只有自然科学才有必要开展重复性研究,这一偏见阻碍了我国教育学研究者对可重复性内涵和价值的探索,不利于我国教育研究的实证化、科学化发展。那么,我们应该如何理解教育量化研究的可重复性?重复性研究是否真的“缺少创新”?“不可重复”是否就是学术造假?这些都是亟待厘清的问题。

基于此,本研究将在教育学领域探讨量化研究可重复性的相关问题。首先,从理论层面构建了教育量化研究可重复性与重复性研究的内涵与外延、功能与价值;其次,以我国教育学37本CSSCI期刊在2015—2020年间发表的重复性量化研究为对象,分析了我国教育量化研究可重复性的现状和问题;最后,针对性地提出了加强中国教育学量化研究的可重复性,提供了促进其科学化发展的对策建议。


二、可重复性与重复性研究


已有研究常将“可重复性”这一概念与“可重复原则”“重复性研究”等混用,但其内涵并不完全一致。本研究辨析了三者的异同和联系,解读了重复性研究的分类和功能,探讨了可重复性与重复性研究的价值和意义,以期对可重复性议题形成更全面系统的认识。

(一)可重复性、可重复原则与重复性研究的辨析

首先,可重复性是研究发现走向科学理论的核心要素(Francis, 2012)。对可重复性的经典认识来源于实验哲学,如德国哲学家哈贝马斯(1999,第124页)就认为,在完全相同的条件下重复一个实验必定会得到同样的效果,这并不是经验得出的结论,而是先验的必然。袁振国(2017)也认为,在共同概念和共同规则的约束下,使用相同的方法和工具,应得出与先前研究一致的结果。该观念的核心在于:当使用相同研究方法,应当得出相同的结论,否则就要反思研究设计和操作过程是否存在问题。其次,可重复原则是现代科学研究公认的规范性原则(任思腾, 2020)。在很长一段历史时期内,研究的可重复性仅作为研究者对自己研究的要求而存在,直至17世纪才成为实验哲学探讨的重要议题。比如美国教育研究科学原则委员会总结了六条教育研究的基本原则,其中有两项与可重复原则有关,即“应当对研究实施重复验证并推广”以及“公布研究结果,鼓励同行的检查和评判”(沙沃森, 汤, 2006, 第4页)。最后,重复性研究是原始研究可重复性的确证行动(Schmidt, 2009),比如在以实验研究为基础的医学领域,其重复性研究就是按照原始研究方案重新再做一次,这种思路在我国医学研究中是被广泛认可和接纳的。

已有研究对这三个概念的形成更多基于实验哲学,追求通过严谨客观地还原实验操作追求结论的可重复性。然而,教育量化研究却与基于实验研究的自然科学存在本质区别,直接将此种观点应用于教育学领域存在局限性。首先,研究程序的科学性只是研究结论科学的必要不充分条件,如果原始研究的研究设计本身就不严谨,那么基于此研究设计产出的结论就极有可能存在问题。在后续研究中遵循这样错误的研究设计,虽然可以得出与原始研究同样的结论,但仅能证实该研究的程序和操作是真实的,不能证明该结论的科学性。其次,对可重复性这一议题的探讨源自于自然科学中的实验研究。尽管教育量化研究与自然科学中的实验研究同为基于数据分析的实证研究,均以实证主义哲学思想为基础,但教育量化研究与之最大的区别在于还原原始研究程序更加困难,这是由于教育研究往往以人为研究对象,而人总是处于变化发展之中,研究者很难完全还原原始研究的情境。

因此,对于教育量化研究而言,可重复性应该是指一个研究在研究方法发生一定改变的前提下,其结论仍可被重复证明的特性。而重复性研究就是一种以检验原始研究可重复性和以探索新知为目的的后续研究,是原始研究可重复性的确证行动。本研究所理解的可重复性和重复性研究可以形象化理解为“真金不怕火炼”。经典重复理论视野下的可重复性是用同一种火焰煅烧同一块金子,金子必须要表现出相同的特征,否则就需要反思究竟是火焰还是金子存在问题。但是仅用一种火焰不仅可能无法测试出金子的本质特征,还可能会使表象遮盖住本质,使人们错误地把“假金”当成“真金”,再多次的重复性煅烧也没有太大的意义。因此真正的可重复性应该是:一块金子要能够经历各种火焰的历练,无论煅烧者是谁,无论煅烧工艺如何,其本质始终如一。并且通过不同火焰的煅烧,能不断发现金子在不同状况下的不同特性,这个反复煅烧的过程就是多次开展的重复性研究。

(二)重复性研究的分类:精确重复、直接重复、概念重复

已有研究对重复性研究的分类主要以实验条件和程序改变的程度作为标准。一类是保持实验条件和程序完全不变以验证原始研究结论;另一类则通过一定程度地改变实验条件或程序更进一步验证原始研究结论的真实性(Makel et al., 2021)。然而,这样的分类标准很难直接迁移到教育研究领域。教育量化研究除了实验研究外还有大量的调查研究,但由于调查对象的易变性和时空场景的特殊性,想要保持研究程序的完全一致极其困难。因此,本研究不完全以研究程序的改变来分类,而是结合了量化研究中核心变量及非核心变量是否改变来作为区分重复研究类型的依据,将其分为精确重复、直接重复和概念重复三种类型。

精确重复是对原始研究的完全复制,保持研究变量和研究者、研究样本、实验条件、测试工具及分析方法等的完全一致,是对应着经典重复理论视野下的重复性研究。原研究者对实验进行反复核验,以确保研究结论并非偶然或巧合。比如伽利略就声明,为了避免偶然性他自己曾数百次开展斜面小球实验(Dear, 2001, p. 24)。精确重复在自然科学领域中要比在人文社会科学领域中开展得更多,这是因为自然科学的研究对象相比人文社会科学更加固定且客观,更易实现精确重复。而在人文社会科学研究中,受到练习效应等因素的影响,研究者难以完全还原原始研究情境。同时,由于精确重复往往是由相同研究者进行,研究程序也无任何改变,因此研究程序中的错误很难被研究者觉察,使得验证后的研究结果在科学性上仍存在一定局限。

直接重复是指保持研究的核心问题和研究变量不变,改变研究程序中的研究者、研究样本、实验条件、测试工具或分析方法等的重复性研究。当不同研究者用不同的研究方法再做一次实验,仍然得到了和原始研究同样的结论,这显然比在精确重复中得到的结论更具确信力。例如,Kier et al.(2014)以美国东南部农村和贫困地区的1000多名中学生为样本,开发了STEM-CIS兴趣量表,随后Koyunlu,Dokme& Unlu(2016)在土耳其重复了该项研究,验证了该量表的可靠性以及在土耳其的适用性。这个直接重复性研究帮助人们更加确定STEM-CIS兴趣量表测验结果的有效性并提升了其外部效度。

概念重复是指研究的核心问题和核心变量与原始研究保持不变,但非核心变量和研究程序均发生改变的重复性研究。其目的主要是验证在不同的非核心变量影响下,原始研究的结论是否成立。相比于精确重复和直接重复,概念重复更具有延展性。以计划行为理论(Theory of Planned Behavior, TPB)为例,TPB模型由理性行为理论发展而来,而早期理性行为理论认为人的行为是由行为意图所决定,人的行为和行为意图是研究的核心变量,而态度和主观规范能够决定行为意图,是研究中的非核心变量(Fishbein, Ajzen & Belief, 1977)。在此基础上,Ajzen(1991)等人进一步将认知行为控制这一非核心变量加入其中,认为人的行为意图同时受态度、主观规范和认知行为控制这三个因素的影响,从而提出了计划行为理论。这就是在核心变量未发生改变的前提下,通过改变非核心变量进行进一步验证和延展的典型案例。

(三)重复性研究的功能:验证与延展

重复性研究不是简单地对原始研究进行机械重复,而是希望通过再次审视研究程序和结论以验证原始研究的可重复性,进而发现原始研究中可能存在的问题,并进一步探索核心问题背后更深层次的理论与关系。它的作用不仅在于对原始研究可重复性的验证,更是对研究方法和结果的延展,是探索新知识的有效途径。但具体而言,直接重复和概念重复的功能各有偏重。

1. 直接重复的主要功能:验证

直接重复侧重于对原始研究方法和结论的验证,为研究方法的科学性和研究结论的时效性保驾护航。在研究方法层面上,直接重复性研究能够控制抽样误差、保障研究的内部效度和提升外部效度。首先,直接重复能够控制研究的抽样误差。抽样误差是指在随机抽样中,由于偶然因素导致样本结构难以代表对象总体,从而引起的抽样指标与全距指标之间的离差。如当p值设为0.05,则获得一次假阳性的概率为5%,获得两次假阳性的概率则降低为5%*5%=0.25%。所以如果想降低因抽样误差带来的原始结果的偶然性,最好的办法就是在全体中随机再抽取样本,重复之前的研究。其次,直接重复还能保障研究的内部效度。因变量的变化不仅仅源自于研究假设中自变量对因变量的影响,也可能受到其他无关因素的影响,比如刻板效应、量表不当使用等,导致了因变量与自变量间的关系难以客观解释。仅一次研究很难排除这些无关因素的干扰,当研究由不同的研究者、不同的研究对象、不同的研究方法、不同的研究场景开展时,这些无关因素的影响就会大大降低。如在关于儿童早期阅读的一项研究中,Durkin(1966, p. 1)等人通过对30个儿童的调查研究发现有早期阅读经历和没有早期阅读经历的儿童在阅读能力的表现上没有显著差异。Briggs(1977)等人对于该研究进行了重复,使用了更大的研究样本,控制了无关变量,并使用了更加权威的语言能力测试工具,发现早期阅读儿童的阅读能力得分在多个分项上均显著高于非早期阅读儿童,这反映出原始研究可能在内部效度上存在一定缺陷。最后,直接重复可以提升研究的外部效度,确定原始研究的结论能否推广到更大或不同的群体中,还可以验证早期研究的潜在假设,以此进一步审视原始研究的有效程度。如Rosenthal(1963)通过动物学习实验发现积极期望对动物的受训结果有正向影响,并大胆猜测这一现象在人类中也可能存在。随后通过教学实验证实了这一猜想,提出“罗森塔尔效应”(Rosenthal, 1968)。

在研究结论层面上,直接重复性研究能保障研究结论的时效性和严谨性。由于教育活动深受经济社会变化的影响,原始研究结论很容易随着时代变化而失真,只有开展重复性研究才能反映出之前的结论是否还可适用于当前时期。若研究结论不能与时俱进,将会导致许多研究还在引用不再适用当前状况的所谓“科学结论”。比如Sirin (2005)在对1990年至2000年之间发表的关于社会经济地位与学生学业成绩的相关论文进行元分析以后发现,社会经济地位对学生学业成绩的影响达到了中等较强的水平。而Harwell(2017)等人将2000至2010年之间的相关论文加入元分析以后发现,社会经济地位对学生学业成绩的影响程度有所降低,说明在近十年内的实际情况已经发生了一定程度上的改变,不宜将以往研究的结论再用于指导当前的研究。此外,研究者可能会由于种种原因修改研究数据以得到特定的研究结果,或者为了追求论文发表进行选择性报告,故意忽视研究中的重要因素。直接重复性研究通过改变研究者或研究程序等可以排除人为因素造成的错误,得出更加严谨和客观的结论。

2. 概念重复的主要功能:延展

概念重复侧重于对原有理论或模型的延展,深化对原有知识的理解。人类对世界的认知往往不是一蹴而就的,而是研究者站在巨人肩膀上不断接近真理的过程。这个过程伴随着令人欣喜的新发现,但也可能由于现实条件的限制误入歧途,产生错误认知。概念重复性研究的开展,就是在原有认知的基础上,不断接近真理的历程。其功能主要体现在扩充已有结论和推翻错误结论两方面。

第一,扩充已有结论。以TPB模型的发展为例,其核心变量一直都是行为与行为意图。在Ajzen(1991)进行的概念重复性研究中,行为意图决定行为这一结论不仅得到了验证,新的非核心变量“知觉行为控制”的加入还丰富和发展了这一理论模型,使TPB模型相较于原先的TRA模型能够更好地解释人的行为,并成了行为研究领域的经典理论,如图1所示。


图 1   TPB模型的发展过程


第二,推翻错误结论。人对事物的认知受到知识基础、认知方法等现实条件的限制,尤其是对于前沿理论和方法的探索,如果没有经验的指导,其结论相对而言可靠性较差。此时,开展重复性研究很有必要,但其初衷不是对已有研究中存在的不可重复问题进行追责,而是希望通过重复性研究察觉原始结论中的错误成分,避免后续研究者受到错误结论的引导。如Briggs(1977)等人的研究率先关注到家庭经济地位与学生阅读能力之间存在关系,并直接将学生阅读能力归结于家庭经济地位这一原因。在当时的认知条件和历史局限下,做出这样的结论是合理的,不能要求以往研究者通过一次研究就接近客观真理。因此,在后续的重复性研究中,许多学者发现家庭经济地位并不能直接作用于学生的阅读能力,而是通过一系列中介变量如父母教育期望等来实现(Bradley& Corwyn, 2002),如图2所示。这些概念重复性研究推翻了原始研究中的错误结论,引导着后来学者应用新的中介变量来更好地解释二者之间的关系,如阅读动机和阅读活动(王晓诚, 贾丽娜, 金元英,2020)。


图 2   家庭经济地位与学生阅读素养的关系研究


直接重复和概念重复是应用更广泛且更有价值的两类重复性研究。一些学者推崇直接重复(Riechie, Wiseman & French, 2012),另一些学者青睐概念重复(Levy, 1969;Ostrom, 1971)。孰轻孰重取决于开展重复性研究的目的。直接重复性研究中的复现失败能说明原始结论的错误或实验过程的缺陷;概念重复性研究中的复现失败并不能证明原始研究的缺陷,却能指出原始研究可进一步创新的方向。正因如此,有学者指出直接重复应该先于概念重复开展(Pashler & Harris, 2012)。

(四)教育量化研究可重复性的价值与意义

1. 可重复性是创新性研究的基石。英国哲学家波普尔(1963,第319—321页)提出,科学并不等同于真理,科学进步是不断创新而接近真理的过程。以往研究将重复性与原创性二者相对立,认为教育研究亟须加强原创性,以原创性成果激发教育科学的生命力(程亮, 2004)。然而无论在哪个学科,“盘古开天地”式的原创性研究的形成都存在极大困难,很多时候创新需要依托于灵感和想象力。而这些创新的灵感非无根之木、无源之流,过往研究反而是创新研究的重要基础和参考。但如果过往研究的可重复性未被确证就将其当成是科学知识并以此为创新的基础,那么创新性研究的开展也势必受到影响,甚至有可能成为“虚假繁荣”的空中楼阁,终将难逃自我垮塌的命运。

2. 促进教育学知识体系构建。中国教育学知识体系的构建,绝大多数时候都为哲学思辨式的研究所垄断,实证研究对于中国教育学知识体系建构的贡献存在不足。实证研究在知识积累方式上与思辨研究不同。对于教育量化研究而言,其研究结论的形成必须基于对实证实验数据的解释与分析。但由于数据收集的过程中存在误差或人类知识局限等客观因素的限制,单个研究能够解决的问题也相对微观,因此需要开展多次重复性研究才能获得多层面的数据结果和分析解释,从而将零散的、冰冷的数字转化为结构化的、有教育学科特色的知识体系。因此,实证研究遵从一种由微观到宏观、从个别到一般的推进式的知识积累模式。当前我国教育量化研究贡献不足的问题并非因为其本身无法实现知识积累,而是由于缺乏可重复性机制的约束,导致其自身在可重复性检验和体系化开展方面还存在一定缺陷。

3. 提高教育研究对教育政策制定的贡献度。教育政策的制定离不开科学的教育研究作为基础,其中哲学思辨研究指明了教育政策制定的理念与方向,但囿于其局限性而无法估计当前发展状况和判断政策效用的发挥程度。为了避免“拍脑袋”式的决策,以数据为支撑的实证研究就必然要作为政策制定的重要参考和政策修订的实证依据。在政策制定之前,可以开展预测性研究来指导政策的制定;在政策颁布以后,可以开展后验性的重复性研究,以帮助政策制定者评估政策是否达到了预期目标,从而对政策进行调整和完善。当现行政策施行一段时间以后,教育现实状况往往会发生变化,那么此时再次开展重复性研究,就可以对政策进行再次评估和完善,避免政策落后于社会现实。

4. 形塑教育量化研究行为规范与学术道德。教育量化研究发展还不完全成熟,仍存在一些学术规范问题(姚计海, 2017)。这些问题的出现,是由于中国教育量化研究还未形成一套标准统一、广为接受的行为规范。尤其在论文撰写这一环节,由于各期刊对量化研究方法和数据处理过程呈现的要求并不统一,使得部分量化研究论文过分省略这一环节,客观上产生了“灰色空间”,使其研究结论的数据推理过程无从知晓,更为其他学者复现其结论带来了客观困难。同时,由于可重复性检验机制的缺乏,当前量化研究的科学性往往只能以学者学术道德作为担保。若将可重复性作为量化研究发表的常态化准则,那么形成一套标准统一的行为规范就成了现实之需。而行为规范一旦形成,就能起到规范研究过程、促进我国教育量化研究范式规范化发展的作用。同时,学术道德的形成,既源自于学者自身的道德自觉,更来自可重复性检验机制形成后的外源性学术道德压力。可重复检验机制的形成也就在客观上抑制了学术造假等行为的产生。


三、中国教育量化研究可重复性的现状与分析


(一)研究对象

本研究根据南京大学中国社会科学研究评价中心2019年发布的《CSSCI来源目录(2019—2020年)》,选择教育学类37本期刊,以这些期刊在2015-2020年间发表的重复性量化研究论文为研究对象。选取所有教育学的CSSCI论文为对象搜索重复性研究的全域,一方面能全面客观地反映教育学各领域的情况,另外一方面能很好地代表目前我国教育学领域较为优秀的研究成果,有助于分析我国教育学领域重复性研究开展现状与存在问题。

(二)文献筛选与数据采集

量化研究的文献筛选工作主要分为三轮,如图3所示。第一轮,研究者在“中国知网”(CNKI)搜索出2015年1月—2020年12月(检索日期为2021年1月25日),37本期刊中所有见刊的论文,并将其中未明显表达作者观点的文章剔除,如编辑导言、广告、新闻、通知、稿件要求 、政策文本、院校宣传、悼文、书籍推荐等,最后剩余文章34728篇。第二轮筛选首先通过“中国知网”(CNKI)数据库高级搜索设置,检索条件中设置 “量化”“定量”“样本”“抽样”“问卷”“量表”“假设”“文献计量”“数据挖掘”“数据库”“实验数据”“内容分析”“观测数据”为篇名、摘要、关键词和全文的共同检索词,只要篇名、摘要、关键词和全文中任意一处出现这些检索词中的任意一个就会被检索出来,然后设置发表时间为2015年1月1日到2020年12月31日,初步筛选出量化研究论文4192篇。随后下载这些文章的PDF版,进行第三轮筛选,查看第二轮筛选出的论文,剔除掉没有应用定量方法的和只有简单频次或百分比的论文,剩余3019篇。


图 3   文献筛选流程


随后,研究者对筛选出的3019篇量化研究论文进行相关信息采集。我们以Excel 2019作为信息录入工具,提取这些论文的基本信息、研究团体、研究变量、研究对象、数据收集方法和数据分析方法。四位研究人员在3019篇量化研究论文中筛选重复性研究的文献。为了建立编码者间一致性信度,在正式编码前,四位编码者仔细阅读了与本次重复性研究筛选工作相关的参考文献,明确了筛选工作的目的,学习了具体的分类标准,如表1所示。在实际操作中,研究者首先将研究变量进行比对,当两篇文章存在相同核心变量时就将其判断为重复性研究。然后再对研究的非核心变量进行比对,若非核心变量发生改变,则归类至概念重复性研究中;若非核心变量未发生改变时,则继续根据其研究对象、研究样本、研究方法是否发生改变进一步确定其类型;若整个研究程序都没有发生任何改变,就将其归类至精确重复性研究,否则就归类至直接重复性研究。本研究采用所有两两编码者间的Kappa均值来测算编码者间一致性信度(Light, 1971),四位研究人员判断重复性研究的信度均值为0.907,说明编码者间一致性程度较高,结果可信。最后,研究人员将相关信息补充到数据库中,完成数据采集。



(三)结果与讨论

1. 可重复性是创新性研究的基本立场未得到充分认识

研究发现,2015—2020年间,37本教育学类CSSCI期刊发表重复性研究论文总量为125篇,仅占量化研究的4.14%(表2)。重复性研究发文量占比较低,该比例远低于其他科学化程度较高的社会科学,如经济学、心理学等(Travers et al., 2016)。值得指出的是,我国所发表的重复性研究的论文中没有一篇论文在标题或正文中出现“重复”二字,显而易见学界对于“重复”的避讳与偏见,与国外研究的标题或正文中出现“replication”形成了鲜明的对比。Makel(2014)等人在100本最有影响力的教育学期刊中检索出了461篇在标题或正文中含有“replication”的论文。同时,直接重复在重复性研究中的占比逐年降低,从2015年的58.82%下降至2020年的16.13%,(图4)。而国外对直接重复性研究的认可度较高,如在特殊教育领域中,直接重复性研究在重复性研究中的占比高达47.2%(Makel et al, 2016)。



之所以出现上述现象,究其根本还是未认识到可重复性才是创新性研究的基本立场,还是不认可重复性研究的价值,将重复性与创新性完全对立,甚至把重复性研究视作“抄袭”和“剽窃”,因此对“重复”二字避之不及。国外对于重复性研究的态度也经历过从排斥与偏见到认可与接纳的过程,尤其是验证性较强的直接重复性研究更是备受冷落(Makel et al, 2016)。20世纪80年代,西方社会科学和我国现阶段情况类似,重复性研究很难被发表(Mahoney, 1985),特别是在人文社会科学领域中。相比于自然科学,人文社会科学的期刊编辑明显更青睐创新性论文,对重复性研究则抱有较大的偏见(Madden, Easley & Dunn, 1995)。直到21世纪,西方学者对量化研究的科学性提出了进一步的要求,认为需要开展重复性研究来保障原始研究的准确性和严谨性,从此,重复性研究尤其是直接重复性研究的价值才逐渐得到了学界的认可(Makel, Plucker & Hegarty, 2012)。例如,美国教育部下辖的教育科学研究所(IES)已经对重复性研究进行了大量资助,并逐步形成了一种科学研究的文化(Chhin, Taylor & Wei, 2018)。我国直接重复性研究占比下降与我国现阶段追求创新的时代主旋律有关。相较于原创性研究和概念重复性研究,直接重复性研究有“新瓶装旧酒”的意味,采用了新的方法也不一定能够得出新的结论,若结论与先前研究一致,期刊也不会发表。由于直接重复性研究存在很高的拒稿风险,在现行的科研绩效考核制度下,研究者们会刻意地避开直接性重复的研究,开展更易被期刊接受的原创研究。


图 4   重复性研究类型及比例


2. 量化研究基础薄弱致使可重复性的确证存在困难

研究发现,2015—2020发表在CSSCI期刊中量化研究论文在总载文量中的占比为8.69%,如表2所示。量化研究在教育研究中未掌握话语权是不争的事实。该研究结果与范涌峰(2016)的研究结果类似,不仅指出了我国绝大多数研究均为思辨研究的事实,还指出了教育学优秀博士论文中几乎没有量化研究的一席之地。反观国外,朱军文和马银琦(2020)通过对SSCI期刊文献进行计量分析后发现,实证研究占比高达86.3%,而量化研究在实证研究中的占比高达54.36%(韩双淼, 谢静, 2021)。这说明我国教育量化研究的数量与欧美发达国家相比还存在较大差距,量化研究数量少这一事实直接导致了量化研究可重复性相关问题的探讨缺乏研究素材,发展空间受到极大限制。

同时,原始研究中存在的“黑箱”,为后续研究团队的确证过程带来了客观困难。重复性研究的开展与原始研究密不可分。详尽且严谨的研究方法,是开展高质量重复性研究的重要基石。发表在SSCI期刊中的教育量化研究大都非常重视研究方法的撰写,期刊也会要求作者详细介绍研究工具的研发流程、抽样及采集数据的依据及步骤、数据预处理的方法以及模型在调试过程中所采取的应对方案等具体研究环节,该部分篇幅的占比约为全文的三分之一,超过我国大部分量化研究中研究方法部分的占比(Chen, 2018)。当前我国发表的量化研究论文中普遍存在着研究方法过度省略、论文写作不规范等问题(吕晶, 2020),研究过程变成了一个“黑箱”,使得后续研究者难以洞悉原始研究中可能存在的问题,也难以获取先前研究的经验,加大了开展重复性研究的难度。“黑箱”的产生,一方面源于国内量化研究的写作范式还不够成熟,CSSCI期刊相对更重视研究结论和政策建议,另一方面也与我国教育研究者的量化研究方法训练不足具有密切关系。虽然教育学专业在招生时文理兼收,但本科专业仍是以文史类为主。在研究生的培养上,除教育统计与测评、教育经济学等少数方向外,教育学专业研究生的培养目标较少涉及定量研究方法的掌握(张国平, 高耀明, 2019)。反观国外则非常重视量化研究方法的训练,如美国大学近72%的教育学研究生培养计划规定,量化研究的相关学习内容是学生的必修课(Capraro & Thompson, 2008)。

3. 对复现失败的误解带来了对“可重复危机”的恐慌

研究发现,在所开展的重复性研究中,仅7.2%的论文能够完全还原原始研究结论,这与自然科学领域提出的“可重复性危机”具有相似性。Nature杂志对1576名研究人员研究的可重复性开展了调查,其中超过70%的研究人员无法完全重现其他科学家的实验,使得人们一度对“不可重复”产生了焦虑和恐慌(Monya, 2016)。传统观点认为,原始研究结论不能被完全成功复现,就预示着原始研究有造假的嫌疑。但是,探寻科学前沿意味着可以作为参考的研究很少,研究结果不稳定也在情理之中。开展重复性研究不是刻意去挑战已发表研究的可重复性,而是要在不断发现新事物的过程中,避免过多错误的产生。同时,复现的成功与失败不是非黑即白,不能把复现的成功或失败作为评判原始研究科学性的硬性标准(Gelman, 2018)。特别是在教育研究中,复现率相对偏低具有一定的合理性,其结论受到研究对象的“易变性”、研究环境的复杂性等多种不可控因素的影响。在本研究结果中,虽然完全复现率较低,但能部分还原原始研究结论的比率却高达87.2%,这说明不能将复现失败简单地理解为学术造假,应当以更加理性的态度看待研究结论的变化,注重分析和讨论其发生变化背后的原因。

4. 传统思维惯性阻碍原始研究团队的持续跟进

研究发现,在已有的125篇重复性研究中,仅27篇包含原始研究作者,占比21.6%,明显低于国外48.2%的比例(Makel & Plucker, 2014)。原始研究团队掌握着大量原始数据并具备较好研究基础,对重复性研究的开展非常有利。但我国绝大多数重复性研究都是由不同研究团队开展的,这对知识的创造与积累无疑是巨大损失。

传统思辨研究范式与新兴实证研究范式在知识积累方式上存在不同,但我国研究者在长期接受思辨研究的学术训练时已经形成了传统思维惯性,这种思维惯性正在潜移默化地影响着实证研究的开展。由于教育思辨研究更注重思考教育的“应然”问题,遵循逻辑演绎的思维,因此往往仅将他人观点或经验事实作为其观点的佐证(李琳璐, 2021)。思辨研究对教育理念、价值、方向的思考并不受真伪问题的困扰,通过演绎推演得出的知识往往具有一定的普适性,可以实现非线性的知识积累。因此思辨研究者们不会刻意强调研究的可重复性,也不必开展其他相关研究来证明自己的观点。这样的思维惯性使实证研究者在开展研究时,也会习惯性地用传统思辨研究的理念来指导开展实证研究,将获取到的证据或事实作为自身教育观念的佐证,只要收集到的证据和事实能够佐证其提出的观点,就会据此作出普适性或终结性的结论。量化研究在产生之初便深受科学主义哲学的影响,这也是许多欧美研究团队愿意在一个研究点上深耕细作的原因。当前大部分西方量化研究者所受到的学术训练均为实证研究训练,他们已意识到在一个领域持续跟进将带来创新红利,并且重复性研究将为学者带来被引率提升、机会成本降低等方面的裨益(Makel et al., 2021)。


四、加强教育量化研究可重复性的思路与对策


加强研究的可重复性,是将可重复性作为衡量一个研究科学性的重要标准,它能够倒逼研究者不断提高自身在研究设计和研究操作中的科学性与严谨性,进而方便后续研究者通过选择性地开展重复性研究,不断验证和延展原始结论。如果教育量化研究得出的科学结论可以在聚沙成塔的同时也能够不断革故鼎新,那么将有助于更快更牢地构筑起中国教育科学的学科体系与知识构架。

(一)加强对重复性研究价值的认识,建立重复性研究的激励机制

首先,学界应在理论层面上肯定其价值,充分认识和重新评估重复性研究对于教育研究的重要作用。学术地位高的学者可利用其学术影响力,通过论文发表或学术报告等,呼吁学界提高对重复性研究的重视程度和认可度。其次,组织相关研究团队深入探讨重复性研究高质发展的理论体系与实践方案,增进学界对重复性研究的认识,推动教育学重复性研究的良性有序发展,发挥重复性研究对教育研究科学化的重要作用,提高教育研究的可重复性。再次,学术期刊应加强对重复性研究的认识,改变对重复性研究“无价值”的偏见,避免走入过度求新、摒弃事实的误区,平衡原创研究与重复性研究的论文发表比例,探索重复性研究在量化研究中的合适占比。具体而言,学术期刊可通过开辟重复性研究专栏鼓励学者进行重复性研究,如《美国政治学杂志》曾通过这一举措带来了重复性研究数量的显著提升(Makel & Plucker, 2014),若期刊版面有限,也可开辟重复性研究网络专栏。最后,应尽快建立一套重复性研究的配套激励机制,如设立重复性研究专项基金,加大对重复性研究的科研经费的资助力度,尤其鼓励和支持青年学者针对国家教育的重大或重点问题开展重复性研究。对于产生重大影响的重复性研究,应当与创新性研究一视同仁,给予特别奖励或颁发荣誉。

(二)加强研究者量化研究方法的训练,搭建开放科学平台促使“黑箱”变“白箱”

首先,在教育学研究人才培养方案中加强量化研究课程。一是将量化研究课程归为教育学本科、硕士培养中的必修课;二是增加量化研究方法的实践机会,可通过设立学生专项培育基金,鼓励学生独立开展科研项目,在实践中学习量化研究方法。其次,加强研究人员的学术论文写作训练。学术期刊提高量化研究论文的规范性,重视研究方法和逻辑推理,减少研究“黑箱”,使研究过程清楚且容易理解,降低后续研究者开展重复性研究的难度。最后,借鉴心理学等学科经验(Nosek et al., 2015),利用互联网技术搭建教育学专门开放科学平台(Wentzel, 2021),推进研究资料的透明化,便于后续研究者对研究结论的验证。可以要求研究者在平台上分享研究资料、研究工具(Gewin, 2016)及详细的数据分析过程(Simmons, Nelson & Simonsohn, 2011),并可借鉴国外经验将此要求作为论文发表的前提条件(Towne et al., 2005),最终建立起从“黑箱”到“白箱”的科学伦理。

(三)克服重复性研究“唯成功率”思想,打造稳定团体形成研究集群

首先,研究者应理性看待重复性研究结果的异同,不一味追求对原始研究的成功复现,而是在重复性研究中不断发现原始研究中可能存在的问题。从主观与客观、可控与不可控因素等不同角度深入地分析问题,并积极探寻复现成功或失败的内在逻辑,以期迸发新灵感、获得新成果。如2015年开放科学中心(Center of Open Science)开展的心理学研究可重复性项目结束后,针对研究结论完全复现率仅为39%的现象,许多国外学者从被试敏感性、抽样误差、一类或二类错误存在的必然性等相对客观且不可控因素进行探讨(Gilbert et al., 2016;Van Bavel et al., 2016),消除了学界对不可重复的恐慌。其次,原始研究团队应充分发挥其已有研究基础的优势,针对同一研究主题进行持续推进,形成相对稳定的研究团体,最终形成成熟的研究成果集群。同时,原始研究团队也可以基于现有研究集群,与其他研究者实现跨团队、跨机构、跨地区的合作。一方面鼓励原始作者分享研究经验,以减少研究成本,提高研究效率,另一方面也要鼓励新作者发挥批判思维和创新精神,不被原始研究的固有思想或方法所束缚,为研究提供新思路,开辟新方向。


      (李毅工作邮箱:43026621@qq.com)


为适应微信排版已删除注释和参考文献,请见谅,如需阅读全文,请点击左下角“阅读原文”获取。














上期回顾

“教育强国推进共同富裕专刊”编者按语

共同富裕与经济增长

杜育红 郭艳斌 | 教育与收入分配:理论的逻辑与现实的证据

黄斌 李波 方超 | 教育促进共同富裕的独特作用:理论应然与经验实然

谢晨 杨秀秀 | 教育扩大中等收入群体的初步证据

共同富裕与教育公平

万博绅  闵维方 | 教育影响城镇化水平的实证研究——基于中国2005—2020年省级面板数据

吴晓刚 李欣 | 中国早期儿童发展与社会流动

曹妍 张国洋 姚歆玥 | 教育质量与国家(地区)收入差距:全球教育质量指数构建

陈纯槿 | 共同富裕视域下公共教育支出的空间溢出效应

共同富裕与慈善教育徐家良 成丽姣 | 慈善教育是实现共同富裕的重要供给侧
周晓岚 吴凯霖 | 优质高等教育更能让高管推动企业参与公益事业吗?——基于中国上市公司的实证研究

共同富裕与高等教育发展

胡耀宗 姚昊 | 高等教育扩张、人力资本传导与实现共同富裕

金培振 刘昕妍 王思语 | 扩招背景下新增本科院校如何影响城市收入差距?

张玉鹏 王茜 | 数字经济如何调节高等教育对共同富裕的影响?














我知道你在看

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存