好文荐读｜汉语二语水平快速测试的试卷研发分析

Original 冯丽萍等语言学心得 2021-12-26

收录于话题 #语言学心得｜好文荐读 22个

“语言学心得”新版块掉落~好文荐读（第二期），聚焦语言测试（汉语）最新成果！

“好文荐读”不定期更新，为大家带来最新的核心期刊亮眼论文，希望大家多多支持，也欢迎给我们留言推荐更多值得一荐的好文哦~

汉语二语水平快速测试的试卷研发分析——基于等距离完形填空的研究

冯丽萍¹ 冯浩² 白斯达²吴江³

1. 北京师范大学汉语文化学院

2. 首都师范大学国际文化学院

3. 首都师范大学政法学院

文章简介

文章来源：冯丽萍,冯浩,白斯达,吴江.汉语二语水平快速测试的试卷研发分析——基于等距离完形填空的研究[J].语言文字应用,2020(03):69-79.

摘要：本研究以字为单位对301字的短文进行等距离删除，形成30个空格的完形填空测试卷。355名汉语二语学习者参与了测试，基于真分数理论及项目反应理论，本文对试卷的信度、内容效度、结构效度、效标关联效度、难度、区分度、测验信息函数进行分析。研究结果发现，本试卷具有很好的信度和效度，能够有效区分不同水平的二语者。本研究可初步解决实证研究中对二语者汉语水平认定不统一的问题，为研究用汉语二语水平测试提供了一份准确、可靠、适用性强的试卷及方法论参考。

关键词：等距离完形填空；实证研究；汉语二语水平测试；试卷

基金项目：本研究得到汉考国际科研项目“YCT在美国中小学中文水平测评中的本地化应用研究”(CTI2018B05)的资助。

本文获得作者和期刊双授权推广，全文下载请点击文末“阅读原文”。

01 引言

在汉语作为第二语言习得和认知加工领域，被试的汉语水平通常是研究者需要操纵的控制变量或自变量。研究者或选择某一特定汉语水平的二语者进行研究，或对比不同汉语水平的二语者在因变量上的表现。但是，学界迄今对二语者汉语水平的认定仍缺乏一致的标准，导致即使同样使用某一指标来界定二语者的汉语水平，却有不同的结果。例如，同样是考察二语者对汉字结构认识的正字法意识，鹿士义（2002）发现学习汉语2年以后的拼音文字背景的二语者才萌发正字法意识；江新（2003）发现学习汉语5个月的美国学生已经具备了明显的上下结构的正字法意识；冯丽萍（2006）发现学习汉语8个月以后的欧美学生具备了左右结构的正字法意识，但是上下结构的正字法意识尚在发展之中。以上三项研究中考察的问题、被试母语背景和实验方法基本相似，但结果却很不一致，其原因可能在于被试学习汉语的时间并非理想的汉语水平分类指标。上述现象同样普遍存在于汉语二语的语音、词汇、句法习得与认知研究中，因此学界对于可靠、有效、适用的汉语二语水平测试的研发需求和呼吁越来越高。

张海威（2018）考察了《语言教学与研究》和《世界汉语教学》自创刊到 2018年3月底的42篇实证性文章，将其中所使用的汉语水平界定方法总结为5类：第一，自然班或学习时长；第二，自编HSK题目测试；第三，识字量测试；第四，听说水平测试；第五，完形填空测试。从实际应用的角度看，前四种测试方法均存在一定的局限。自然班和学习时长作为区分汉语水平的方法过于粗糙。对外汉语教学中，一个班级里学生的同质性往往较差，且各校的分班方式也存在很大不同。二语者受学习环境、学习强度、学习动机以及对目的语态度等因素的影响，在相同的学习时长下，其语言能力差异非常大（曹贤文、吴淮南，2002）。HSK测试法是研究者从HSK试题库中选择若干题目组成的水平测试（张金桥、吴晓明，2005；张海威，2018），但其选择方式、选择过程、成绩计算方式等尚未见具体的分析报告。此外，如果以被试HSK成绩作为区分汉语水平的标准，需要注意被试HSK获得成绩时间距离研究者实验时间的长短。一般要求标准化考试时间距实验时间三个月以内（Tremblay，2011）。识字量测试主要针对二语者的汉字识别能力，对词汇能力、句法能力、语篇理解能力、口语及书面语产出能力的考察有限。值得注意的是，识字量测试甚至不能很好地区分不同水平二语者的汉语语音意识和声旁意识（张海威，2018）。听说水平测试是根据被试口语交际的流利度来判断其汉语水平（易斌等，2012），该方法较难标准化并推广。不同主试的评分标准不同；即使是相同主试，影响口语流利度的不仅有被试的语言能力，还包括认知流利性、交际动机、交际语境、个体感知和认知体验等（Segalowitz，2010）。与上述方法相比，完形填空任务因其综合性和便捷性而逐渐受到研究者们的关注。

完形填空最早作为考察英语母语文本可读性的手段（Taylor，1953），从20世纪70年代开始在测试领域使用（Oller，1972）。该测试一般选择若干段文本，保留篇首的几句话，以提示文本背景信息。被试补全以任意比例或固定比例删除的字、词或短语，删除比例在5~9个字或词之间（Brown，2013）。

关于完形填空所测量的语言能力，一些研究认为，完形填空测量的是被试的词汇和语法能力（Alderson，1979；Markham，1985）；另一些研究认为，完形填空测量的是被试的综合语言能力，包括理解能力和应用能力（Bachman，1982；Fotos，1991；Tremblay，2011）。虽然存在争议，但多项实证研究发现：完形填空不仅和听力、阅读、作文等分项测试存在很强的相关性（Mullen，1979；Hinofotis，1980），而且与TOEFL、HSK等标准化综合性考试成绩也存在很强的相关性（Brown，1983；Fotos，1991；刘颂浩，1995），因此，研究者更倾向认为完形填空是对二语者语言综合能力的测试（Eckes & Grotjahn；2006；Chae & Shin，2015）。

完形填空的基本方式是删除原文中的某些单元，删除单位可以是字、词和短语。已有研究发现：由于汉语的词划分标准不统一，语篇中可以使用近义词替换的情况非常多，且删词的完形填空难度较高（谢世涯、苏启祯，1992），因此，考察汉语二语者语言水平时，删字的方法较为合适（吴英成，1988）。完形填空的删除方式分为意向性删除和等距离删除，前者为命题者有选择地删除文本中的内容；后者由命题者固定删除比率，除专有名词、时间、日期等以外，等距离删除文本内容。两种删除方法各有优势，如果通过命题者适当修改文本内容，再采用等距离删除的方法，不仅可以测量想测的内容，更能为每个语言单位分配相同的考察机会，得到意外之喜（刘颂浩，1995）。在汉语二语认知与习得的研究中，采用完形填空方式测评被试汉语水平的研究逐渐增多（Yuan，1995；史静儿、赵杨，2014），但多数研究中未见到试卷测试信息的说明。相关研究证实了该测试方式的综合性和便捷性，但在具体使用中应如何设计，以及从测试理论角度对其信度效度等信息进行检验的研究成果都还比较缺乏。

综合以上研究基础，我们以汉语第二语言实证研究中对学习者的汉语水平进行综合、快速测试为目的，采用适当修改文本并等距离删除字的方式设计完形填空试卷，并依据测试理论对试卷数据进行统计分析，具体探讨以下问题：如何编制适用的测试材料并进行检验？该测试卷的信度与效度如何?通过这些问题的探讨，不仅可以为实证研究用汉语二语水平测试提供一份可靠、有效、便捷的标准化试卷，服务于研究数据的精细分析；也使同类或相关研究在标准化基础上进行成果的比较和提炼成为可能；同时还可为类似的试题库研发提供方法论参考。

02 测试研究

试卷的研发需要经过选择并分析材料、预测与修改、选定被试、正式施测并采集数据、依据测试理论进行分析检验等步骤，每个步骤中又分为多个环节，下面我们按照操作步骤分别进行详细说明和讨论。

（一）确定测试材料

在测试材料的选择上，我们遵循了以下原则：第一，理想的、以区分总体被试的语言水平为目的的测试卷应该具有中等难度（Tremblay & Garrison，2010）；第二，体裁选择说明文和议论文，内容属于被试熟悉的知识范畴（“中文应用能力测评可行性论证”课题组，2009）；第三，篇幅适中，被试可以在15分钟左右完成测试。

结合以上三个标准，参考刘颂浩（1995）研发的等距离完形填空试卷，我们选择其文章中提到的北京语言学院《初级汉语课本———听力练习（3）》中关于科学跑步的文章，对文章进行了以下修改：第一，为提供文本背景信息，增加了文章题目———《关于科学跑步的文章》；第二，降低专业性，将原文中“用每小时八~九公里的速度慢慢地跑”修改为“用比较慢的速度慢慢地跑”；第三，严格执行每隔6个字进行删除的标准。修改后的短文共有301 字，完整保留篇章首尾的两句话（Brown，2013），等距离删字后共形成30个空格。本测试卷题目和刘颂浩的题目共有15处不同，试卷见附录1。

预测选择10名某大学预科系学生作为初级汉语水平二语者，10名汉语系二、三年级本科生作为中级水平，10名汉语国际教育专业研究生作为高级水平二语者，被试在试卷空格处填写自己认为合适的汉字。预测结果显示：初级、中级和高级水平二语者均能在15分钟内完成测试，且没有出现零分或满分的情况。对三类被试得分进行方差分析显示：被试得分差异显著（F（1，28）=603.4，p<0.001），经Bonferroni矫正后的多重t检验发现，三组被试得分两两差异显著。预测分析结果表明试卷可操作性强，对不同水平的学生可能具有较好的区分度，可以进行大规模测试。

（二）被试信息

三所在京大学的355名汉语二语学习者参与测试，包括172名汉语预科生，156名汉语本科留学生，27名汉语国际教育专业研究生。汉语预科生已经在中国的大学强化学习了1年的汉语课程，汉语本科生为大学一年级至四年级汉语专业的留学生。被试母语背景多样：韩国155人，土库曼斯坦22人，莫桑比克20人，印度尼西亚12人，塔吉克斯坦10人，肯尼亚10人，乌兹别克斯坦9人，孟加拉8人，萨尔瓦多8人，柬埔寨7人，哈萨克斯坦6人，意大利6人，越南6人，埃塞俄比亚5人，圣多美和普林西比5人，泰国5人，东帝汶4人，也门4人，朝鲜3人，摩洛哥3人，蒙古3人，俄罗斯3人，老挝3人，瓦努阿图2人，马里2人，马拉维2人，海地2人，格林纳达2人，赞比亚2人，布基纳法索2人，汤加2人，乍得1人，约旦1人，印度1人，马来西亚1人，西班牙1人，牙买加1人，塞舌尔1人，纳米比亚1人，尼日利亚1人，帕劳1人，密克罗尼西亚1人，美国1人，津巴布韦1人，加纳1人，斐济1人，刚果（布）1人，刚果（金）1人，阿塞拜疆1人，埃及1人，安哥拉1人，巴布亚新几内亚1人，保加利亚1人。

（三）施测过程

2019年5月21~30日期间，355名被试分三批分别完成了15分钟的测试。由主试教师发放试卷，说明每个空格只能填写一个汉字的要求，然后开始测试。监考过程及试后访谈未发现异常情况。

（四）数据分析和结果

在语言交际中，同一意义可以用多种方法表达，二语者的语言能力之一就表现在能否灵活使用同义词和近义词。因此本研究采用可接受性评分法计分，即填写的汉字只要语法、语义和语用合理可接受就视为正确，合理性通过北京语言大学BCC语料库验证。正确的计1分，错误的或书写拼音的计0分。每个空格的参考答案见附录2，参考答案经过了5位现代汉语语法方向专家的合理性评定。

数据分析结合真分数理论和项目反应理论。真分数理论将测试看作真分数和误差的线性结合，其最突出的问题是计算的难度和区分度严重依赖样本（郑日昌等，1990）；项目反应理论的项目参数估计独立于被试样本，被试特质水平参数估计独立于测验项目，不受测试具体题目和数量的影响（戴海琦，2006），因此其估计的项目难度和区分度比真分数理论更为可靠。但是，信度报告在项目反应理论中仍然很重要（Kim，2012）。所以，本研究将考察真分数理论下的数据分布情况、信度、内容效度、效度关联效度，以及项目反应理论下的试题难度、区分度、测验信息函数。

1.基于真分数理论的数据分析和结果

（1）数据描述性统计

355名被试的平均分数为18.06，标准差为5.95。由于二语者总体的语言水平呈现正态分布，所以分级语言测试得到的成绩只有在接近正态分布的情况下，才能模拟总体成绩，才能具有较好的区分度。Brown（2002）也认为，在良好的语言水平测试中，被试的总体成绩和随机选择的样本成绩应该基本符合正态分布。因此，我们采用Kolmogorov-Smirnov检验数据的正态性，D值（D=0.09）接近于0，表明较接近正态分布。采用R语言绘制分布曲线图及Q-Q（quantile-quantile）分布图（图1），发现数据也接近正态分布，这为下一步的分析提供了可靠基础。

（2）信度和内容效度分析

KR21公式会低估信度，完形填空更适合采用KR20公式计算信度（Brown，2013）。本试卷的KR20信度系数为0.87，表明试卷具有良好的信度。

本研究的目的在于研发一套能够快速测评实证研究中被试综合语言能力的试卷，因此需要对语言能力及其维度进行界定。王佶旻（2016）将语言能力定义为在现实生活中使用语言处理各项任务的能力，包括：语法能力（对词汇、句式的选择及语音和文字的使用）、篇章能力（连贯、照应和修辞）、以言行事能力（言语行为和语言运用）、社会语言学能力（对社会文化环境的敏感和驾驭）。由于语法和篇章能力是以言行事和社会语言学能力的基础，并且在实验研究中，大部分研究者更关心的是二语者语言形式使用的水平。因此，本研究对二语者语言能力的测评从语言运用的单位（词、句、篇）和维度（结构、语义、语用）方面进行操作性界定。需要说明的是，在运用语言时，语言使用者调用的是多种能力，因此语言测试项目探测到的应该是多种能力的综合。下面以此为基础，通过分析试卷的内容效度、结构效度和效标关联效度，研究本试卷考察二语者语言能力的有效性。

内容效度指题目对欲测量内容或行为范围取样的适当程度，常用方法是专家对题目所涉及的内容进行符合性判断检验（郑日昌等，1990）。首先，我们对30个空格所测量的语言学内容进行描述，发现它们涉及了上述语言能力所界定的不同层次和维度，具体来说，本试卷共包含7个方面的内容：语素和词，见第7题、第8题、第11题、第14题、第15题、第19题、第24题、第28题；词汇语法，见第5题、第6题、第17题；数量短语，见第18题、第21题、第26题、第29题；句法结构，见第1题、第27题和第30题；句子语义，见第4题、第9题、第10题、第12题、第13题、第16题、第23题；语用，见第20题和第25题；篇章，见第2题、第3题和第22题。其次，邀请5名北京语言大学和北京师范大学的语法方向的教授或副教授对每个空格与相应测量维度的相关性进行4点量表的评定。所有专家均选择较相关或者非常相关，项目水平的内容效度指数（I-CVI）为1.00；对随机一致性进行校正，计算调整后的kappa值为1.00；量表水平的内容效度指数（S-CVI）也为1.00，表明试卷的内容效度优秀（史静琤等，2012）。

（3）结构效度分析

结构效度指测验对理论上的构想或特质的测量程度（郑日昌等，1990），其分析方法一般结合探索性因子分析和验证性因子分析。

我们首先使用R语言的psych包，对从355名被试中随机选择的177名被试数据进行探索性因子分析，碎石图及输出结果显示：测试可析出7个因子，可解释的方差总变异量为41%。探索性因子分析结果显示，有些题目没有包含进7个因子里。一般的方法是删除这些题目，但是本试卷为完形填空，不适合删除题目，因此采用内容效度确定的结构进行验证性因子分析。

使用R语言的lavaan包，对整体355名被试数据进行验证性因子分析。初步分析结果显示，除29题（“每天”）一个题目外，其他题目数据分析所得到的7个潜变量和各潜变量下的观测变量均与内容效度分析结果一致。我们推测，虽然在语言学上“每天”为数量词组，但是很多学习者可能将其理解为复合词，因此在数据分析中该题目的结果更接近“语素和词”的维度。我们对该题目的归属进行调整后重新分析，构建结构方程模型，对模型拟合优度进行计算，结果显示：拟合优度指数（Goodness-of-Fit Index）为0.90，比较拟合指数（Comparative Fit Index）为0.91，标准化残差均方根（Standardized Root Mean Square Residual）为0.049，近似误差均方根（Root Mean Square Error of Approximation）为0.041，卡方值和自由度之比的结果为1.6。根据常用拟合指标参考范围表（许宏晨，2019），显示模型与数据拟合良好。结构效度结果说明，本试卷得到的数据能较好拟合根据内容效度确定的被试汉语能力。

（4）效标关联效度分析

效标关联效度指测验分数与外部效标的关系，考察测验对感兴趣行为的预测如何（郑日昌等，1990）。我们以中国政府奖学金本科来华留学预科教育统一结业考试（CSC）语言成绩和HSK4级成绩作为效标，考察试卷的有效性。

172名预科留学生均参加了CSC结业考试，该考试在本试卷测试26天后（2019年6月16日）进行，我们认为在此时间段内，被试汉语水平不会发生明显变化，其成绩可以作为外部效标。采用R语言进行相关分析，结果显示：完形填空试卷总分和CSC语言成绩显著相关（r=0.75，p<0.001），见图2。

114名本科生和预科生参加了HSK4级考试，该考试在本试卷测试2周前（2019年5月11日）进行，在此时间段内，被试汉语水平也不会发生明显变化，可以作为另一个可靠效标。采用R语言进行相关分析，结果显示：试卷总分与HSK4级总分显著相关（r=0.69，p<0.001），与听力成绩显著相关（r=0.65，p<0.001）；与阅读成绩显著相关（r=0.54，p<0.001），与写作成绩显著相关（r=0.61，p<0.001），见图3。

以上两个效标关联效度分析结果表明该试卷可以有效测评二语者的汉语水平。2.基于项目反应理论的数据分析和结果项目反应理论有三条最基本的假设：第一，潜在特质的单维性假设，即测验的所有项目测量的都是同一个心理变量；第二，局部独立性假设，指某个考生对某个项目的正确回答概率不会受他对试卷中其他项目反应的影响；第三，项目特征曲线假设，指考生对项目做出正确反应的概率与其能力之间的函数关系，该关系可以用项目特征曲线表示（余嘉元，1992；杜红玉，2011）。第一条和第二条假设决定试卷的准确性和有效性，关于第三条假设，研究者使用项目反应理论方法分析所有试卷后都可以得到体现，因此，本研究只报告第一条和第二条假设的拟合计算结果。现有的项目反应理论模型主要有Rasch模型、等级反应模型和三参数模型。Rasch模型拟合中，每个项目的区分度系数固定；等级反应模型主要拟合多于两个水平的定序数据（吴江，2019）。本试卷每个项目的区分度理论上各有差异，因此我们选择三参数模型进行数据拟合。

采用R语言的ltm包（Rizopoulos，2006）基于三参数模型对以上假设进行检验。单维性分析基于Drasgow & Lissak（1983）的研究，结果显示：不能拒绝单维性的原假设（p=0.54）。局部独立性假设通过分析每两个题目的卡方统计量来度量，结果显示：不能拒绝局部独立性的原假设（p= 0.07）。

由于三参数模型需要计算猜测系数、难度系数和区分度系数，我们首先进行猜测系数为0的模型和自由估计的模型比较，比较统计模型拟合优良性的指标AIC（Akaike information criterion）发现，猜测系数为0的模型效果更佳。计算各个项目的难度系数、区分度系数和答对可能性，结果显示第22题的难度最大，第2题的难度最小；第26题区分度最大，第1题区分度最小。具体结果见表1：

项目反应理论给出的项目信息函数和测验信息函数，可以估计每个项目和试卷对被试测量的误差（戴海琦，2006），由于每个项目的信息函数相加可得到测验的信息函数，我们仅报告试卷的测验信息函数曲线，见图4。

从测验信息函数曲线中可以发现，本试卷对中等能力稍偏下的被试能够提供最大的信息量，符合编制语言水平测试时试卷难度应为中等水平的要求（Tremblay & Garrison，2010）。

03 结语

本研究面向汉语二语认知与习得实证研究的需求，依据测试理论，研发了一份长度与难度合适、信度和效度高、区分度强、操作简便的综合完形填空测试卷，数据分析结果也体现了该测试卷在测评和区分汉语二语者语言水平方面的有效性和便捷性，可以作为汉语二语认知与习得实证研究中快速测定被试汉语水平的有效手段。此外，以往的研究多以初级、中级和高级等类别变量标定被试的汉语水平，本试卷得到的测试分数为数值型变量，不仅可以转化为类别变量和顺序变量，而且可直接采用数值型变量与其他因素进行统计检验和多种数据分析，为更精细的汉语认知研究和数据挖掘提供了可能。

结合试卷研发过程及测试中的实际现象，我们为研究者提供如下建议：第一，本测试卷的最主要优势在于快速（15分钟左右完成）、有效（各测试指标经过检验）、便捷（可提供被试汉语水平的数值型变量用于研究中的多种数据分析），其功能与大规模高风险综合考试（如HSK等）存在不同。因此，建议最优的使用方式为首先依据粗粒度指标圈定目标被试群，然后使用该试卷对汉语水平进行精细确定。第二，被试使用拼音答题的项目应计0分。能够熟练使用汉字是二语者语言能力的表现，汉字和拼音的知识维度不同，因此不能等价测量。第三，严格按照参考答案给出的标准评分。试卷的参考答案综合了355名被试的回答、专家的评定及BCC语料库验证，具有很好的可靠性和较高的标准化程度。此外，该试卷的研发主要经过了选定材料、确定选项、语言学分析、专家评定、预测与修改、施测、采集效标数据、依据测试理论进行多维度统计检验等步骤，其研发过程也可为相关研究提供方法论参考。

作者简介

冯丽萍 北京师范大学汉语文化学院教授，博士，主要研究汉语第二语言的学习与认知。

冯浩 首都师范大学国际文化学院讲师，博士，主要研究汉语二语习得和加工。

白斯达 首都师范大学国际文化学院讲师，主要研究对外汉语语法教学。

吴江 首都师范大学政法学院讲师，博士，主要研究社会科学方法论、量化分析。

本文来源：《语言文字应用》

全文下载请点击“阅读原文”

欢迎加入

“语言学心得交流分享群”

“语言学考博交流群”

如群满员
请添加“心得小助手”

往期推荐

好文荐读｜“产出导向法”在海外汉语综合课教学中的有效性研究

每日一星｜冯志伟：谈计算语言学

语言学年报 | 2020下半年语言学学术会议集锦

博学有道｜中国社科院汉语言文字学专业考博交流会

今日小编：瑞秋儿

审核：心得小蔓

转载&合作请联系

"心得君"

微信：xindejun_yyxxd

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

好文荐读｜汉语二语水平快速测试的试卷研发分析

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

好文荐读｜汉语二语水平快速测试的试卷研发分析

您可能也对以下帖子感兴趣