好文荐读｜周义凯、刘海涛：ChatGPT掌握现代汉语书面语的句长规律了吗？

周义凯、刘海涛语言学心得

2024-09-03

好文荐读（第130期）ChatGPT掌握现代汉语书面语的句长规律了吗？

“好文荐读”不定期更新，为大家带来最新的核心期刊亮眼论文，希望大家多多支持，也欢迎给我们留言推荐更多值得一荐的好文哦~

ChatGPT掌握现代汉语书面语的句长规律了吗？

周义凯刘海涛（通讯作者）浙江大学外国语学院

文章简介

文章来源：周义凯,刘海涛.ChatGPT掌握现代汉语书面语的句长规律了吗？[J].语言文字应用,2024,(02):124-134.

摘要：本文用兰卡斯特汉语语料库中15种书面语体的文本研究了汉语整句、小句单位长度的关系，并比较了其中3种语体文本与ChatGPT生成文本的句长分布。结果表明：现代汉语书面语的整句和小句符合语言中相邻层级单位的长度关系规律；ChatGPT生成的汉语文本基本符合自然语言句长的概率分布与单位层级规律，但在遵循省力原则、语体区分能力等方面同真实文本尚有差距。大语言模型已经获取了一些自然语言中的统计规律，但还没有完全掌握真实文本中一些细节特征。

关键词：现代汉语；句长分布；语言普遍性；语体差异；ChatGPT

基金项目：本研究得到教育部人文社会科学重点研究基地重大项目“数据驱动的外语能力发展研究”（22JJD740018）的资助。

感谢《语言文字应用》授权推广，全文下载请点击文末“阅读原文”。

一.引言

人们普遍认为，汉语中有较多“流水句”，句子时常不容易切分。学界对现代汉语句子的划分标准至今没有定论。但是，不论在书面还是口头表达中，句子却是切实发挥作用的语言单位。如果汉语的句子真的处处“可断可连”，在书面上常常“一逗到底”，就说明说汉语的人句子观念不强（吕叔湘，1979）。然而，事实可能并非如此。赵元任（1979）认为，尽管汉语的句子在书面上有时难以辨别，但口语中的句子大多可以用语调和停顿来判定。事实上，不论是集体的语感，还是从中凝练出的语法，都属于人们共有的语言知识。知识形成系统，就构成可以预测和解释人类行为的模式（Bod, 2022）。语言是一个人驱动的复杂动态系统（Liu，2018）。换言之，人们使用语言时应当遵循着某一种概率模式。在这种模式的作用下，人们会自然地凭语言直觉断句，完成沟通与交际。语言学家一个最紧要的任务就是探索语言的共同规律及其背后的驱动力（索绪尔，2022）。对于汉语句子，我们不禁要问：汉语书面语的句子单位长度是否遵循概率模式呢？如果答案是肯定的，又因为ChatGPT这类大语言模型是通过大规模语言数据训练后基于概率统计规律实现生成能力的，所以我们还要问：ChatGPT和人一样掌握汉语书面语的句长规律了吗？回答这两个问题，不仅有助于揭示语言系统中的统计规律和概率属性，还能加深我们对于大语言模型及其与语言研究关系的认识。

本文具体讨论三个问题：

（1）汉语书面语的整句、小句是两个明确的相邻层级的语言单位吗？二者的长度关系有什么规律吗？

（2）ChatGPT生成的汉语文本中，句子单位长度分布和层级关系是否符合自然语言的普遍规律？

（3）从句长分布的角度看，ChatGPT是否同人类一样具有区分语体的意识？

二.理论基础与研究方法

（一）理论基础

语言兼具线条性和层级性。因此，研究句长规律可以从两方面着手：句长的概率分布和句子单位的层级关系。一般而言，自然语言中的句子可分为整句（full sentence）与小句（minor sentence），汉语也是如此。已有研究发现，现代汉语的整句、零句（或小句）向长的概率分布符合自然语言句长概率分布的规律（周义凯、刘海涛，2023）。关于语言（句子）单位的层级关系，语言学中有一个著名的函数定律——门策拉-阿尔特曼定律（以下简称“门策拉定律”）。根据该定律，一种语言结构越长，直接构成它的下一级结构就越短，简言之，“整体越长，部分越短”（刘海涛，2017）。这个定律已经在汉语的多对层级结构之间得到验证，包括“字一笔画”“段落一句子”（Motalova & Matouskova，2014）、部分语体中的“句子一子句（clause）”（Hou et al.，2017）等。如果人们在用句时的确遵循着一种模式，那么我们有理由推测：现代汉语整句和小句的长度关系符合门策拉定律，即一个整句越长，组成它的小句就越短。本文从句长概率分布、整句与小句长度关系规律两方面，将真实的汉语文本（参照语料）与 ChatGPT生成的汉语文本（对比语料）进行比较，从而回答上述三个问题。

（二）语料

为了保证参照语料客观、有效，我们选用了兰卡斯特汉语语料库（The Lancaster Corpus of Mandarin Chinese，LCMC）。这是一个标准的平衡语料库，包含15种书面语体的汉语文本。在比较真实文本和ChatGPT生成的文本时，我们选取LCMC库中的A（新闻报道）、J（学术文章）、K（通俗小说）3种语体的文本作为参照语料。同时，我们用ChatGPT（3.5版本）也生成这3种语体的文本，作为对比语料。参照语料和对比语料的规模相当，各9万字。我们将两类语料分别按语体分为三组，共六组。在统计检验时，我们将每组语料均分为10个纯文本（txt格式）文档，每个文档内有3000字的文本。语料情况见表1。

（三）工具与方法

1. 句长概率分布数据拟合

我们用Python语言编写了计算句长的程序代码，分别对每一类文本计算了整句、小句句长，以及各种长度句子出现的频率。在计算句长时，我们参照了先前相关研究的做法（刘海涛、王亚琴，2019；宋柔，2022；周义凯、刘海涛，2023）以及《标点符号用法》（GB/T 15834-2011），用句号、问号、叹号划分整句，用整句中的逗号、分号、冒号、破折号划分出小句。为了便于拟合与比较，我们按照前人惯例（Pande & Dhami，2015；周义凯、刘海涛，2023），以3个词为一个级别来计算句长（1级表示1~3词长的句子，2级表示4~6词，以此类推）。得到数据后，再分别将整句和小句句长频率数据在Altmann Fitter（3.1版本）软件中写扩展正负二项分布（公式i）进行拟合。

扩展正负二项分布是负二项分布的变体，已在多项研究中成功拟合自然语言句长概率分布（Pande & Dhami，2015；刘海涛、王亚琴，2019；周义凯、刘海涛，2023）。公式（i）中，x是长度级别，P_x为文本中长度为x级句子出现的概率，k、p、α是模型参数，反映文本的句长分布特征。Altmann Fitter软件还报告拟合优度指标C和R²

。各个txt文档内文本的句长分布拟合结果记录在Excel表格中，而后传入SPSS（26版本）软件进行分析。

2. 门策拉定律拟合

我们编写的程序在统计句长和频率时，还计算了每个整句中小句的数量和平均长度（词数）。我们用小句的数量计整句句长x，用词数计小句句长y，拟合门策拉定律（公式ii）（刘海涛，2017）。由于Altmann Fitter不支持函数关系拟合，我们另编写了一段Python代码。数据拟合后可得到公式（ii）中的a、b、c三个参数和拟合决定系数R²。

3. 数据分析与比较

对研究问题（1），我们看LCMC库中15种语体文本句长数据拟合门策拉定律的效果，即R²值。如果R²值达标，便可说明汉语书面语中整句与小句基本符合语言中相邻层级单位的长度关系普遍规律。

对研究问题（2），我们统计对比语料和参照语料的句长频率，将每个txt文本中统计得出的句长频率数据拟合扩展正负二项分布，再比较两类语料的各项拟合结果指标。如果差异不显著，说明ChatGPT已经基本掌握了汉语书面语的句长概率分布规律。与此同时，我们也将对比语料得到的数据拟合门策拉定律，如果R²值达标，则说明ChatGPT已经掌握了汉语书面语中句子单位的层级规律。

对研究问题（3），我们将对比语料中不同语体文本的句长分布拟合结果参数进行比较。如果差异显著，说明ChatGPT生成的汉语文本已经在句长分布方面具备了区分语体的意识。要进一步判断这种意识是否达到了人类的水平，则需要再加入参照语料的数据，以语料来源、语体自变量，以模型参数值为因变量，进行多因素方差分析，查看语料来源、语体、二者的交互效应对句长分布参数的影响。如果语体的影响显著，且程度大于语料来源，则说明ChatGPT的句长语体意识已较接近人类水平。

三. 结果与讨论

（一）汉语句子单位长度的层级规律

如果人们在书面表达时普遍分不清整句和小句，那二者的长度关系可能就难以符合门策拉定律。对于该定律的拟合结果，我们主要看R²值。一般而言，R²值在0.8以上表示拟合效果可接受，越接近1，拟合效果越好。总体上，LCMC语料库文本中整句和小句句长基本符合门策拉定律的函数关系。从R²值来看，各种语体文本的拟合效果降序排列为学术文本（0.9485）、新闻评论（0.9134）、冒险与武侠小说（0.8996）、宗教语篇（0.8899）、幽默语篇（0.8794）、新闻社论（0.8742）、报告与官方文件（0.8156）、通俗小说（0.7884）、民间传说（0.7606）、技能爱好类语篇（0.7529）、人物传记与散文（0.7528）、言情小说（0.7209）、科幻小说（0.6644）、新闻报道（0.6181）、玄幻与侦探小说（0.5986）。

门策拉定律背后的机理是：在省力原则的驱动下，人类对各级语言单位以经济的方式自适应地调整组织形式，比如压缩、重组结构信息，达到“整体大于内部组分之和”（Milicka，2014）的效果。语言中一个层级单位的变化会向相邻层级的单位传导。词、小句、句子都不会因为信息量增大而无节制地变长。当然，这种自适应机制的最终目的还是沟通信息，所以各级语言单位的大小关系也随沟通的场景、目的等因素发生改变而调整。Hou等（2017）发现，风格较为正式的汉语书面语体中整句和小句的长度关系符合门策拉定律，而日常口语、舞台剧本等语体中几乎没有体现这种规律。相比之下，Xu & He（2020）发现在英语中，口语和书面语体的句子和小句长度关系都符合这个规律，只是口语语体的拟合效果略差。从我们的拟合结果来看，LCMC库中确实有一些语体文本的拟合效果不够理想。那么，是汉语书面语中的句子单位偏离了这种规律，整句和小句不是明确的相邻层级的单位，还是定律本身有问题呢？

我们对LCMC库里每一种语体文本中的整句长度升序排列，计算累计频率后发现：各语体文本累计频率95%落在长度5~6个小句的整句上（见图1）。换言之，不论在什么语体中，都有95%的整句由不超过6个小句组成。截取这95%的数据与门策拉定律的函数拟合后，所有语体文本的拟合优度R²值都提升至0.95以上。也就是说，现代汉语书面语中的整句与小句在绝大多数情况下符合语言中相邻层级单位的长度关系规律。现代汉语书面语在句子层面也具有自组织、自适应的特征，而导致各种语体之间模型拟合效果差异的，主要是小部分（5%）5个及以上逗号类标点连用的句子。

实际上，人类用于处理语言的认知资源和生理条件都是有限制的，过长的句子既难以产出，也难以理解。“一逗到底”在很多情况下是标点误用——“现在的一般倾向是句号用得太少，逗号用得太多”，即在应当用句号的地方使用了逗号，将几个独立的句子合成了一句（吕娜，2022；吕叔湘、朱德熙，2013）。或者说，“流水句”可能“并非一个严格界定的语法研究单位”（徐晶凝，2023）。Chen & Wang（2023）统计了近两千年的汉语语料后发现，汉语整句的平均句长在各个时期都在3个小句左右浮动。从图1也可以看出，各语体中整句句长达到3个小句以后，累计频率增速放缓，到5个小句时累计频率已达90%左右。英语中也有类似的规律，绝大多数英语句子包含不超过5个小句，只是具体的情况因语体而异（Xu & He，2020）。根据赵元任（2023）对连续性（continuity）的论述，我们认为语言中的各级单位以长度同一性特征构成连续统。小句的数量达到整句单位长度的上限阈值时，就很可能形成句群甚至语段，而不是一个无限长的整句。人类的工作记忆容量有限（4个单位左右）（Cowan，2000），决定了线性的语言符号需要在经过组合的多个层级单位中传递信息。语言系统的规律和模式由人类共同的生理基础决定（Torre et al.，2019），而语言系统的局部（语言使用）特点则受诸多外部因素影响。在语体分类上，一般认为传媒（表达工具）和表达方式都是口头语或书面语的为典型语体，二者混搭的为非典型语体（陶红印，1999）。小说中夹杂着口语与书面叙述，加上作者个人风格等因素，写作时断句可能相对随意。而相比之下，学术文本、新闻评论等语体，都是典型的书面语，并且一般严格遵循写作规范，标点符号的使用也相对严谨。所以，不同语体中标点符号的使用习惯是有差异的。但是，即便是在人们没有完全地规范使用标点的情况下，我们的数据结果也能够反映一个客观事实：汉语书面语中真正的长句其实并不多，汉语的整句、小句长度关系符合语言中相邻层级单位关系的规律。

（二） ChatGPT生成文本的句长规律和语体差异

目前，ChatGPT已经具有了较强的自然语言生成能力，但这并不意味着它在语言生成方面已经完全达到了人类的水平（冯志伟、张灯柯，2023）。从句长的角度，我们认为，首先要评估ChatGPT生成文本的句长是否符合真实文本句长的概率统计规律，其次要看ChatGPT是否能够像人类一样根据不同语体的风格来调整句子长度的局部分布特征。如前所述，人类自然语言的句长概率分布普遍符合扩展正负二项分布。因此，我们将参照组和对比组中三种语体的文本数据，即未经拆分的六组语料全集的数据，分别与该概率分布模型拟合。整句、小句句长的概率分布拟合结果分别见表2、表3。为了更直观地比较整体差异，我们还对应绘制了图2、图3。

由表2、表3可得，ChatGPT生成文本的句长概率分布整体上符合扩展正负二项分布。但在（尤其是小句句长的）拟合效果上，ChatGPT生成的文本与LCMC库中对应语体的文本分别还有一定差异。为了精确地描述这些差异，我们选取各组语料中的平均句长、模型参数α 、拟合参数R²三项指标进行比较。由于对比组的这三项指标不服从正态分布，且经Ln对数转换后仍不服从，我们对两组数据做了非参数（Mann-Whitney U）检验。结果显示，从整体上（即不区分语体）看，参照组和对比组文本的整句句长概率分布拟合结果参数R²值（以下简称“整句R²”）（U=121.000，p<0.001）、小句平均句长（U=631.000，p=0.007）、小句句长概率分布模型参数α值（以下简称“小句α”）（U=760.500，p<0.001）、小句句长概率分布拟合结果参数R²值（以下简称“小句R²”）（U=4.000，p<0.001）差异显著。可见，在句长概率分布方面，ChatGPT生成文本与真实文本在小句上的显著差异多于整句。如图2所示，ChatGPT生成的文本中，长度为1~5级（即1~15词）的整句频率普遍低于真实文本。同样，如图3所示，ChatGPT生成文本的长度为1~3级（即1~9词）的小句频率普遍低于真实文本。据此，我们判断：尽管ChatGPT大致掌握了汉语书面语句长概率分布规律，但是就具体的分布特征而言，与真实文本还有一定差异，比如用句时不像人一样“省力”。

那么，在长句方面，ChatGPT是否掌握了汉语的“流水句”呢？在图1的基础上，我们将参照组和对比组语料的句长累计频率同列（见图4）。图4显示，ChatGPT生成的汉语文本中整句长度不超过7个小句，几乎是真实文本中的一半，并且有95%的整句长度不超过5个小句，比真实文本少了1个小句。对此，图2也印证：从12级开始，对比组语料的句长频率低于参照组，且长句频率下降的幅度更大。所以，ChatGPT生成的文本中，不仅15词（5级）以内的整句、9词（3级）以内的小句频率偏低，而且36词（12级）以上的整句频率也不及真实文本。

我们再将两组语料的整句、小句长关系数据与门策拉定律拟合后得到的R²值进行比较，数据见表4。如表4所示，在小句和整句句长关系方面，ChatGPT生成的新闻报道和学术文章文本都比真实文本更符合门策拉定律。尽管从全集数据拟合结果来看，通俗小说文本也是如此，但取累计前95%数据拟合后，ChatGPT生成的通俗小说文本数据拟合效果并没有提升，说明ChatGPT生成的句子比较规整，鲜有我们在真实文本中发现的超长句子。通俗小说是书面语中话语风格最接近口语的语体之一，不论是整句还是小句，小说的平均句长都小于其他两种语体。ChatGPT生成的通俗小说文本在小句、整句句长关系方面与真实文本差异大，可能说明大语言模型在处理风格相对灵活的语体时还有欠缺。根据不同语言使用环境变换语言风格有赖于语用能力。ChatGPT具备这种能力吗？

为了探究两组语料句长分布的语体差异，我们先分别对两组文本内部进行跨语体比较。如前所述，由于对比组数据不符合正态分布，我们在此用Kruskal-Wallis H检验，结果汇总于表5。由表5可知，整体上，真实文本句长概率分布拟合后各项参数的语体显著差异多于ChatGPT生成的文本。为了进一步明确这些差异受语体和语料来源影响的程度，我们以语体、语料来源为自变量，以表5中的6个指标为因变量，进行多因素方差分析。结果显示，语料来源的主效应显著（F=24.764，p<0.001，Pillai’s Trace=0.752；η²

=0.752），且强于语体（F=7.877，p<0.001，Pillai’s Trace=0.972；η²=0.486），语料来源和语体的交互效应也显著（F=4.716，p<0.001，Pillai’s Trace=0.723；η²

=0.384），程度不如二者各自的主效应。这意味着，ChatGPT生成的文本在句长概率分布方面具有一定的语体差异，但没有达到人类的水平。以各项指标较接近的新闻和学术文本为例，对比语料在Kruskal-Wallis H检验中差异显著的指标中，新闻和学术文本之间只有小句句长的差异达到了显著水平（H=2.300，p=0.037）。而在参照语料中，这两种语体的整句R²（H=12.1，p=0.002）、小句句长（H=8.500，p=0.031）、小句α（H=11.300，p=0.004）都有显著差异。也就是说，ChatGPT在句长分布特征的语体区分方面不如人类敏锐。

ChatGPT自发布以来，用户增长速度快，讨论热度高。但是，迄今为止，专门从语言学的角度评估ChatPGT生成文本与真实文本差异的研究还不多见。从本文所做的各项分析与比较来看，ChatGPT生成的文本已经基本遵循了真实文本中句子单位的规律，但还差一些“火候”。这不仅值得人工智能领域的开发者关注，更应该得到语言学研究者的重视。ChatGPT在模型预训练阶段使用了千亿级别规模的语言数据和参数量。理论上，这些数据应该足以使大模型掌握真实文本中的概率统计规律。从本文的结果来看，模型的训练效果还有提升的空间。究其原因，一是当前大语言模型所用的“端到端”、用海量数据和参数的训练模式效率仍有待提升；二是人类语言系统的规律不仅限于纯粹的概率统计规律，还有语言这个复杂动态系统中“人驱”的作用。

技术层面上，GPT模型的工作原理是基于预训练时取的统计规律，根据所给的文本来预测下一个词。随着预训练数据和参数量的不断增加，GPT模型的性能仍在提升。Open AI（2023）在GPT-4的技术报告中指出，GPT-4在多种专业和学术基准测验中的表现已经达到甚至超过了人类的平均水平，尤其在多种语言的多项选择题中表现出色。这说明，GPT模型并不只是掌握了数据中纯粹的统计规律，而且已经开始建立语言数据和现实世界知识的联系。与此同时，Open AI在报告中也披露，目前的GPT模型依旧没有摆脱大语言模型一些共同的缺陷。比如，它在一些具体的现实任务场景中的表现还不如人类，偶尔会出现幻觉（hallucinations），不会从经验中获取知识，而是依赖预训练所用的数据。Ouyang等（2022）认为，在现阶段，如果只是单纯地扩大模型的规模，不一定能有效满足人们对大语言模型的需求。他们用人类反馈对GPT模型进行调校后，发现仅用GPT-3模型所用的1%规模的参数量即可使模型更好地按人的意图完成任务。GPT现有的优势与缺陷共同说明，大语言模型本质上是人类发明的工具，要更好地发挥它强大的潜力，需要人类有意识地加以引导。其中，就需要语言学家的参与。过去，囿于数据资源的限制，语言研究难以从宏观的视角发现语言的普遍规律。现在，大规模语言数据中的概率统计规律不仅造就了大语言模型，也为语言研究增添了新的动力。本文用语言数据说明，汉语书面语中确实有一些特别长的句子，但人们不会无节制地使用长句；ChatGPT已经掌握了真实文本中句子单位的长度分布和层级关系的规律，也能够在不同语体之间对句长分布的特征做一定区分，但是在一些细节方面还需要多加关注。而这些规律和细节，正是语言学家所能发现的。本文图中的几条曲线直观展现了汉语书面语句长的概率统计规律，也显示了ChatGPT生成文本与真实文本的共性与差异。这些发现不仅是现阶段大语言模型所需要的，也是语言研究所关注的。在人工智能不断进步的同时，人类也应该加深自我了解。发掘并解决人工智能发展中提出的需求，正是当代语言研究应当发挥的重要作用（陆俭明，2021）。

四.结语

从大规模语言数据中发现语言系统运作的规律，不仅是大语言模型学习人类语言的途径，也是数智时代语言研究应当采用的范式。本文研究发现，现代汉语书面语中句子单位符合语言中句子单位的长度分布和层级关系的规律，ChatGPT生成的汉语文本大体上也符合这些规律。但是，ChatGPT生成的汉语文本中句子长度较真实文本更规整。从句长分布的语体差异来看，ChatGPT生成文本区分语体的能力还没有达到人类的水平。ChatGPT生成语言的基础与人类不同，还没有完全掌握人类使用语言时的省力原则和语用的能动性。以 ChatGPT为代表的大语言模型在不断迭代的过程中，需要结合语言研究的成果，提高模型训练的效率，完善对人类语言规律细节的把握。

作者简介

周义凯

个人简介：周义凯，浙江大学外国语学院博士研究生，主要研究计量语言学、数字人文，已在《外语教学与研究》、Journal of Quantitative Linguistics、Glottometrics等国内外核心期刊上发表多篇论文。

刘海涛

个人简介：刘海涛，浙江大学外国语学院教授，博士，主要研究计量语言学、数字人文，是国际世界语学院院士，国务院政府特殊津贴获得者。浙江大学求是特聘教授，博士生导师；广东外语外贸大学云山领军学者，北京语言大学特聘教授。两次获省优秀博士论文指导教师称号。国内外多种语言学出版物的编委会成员。连续十年入选爱思唯尔“中国高被引学者”榜单。用多种语言发表过涉及数十种人类语言的成果300余篇（部），12项成果获教育部或省级优秀社科成果奖。

本文来源：《语言文字应用》

点击文末“阅读原文”可跳转下载

欢迎转发扩散！

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

微博遗存之七

好文荐读｜周义凯、刘海涛：ChatGPT掌握现代汉语书面语的句长规律了吗？

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

微博遗存之七

生成图片，分享到微信朋友圈

好文荐读｜周义凯、刘海涛：ChatGPT掌握现代汉语书面语的句长规律了吗？

您可能也对以下帖子感兴趣