查看原文
其他

论文荐读 | 基于句法标注语料库的英语书面语复句使用频数研究

刘金路 刘海涛 计量语言学
2024-09-04

读者朋友们还记得我们两个月前推荐的《英语复句句法复杂性的计量研究》一文吗?该文指出,人们在用英语表达时不得不用英语复句,但同时也会尽可能用那些相对更简单的复句类型。那么,人们使用英语复句的具体习惯会随语言变体和使用场合不同而异吗?在《中国外语》2024年第4期上,我们对有关英语复句的这些问题做了进一步探索。



在作者小时候,家长啥时能让我们小伙伴吃上一口肉,那自然是最美妙的事。随着生活水平大幅提升,如今各种肉应有尽有,想吃肉也是随时随地。可说到吃肉,一年四季里,您还记得哪种肉吃得最贵?哪种肉吃得最多?哪个场合吃得最好?第一个涉及种类,第二个涉及数量,最后一个涉及场合


在中小学的英语课堂上,老师啥时能让我们小伙伴写一个复句,那都是具有挑战性的。随着英语水平大幅提高,如今各种句子那是应写尽写,想写难句也是随时随地。可说到写句子,各个学期里,您还记得哪种句子写得最难?哪种句子写得最多?哪个场合写得最好?第一个涉及种类,第二个涉及频数,最后一个涉及文体


本质上看,语言是有层级的,而书面语的表现形式是线性结构。按照线性结构的复杂程度,英语的句子可分为三类,即简单句、并列句和复句(complex sentence),复句是由主句加一个或多个从句而构成的句子类型(Quirk et al. 1985)。既然如此,初学英语时,写个复句自然是跟作者小时候吃上一口牛肉一样“奢侈”。语言水平提升了,写个复句就像现在吃牛肉那般自然就变得简单了许多。说到场合,如果是在新婚宴亦或是升学宴,吃口牛肉那自然是“得来全不费工夫”,毕竟是正式场合嘛,虽然牛肉贵那也得“勒紧裤腰带”,管饱啊。故事说到这里,下面的情节怎么演绎,或许您已猜出个一二。没错,英语复句是我们的主人公,情节发展会随着句子种类、使用频数及文体差异循序渐进。


作为三个句子种类中最难的类型,英语复句的使用频数究竟如何?为了揭开这层面纱,我们打算让“使用频数”这个“小伙伴”去Brown(美式英语)和LOB(英式英语)两个书面语语料库中一探究竟。

*此图由ChatGPT生成


美式英语和英式英语是最有代表性的两大英语变体,为获取英语复句的使用频数,我们将Brown语料库和LOB语料库合并,系统分析简单句、并列句与复句的使用频数差异。结果显示,英语复句的使用频数占比为39.33%。换言之,在不考虑文体变量的情况下,英语书面语里每10个句子,至多有4个为复句,剩下6个均为简单句或并列句。这样看来,复句算是英语语言中的一道“硬菜”,虽然美味,但成本高,并不是常能吃到的。


说到吃肉的场合不同,也就是语言使用中的文体差异了。前人的研究早就指出,在书面语中,文体是有区别且可识别的文本类型,文体不同可能意味着语言的使用也存有差异。在不同文体中,英语复句的使用频数又是否会有差异呢?Student's t test表明,在不同文体中,英语复句的使用频数占比存在显著性差异。更为有趣的是,无论是美式英语还是英式英语(见图1),在宗教、文学、传记和散文这些较为正式和严肃的文体中,英语复句的使用频数都比较高,而在小说这类轻松、幽默的文体中则较低(注:K, L, M, N为小说文体,D, G, J等为宗教、文学与传记文体)。这个发现就又跟新婚宴亦或是升学宴上可以轻松吃到牛肉如出一辙,场合很重要。

图1  Brown 与 LOB 语料库中不同文体英语复句使用频数占比对比


紧接着,我们不禁好奇,既然在美式英语和英式英语中,英语复句的使用频数占比出现了相似趋势,且小说类文体和非小说类文体的差别又十分明显。那么,英语复句的使用频数是否可以作为区分小说和非小说类文体的有效指标呢?聚类分析的结果(见图2)表明,B、 J、 G与C、 F、 R、D出现在同一聚类中,而K、 L、 P、 M出现在另一聚类中。有趣的是,除P(浪漫爱情故事)以外, L(悬疑与侦探小说)、 K(普通小说)和M(科幻小说)都属于小说类文体。简言之,文体差异确实会显著影响英语复句的使用频数,而英语复句的使用频数可以考虑作为区分小说和非小说类文体的有效指标

图2  基于复句使用频数占比的聚类分析


美式英语和英式英语是英语的两大代表性变体。尽管英式英语有时会转向采用某些美式英语的表达,但两种变体似乎在最大限度地保持着它们各自的特征,就像菜品口味有“南北之分”一样。那么,在英语复句的使用频数上,两大英语变体之间会有显著性差别吗?在Brown语料库中,英语复句的使用频数(20575)在句子总使用频数(55945)中的占比为36.78%,而在LOB语料库中,英语复句的使用频数(20080)在句子总使用频数(52509)中的占比为42.05%。Student's t test显示,两者没有显著性差异,这在一定程度上显示出,人类语言在句子使用上的普遍性特征,即不管是哪种语言社区,都没有办法顿顿吃“硬菜”


作为一盘上得厅堂的“硬菜”,复句的“做法”也是多姿多彩。复句最典型的特征就是从句的嵌入。在句法标注的过程中,关系从句、名词性从句和状语从句被依次标记为“a”“b”和“c”。数据表明,90%左右的英语复句所包含的从句数量为1至2个。我们对只含有1个从句的英语复句的使用频数进行统计(见图3)后发现,关系从句与状语从句在两个语料库中的使用频数基本一致,而名词性从句的使用频数之间则有较大差异,这可能与样本的数量有关。关系从句的使用频数均不是三类从句中最低的,这与之前的相关研究结论(Tyack & Gottsleben,1986;Scott,1988)相悖。


图3 英式英语与美式英语中的单从句复句使用频数的对比


而在含有2个从句的复句频数使用方面,两个语料库都显示出了同样的趋势。包含两个相同类型从句的复句使用频数反而低于从句类型不同时的复句,双状语从句的复句使用频数最低,名词性从句与状语从句共现的复句使用频数则属最高(见图4)。看来,肉还是要搭配着吃更有营养,不然,单一无趣,吃的人自然就会少嘛。


图4 英式英语与美式英语中的双从句复句使用频数对比


综上,从使用频数、文体差异、语言变体以及复句所含从句的类型与数量多个维度出发,我们发现了英语复句使用频数上的些许秘密:


与英语复句相比,简单句和并列句是更常见的句子类型。按照文体的差异,复句使用频数占比在20.18%和51.90%之间波动。简言之,在书面语中自然产出10个句子时,最少会出现2个复句,而最多时也只会有5个而已。


在不同文体中,复句的使用频数也各不相同,在较为严肃正式的文体中其使用频数更高,而在小说类文体中则最低。复句的使用频数可能是小说和非小说文体之间的一个分类指标。


美式英语和英式英语在复句使用频数上差异不显著,这体现了人类语言的普遍性。


英语复句嵌入的从句类型和数量也是影响复句使用频数的重要因素,人们更喜欢使用类型不同的从句搭配起来嵌入复句中进行完整语义的表达。


英语复句的研究仍有很多值得探索且尚未探索的地方,未来,让我们一起对其具体的语言现象进行广泛而深入的跨学科研究,好好品一品这盘“硬菜”,以揭示人类语言系统中的更多奥秘。


·END·

参考文献略。

欢迎对本文感兴趣的读者阅读、引用原文


原文引用信息:

刘金路, 刘海涛. 基于句法标注语料库的英语书面语复句使用频数研究 [J]. 中国外语, 2024, 21(04): 38-49.

您可能还想看

SEE ALSO

论文荐读 | ChatGPT掌握现代汉语书面语的句长规律了吗?

论文荐读 | 德语词长的跨语体历时演化研究

论文荐读|机器翻译痕迹究竟是什么?

论文荐读 | 苹果发布会里的语言奥秘

论文荐读 | 大语言模型的语用能力探索——从整体评估到反语分析

“在看”我吗?

个人观点,仅供参考
继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存