查看原文
其他

论文荐读 | 德语词长的跨语体历时演化研究

练斐 等 计量语言学
2024-09-04

大家可能见过一些在互联网上广为流传的德语长词,比如Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz(牛肉标签监管责任委托法),但在杜登语料库中还有比它更长的词,比如79个字母的词长王者“牛肉肉类识别标签监管责任委托法”。


下表展示了杜登语料库中的排名前5位的超长词。该统计考虑了多文性,只有在语料库中出现了至少5次的词才能上榜。官方表示,杜登语料库中的长词主要来自法律和行政文本,多为复合名词。我们不禁要问:德语词汇的长度存在明显的跨语体区别吗,它们的历时演化路径存在差异吗?

来源:

https://www.duden.de/sprachwissen/sprachratgeber/Die-langsten-Worter-im-Dudenkorpus


近日,《外语教学》刊发的题为《德语词长的跨语体历时演化研究》的文章就对上述问题开展了讨论。本期荐读就一起来看看吧!



德语史看,德意志民族因长期未形成统一国家,各地语言也有所不同,直到马丁·路德于 16 世纪中叶完成德译本《圣经》,加之印刷术的普及,德语的标准化才得以推进。该研究以柏林—勃兰登堡科学院建立的德语文本历时语料库(Deutsches Textarchiv)为数据来源,选取 1600—1899 年间出版的文学作品、应用文章、学术文献、报刊文本为研究语料(分为6个时段,总词次约2000万),以探究高地德语开启标准化进程后的书面语演化路径。


在系统分析德语词长的历时演化规律和跨语体特征之前,首先要确定词长的测算单位。作者选择字母、字位、音节作为备选测量单位,以词长分布及分布模型、“词长-词频”协同关系、语言层级关系为指标,利用报刊语料考察了三个词长测量方案的有效性。结果显示,音节是最适合德语书面语的词长测量单位


德语是屈折语,词汇形态丰富,应该基于何种形态测算词长呢?作者主张在区分语料形符(token)、类符(type)的基础上,引入词形(word form)、词目(lemma)概念。词形形符包含单复数、格等语法属性,反映词汇在篇章中的具体使用情况,而词目类符的长度以未经屈折变化、且不重复的词目为基础,数据体现各时期语言系统中相对静态的词长特点。


基于平均词长的统计数据显示,17-19世纪的德语词汇整体呈增长趋势,学术文献、应用文章的用词长度增速较快,而文学用词的增速则相对平缓。



词长分布数据同时显示,各语体的词长类数量均历时增多。各时段、各语体基于词形形符的词长分布十分相似(下图左侧),均呈现“词汇越长,占比越低”的长尾特点,单音节词约占50%。在基于词目类符的词长分布中(下图右侧),双音节和三音节词占比居前,合计约为70%,但单音节词的占比不足20%。由此可见,德语中还是短词用得多。



进一步观察不同语体内部的词长特点后发现,学术文献、应用文章中的单音节与双音节词占比都在历时下降,包含三个及以上音节的词汇数量随之增加,而文学语料中的各词长类占比则处于历时波动状态。作者认为,这与德语国家的社会文化发展以及语体差异有着密切关联。



17-19世纪间,欧洲经历了地理大发现、启蒙运动、工业革命、现代化等重要历史时期。生产力水平的发展、专业领域的细化以及新的交际需求都催生了对新词汇、新表达的大量需求,德语词汇也在此过程中变得越来越长。学术文献对新技术、新思想的最为敏感,语言追求精准、客观、经济,常使用复合词、名词化及定语结构以追求语言经济性,语法、句式相较其他语体也更为复杂。而相比信息类语体,文学作品的故事性更强,口语化表达、动词体、对话较多,不同历史时期的文学风格也没有直接的继承关系,因而词长的历时演化速率相对缓慢。


从理论来说,德语词汇没有最长,只有更长。这样是不是太不“用户友好”了呢?实则不然。德语常用的构词方法是复合,相比从其他语言系统借词,或是拓展现有词汇含义,复合词其实是人们“省力”的结果。汉语复合词的功用也很类似。



通过对比Martin(1976)有关荷兰语、Chen et al.(2015)关于汉语的词长研究,作者发现,德语、汉语、荷兰语的词长特点相似:① 历时增长;② 词越短,使用频率越高。再次证明,尽管全球语言多样、差异显著,但人类相似的生理基础、社会发展需求、基本构词方法造就了跨语言共性。


《德语词长的跨语体历时演化研究》基于2000万词次17-19世纪的多语体德语语料,以音节为词长测量单位,采用计量语言学方法,考察了德语词长的历时演化规律并分析动因。结果表明:① 在德语标准化初期,不同语体词汇的长度相近,此后词长历时增长,语体差异扩大;词长反映的跨语体差异主要由语言风格、交际意图及学科发展造成。③ 德语系统中虽然存在超长词,且其长度可以无限增长,但短词的实际使用频率更高;此外,超长词的存在也是为了减轻大脑的认知负担。


是不是这么看下来,超长的德语词也没有那么可怕啦?


语言是一个复杂的自适应动态系统,语内及语外因素共同促成了其历时演化。若想了解更多信息,敬请点击文末“阅读原文”


·END·

参考文献略。

欢迎对本文感兴趣的读者阅读、引用原文


原文引用信息:

练斐, 李媛, 刘海涛. 德语词长的跨语体历时演化研究[J]. 外语教学, 2024, 45(03): 20-25.


您可能还想看

SEE ALSO

论文荐读|机器翻译痕迹究竟是什么?
论文荐读 | 苹果发布会里的语言奥秘
论文荐读 | 大语言模型的语用能力探索——从整体评估到反语分析
论文荐读 | 从细读到远观:数智时代人文研究的新路向
会讯 | “语言计量与数字人文”暨第七届计量语言学学术研讨会征稿通知(1号)


“在看”我吗?

个人观点,仅供参考
继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存