查看原文
其他

刘海涛:数据驱动的语言应用研究

刘海涛 应用语言学研习 2022-06-09

关注应用语言学研习,一站式获取前沿学术资讯

本文来源:计量语言学微信公众号

最新一期的《语言文字应用》(2021年第1期)刊登了一组数据驱动的语言文字应用研究论文。本号从今日起,将连续四天为大家做一些推荐,欢迎关注。今天小编给大家带来的是刘海涛教授为这组论文撰写的导言《数据驱动的语言应用研究》。全文如下:


周有光先生在《语言文字应用》的首期首篇文章中认为,应用语言学最主要和最紧迫的研究有三个方面:语言教学、语言计划、信息处理。时至今日,语言信息处理在人类语言大数据的加持下,已经取得了长足的进步。值得注意的是,在赋予计算机语言智能的过程中,语言学家所起的作用微不足道。为什么最懂语言的语言学家在这个最需要语言学家的智能时代,却被无情地抛弃了?为什么语言学家发现的那么多的语言规律没有派上用场?是寻找规律的方法有问题,还是这些“语言规律”本身反映的并不是人类语言的规律或人类语言系统最本质的规律?在这种情况下,应用语言学研究者,可能需要自已探求基于应用的语言规律,此时可从语言信息处理同行们的成功中得到启发:语言规律源于语言使用。
在语言教学方面,一个显见的事实是,不同水平的学习者产出的语言是不一样的。尽管可以采用各种现代的实验方法来研究学习者的心理、神经等认知机制,但对语言学家而言,从真实的学习者语言数据中发现语言学习的规律,并使用这些规律改进语言教学的过程,可能是一种永不过时的可靠方法。在《语言文字应用》的首期中,我们看到吕必松、鲁健骥等人有关语言教学的文章。由于受时代因素的限制,这些文章大多采用了思辨或举例的方法,但文中的许多思考至今仍有现实意义。如,吕必松说“没有对语言的规律和规则的描写,语言教学就寸步难行。”鲁健骥则认为,偏误分析旨在发现外语学习者发生偏误的规律,可使外语教学更有效、更有针对性。这说明,《语言文字应用》从创刊之日起,就非常关注语言规律对于语言教学的作用,关注应用语言学与语言规律之间的关系。
29年过去了,人类已经进入一个由大数据催生的智能时代,技术的发展,数据驱动语言学研究方法的进步,使得我们有了从大量学习者真实语料中发现规律的可能,也就有了本专题中有关学习者语言的两篇研究。学习者语言是一种过渡语。这就要求研究者采用同一种测度指标对不同水平学习者的语言数据进行统计分析,必要时也需要与母语者的语言数据进行比较,否则,我们很难发现中介语所具有的过渡性、渐进性、连续性、动态性等特点。本专题的两篇文章均采用了句法标注的学习者语料作为研究资源,但研究的对象与视角不同。
基于词间依存句法关系分析人类语言真实语料的方法,已在自然语言处理领域得到了广泛应用,并正成为基于数据的学习者语言研究的主要句法模型。动词在基于配价的依存分析架构中占有核心的地位。如果将配价理解为词语的结合能力,那么研究学习者动词配价的发展规律就显得尤为重要了。郝瑜鑫等采用“概率配价模式”,对英语母语的汉语学习者的动词配价发展进行了研究,结果发现学习者动词配价发展是一个连续、渐进与多因素并存的过程。严格说来,尽管“概率配价“使我们有了从动态的语料中获得和研究词语配价的可能,但配价本身是词的一种静态特征,它所蕴含的结合能力也是一种潜在能力。这种潜在能力只能在词语的具体使用中显现出来。实现了的配价便形成了句法关系。人类语言是一种人驱的复杂适应系统。这里的人驱有两层意思,一是离开了人的使用,语言将不再有生命;二是在语言使用过程中,人的认知机制对于语言结构是有约束的。依存距离指的是两个具有句法关系的词在句子中的线性距离。对数十种语言大规模语料的计量分析表明,由于受人类工作记忆容量的约束,人类语言具有一种依存距离最小的倾向。因此,两个形成句法关系的词在句子中离得越远,就越难理解或越难生成。蒋景阳、姜茜茜的文章,采用依存距离作为计量指标,以汉语母语的英语学习者为对象,考察了学习者错误、依存距离与二语水平之间的关系。她们的研究表明,对于相同的长距离依存关系,中低水平与高水平学习者的处理策略与能力是不一样的,展现了语言学习过程的复杂性和多样性。这两项基于英汉、汉英的学习者句法标注语料库的研究,在语言加工和产出之间建立了科学可信的证据链,为语言习得提供了一种符合数据+智能时代精神的研究思路。
语言计划,今天一般称之为语言规划,是周有光先生提及的应用语言学的另一个重要领域。汉字的规范化与简化历来是中国语言规划的主要内容之一。在《语言文字应用》的头三期中,我们也发现了多篇有关汉字(简化)的文章。在有关汉字的语言规划讨论中,繁简之争似乎是一个永远也难有结论的话题。尽管从理论上讲,文字只是记录语言的符号,但历史的长河为语言与文字的关系带来了太多难以分离的水滴。语言规划是一种顺势而为的活动,这里的“势”指的是语言文字的结构与演化规律。众多实践表明,顺势的规划更容易取得成功。索绪尔说,“语言是一个系统,它的任何部分都可以而且应该从它们共时的连带关系方面去加以考虑。”汉字是汉语书面语的基本组成单位。因此,为了更客观地判断汉字简化对于汉语结构的影响,我们可能需要从真实的汉字流中发现汉语书面语的结构规律。黄伟以计量语言学中研究线性规律的动链为指标,基于数百篇繁体字与简体字的文本,研究了两类字体文本的结构特征。他的研究表明,字形简化没有改变汉字构形系统与动态使用中的分布规律,也没有改变字形线性组合模式的频次与长度分布规律。这说明,现有的汉字简化并没有打破汉语书面语结构的线性规律,是一种顺势而为的语言规划活动。
这里的三篇论文只是数据驱动语言文字应用研究的初步尝试,还存在着一些不足,但可以肯定的是,基于语言使用数据的应用语言学研究更客观地反映了语言使用的现实,更密切地关注了“概率性”这一人类语言的本质属性,因此,也就有可能更好地回答应用语言学研究者关切的问题。

相关文献延伸阅读(研习人指引)

本平台友情整理相关文献索引链接,

感兴趣的老师、研友可自行选购


精选推荐

点击左下方阅读原文发现更多语言学好书!



推荐阅读:
汉语国际教育怎么办?大咖云集出谋划策(李宇明、刘利、王甬、吴应辉、王辉…)
中英双语 |《国际中文教育中文水平等级标准》重磅发布!
100所发布外语类专业研究生调剂信息高校汇总(不仅限于外语类)
前沿 | 2021年度语言文学类学术会议集锦
线上研讨 | 社科基金后期资助——从规划到立项
北京外国语大学 2021年“一带一路”外语专业综合评价招生简章
三部门通知:科研人员发放现金奖励将不受限
国家社科基金评审标准解读
《中国外语》专号预告|外语课程思政建设
会讯 | 第20/21届中国认知语言学国际论坛(附征稿通知)
高雪松 康铭浩 | 国外语言政策研究的问题和路径
观点汇辑|“国际中文教育”大家谈
《语言战略动态》文摘版(2014年)转载文章一览表
“外国语言学及应用语言学前沿问题”高层论坛暨2021《外国语》选题研讨会
回放︱第五届全国高等学校外语教育改革与发展高端论坛
回放丨大学英语论坛 1-2:国家级一流课程建设+院校特色与课程创新
回放丨英语类专业论坛 3-4:一流本科专业与课程建设+新文科建设与学科融合发展
回放丨专题论坛 5-6:课程思政论坛 + 智慧教育论坛
回放+综述 | 多语种教育论坛 7:国家人才需求与教学创新
翻译必备 | 最好用的语料库了解一下,没有之一!
郭熙 林瑀欢:明确“国际中文教育”的内涵和外延(外一篇:白紫薇 | 孔子学院转型发展研究)
文秋芳 | 学术英语化与中文地位的提升:问题与建议
《外语教学与研究》2020年总目录
毛浩然:快速入门一个新学科领域的六部曲
调剂信息 | 37所高校外语及中文相关调剂信息【附链接】
视频合集 | Caroline Heycock:生成句法入门(课程共11讲+番外篇)
《中文核心期刊要目总览》2020版研究概况(来源:北大图书馆网站)
教育部人文社科研究项目语言学立项趋势及申报建议 ( 2009-2019)
基于普通语言学的当代英语功能分析 (胡壮麟等 序,陈建华等 译)
我们用爬虫和机器学习模型深挖了拜登的对华智库
会讯 | 2021年全国高校大学英语教学改革与发展研讨会
会讯 | 2021年全国高校英语类专业教学改革与发展研讨会
国际顶级杂志《文体》以特刊形式集中探讨北大申丹教授首创的叙事理论
申丹 | 西方文论关键词:隐性进程 |《外国文学》2019(1)
张蕴岭:国际区域学思考【世界知识】
克里斯蒂娃:《普遍的语言学与“可怜的语言学家”》(龚兆华 王东亮译)
外语教学:国别和区域研究专题 |《外语学刊》
会讯 | 第二届国际中文教育发展智库论坛通知(第一号)
交流 | 盘点设立语言学/应用语言学本科专业的七所中国高校
交流 | 被评为“语言学”一流学科的高校建设得怎么样了?
“语言生活”研究热点︱语言政策与规划研究
科研助力 | (即将)读研究生的你,如何选择研究方法?
焦点 | 2021全国两会语言文字类提案盘点
观点 | 汉语教学标准与大纲专题
冯志伟先生谈计算语言学
蔡基刚:取消英语主课地位,无异于重新回到闭关自守年代
“不应以任何方式削弱英语教育的地位和价值”——外语界部分知名专家谈“取消英语在中小学主课地位”
北外教授张连仲:“小学开设英语课程是明智之举” 全球化时代英语教育更应加强
取消英语主科、淡化英语考试、削弱英语地位,谁最高兴?
不懂英语,造就了13亿人的信息孤岛
全国政协委员张博:推动国际中文教育成为一级学科或特色交叉学科
会讯 | 第二届全球语言治理论坛 会议通知
王克非: 新中国翻译学科发展历程
纪念王德春先生逝世十周年暨当代语言学新视野国际研讨会 会议通知(第一号)
新书 | 文秋芳著《产出导向法:中国外语教育理论创新探索》
《中国小语种教育趋势报告》:在线教育优化供给端,小语种高考机会来临
陈众议委员:乐见小语种教育进入中小学  母语和外语教育并不构成矛盾
重磅 | 2020年度全国高校新增和撤销的语言类本科专业名单汇总
第五届全国高等学校外语教育改革与发展高端论坛(二号通知)
会讯 | 第六届中国教育语言学高端论坛 (1号通知)
第八届文体学国际研讨会暨第十二届中国逻辑学会文体学研讨会一号通知
会讯 | 第三届“‘一带一路’背景下的汉语国际教育” 国际学术研讨会
盘点 | 中国古代语言文字学名人录
汇总帖丨外文局审定600条新冠疫情相关词汇中英表达
科研贴士 | 如何写好研究计划(Research Proposal)?
《你好,李焕英》英文名为何用这个?
黄国文:思政视角下的英语教材分析
乔姆斯基 | Minimalism: where we are now, and where we are going
李宇明:语言与人类文明 | 中国社会科学报
吴勇毅:国际中文教育“十四五”展望
张辉 张艳敏 | 批评认知语言学:理论源流、认知基础与研究方法
刘英凯:试论奈达“读者反应”论在中国的负面作用(修订稿)
刘英凯:华夏文化自我中心观及外来语的汉译
盘点 | 各学科C刊 2021年重点选题方向汇总!(来源:人大复印报刊资料)
沈骑 | 新中国外语教育规划70年:范式变迁与战略转型
文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》
包广将 | 国际关系文化学派:演化、争鸣及特性
2020人大复印资料语言学·文学类最受欢迎文章集萃
李葆嘉:西洋汉语文法学三百年鸟瞰 | 华东师范大学学报(哲社版)
教育部:全球有70个国家将中文纳入国民教育体系
近五年国家社科基金年度项目 语言学立项名单一览
近四年国家社科青年项目“语言学”类立项名单一览
译词 | 64个跨文化核心词(含中英释义)
黄友义:疫情之后看外语和翻译的多与少 |《中国外语》
乔姆斯基:语言学的“当时”和“现在”
陈平:语言交叉学科研究的理论与实践
陈平 | 交叉学科教学与研究:做什么,怎么做?
吴应辉 梁宇:交叉学科视域下国际中文教育学科理论体系与知识体系构建
吴应辉:汉语国际教育面临的若干理论与实践问题
图说孔子学院新机制 新模式 | 2020孔子学院合作论坛主旨发言
荐书 | 潘艳艳《多模态国防话语的认知批评研究》附胡壮麟教授、张辉教授序
新书 | 顾曰国 黄立鹤:《老年语言学与多模态研究》
多模态视野下的国家媒介形象:概念与特征 | 中国社会科学报
视频+全文| 马斯克专访,远见令人震撼!语言是人类最伟大的发明
刘英凯:归化——翻译的歧路
刘英凯:信息时代翻译中“陌生化”的必要性和不可避免性
交流 | 那些隐藏在高校“文学院”中的“自然语言处理”专业
李晨阳:关于新时代中国特色国别与区域研究范式的思考
推荐 | 第二语言教学法主要流派全收录(值得收藏)
国外语言学学科眼动研究: 现状与前瞻( 1934-2020)
沈家煊:“能简则简”和“分清主次”——语言研究方法论谈
李强:关于区域与国别研究方法论的思考
神经语言学国际热点与趋势的科学知识图谱分析
学者聚焦 | 文秋芳:对外语专业学生思辨能力培养的四点建议
姜望琪:Halliday的语篇衔接理论 |《语篇语言学研究(第二版)》
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
重磅 | 全国高校拟新增语言类专业硕博学位点名单(语言服务最新整理版)
新书 | 王军:《衔接的认知语用研究》 商务印书馆
【高端笔谈】外国语言文学学科高质量发展的路径
邢向东:论语言研究中的问题导向
国内生态学视角外语教学的特征和趋势 ——基于CiteSpace的可视化分析
干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)
冯志伟:当前计算语言学发展的几个特点 | 中国社会科学网
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
世界语言谱系及语种概览 | 语言学微课堂
陈平 | 理论语言学、语言交叉学科与应用研究:观察与思考
徐锦芬 曹忠凯:国内外外语 /二语课堂互动研究
韩晔 高雪松 | 国内外近年线上外语教学研究述评:理论基础、核心概念及研究方法
近十年国际语言政策与规划研究热点与趋势——基于Scopus数据库的可视化分析
中国英语教育四十年反思及其对新文科背景下英语专业建设的启示
报告全文 | 教育部高教司司长吴岩:积势蓄势谋势 识变应变求变 全面推进新文科建设
王学典:何谓“新文科”?
海外中国学研究机构名录一览表(2020年版)
干货 | 3000个常见公共场所英语标示!(国家英文译写规范)
李宇明 郭熙 周洪波 | 中国语言生活研究十五年
讲座视频 | 沈骑:后疫情时代的国家话语能力规划
张伟年 段宛云等:战略传播学视阈下特朗普涉华新冠肺炎污名化推特分析
语言专业师生必看的10部电影(附观看链接)
蔡基刚:应急语言服务与应急语言教学探索
大汇总 | 第1 - 10批推荐使用的外语词规范中文译名(附Word版下载方式)
何莲珍:新时代大学英语教学的新要求——《大学英语教学指南》修订依据与要点
文秋芳教授:中国外语教学70年,未来道路究竟向何方?
书讯 | 利奇《语用学原则》中译本出版
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
束定芳:大学英语教学与国际化人才培养 |《外国语》2020年第5期
陈力:西方现代教学理论真的反对语法教学吗?
接触理论:生成语法研究的新进展 | 中国社会科学报
荐书 | 徐烈炯著《生成语法理论:标准理论到最简方案》
合辑 | 双语版《美丽中国》( Amazing China ):1-58集(全)
对外汉语专业常用资料库大全
收藏!76种学术研究必备科研工具
梁茂成 | 语料库语言学研究的两种范式:渊源、分歧及前景
荐书 | 北京大学出版社语言学图书书单
视频 | 听胡壮麟教授讲《语言学教程》那些事儿
中国访谈丨北京外国语大学校长杨丹:培养跨文化交流引领者
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
大师课程 | 乔姆斯基等:语言,思维和大脑
王缉思:浅谈区域与国别研究的学科基础
21世纪以来中国的太平洋岛国研究:历史、现实与未来
视频 | TED Ed:语言进化编年史
荐书 | 德古意特认知语言学研究丛书+应用丛书(13种)
外语教学类高被引论文排行榜 TOP 10
“国家形象研究”高被引论文排行榜 TOP 10
高雪松 : "人文 vs. 工具" 也许是过去四十年外语教育大辩论中的伪命题
中英文学科、专业名称对照
乔姆斯基:三个讲座,国内少见
视频 | Metaphors We Live By 内容导读 (我们赖以生存的隐喻)
多模态话语分析:以“疫情防控外语通”为例
《牛津英语》语法大讲堂(视频全集)
所以,什么是语言学?| 语言学微课堂

扫码关注,即可获取最新入群二维码

目前已有2.5万语言文学、国别区域

研习者关注↑↑↑本公众号,

欢迎加入我们,交流分享,共同学习!

一个,点亮在看


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存