查看原文
其他

专著推荐 | 管新潮《Python语言数据分析》

交大外语 语言学通讯 2022-06-09

点击蓝字

关注我们



新核心翻译硕士(MTI)系列教材

Python

语言数据分析


Using Python to 

Analyze Language Data



扫码即可购买本书

如需发票请在地址栏下方的留言栏

自行备注Email,抬头和税号

内容提要

    本书分为上下篇,共计十章,以如何将Python编程技术融入语言学/翻译学教学科研活动为线索,展开涉及短语学、情感分析、相似性度量、语义分析、主题建模、语言学变量等方面的语言数据分析。上篇为语言数据分析的基础性知识,旨在构建后续深入分析的技术性前提条件;下篇为语言数据分析的理论与应用,专注于探索语言知识与技术的融合性分析路径。本书以案例讲解为特点,其中的工具案例用于描述技术工具的适用性和可靠性,解决技术应用之前有关编程技术的知识问题;语言学路径案例则紧密结合语言学/翻译学知识探索如何以技术手段解决教学科研中的相关问题。案例的呈现也同时说明算法在解决案例问题中的重要性。获取代码:“Python语言数据”微信号


    本书适合高等院校语言学、翻译学等专业的师生以及从事语言或翻译实践活动的社会人士阅读使用。






  前  言

    《Python语言数据分析》是以Python能力的系统性语言学应用为愿景,旨在探索新文科建设过程中编程技术的融入性解决方案,使得语言与技术在教学科研活动中能够携手并进,互为依靠,共谋发展。


    2020年度首届“思源华为杯”创译大赛的试题开场白说道:

“‘软件必将定义世界’,我们未来所面对的世界是由软件构成和定义的,我们所面对的任何问题可能都被归结于软件问题。”

    近年来的语言技术编程与教学科研实践,使笔者深感言语背后的深刻含义以及可能会给语言学/翻译学带来的深度挑战。就华为技术公司而言,这一话语表述已证明其技术理念布局的超前性和可实现性。就我们的语言学/翻译学而言,虽然目前尚不可完全得知技术介入的方式和强度,但相关高校的学科布局已经证实了行动的必要性。上海交通大学外国语学院的本科专业语言智能方向课程教学现已进入第二个年度,上一届的教学成效颇为显著,其体现:一是这一方向的绝大多数文科生都能很好地掌握Python编程技术,并与语言学知识实现技术融合;二是相当多的同学选择计算语言学为今后的发展方向,有的已成功申请到国际知名大学的计算语言学硕博连读项目。试想五年后或八年后的语言学/翻译学,当有着扎实的语言学/翻译学学科知识基础和高超的学科关联编程能力的青年才俊入盟之时,恐怕真的会出现“软件必将定义世界”的局面,进一步说是“软件必将定义语言学/翻译学”。请记住,这里所说的“软件”已不再是迄今为止我们多数人所能理解的传统软件。



扫码即可购买本书

如需发票请在地址栏下方的留言栏

自行备注Email,抬头和税号

   

基于这样的学科发展背景,本书在语言学知识与技术融合方面进行了诸多计算语言学尝试,意在探索Python编程技术对语言学/翻译学的可融入性路径。由此构成了本书的三大特点:


一是语言知识与技术的融合性

以计算机方式解决语言学问题必须同时认真对待语言和技术这两个要素,过度偏向任何一方都不利于实际语言问题的解决。已有企业实践显示,纯粹用编程技术已无法完全解决涉及语言的产品细腻性问题。本书的立意在于利用技术手段解决语料库教学科研中的相关语言学问题,因此所关注的是如何在技术应用中实现语言与编程技术的最佳融合。并非所有的技术都适用于语言学,特定的技术有其特定的语言学适用性,本书的一项关键性任务是对技术适用性进行语言学验证,以求达成最佳的语言技术融合,并尽可能实现技术的语言学解读。当下的编程技术已经为语言学留下了充分的话语权空间,但须意识到技术的发展时不我待。


二是案例与关联技术的多样性

本书以案例形式呈现技术解决语言学问题的过程,或是以不同技术验证相同的语言学数据,以求技术的可靠性;或是以不同数据验证同一技术,以求技术的适用性;或是以不同技术验证不同数据,以求技术与数据的融合性。案例呈现的关键是算法设计,即在算法的不同阶段如何以最有效的技术实现语言学问题的优化解决。因此,算法设计的基础就是编程技术知识和语言学知识两者的有机结合。本书的各种案例有100多个,可分为工具案例和语言学路径案例。前者用于描述技术工具的适用性和可靠性,解决技术应用之前有关编程技术的知识问题;后者紧密结合语言学/翻译学知识探索如何以技术解决教学科研中的语言学/翻译学问题。


三是编程所涉数据结构的独特性

本书的数据结构有别于计算机学科下的数据结构,主要针对的是语言数据即文本数据。这一独特性体现为以语料库方式循序渐进地呈现语言数据结构,而非计算机内部的存储数据结构。数据结构的设计从文科生学习编程的视角出发,意在提升学习过程中的结果成就感和知识获得感。就列表结构而言,以单词、术语、句子、段落、语篇分级展开,表明文本数据从非结构化转为结构化的一个渐进过程。就维度结构而言,以一维、二维、多维数据结构逐级深入,力求将文本数据的结构化转换引入纵深层次。文本数据转换后的数据结构越显复杂,就越有可能提取出更为细腻的数据信息。本书所创数据结构的用意即在于此。

    基于上述三大特点,本书将语言数据分析的相关内容分为上下两篇。上篇述及语言数据分析的基础性知识,即语言数据结构、语言数据清洗、数据分析可视化、数据分析可选方法四方面。确定基础性内容的前提是判断相关知识在语言数据深入分析环节的作用和意义——数据结构立足于所提取语言信息的细腻性,数据清洗事关语言数据的有效性,可视化与数据信息的呈现效果相关,可选方法是为数据分析提供可资优选利用的选项。下篇以语言数据分析的关键领域为对象,即短语学、情感分析、相似性度量、语义分析、主题建模、语言学变量,讲述具体技术的应用情形。其以文献综述和理论描述与讨论作为每一章的开始,以具体编程技术的呈现作为链接纽带,以语言学研究路径作为语言数据分析的综合呈现。前后篇章相互衔接,互为支撑,共同助力语言数据分析的理论解读。


  目  录

  内容试读

(浏览大图请点击图片放大)

_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_


2021年7月·线上+线下研修班


Python语言数据分析高级研修班


    为了提升广大外语教师和语言研究者应用Python进行语言数据分析的能力,上海交通大学出版社邀请上海交通大学外国语学院专注于该领域研究的专家于2021年7月26日—27日在上海田林宾馆举办“Python语言数据分析高级研修班”线上线下同期开展研修班,配备多名助教全程答疑辅导。

本次研修班具有以下特点:

1. 课程设计从文科生学习编程的视角出发,力图提升学习过程中的成就感;

2. 本课程注重语言知识与技术的融合性;

3. 本课程注重技术的可拓展性。

会议时间:2021年7月26日—27日(共2天)

会议地点:上海田林宾馆(线下,限定60人)/文华在线优学院直播课堂(线上,限定40人)

参会人员:Python零基础可参加


(会议详细通知请点击文末“阅读全文”进行跳转阅读)


新核心翻译硕士(MTI)系列教材

新核心翻译硕士(MTI)系列教材充分体现了翻译活动的实践性。

本系列教材与传统翻译教材相比,特点有三:

① 内容的实践性——所涉案例均来源于翻译实践,力求体现翻译实践中案例的代表性和经典性;

② 教学的适应性——所有教材均已经过翻译课堂的教学检验,是教学之后的成果总结与有机呈现;

③ 理论的提升性——注重实践内容的理论依托,是一种有序的翻译实践行为。


翻译技术

    本书从狭义和广义翻译技术的区别、从局部到整体的考量、由内而外的学习路径这三个视角出发,介绍并描述了不同翻译技术的应用原理、操作流程、注意事项等内容。本书的适用读者是翻译技术的爱好者、从业者以及相关的教师和学生等。

扫码即可购买本书

如需发票请在地址栏下方的留言栏

自行备注Email,抬头和税号


本文编辑:交大外语

本文推广:语言学通讯


关注您的语言学习、教学与科研

语言学通讯

赞赏我们   |  关注我们

请留下你指尖的温度

这是一个有温度的公众号

球分享

球点赞

球在看 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存