查看原文
其他

數位人文·十 | 北京大学数字人文研究中心推介

史学学术社 整理 人文学术社 2022-01-05

编 者 按

BIANZHE  AN

    由人文计算(humanities computing)发展而来的数字人文学(Digital Humanities),作为电脑运算、资讯科技与人文学科的交叉学科,近十余年来已成为人文学科发展的重要趋向之一。历史学作为人文学科的重要成员,如何因应这一数字化时代带给人文学科发展的机遇和挑战,成为各国人文学者与人文学爱好者共同面对的问题。史学学术社(ID:Aca-history)为此推出系列数字人文资讯,一方面介绍中西方数字人文发展的现状,介绍有关数字人文的成果;另一方面也希望借此引起更多朋友对数字人文的关注与参与,将数字科技应用于史学研究中,最终使新形态的数字史学教学与研究成为可能。

      本次推送为大家带来北京大学数字人文研究中心相关资讯。


Vol.1

简介

成立于2020年5月27日的北京大学数字人文研究中心是北京大学的跨学科研究虚体。中心的核心目标是打造智能信息环境下人文学科发展的信息基础设施。中心致力于建立人文社科学者与理工科专家的交流与协作渠道,一方面推动大数据、人工智能等数字技术在人文社科领域的应用,另一发面为技术创新提供人文精神的指向,推动信息技术与人文社科的双向融合发展。


北京大学数字人文中心在校内致力于整合北大各院系相关学科的研究力量,吸引多学科师生参与,共同构筑跨学科、多层次、协同创新的数字人文平台;在校外积极与国内外高校和相关学术机构建立广泛的学术合作,共同筹办学术活动、培养高端学术人才、推动跨学科、跨地域、跨文化的数字人文研究项目。


https://pkudh.org/

Vol.2

项目展示

1. 中国历史人物资料库WEB检索系统

中国历代人物传记资料库(以下简称 CBDB)是一个关系型数据库,由郝若贝(Robert Hartwell)教授于上世纪90年代建立,目前由哈佛大学费正清中国研究中心、北京大学中古史中心、台湾中央研究院历史语言研究所等机构合作开发、维护。当前,CBDB 是全球收录记录最广、使用最广泛的中国历史人物资料库之一。


CBDB的WEB在线查询系统原由中研院十年前开发。北京大学数字人文研究中心承担了在线查询系统第二版的设计研发,目标是完善现有查询功能存在的不足,重新构建一个对用户友好的 CBDB在线查询系统。开发工作主要由陈诺、卞恩华两位同学负责,并与哈佛大学CBDB项目经理王宏甦和台湾中研院历史语言研究所王祥安、盧建安协作,对CBDB 在线系统进行重构。


新系统在功能上具备数据加载和导出功能,方便用户利用其它工具和软件进一步分析检索所得数据,使 CBDB 在线查询系统更好发挥辅助学者研究的作用。新的 Web 查询系统已经部署在哈佛费正清中国研究中心的“中国历史人物资料库”的主服务器和北京大学图书馆的服务器上,面向全球用户开放,服务更多的中国古代史研究人员。

http://cbdb.ptan.moe/


2.宋代学术传承知识图谱

“中国历史人物资料库"(CBDB)是由美国哈佛大学发起筹建的,包含从唐朝至清朝四十余万人的传记资料库。为进一步呈现和发掘这一开放资源的价值,该中心研究人员尝试应用知识图谱实现对数据的展示和查询,从CBDB中抽取宋代人物之间的学术传承关系和部分亲属关系,构建了一个示例性的本体应用,共导入70万条RDF语义数据,利用开放源码relFinder提供动态的、可视化的历史知识探索与发现。

http://dh.kvlab.org/cbdb_kg


3.中国古代历史人物迁徙可视化平台

该平台旨在对中国历代重要人物的迁徙路径进行可视化,而众多迁徙路径的汇聚恰恰能反映当时政治中心和文化中心变迁,以及政治文化中心对周边城市的集聚效应。此处的一条迁徙路径指一个人的出生地(若无则为籍贯地)至其死亡地(若无则为最后所知地)的有向边,通过对生死地、迁徙路径、城市生死人数差异进行视觉编码,可以还原出生动壮阔的历史图景。此外,单独对“唐代历史人物迁徙”进行了按年份展示。

http://dh.kvlab.org/cbdb_vis/home.html


4.中国学术师承可视化平台

中国自古重师道,门人群体是传播学术思想的重要力量。平台通过静态的树状图和动态的网络图来呈现士人的学术师承关系,帮助用户理解学术传承脉络的衍变。平台进一步对门人群体的籍贯分布可视化,以展示其学术影响力的范围;对门人的官职信息分布进行统计,以展示其门人的仕途成就。

http://dh.kvlab.org/cbdb_vis/home.html


5.古籍数字化整理平台

古籍自动整理平台项目按照传统古籍整理的流程,利用最先进的图像识别技术和自然语言处理技术,开发了一个从古籍图片OCR文字识别,到自动断句、命名实体识别、文本校勘的全流程的古籍整理平台原型系统。本系统的OCR识别模块集成多种图像识别技术,文字识别准确率达到92%,可进行单图片处理,也可进行批量图片处理,同时可对识别结果进行人工修改;断句模块基于最新预训练语言模型BERT,断句准确率可达93%,可同时处理简体和繁体文本;命名实体模块采用深度学习与规则的结合方式,提供了多粒度的命名实体抽取方案,同时结合主动学习对海量未标注数据进行“重要性句子”排序与甄别,从而在保证模型性能的条件下,尽可能减少人力标注成本。

https://pkudh.org/project/rio-furniture-5/


6.宋元学案知识图谱系统

该系统对二百四十万字的《宋元学案》进行了文本处理和分析,将学案中的人物、时间、地点、著作以及它们之间的复杂语义关系提取出来构造成知识图谱,提供可视化展现、交互式浏览、语义化查询等功能。

http://syxa.pkudh.org/




Vol.3


中心学术成果一览

https://pkudh.org/achievements/


加入中心

北京大学数字人文中心为数字人文领域的创新与发展提供开放且包容的环境,欢迎校内外对数字人文有兴趣的老师和同学加入数字人文的人才资源库。有相关活动或适合的项目时,将联系当事人参加中心的活动,或组建跨学科的研究团队。请申请人撰写一个人陈述,连同简历一同发送至 gdhc@pku.edu.cn 邮箱。中心研究员招募方式滚动招募,无截止日期。


联络方式

地址:北京市海淀区颐和园路5号北京大学方李邦琴楼

邮箱:gdhc@pku.edu.cn

公众号:数字人文开放实验室


关联阅读


【数字人文·一】数字人文期刊推介

【数字人文·二】2020年中国数字人文年会获奖项目推介

【数字人文·三】“欧洲数字人文协会”推介

【数字人文·四】加拿大、澳大拉西亚及法语数字人文学会推介

【数字人文·五】台灣大學數位人文研究中心推介

【数字人文·六】台灣數位人文學會推介

【数字人文·七】“國立”政治大學華人數位人文研究網推介

【数字人文·八】國家圖書館(台北)數位人文平臺简介

【數位人文·九】香港地區的數碼人文(DH in Hong Kong)簡介


供稿张邵璠
出品:史学学术社 公众号
READING往期精选

本、硕、博可投期(C)刊简介及发文特点

历史学相关学术会议、期刊征稿信息汇总(7-10月)

断代史、通史、专门史、世界史等研习书目一览

历史学研究相关数据库一览

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存