查看原文
其他

独家课程丨历史研究的新素材

王涛 零壹Lab 2022-10-08

编者语:

本文系王涛老师“数字史学”课程教材《历史学家的新技艺》的第二篇。如初次阅读本系列,欢迎补充阅读系列第一篇独家课程丨如何做一个数字历史学家(点击标题阅读)了解更多。

本文内含具体软件的详细操作教程及作者提供的软件下载地址!欢迎下载!!!


历史研究的新素材


大家好,我是历史学博士王涛。现为南京大学历史学院教授、数字史学研究中心主任。我的主要研究领域涉及教会史、德国史、数字史学等方向。

有一年,笔者收到了远方一位朋友邮寄过来的礼物。意料之外的包裹,本来就是令人开心的事情;更令我感动的是,朋友随信寄来了一封手书的便签。我不禁油然而生时代恍惚的错觉。


便签拿在手里反复读了很多遍,寥寥数笔,无非是简短的问候。但是,它的出现,突然让我意识到一个很严峻的问题:在此之前,我有多久没有收到过手写的信件呢?大概是很久了吧,暗自思忖,我也是很长时间没有用笔写过超过500字的文章了。


近十年来,随着电脑、手机的普及,除非是考试答题,我们离笔越来越远。虽然借助电话、微信、电子邮件等便捷的技术手段,我们与亲朋好友不仅没有断了联系,反而因其即时性让关系更加紧密;文字工作者长篇大论的道德文章,都借助数字化的载体,以数字流的形态广为传播,我们只能从字里行间感受作者之才华,而无法体悟挥毫之间的性情。私底下尝试过,提笔忘字的情形时有发生。这并不是最糟糕的。我突然领悟到,在数字化生存的时代,对历史学者而言弥足珍贵的传统史料形态,诸如日记、书信、回忆录等,已经被“数字化”的名头剿杀了。


毫无疑问,对历史学科而言,无论史学是不是阿克顿所谓“搜集历史资料的艺术”,谁都无法否认史料在历史研究中的基础地位。梁启超有云:“史料为史之组织细胞,史料不具或不确,则无复史之可言。”傅斯年更是简洁明了地提出“史学即史料学”。但是傅斯年作为20世纪的学人,在他脑际中徘徊的“史料”,与我们心目中的“史料”是一回事吗?


显然不是。史料的边界从来就在不断地扩充。实际上,人类群体从诞生之日起,就在创造信息,只是限于技术手段,许多信息无法保存下来,而那些有幸被保存的信息,就成为历史学家眼中的史料。录音机发明之前,信息的载体只能是图形、文字、实物;录像机发明之前,音频资料也成为史料;电脑出现后,信息的数字化进程快速提升,史料的范畴愈加宏大了。进入21世纪,史料的外延可能无所不包了,真正应验了托波尔斯基关于史料的界定:“人类过去的一切信息。”

我们可以乐观地展望,旧形态的史料消亡了,新形态的史料喷涌而出,“大数据”时代并非浪得虚名。据报道称,2018年全球互联网世界生产的数据达到了33泽字节(ZB),这个陌生的数据单位可能让大家毫无感觉。我们可以简单做一个换算,1ZB相当于1.1万亿GB,把33ZB单位的数据用4.7GB一张的DVD光盘进行存储,把所有的DVD层层垒起来,其高度将是地球和月球之间距离的大约5倍。


随着互联网应用的发展和普及,数据的增量将愈来愈快。未来的历史学家面临的将不是史料不足,而是史料过于丰富,如何检索与有效利用的问题。

那么有一个很现实的问题摆在了历史学家的面前:

新形态的史料如何界定,如何获取,用什么方法对其进行研究?


史料的新形态

作为面向未来的历史学者,历史研究的新素材之所以重要,不仅仅是因为体量大而已,更重要的是,由于技术手段的进步,以及数据库思维方式介入史学研究,之前不成其为史料的内容,也能够用做史料;由于研究方法的改进,旧的史料可以用新的手法获得解读,甚至之前无法(有效)利用的文献也能够得到分析,扩充了“史料”的范畴。所以,大数据时代的历史研究,是一个更加开放和充满无限可能性的新天地。


数十年之后,22世纪的历史学家要依靠何种类型的史料,来重建21世纪的社会面貌与思想人物的精神世界呢?如下的新素材值得关注,或许将成为史学研究的主力军。


原生态的数字史料

线上通讯工具的信息,主要包括电子邮件,微信,微博等通讯工具。我们可以想象得到,电子邮件将取代信函,微信将取代便签,成为书写历史人物编年长篇的重要信息来源。


还有一类born digital的资料,是我们使用数字工具时留下来的印记,包括线上活动记录,浏览器记录的cookie等,线上购物清单,IP地址,上网时长等。它们都具备作为证据的功用。这类史料之所以有其价值,除了它们记录了当下的情况之外,更重要的在于它们属于马克·布洛克所谓的“不经意的证据”,在某种意义上不存在主观的设定,具有更强的可信度。


门户网站的讨论平台、贴吧、网络社区的发帖,对于重建社会状态极为重要;还包括快手,抖音等视频网站的内容,这些数据流或许能够反映当下青年人的生活状态,这些信息当前受到了社会学家的关注,但是未来的历史学家或许也需要用这些资料来重建社会发展的状况。

以上属于原生态的史料,天生就是数字化形态。从类型上看,这些史料有公开信息与隐私信息之分,但都可以把它们囊括到“数字记忆”的框架下。

1996年在美国成立的非盈利机构“互联网档案”(Internet Archive)在推动互联网信息存档方面起到了重要作用。

2019年4月,中国国家图书馆启动了一项数字记忆项目,据称2000亿条公开发布的微博将被图书馆保存。未来的研究者将由此获得丰富的语料库来研究21世纪初期中国人的思想状态。


维基百科则是另外一种类型的“数字化原住民”时代的产物,它具有更特殊的地位,其贡献的不仅是信息的汇总,更像是一种新的知识生产的渠道或者模式。

彼得·伯克在《知识社会史》中已经提到,维基百科的存在折射出知识对社会发展具有的推动作用:知识可以成为自身发展的来源。

数字化的传统史料

第二种类型的数字化史料,是将传统文献、或者说以“模拟”形态存在的史料,转录成数字化格式的史料。大量数据库就属于这种类型。

不论是各种商业数据库公司(比如Gale、ProQuest等)制作的专题数据库,还是像“谷歌图书”扫描的大量书籍,都是我们最容易接触到、离研究场景最近的大数据史料。这种类型的数字化材料,为历史研究者提供了便捷的史料来源,引发了某些学者所谓的“资料革命”,也带来了文献使用方法的革新。史料使用方式上的革新,有时是被动产生的。对于有互联网接口的学者而言,面临的问题往往不是找不到足够的史料,而是史料太多用不过来。为了解决文献读不完的困境,才有学者提出了新的阅读文献的方式,比如“遥读”(distant reading),或者用技术手段辅助学者阅读文本。


隐匿在大数据中的史料(智慧史料)

大数据的时代虽然令史学界兴奋不已,但数据的海量是一回事,能否提供有效信息则是另一回事。从数据科学的角度看待所谓大数据,其实存在许多的噪点,也就是冗余信息甚至垃圾信息,它们虽然带来了信息的容量,但是让信息的精细度大大降低。对这种状态的大数据,我们需要进行清洗后才能使用。另一方面,大数据虽然透露了某些信息,但在更多情况下,由于数据量过于庞大,反而会掩盖其他信息。所以,从大数据中挖掘出来的史料,是对史料进行深度加工的过程,是更需要史学家关注的史料。比如,囊括了历史人物生平的传记数据库,虽然没有冗余信息,但数以百计的人物资料,反而会遮蔽人物迁徙的线索。当我们从人物数据库中提取历史人物的出生地和死亡地信息时,就能够找到隐匿在大数据中人物的流动过程。

实际上,随着数字人文的不断发展,各种数据资源愈加丰富,信息科学已经在思考用关联数据的方式来对数字化文献进行重组,使用“知识图谱”等技术在海量数据中自动推理、提取新的知识。换句话说,我们将步入“智慧数据”的时代。

所以,值得历史学家关注的是:通过算法提取出来的新知识,是否也是一种类型的史料?

这可能是未来历史学家要面临的一个挑战。


在很大程度上,史料的范畴是不断拓展的概念。正如李剑鸣提到的那样,史学家应当修炼“泛史料”的意识,学者们需要认识到,所有的信息都有史料价值,关键在于研究者从什么角度进行解读。


简言之,任何能够作为证据的对象,都能够被视为史料纳入到历史学家的研究视野。


在数字化史料的时代,史学家在对史料进行运用的时候,都能在不经意间回应了许多严谨学者所批评的“抽样作证”。所谓“抽样作证”,用赫克斯特的话说,就是选择性地使用支持自己结论的材料。这种裁剪史料的方法,在传统研究中时有发生,主要是因为学者无法获得“全样本”的数据,尽管研究者都知道要尽可能穷尽史料,但在传统方法的指引下竭泽而渔式地搜罗史料几乎是不可能完成的任务。因此,要克服“抽样作证”,单纯依靠研究者的自律是不现实的。

现在有了大数据史料的支撑,反而从技术上有了应对“抽样作证”的保障手段。


新形态史料的问题


权威性

在新形态的史料中,网络史料占据了很大的比例。网络史料在方便研究者查询、使用的同时,也带来了安全性和权威性的问题。网络上的信息泥沙俱下,即便是以百科书形态存在的,如果研究者不加辨识就贸然引用网络资料作为论据,很可能被虚假的信息所蒙蔽。美国乔治梅森大学的数字史学课堂上,曾经有学生搞了一个“恶作剧”。他们宣称在私有的文献中发现了一个被遗忘的历史人物,而且煞有介事地在维基百科上为这个虚构的人写了一个词条。这个词条被发布后,马上就引发了讨论,而且有人开始引用。后来,学生们才发表声明说这只是一次网络试验,也是为了提醒大家不要轻信网络资源。经此一役,美国许多教授开始对学生的论文中引用包括维基百科在内的信息持反对态度。不久前,北京大学的常薇老师也在公众号中用实例证明百度百科在某些词条的细节上存在瑕疵。

简言之,我们在使用网络资料的时候,需要常怀“信息辨识”的意识。


非在线就不存在?

网络资料确实带来了史料查询的便捷。在很多情况下,我们足不出户就能够获取到大量信息。然而,这也会带来一种错觉,以为所有的资料都在网路之上,甚至于认为“非在线就不存在”的惯性思维。

美国学者凯里(T. Mills Kelly)曾有过这样的经历:凯里为一门讨论课开列了必读材料,结果等上课的那天,居然有一个一贯表现良好的学生没有完成阅读作业。问其原因,他的回答是在网上没有找到指定的文章。凯里这才意识到,他开列的书单中,有一篇刚刚出版不久的论文,还没有被收录到诸如JSTOR等在线数据库中,他们如果不去翻阅实体杂志,在网上当然是难觅其踪的。


凯里的故事在我们看来匪夷所思。但“非数码化即非存在”(If It’s not Digital, It doesn’t Exist),确实已经成为我们如何处理新形态史料时需要面临的问题。

安全性

刘慈欣在《三体》的想象中,刻在石头上的信息可以被保存千万年之久,艾AA以此来给程心传递跨越时空的信息。

现实中也似乎如此,不论是汉谟拉比法典,还是贝希斯敦铭文,都有超过千年的历史。我们虽然不期望今天的电子资料在百万年之后还能够全部被保留,但信息的持久性确实是数字化资料需要关注的问题。在VCD被设计来的时候,我们以为碟片上的信息会被妥善存放几十年,但是现在已经很难找到能够读取VCD的机器了。

所以,数字资源的持续维护是一个非常具有挑战性的问题,这也涉及到了信息的安全性。


新形态史料的获得


不管用还是不用,未来史学研究的主流史料将以电子化的形态存在。实际上,这种趋势在当前的学术生态中已经凸显出来。拜互联网所赐,研究者完全可以足不出户就获得各种稀缺史料。


既然在互联网世界游荡着各种丰富的史料,有没有更高效的获取方式呢?


如果你目前还在用ctrl+c和ctrl+v的方式下载网络上的资源,那就太out了。这种方式只对偶尔的下载有用,当需要在规定时间内下载大量文献时,就显得力不从心。当然,从网络上爬取资料,就跟黑客与网络安全员斗智斗勇一样,是道高一尺魔高一丈的问题。值得庆幸的是,或许是由于人文资源没有太多商业价值,有许多内容可以在网络上免费下载。我们不必像软件工程师那样学习复杂的编程语言,处理复杂的网络资源爬虫。对于一些静态网站而言,不需要编程基础,用非常简单的工具,就能够实现自动定点下载网页内容。


要摆脱ctrl+c加ctrl+v的下载方式,需要我们对网页背后的结构有一些认知。在浏览网页时,我们看到的只是华丽的前端,后端其实完成了快速的信息交换。在浏览器眼中,任何网站都基于一套标记语言,浏览器的功能就是将标记语言进行解析,然后呈现一个用户界面友好的网页。比如我们打开南京大学的主页,画面何其美。但后台交换的数据,也就是网页的源代码,于人类而言不堪卒读。

(图:his1)


在人文学者眼中,右边的网页源代码无异于天书,但却为我们用工具爬梳网页能容提供了线索。简言之,网页使用标记语言,要让各种浏览器能够正确解析,标记语言遵循一套既定的规则。我们用HTML语言建立了一张最简单的网页,大家可以直观感受从代码到网页的转换。下图是HTML语言对网页内容的设定,上图即呈现出来的网页界面,对标题、字体、颜色都有最基本的定义。

(图:his2)


所以,各种爬虫工具或者算法的本质,就是基于标记语言的规则进行自动提取。


这里我们推荐使用一款小软件wget


Wget是一款跨平台的网络资源下载工具,能够实现将网页整个“镜像”到本地硬盘。

安装方面非常简单,对于Windows系统,去其官方网站

(https://eternallybored.org/misc/wget/)下载最新版本的exe文件;macOS系统的话,推荐使用brew命令安装。下面以Windows版本的使用为例。

wget是免安装的工具。把exe文件下载到本地硬盘后,就可以使用了,不过我们需要记住存放文件位置的路径。在本例中,wget被放置在D:\download\wget.exe


软件操作教程开始!

要使用它,需要先打开Windows系统自带的“命令提示符”。调用它的快捷方式是用键盘的win+r组合键,在弹出的对话框中键入cmd,点击[确定]即可。

(图:his3)

这时会弹出一个黑色背景的界面,就是我们需要的“命令提示符”。

(图:his4)

还记得wget.exe存放在了硬盘的D盘,所以我们需要在“命令提示符”中键入一行命令“D:”,然后按回车键。紧接着,键入“cd download”,之后,如果在提示符后键入wget,并得到图中相同的错误信息,表明wget已经可以使用了。

(图:his5)

我们选取一家德国电子书网站为例,下载特定网页的内容,其网址,或者URL为www.zeno.org


当然,这个网站内容繁多,好在它有一定的规则,基本上可以根据作者姓名,或者作品的类型等进行分类。为方便起见,我们打算下载该网站上所有卡夫卡的作品。我们先来看看这个网址,

http://www.zeno.org/Literatur/M/Kafka,+Franz


这里有关于卡夫卡的简介,并能够看出该网站收录了若干部重要作品。我们可以进行一个最简单的操作,来看看wget的神奇效果。在“命令提示符”中键入下面的命令:

wget http://www.zeno.org/Literatur/M/Kafka,+Franz

回车之后,就发现wget已经开始工作,并显示其工作进度。如下图所示:

(图:his6)

很快,这个网页就被下载下来,并存放在download\的文件夹内,名字为Kafka,+Franz,以HTML的格式存放。

我们用浏览器打开这个文件的话,就能够看到跟网站一模一样的界面。


当然,这还没有全部满足我们的要求。我们希望把卡夫卡的所有作品都下载下来,难道需要我们一个个使用wget的上述命令吗?显然有捷径可循。来观察一下卡夫卡作品的链接,我们发现网站在编排的时候,遵循了文件夹套叠的原则,也就是说,网站使用树形架构来完成对卡夫卡作品的管理。我们在wget命令中加入一些参数,来自动点击下一级目录并且下载。完整的命令如下:

wget -r --no-parent -w 2 --limit-rate=200k http://www.zeno.org/Literatur/M/Kafka,+Franz/


解释几个参数的含义:

-r,允许wget自动访问下一级的链接;

--no-parent,(或者简写方式:-np),wget将不会链接上一级URL;

-w,由于wget将自动链接网站,电脑的速度极快,对于网站的服务器而言,如果它设计的安全等级高的话,将把短期内的多次链接视为网络攻击;为此,我们需要设置一个等待时间,防止网络的访问权限被封杀。这里设置为等待2秒钟;

--limit-rate,意义跟上一个参数一样,设置一个下载的最高速度,因为下载速度过快对网站的服务器也是一种负担。

在有些情况下,我们想批量下载若干已知URL的文件,可以把所有URL保存为一个txt文件,然后让wget自动读取,完成下载。比如我们把卡夫卡的作品地址保存到kafka.txt这个文件中,使用下面的命令行:

wget -i kafka.txt -r --no-parent -nd -w 2 --limit-rate=200k


wget用一种极其简单粗暴的方式完成对网络资源的下载,其优势是方便。大家在自己的工作中使用wget命令时,只需要修改一下URL地址就直接可以用起来。但wget的劣势也非常突出,其下载过程实则是对网页的“镜像”,既没有定点下载的功能,也不能对下载之后的文件进行有效管理。在后两种情况下,我们或许需要考虑另外一款工具:OutWit或者集搜客。


OutWit极为智能化,它将自己设计为一个网络浏览器的界面,能够自动完成对文本、链接、表格、图片等网页内容的分类,我们只需要选择想要下载的内容,直接导出就可以。


(图:his7)

我们仍然以zeno.org网站上卡夫卡的作品界面为例。在OutWit打开网页后,该软件将自动完成对网页源代码的解析,然后对网页上的内容分门别类。我们点击OutWit界面左侧栏位上的“images”、“tables”、“text”等选项,就能够将相应的内容以结构化的数据下载到本地硬盘。


集搜客是中国公司开发的软件,中文界面更加友好,其原理跟OutWit类似,都是基于HTML语言规则的信息提取。集搜客最核心的思想是把试图从网页爬取的内容根据标记语言制作成“规则”,然后自动提取设定的内容。

(图:his8)


这两款软件的使用,需要用户对网页的源代码有比较深的认知,如果是批量下载数据,特别是对动态网页进行爬虫的话,需要使用高级功能,就要购买软件的专业版。


实际上,伴随着互联网资源愈来愈丰富,爬虫的需求越来越强,已经有大量工具被开发出来进行下载任务。除了上述介绍的软件之外,还有应付更加个性化爬虫工作的工具,比如OpenRefine等。然而,爬虫最终极的工具是使用编程语言来实现更丰富的个性化定制和更复杂的网络环境,比如Python语言下有大量成熟的工具包,足以应付绝大多数的爬虫任务。是使用各类小工具但不得不忍受粗线条的下载,还是自己写爬虫代码,但又要花费更多学习成本,这就看大家的个人选择了。


参考文献:

Ian Milligan, "Automated Downloading with Wget," The Programming Historian 1 (2012), https://programminghistorian.org/en/lessons/automated-downloading-with-wget.

Kellen Kurschinski, "Applied Archival Downloading with Wget," The Programming Historian 2 (2013), https://programminghistorian.org/en/lessons/applied-archival-downloading-with-wget.

李剑鸣:《历史学家的修养和技艺》,上海:三联书店,2007年。

福利时刻

本章使用软件下载:

链接:

https://pan.baidu.com/s/1hpwBikOTXbQVKgaH12b_iw

提取码:

zt6n

未完待续

《历史学家的新技艺》系列今后将继续在本公众号(零壹Lab)不定期更新,敬请持续关注。

本期部分配图源自网络,侵权必删。

END

主编 / 陈静、徐力恒

责编 / 刘双双

美编 / 刘双双



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存