查看原文
其他

中文摘要数据集汇总

刘聪NLP NLP工作站 2023-11-28


笔者之前开源了一个带有超详细中文注释的GPT2新闻标题生成项目。详细介绍见上一篇文章:超详细中文注释的GPT2新闻标题生成项目

项目Github链接如下:https://github.com/liucongg/GPT2-NewsTitle。

近期,对该项目进行了更新,从网上收集数据,将清华新闻数据、搜狗新闻数据等新闻数据集,以及开源的一些摘要数据进行整理清洗,构建一个较完善的中文摘要数据集(其实很多数据的官方链接都已经失效,笔者也是找了很久数据,问了一些朋友,才要到)。


数据集清洗时,仅进行了简单的规则清洗。例如:清洗htlm标记、去除多余空字符、去除图片标记等。

下面是,各个数据集的基本介绍,数据下载地址见上面的Github。

数据集介绍

1、清华新闻(THUCNews)数据:

清华新闻(THUCNews)数据是清华大学自然语言处理实验室整理,根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

利用其正文与标题,可以构成新闻标题生成数据。整理后数据信息如下:

总数量:830749个样本;

标题:平均字数 19,字数标准差 4,最大字数 48,最小数字  4;

正文:平均字数 892,字数标准差 1012,最大字数 78796,最小数字  31。

2、搜狗新闻(SogouCS)数据:

搜狗新闻(SogouCS)数据是搜狗实验室整理,来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供了URL和正文信息。

利用其正文与标题,可以构成新闻标题生成数据。整理后数据信息如下:

总数量:1245835个样本;

标题:平均字数 17,字数标准差 7,最大字数 40,最小数字 4;

正文:平均字数 494,字数标准差 439,最大字数 2046,最小数字 31。

3、nlpcc2017摘要数据:

nlpcc2017摘要数据是2017年NLPCC比赛Task3任务的数据集。整理后数据信息如下:

总数量:50000个样本;

摘要:平均字数 44,字数标准差 9,最大字数128,最小数字 17;

正文:平均字数 990,字数标准差 1049,最大字数 22312,最小数字 52。

4、中文科学文献csl摘要数据:

计算机领域的论文摘要和标题数据,可用于短文本摘要生成。整理后数据信息如下:

总数量:3500个样本;

标题:平均字数 18,字数标准差 4,最大字数41,最小数字 6;

正文:平均字数 200,字数标准差 63,最大字数 631,最小数字 41。

5、教育培训行业摘要数据:

教育培训行业摘要数据是github作者wonderfulsuccess整理,数据主要由教育培训行业主流垂直媒体的历史文章(截止到2018年6月5日)组成。主要是为训练抽象式模型而整理,每条数据有summary(摘要)和text(正文),两个字段,Summary字段均为作者标注。

整理后数据信息如下:

总数量:24423个样本;

摘要:平均字数 52,字数标准差 38,最大字数 255,最小数字 4;

正文:平均字数 2016,字数标准差 1768,最大字数 36058,最小数字 33。

6、lcsts摘要数据:

lcsts摘要数据是哈尔滨工业大学整理,基于新闻媒体在微博上发布的新闻摘要创建了该数据集,每篇短文约100个字符,每篇摘要约20个字符。

整理后数据信息如下:

总数量:2108915个样本;

摘要:平均字数 18,字数标准差 5,最大字数 30,最小数字 4;

正文:平均字数 104,字数标准差 10,最大字数 152,最小数字 69。

7、神策杯2018摘要数据:

神策杯2018摘要数据是“神策杯”2018高校算法大师赛的比赛数据,整理后数据信息如下:

总数量:108089个样本;

摘要:平均字数 24,字数标准差 6,最大字数 72,最小数字 4;

正文:平均字数 1055,字数标准差 979,最大字数 25020,最小数字  31。

8、万方摘要数据:

万方摘要数据是github作者EachenKuang整理,数据是从万方数据库爬取的文献摘要数据。

整理后数据信息如下:

总数量:3590个样本;

摘要:平均字数 30,字数标准差 23,最大字数 171,最小数字  4;

正文:平均字数 295,字数标准差 257,最大字数 2501,最小数字  32。

9、微信公众号摘要数据:

微信公众号摘要数据是github作者nonamestreet整理,从网络抓取的微信公众号的文章。

整理后数据信息如下:

总数量:712826个样本;

标题:平均字数 22,字数标准差 11,最大字数 4984,最小数字  4;

正文:平均字数 1499,字数标准差 1754,最大字数 34665,最小数字  107。

10、微博数据:

数据来源于新浪微博,由He Zhengfang大佬整理,整理后数据信息如下:

总数量:450295个样本;

标题:平均字数 18,字数标准差 5,最大字数  95,最小数字  4;

正文:平均字数 123,字数标准差 30,最大字数 1873,最小数字  100。

11、news2016zh新闻数据:

news2016zh新闻数据是 CLUEbenchmark整理,包含了250万篇新闻。新闻来源涵盖了6.3万个媒体。

整理后数据信息如下:

总数量:2317427个样本;

标题:平均字数 20,字数标准差 6,最大字数  196,最小数字  4;

正文:平均字数 1250,字数标准差 1735,最大字数 356749,最小数字  31。

总结

笔者整理不易,认为有帮助的同学可以star一下Github,关注我一波~~~

公众号开的晚,没有留言功能;欢迎大家加我微信,有问题可以私聊我。



继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存