查看原文
其他

开发者说论文|让谣言无处遁形:基于飞桨完成社交媒体谣言的互动分析和验证

将AI进行到底的 飞桨PaddlePaddle 2023-03-16

在人工智能领域,深度学习平台的重要性毋庸置疑。飞桨是百度自研的深度学习平台,飞桨社区的开发者基于飞桨平台积极的将自己的智慧应用到前沿技术的研究中,为人工智能长期研发目标贡献自己的力量。为此,飞桨开发者说专栏推出论文专题,给予飞桨社区开发者一个平台,介绍学术研究的最新发展动向,分享在学术研究方面的经验。
本期文章将为大家分享飞桨开发者技术专家(PPDE)陈千鹤发表于CHI ’22 Extended Abstracts的文章《RumorLens: Interactive Analysis and Validation of Suspected Rumors on Social Media》

陈千鹤


飞桨开发者技术专家(PPDE)

华中科技大学本科生在读。2022年4月,在CHIEA‘22(CCF-A)发表论文RumorLens: Interactive Analysis and Validation of Suspected Rumors on Social Media。完成开源项目《基于PaddlePaddle和PaddleHub的口罩检测系统的落地实现》《一文带你走进机器学习》《2022美赛F奖记录与分享》等。



数据可视化


“数据可视化”一词的出现最早可追溯到公元2世纪。在古代社会,绘画和其他视觉表现方式被用来研究世界,记录历史事件。在整个人类历史中,数据可视化为发明和发现做出了重大贡献。计算机技术的发明,使得数据可视化表示的方式发生了巨大变化,数据可视化已成为算法、人类感知、动画、计算机视觉等多个领域研究的重要组成部分。数据可视化通常与当代社会的计算机科学领域相关联。作为一个新兴领域,它被认为是可视化的子分类,被认为是“‘数据’可视化表示的科学”。

数据可视化具有许多优点。首先,它能够迅速展示大量数据。其次,它使查看者能够立即识别数据中的核心属性,以形成新的见解。第三个优点是,它可用于质量控制,通过数据分析可以立刻发现问题。四是增强了对大尺度和小尺度数据的理解。在现代,数据可视化涉及四个方面,涉及实时交互、动态处理、视觉可扩展性以及用户协助和个性化。数据可视化可以分为两个主要子领域:信息可视化和科学可视化。信息可视化用于直观地表示抽象数据,例如业务数据。而科学可视化代表科学数据,这些数据通常基于物理(例如人体,环境或大气)。信息和科学可视化都侧重于如何将数据转换为可视化形式,成为可理解的信息,以使得数据更容易被理解和感知。

资料来源 https://rdcu.be/cUnYr



背景介绍


社交媒体在我们的日常生活中得到了广泛的应用,使得信息共享和交流变得非常方便。但是,它也提供了一种简单快捷的方法来产生和传播各种谣言。社交媒体服务提供商在过去几年中一直试图识别社交媒体平台上流传的谣言。

传统的谣言识别方法依赖于内容专家的个人经验,但处理海量信息却相当耗时费力。自动识别谣言的方法比手工方法更有效,对于社交媒体管理者而言,他们更需要从内容、用户、话题、传播等方面深入了解可疑谣言的特点,使谣言验证更加扎实、可信。其中,十分重要的需求是追踪社交媒体上可疑谣言的动态传播细节。


简介


我们与社交媒体平台管理员紧密合作了四个月,总结了他们对谣言识别和分析的要求,并进一步提出了一个交互式可视化分析系统RumorLens,帮助他们高效应对谣言,深入了解谣言传播模式。RumorLens 将自然语言处理(NLP)和其他数据处理技术与可视化技术相结合,以促进对可疑谣言的交互式分析和验证。

我们提出了协调良好的可视化方法,为用户提供可疑谣言的三个层次的细节:
  • Overview显示可疑谣言的空间分布和时间演化;

  • Projection View 利用基于隐喻的图示符来表示每个可疑谣言,并进一步使用户能够快速了解它们的总体特征和彼此之间的相似性;

  • Propagation View 通过新颖的圆形可视化设计可视化可疑谣言的动态传播细节,并促进谣言的交互式分析和验证。

上图所示,RumorLens,一个多层次的可视化分析系统,帮助用户以交互方式分析和验证社交媒体上的可疑谣言。

A. 位置分布视图提供可疑谣言的空间分布摘要;
B. 话题演化视图显示了不同话题的可疑谣言随着时间的推移而发生的变化;
C. 特征投影图揭示了可疑谣言的总体特征和相互之间的相似性;
D. 传播视图采用新颖的圆形可视化设计,可视化可疑谣言的动态传播细节;
E. 帖子详细信息视图显示用户信息和帖子内容的详细信息。




数据提取和处理


据报道,每年都有数以万计的各领域谣言需要及时处理,否则可能对公众造成严重影响。我们从中收集了2019年12月27日至2020年12月14日期间的可疑谣言数据集。可疑谣言的用户、内容、话题和传播等多个特性对于谣言分析和验证非常重要。因此,在微博原始数据的基础上,分别采用TF-IDF、情绪识别、话题分类、影响力计算等技术进一步提取可疑谣言的关键词、情绪、话题和影响力。
这里情绪识别和话题分类都是基于飞桨框架实现的,两者都是分类模型,只是输出的维度有所差异。飞桨实现起来非常简单易用,核心模型可以直接使用飞桨自然语言处理模型库PaddleNLP提供的相关API。

向下滑动查看所有代码

飞桨自然语言处理模型库PaddleNLP提供了预训练模型微调、提示学习、语义索引三种端到端全流程分类方案,覆盖多分类、多标签、层次分类等高频场景,"强强"结合数据增强功能和可信增强技术,有效提升模型效果。详细方案可参考PaddleNLP官方项目:

项目链接:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/text_classification

接下来再讲一下处理微博数据生成传播链的思路。
微博的转发文本中会附带有这一整条传播链上用户的名称,并且使用"//@"进行连接,但是每个人转发的时候会由于父级别转发用户的不一样导致从同一条微博产生的转发链会有分支,这时候分支节点就十分关键,节点用户信息的丢失会使得分支丢失,导致最终得到的传播链变小。而由于很多用户会被微博封禁或注销,这就导致很多用户数据消失了,此时传播链中的很多节点用户会出现丢失。

一开始,我们以为简单的根据"//@"进行分割就可以得到传播链。但是,当我们初步完成以后,对这一部分传播链进行深入分析的时候,发现由于节点用户数据的丢失使得传播链变短了;因此,我们选择了从子节点往根节点反推,再从根节点向子节点验证的方法,最大程度地恢复了完整的传播链,减少了数据的误差,最好的效果是使得传播链从五到六级恢复到十五六级。


可视化设计



图1: RumorLens,一个多层次的可视化分析系统帮助用户以交互方式分析和验证社交媒体上的可疑谣言
  • Suspected Rumors Overview

可疑谣言概述(图1(A)和(B))旨在为平台管理员提供所有可疑谣言的时空分布概述(R1)。可疑谣言概述由两个主要部分组成,choropleth map(图1(A))显示了中国不同地区和海外的可疑谣言数量,line map(图1(B))显示了不同主题的可疑谣言随时间变化的数量。
  • Projection View

Projection View(图1(C))旨在帮助平台管理员快速检查和定位最可疑的特征,这些特征可能属于谣言,以便进一步验证。Projection View由投影到2D特征图上的可疑谣言的图示符组成,图示符之间的距离表示可疑谣言消息之间的相似性。

为了便于目视检查和比较可疑特征,我们将每个可疑谣言编码为一个圆形符号,该符号由两部分组成:内圈和外圈,如图2(A)所示。内圈的颜色代表可疑谣言的主题,大小则表示其影响力。外部四个弧线分别显示了粉丝、关注者、发帖和用户信息完整性的数量,图示符如图2(B)所示。由于不同用户的粉丝和粉丝数量差异很大,为了便于比较,采用对数法进行计算。与thermograph shape(图2(C))相比,我们的图示符设计可以提供更简洁、紧凑的方式来显示每个可疑谣言。

图2: Glyph designs for features of each suspected rumor. (a) round glyph design; (b) arc glyph design; (c) thermography shape glyph design.

  • Propagation View

Propagation View(图1(D)和(E))提供了对可疑谣言消息如何在社交媒体上传播的详细理解,从而使平台管理员能够做出最终决策(R3)。这一点非常重要,因为专家经验和以往研究所提到的丰富的传播信息可以被展示和探索,以验证可疑谣言。该视图包含两个部分,一个新颖的圆形设计用于在顶部可视化可疑谣言传播,另一个表格在底部显示相应的内容详细信息。

图3: 传播视图的图示符设计。该图用于显示特定的编码和交互演示
图4: 传播视图的交互设计。它允许用户通过左键和右键单击选择两个转发。详细视图将显示所选两个转发的详细信息,以进行详细比较
在设计过程中,我们最初考虑使用节点链接图、树图、螺旋时间线或sunburst图来可视化社交媒体上的Tweet传播。但是,它们都不能从传播路径同时呈现转发层次结构和时间序列。此外,当大量数据需要可视化时,节点链接图的空间效率不够。相比之下,我们所提出的圆形设计能够显示可疑谣言的动态传播细节,以简洁的方式促进谣言的互动分析和验证。

总结与展望


我们提出了RumorLens,这是一个交互式可视分析系统,可以帮助社交媒体平台的管理员有效地处理可疑的谣言。此外,本文还提出了一种新颖的圆形glyph设计,以显示可疑谣言的动态传播细节,从而简化谣言的交互分析和验证。但是,针对可疑谣言的互动分析和验证的谣言仍然需要进一步改进。首先,通过与领域专家合作,我们认识到用户信息对于谣言识别的重要性。例如,如果用户的帐户未定义,并且之前有几次已识别的谣言在媒体上发布,则消息具有成为传闻的高风险。因此,有必要提供与用户相关的历史投诉的更多信息。其次,谣言可以通过各种特征进行识别,因此如何选择和评价其对谣言验证的影响仍然是一个有待解决的问题。

现代社会的运行离不开大量的数据,但是目前数据更多的是在大数据和AI技术中流淌,想要人也能看懂数据,就需要数据可视化技术。数据可视化相关的研究还需要更多的关注,通过数据可视化来让人可以读懂数据背后的故事。
飞桨让深度学习技术的创新与应用更简单,它的上手难度低,同时AI Studio平台提供了免费算力,让我们可以进行不同模型的实现和实验。飞桨也拥有完善的文档和优秀的社区以及社群,遇到问题时可以很便捷地查询文档,也可以近距离与飞桨人员沟通。

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存