CN115017887A

CN115017887A - 基于图卷积的中文谣言检测方法

Info

Publication number: CN115017887A
Application number: CN202210624901.2A
Authority: CN
Inventors: 李建平; 胡健; 顾小丰; 蒋涛; 周越; 田洁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-09-06

Abstract

本发明提供一种基于图卷积的中文谣言检测方法，包括：图构造步骤：提取社交平台上谣言样本数据的文本特征、用户特征、情感特征和辅助特征；以文本特征和用户特征作为节点特征并按照从上到下的传播方向以及从下到上的散布方向来分别构造图结构数据；以情感特征和辅助特征为节点特征并按照从上到下的传播方向以及从下到上的散布方向来分别构造图结构数据；图表示步骤：将四种图结构数据分别经两个图卷积层后通过平均池化提取出对应的图表示；预测步骤：拼接四个图表示完成是否为谣言的预测。本发明通过同时构造情感等统计特征和评论文本特征从上到下的深度传播结构图和从下到上的广度传播结构图极大地提高谣言检测的表现。

Description

基于图卷积的中文谣言检测方法

技术领域

本发明涉及物联网社交平台上的信息传播检测技术，特别涉及中文谣言检测技术。

背景技术

随着互联网的飞速进步，人们越来越依赖社交平台来接触信息。微博是中国最大的实时信息传播社交平台之一。

社交平台虽然降低了人们获取信息和发表意见的成本，但由于缺乏对发布信息真实性的核对，社交平台也成为了谣言传播的温床。超过三分之一的微博热点事件包含虚假信息。谣言通常产生在具有歧义的语境中，谣言的真实性对于受众是不确定的。谣言定义为：一类真实性存在争议但可核实的信息。本文的所有工作都将在继续遵循这一定义的前提下进行。

早期对于虚假信息的识别主要通过人工进行事实审查工作。在欧美国家涌现了一批事实核查组织，例如PolitiFact网站和Storyful平台。

目前，为了保证谣言检测的准确性，社交网络平台如新浪微博，Twitter等结合用户检举，人工验证的方式来核实微博信息的准确性。但是人工核查仍存在各种的局限性。首先，人工核查的难度会随着数据规模的扩大而增加。其次，人工核查需要耗费大量的时间和金钱成本，尤其是对于一些专业领域的谣言，只有专家才能进行信息核对。最后，对于社交平台来说，每天都有海量的在线信息更新，人工检测的速度达不到现实的要求。

基于传统机器学习模型的谣言检测，通常是将该任务看作一个有监督的二分类任务。由于传统的机器学习模型在高维数据上很难有良好的表现，在模型训练之前一般需要对谣言数据进行人工特征提取，然后用机器学习模型对人工提取的低维特征进行训练和预测。这一类研究中，特征提取至关重要，更丰富、更准确的特征往往能直接决定模型的最终表现。常见的谣言特征包括基于文本的语义特征，用户特征及其它的统计特征。

目前通过特征工程提取了一系列基于文本、基于用户以及基于传播的特征，都对传统机器学习模型表现都有很好的提升。还有一些方法提取了微博发文和评论的情感特征，并通过实验证明这些情感特征可以和多个模型结合，作为一种增强模型表现的措施，提高模型表现另外还有]提取用户特征，并通过SVM来对提取的用户特征进行训练和预测的谣言检测手段。

传统的机器学习模型，具有一定的谣言检测能力，但模型的表现取决于人工提取的特征质量，这导致需要耗费大量的人工。而且对于时序特征，传播特征等，往往很难通过简单的统计数据去完整地描述。因此，模型的表现差强人意，常被用来作为基线模型。相比于传统的机器学习模型，深度学习模型能提取出更深层次的特征，具有更强的表征能力。因此，在谣言检测任务中循环神经网络RNN (Recurrent neural networks)和卷积神经网络RNN(Convolutional Neural Networks)开始逐渐取代传统机器学习模型。

深度学***台上的博文通常比较短小，没有非常多的语义，而且这些深度学***台上谣言的传播特征。因此，越来越多的人开始把研究的重点放在图卷积模型上，以此来提取谣言的传播结构，获取更好的数据表示。

在社交平台的谣言检测任务中，博文和评论之间，评论和评论之间有着重要的非结构化的传播特征。为了在非欧空间中提取出这种传播特征，很多学者开始使用图神经网络来进行谣言检测。

Tian等人提出一种双向图卷积模型，该模型包含两个图卷积模型，其中一个图卷积模型描述谣言自顶向下的传播过程而另一个图卷积模型描述谣言自底向上传播的过程。从两个方向来提取谣言的深度传播特征和广度传播特征。最后拼接两个图卷积模型的输出表示，用一个全连接层来对拼接的表示分类。同时提出了根节点增强策略和随机去掉边等策略来提高模型的表现。另有方案对转发过相同博文的用户用图卷积建模，并假设这些用户之间是全连接的关系。来获取用户传播的表示。还有通过将谣言的评论按照时间顺序切片，然后用图卷积模型对每个切片建模，获得一系列离散时间动态图表示，然后通过注意力机制来捕捉谣言的传播特征和时序特征。Chenguang等人构建了一个连续时间动态图模型，将时间作为一个参数传入模型中并编码，以此获得数据的连续时间图表示，使得时间成为了模型一个至关重要的参数。

传统的基于深度学习的谣言虚假检测算法，主要通过循环神经网络来提取文本序列中的信息，以此来进行谣言检测。但由于一个谣言样本中可能有上万条评论，如果只是简单把这些评论拼接起来作为一个长文本来处理，会导致出现梯度消失和梯度***等问题，从另一个角度来说，这种做法也忽略了谣言本身的结构和传播特征。谣言本身的传播特征可以用图结构来表示，如果把评论和微博发文看作点，评论关系看作是边，那么一个谣言样本可以通过构造一个图来表示。因此，基于图卷积的谣言检测模型能获得更好的谣言表示。

发明内容

本发明所要解决的技术问题是，提供一种同时考虑到谣言文本特征和情感统计特征的传播结构的中文谣言检测方法。

本发明为解决上述技术问题所采用的技术方案是，基于图卷积的中文谣言检测方法，包括以下步骤：

1)图构造步骤：

提取社交平台上谣言样本数据的文本特征、用户特征、情感特征和辅助特征；所述辅助特征包括情感词数目统计特征、人称代词类别统计特征、标点类别统计特征；情感特征和辅助特征作为统计特征与文本特征和用户特征分来进行传播图构造：

以文本特征和用户特征作为节点特征并按照从上到下的传播方向构造图结构数据；

以文本特征和用户特征作为节点特征并按照从下到上的散布方向构造图结构数据；

以情感特征和辅助特征为节点特征并按照从上到下的传播方向构造图结构数据；

以情感特征和辅助特征为节点特征并按照从下到上的散布方向构造图结构数据；

2)图表示步骤：将四种图结构数据分别经两个图卷积层后通过平均池化提取出对应的图表示；

3)预测步骤：拼接四个图表示，将拼接后的图表示通过全连接层和softmax 函数完成是否为谣言的预测。

传统的基于图卷积的谣言检测模型，通常只考虑到了谣言的文本特征。本模型不仅考虑到了情感等统计特征，而且通过实验证明，在将文本特征和情感特征分别构造传播图时，能有效地提升模型的表现。

本发明的有益效果是，通过同时分别构造谣言文本和情感等统计特征的从上到下的深度传播结构图和从下到上的广度传播结构图极大地提高谣言检测的表现。

附图说明

图1为本发明方法示意图；

图2为实施例模型在Ma_weibo数据集的五折交叉验证实验结果；

图3为实施例模型在Weibo20数据集上的五折交叉验证实验结果。

具体实施方式

实施例以微博为平台进行谣言检测的方法如下：

给定谣言数据集C＝{c₁,c₂,...,c_m}，其中c_i是第i个样本数据，m是数据集的大小，也是样本总数。其中，

r_i是指数据集中第i个样本中的微博发文，w_j ⁱ是指第i个样本中的第j条评论，其中n_i-1是评论的数量。 G_i是该谣言样本的整个传播结构。具体而言，一个谣言的传播结构被定义为一个图G_i＝(V_i,E_i)，其中的微博发文r_i可以看作是根节点，图中的所有顶点的集合

图中所有的边的集合E_i＝{eⁱ _st|s,t＝0,...,n_i-1}，代表微博发文和评论之间或者评论和评论之间的评论关系。例如，如果评论w₃ ⁱ是评论w₂ ⁱ的一条评论，那么在图G_i中会形成一条有向边e₂₃ ⁱ由顶点w₂ ⁱ指向顶点w₃ ⁱ。定义邻接矩阵

其中矩阵元素a_ts ⁱ等于1当且仅当e_st ⁱ∈E_i，其它时候，邻接矩阵元素等于0，即邻接矩阵中行号是边的终点，列号是边的起点。

节点特征矩阵

中

表示微博发文r_i的特征向量，x_j ⁱ表示除了微博发文外的其它节点w_j ⁱ的特征向量。

在数据集C中的每一个c_i都有一个标签y_i∈{false,true}。在给定数据集C的情况下，谣言检测模型的任务是学习一个分类器f来根据文本内容、用户信息和传播结构来预测标签，f:C→Y，C和Y分别是数据集和标签集。

为了获取谣言传播更为丰富的特征，本发明采用从上到下和从下到上两种方式来提取谣言的传播特征。此外，由于情感特征在谣言的传播过程中有着至关重要的作用。因此，本发明除了考虑双向的谣言文本传播结构，同时也考虑到了双向的情感特征传播结构。基于以上思想，实现谣言检测方法的模型如图1所示。

如图1所示，整个谣言检测模型可以分为三个模块。

第一个模块负责从上到下和从下到上两个方向来构造谣言的传播图，由于节点特征和传播方向的不同，一个谣言样本共有四个不同的图构造方式，分别是以文本和用户特征作为节点特征并按照从上到下的传播方向构造的图G_t ^TD，以文本和用户特征作为节点特征但按照从下到上的散布方向构造的图G_t ^BU，以手动提取的情感特征和辅助特征为节点特征并按照从上到下的传播方向构造的图G_s ^TD，以手动提取的情感特征和辅助特征为节点特征并按照从下到上的散布方向构造的图G_s ^BU。

第二个模块用两个图卷积层GCL(Graph Convolutional Layer)从构造出来的四种图结构数据中分别提取出来对应的图表示，从该模块可以看到，实施例共构造了四个对应的两层图卷积模型，最后通过平均池化meanpooling来聚合图中顶点的特征得到整个图的表示。

第三个模块是预测模块，将提取出来的图表示进行拼接，并用一个全连接层和softmax函数，来进行标签预测。

在第一个模块中，针对同样的一个样本数据，本文使用了四种构造方式来表述其结构。第一个模块中的第一个图G_t ^TD中的节点特征是评论或微博发文的词嵌入和用户特征拼接而成，按照从上到下的传播方向来构造的。第一个模块的第二个图G_t ^BU中的节点特征同样是微博发文或评论的词嵌入和用户特征拼接而成，按照从下到上的传播方向来构造的。第一个模块中的第三个图G_s ^TD中的节点特征是手动提取到的所有特征构造而成的包括情感特征和辅助特征，按照从上到下的传播方向来构造的。第一个模块中的第四个图G_s ^BU中的节点特征同样是手动提取到的情感特征和辅助特征，按照从下到上的方向来构造的。

之所以考虑到用情感词数目统计特征、人称代词类别统计特征、标点类别统计特征作为辅助特征以及从大连理工词典和情感词典BosonNLP中提取到的情感特征等手动提取的特征单独构造双向图卷积传播结构图，是因为社交平台上往往会有很多煽动性的发言，这些发言会引导舆论的走向和普通大众情感和观点的表达。因此，表情包类别特征、情感词数目统计特征、从情感词中提取到的情感特征可能也有自身单独的一种传播特征。至于标点类别统计特征和人称代词特征则和评论的立场或者观点有一定的联系。

实施例首先手动提取了大量的统计特征，其大致可以分为3类，共57维。第一类是用户特征，共8维。第二类是各种辅助特征共17维，包括微博数据中表情包的类别，文本中的符号类别，程度词、否定词等与情感特征有关的频数特征，人称代词类别特征等。第三类是从词典中提取到的情感特征，共32维，包括情感类别特征、情感分数特征和情感极性特征。这些手动提取的特征在谣言检测模型中发挥了重要作用，极大地提高了模型的表现。然后，通过构建不同的图卷积模型来分别提取谣言文本和情感的传播特征。传统的基于图卷积的谣言检测模型的节点特征通常为文本本身，往往忽略了谣言中的情感特征本身。因此，本发明分别采用不同的图卷积网络来分别提取文本和情感的传播特征。

谣言的传播方向可以分为从上到下的深度传播方向和从下到上的广度散布方向两种。如果把一个谣言样本定义为

r_i是指数据集中第i个样本中的微博发文，w_j ⁱ是指第i个样本中的第j条评论，其中n_i-1是评论的数量。G_i是该谣言样本的整个传播结构。如果评论w₃ ⁱ是评论w₂ ⁱ的一条评论，那么按照从上到下的方向来构造谣言的传播结构，在图G_i中会形成一条有向边e₂₃ ⁱ由顶点w₂ ⁱ指向顶点w₃ ⁱ；如果按照从下到上的方向来构造谣言的传播结构，那么在图G_i中会形成一条有向边e₃₂ ⁱ由顶点w₃ ⁱ指向顶点w₂ ⁱ。

现有的图卷积网络是用消息传递机制来实现卷积操作的，消息传递机制的计算方式如下式所示：

H_k＝M(A,H_k-1,W_k-1)

其中，

是第k个卷积层(GCL)的隐藏特征矩阵，M是消息传递函数，A是邻接矩阵，H_k-1是第k-1个卷积层输出的隐藏特征矩阵，W_k-1是待训练权重参数。

实施例使用的图卷积模型是一个多层的神经网络结构，能够根据图的相邻节点，从图结构数据中生成节点的向量嵌入。该图卷积模型的消息传递函数如下式所示。

其中，

是归一化后的邻接矩阵，

表示节点跟其自身也有边相连。σ是激活函数，一般为ReLU函数，I_N为单位矩阵。

采用两层的图卷积层来提取样本中的特征，第一层与第二层提取函数H₁与 H₂分别如下式所示：

不管节点特征是文本和用户的两个图卷积网络G_t ^TD和G_t ^BU还是节点特征是情感等手动提取的特征的两个图卷积网络G_s ^TD和G_s ^BU，都可以按照上式来计算隐藏表示。

验证实验

在对文本进行删除超链接和用户名，停用词过滤等预处理操作后，采用预训练好的BERT模型来将文本转换成对应的向量表示。用户特征将和转换后的文本向量进行拼接，作为谣言检测模型中G_t ^TD和G_t ^BU的节点特征。所有手动提取的特征将拼接起来，作为谣言检测模型中G_s ^TD和G_s ^BU的节点特征。

为了将实验结果的偶然性降到最低，将采用五折交叉验证法来对模型的最终表现进行评估。首先将数据集D划分为五个大小相似的互斥子集，即 D＝D₁∪D₂∪D₃∪D₄∪D₅，

在训练模型时，每次用4个子集，余下的那个子集作为测试集。模型的最终结果就是这五次测试结果的均值。本文采用了分层抽样的方法保证每个子集中的虚假谣言和非谣言标签分布都是相同的，有效避免了模型训练的偶然性。

实施例模型在两个数据集上的五折交叉验证实验在准确率Accuracy、查准率Precision、查全率recall和F1四种评价指标上的表现如图2和图3所示。其中横坐标表示第几折实验，纵坐标表示模型在四种指标下的表现。

可以在图2中看到，在Ma_weibo数据集中，单次实验的准确率最高可以达到97.1％，单次实验的F1值最高可以达到96.43％。在图3中，可以看到第二折验证实验的模型表现最好，其准确率达到了95.96％，F1分数达到了95.85％。五折交叉验证实验的平均值就是模型的最终结果。

将实施例模型的最终实验结果将和以下的谣言预测模型进行对比，具体如下：

SVM-TS：基于支持向量机的时序模型。使用了手动提取的特征。

PLAN：利用注意力机制和Transformer架构提取发文之间的长距离特征。

Ma-RvNN：树状结构的递归神经网络，使用了谣言传播特征。

HSA-BLSTM：使用层级注意力模型以及用户、传播和文本特征等统计特征。

GLAN：使用多头注意力机制提取发文和转发之间的局部上下文语义信息。

Rumor2Vec：基于卷积神经网络模型，同时考虑到文本和传播特征。

同时，为了消融实验，通过搭建不同的谣言检测模型来证明情感特征、情感传播特征和对训练集数据降重的必要性。这些模型分别是：GCNstu，SGCNd， SGCN。所有的这些模型的评估同样是通过五折交叉验证来实现的。

GCNstu模型:按照评论的回复关系，以情感特征、文本特征和用户特征作为节点特征，分别按照从上到下的传播方向和从下到上的散布方向构建两个图卷积模型。将两个图卷积模型提取出来的图表示进行拼接，并用一个全连接层结合 softmax函数，来进行标签预测。

SGCNd：按照评论的回复关系，以文本特征和用户特征作为节点特征，分别按照从上到下的传播方向和从下到上的散布方向构建两个图卷积模型；以情感特征作为节点特征，分别按照从上到下的传播方向和从下到上的散布方向构建两个图卷积模型；并且在训练集上以单遍聚类算法降重。将四个图卷积模型提取出来的图表示进行拼接，并用一个全连接层结合softmax函数，来进行标签预测。

SGCN：按照评论的回复关系，以文本特征和用户特征作为节点特征，分别按照从上到下的传播方向和从下到上的散布方向构建两个图卷积模型；以情感特征作为节点特征，分别按照从上到下的传播方向和从下到上的散布方向构建两个图卷积模型。将两个图卷积模型提取出来的图表示进行拼接，并用一个全连接层结合softmax函数，来进行标签预测。

以上所有模型在Ma_weibo数据集上的实验结果如表1所示。其中基准模型的实验结果均来自对应的原文。以上所有模型在Weibo20数据集上与其它模型的对比情况如表2所示。由于Weibo20数据集较新，所以对比实验结果均来自文献的复现实验结果。这也导致两个数据集上的基准模型略有不同。从表1和表2 可以看出本模型在各个指标上都要优于基准模型。

表1 Ma_weibo数据集实验结果

表2 Weibo20数据集实验结果

在表1中，由于PLAN模型和Ma_RvNN模型原文并未有在Ma_weibo数据集上的实验结果。所以，PLAN模型和Ma_RvNN模型的实验结果来自公开文献的复现结果，其余模型的实验结果均来自模型原文。在表2中所有基准模型的实验结果均来自公开文献的模型复现实验结果。从表1可以看到，在Ma_weibo数据集上，本文的模型在四个指标上均有不小的提升。具体来说，在表现最好的基准模型Rumor2Vec模型的基础上，提高了1.06％的准确率，1.28％的查准率，0.98％的查全率，1.1％的F1度量。从表2可以看到，在Weibo20数据集上，本文的模型在三个指标上都获得了最好的结果，在Rumor2Vec模型的实验结果上分别提升了1.33％的准确率，3.16％的查准率，1.21％的F1度量。在Ma_RvNN模型的实验结果上分别提升了0.25％的准确率，2.44％的查准率，0.16％的F1度量。在两个数据集上模型的表现都有一定程度的提升，这足以说明我们提出的模型的优越性。

通过比较表1和表2中模型GCNstu和模型SGCN的实验结果，我们可以看到，SGCN模型在两个数据集的多个指标上的表现都大大优于GCNstu模型，这说明以情感等辅助特征作为节点特征，单独构建图卷积模型的必要性。SGCN模型的表现之所以较好，可能是因为情感等辅助特征的传播特征与文本本身的传播特征不同，在单独以情感等辅助特征作为节点特征构建图卷积模型之后，模型表现大大提升。

在现实的社交媒体谣言检测任务中，由于多个用户经常会对同一事件发文，从现实应用的角度来说，对数据集进行降重是一个必不可少的工作。由于每次验证实验的训练集都是不同，导致降重效果也会不同。在Ma_weibo数据集上的某次验证中，原来的训练集共有3732个样本，降重之后训练集只包含了2957个样本，共减少了775个样本。在Weibo20数据集上的某次验证实验中，原始的训练集样本数为4856，通过降重后变成了4577，共减少了279个样本。从表1可以看到，在Ma_weibo数据集上进行降重会略微地使模型的表现降低，准确率降低了0.18％，F1度量降低了0.16％。从表2可以看到，在Weibo20数据集上模型的整体表现几乎没有变化，准确率提升了0.06％，F1度量降低了0.03％。因此，在 Ma_weibo数据集上模型降重之后表现稍差可能是因为训练样本减少太多，由于在预测过程中模型可能的确依赖数据浅层的语义特征，降重之后重复数据消失，模型表现也降低了。在Weibo20数据集上，由于降重之后训练集样本并未减少太多，去重之后模型能稍微学习到虚假谣言和非谣言数据本身的特征而非浅层的语义特征，模型表现整体没有什么太大的变化。

单从模型的角度来说，数据降重可能没有那么必要。但从训练时间的角度来说，在训练集上用单遍聚类算法进行降重是非常有必要的。

三个消融实验在两个数据集上的单次平均运行时间如表3所示，表中数字代表训练时间，单位为小时。在两个数据集上，GCNstu模型和SGCN模型的运行时间都大致相同，说明单独为情感特征构建图卷积模型，并不会提高模型的运行时间。同时由于降重后数据减少，单个轮次的训练时间会更快，所以在三个模型中，SGCNd模型的训练速度最快。同样的模型结构降重之后在Ma_weibo数据集上和Weibo20数据集上，模型的训练时间分别减少了10.52％和11.5％。如果在非常大型的数据集上，数据降重能极大地提高模型的运行效率，这对于时效性很强的虚假谣言检测任务来说，有着至关重要的意义，能以最快的速度检测出虚假谣言，就能最大程度地降低虚假谣言传播的危害。

表3消融实验训练时间表

Claims

1.基于图卷积的中文谣言检测方法，其特征在于，包括以下步骤：

1)图构造步骤：

3)预测步骤：拼接四个图表示，将拼接后的图表示通过全连接层和softmax函数完成是否为谣言的预测。

2.如权利要求1所述方法，其特征在于，谣言样本数据

其中，c_i表示第i个谣言样本数据，r_i是第i个谣言样本的文本，

是指第i个谣言样本中的第j条评论，n_i-1是评论的数量，G_i是第i个谣言样本的传播结构。

3.如权利要求1所述方法，其特征在于，情感特征包括情感类别特征、情感分数特征和情感极性特征；情感特征从词典中提取。

4.如权利要求1所述方法，其特征在于，辅助特征还包括社交平台中表情包的类别。

5.如权利要求1所述方法，其特征在于，辅助特征中的情感词包括程度词和否定词。