CN111966786B

CN111966786B - 一种微博谣言检测方法

Info

Publication number: CN111966786B
Application number: CN202010757089.1A
Authority: CN
Inventors: 宋玉蓉; 潘德宇
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2022-10-25
Anticipated expiration: 2040-07-31
Also published as: CN111966786A

Abstract

本发明提供了一种微博谣言检测方法，考虑了注意力机制，该方法包含如下步骤：收集微博事件和相应评论数据集作为样本数据；对所述样本数据进行预处理，分别提取原微博与评论的文本内容；采用BERT预训练模型对文本进行预训练，每句文本生成固定长度的句向量；构建字典，提取原微博与对应数条评论组成微博事件向量矩阵；采用深度学习方法Text CNN‑Attention对向量矩阵进行训练，构建多层次训练模型；根据多层次训练模型对向量矩阵进行分类检测，得到对应社交网络数据的谣言检测结果。本发明较之传统谣言检测方法提高了准确率。

Description

一种微博谣言检测方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种微博谣言检测方法。

背景技术

谣言一般是指未经核实的陈述或说明，往往与某一事件相关。随着社交媒体的迅速发展，谣言可以通过社交媒体以核裂变的速度迅速传播。社交媒体之一的微博,即微型博客，是Web2.0时代新兴的一类开放互联网社交服务。用户可以借助于互联网或手机等传播媒介，随时随地的用简短的文字更新自己的微博，同更多的用户分享信息。微博与传统博客相比，在传播特性上表现出：即时的博文分享、创新的交互方式、生动的现场演绎。在传播效应上表现出：人气积累、经济快捷的品牌营销。但是，多元化的传播中，自由化的传播内容、平民化的传播者和广泛的受众、多样化的传播渠道，推动了谣言在微博上的传播与扩散。微博上谣言的传播多通过用户与用户之间关于信息的评论与转发来进行，若虚假谣言被广泛传播，则对社会产生一定的负面影响。

关于谣言检测的办法一般分为两类：一类是机器学习基于传统的人工提取特征的方法，从谣言内容、谣言用户、谣言传播三个方面搭配情感极性、用户影响力等因素挖掘特征并通过贝叶斯、决策树等分类器进行谣言检测；另一类是基于深度学习方法通过构造神经网络并搭配非线性函数学习文本中的潜在特征，通过CNN、RNN等神经网络模型对文本序列进行特征表示学习，最后通过非线性分类器进行谣言检测。目前通过深度学习构造神经网络对谣言检测的研究中预训练模型大多采用的是word2vec词向量或ELMo，但前者中得出的词向量无法解决多义词的问题使得训练出的每个词只能对应一个向量表示，而后者可以根据上下文动态调整词嵌入，但是使用LSTM进行特征抽取而不是Transformer，并且ELMo使用上下文向量拼接作为当前向量，这样融合出的向量特征较差。训练模型多采用CNN或RNN网络，但CNN网络虽然可以提取句义特征却忽略了上下文语序特征，并且CNN网络经过全连接操作后将池化所得特征拼接时无法对影响较明显的特征进行区分。本发明针对目前存在的挑战提出一种新的考虑注意力机制的谣言检测模型，在文本预处理方面选用能够提取文本潜在特征的BERT预训练模型，训练模型上在CNN模型中引入了注意力机制，能够自动根据事件影响力不同分配不同的权重，最后使用Softmax分类器进行谣言检测。

有鉴于此，有必要设计一种微博谣言检测方法，以解决上述问题。

发明内容

本发明的目的是提供一种准确率较高的微博谣言检测方法。

为实现以上目的，本发明提供了一种微博谣言检测方法，包含如下步骤：

A、收集微博事件和相应评论数据集作为样本数据；

B、对样本数据进行预处理，分别提取原微博与评论的文本内容；

C、采用BERT预训练模型对文本进行预训练，每句文本生成固定长度的句向量；

D、构建字典，提取原微博与对应数条评论组成微博事件向量矩阵；

E、采用深度学习方法Text CNN-Attention对向量矩阵进行训练，构建多层次训练模型；

F、根据多层次训练模型对向量矩阵进行分类检测，得到对应社交网络数据的谣言检测结果。

作为本发明的进一步改进，所述样本数据包括谣言样本数据和非谣言样本数据。

作为本发明的进一步改进，所述步骤B中，使用正则表达式清除json文件中的噪声。

作为本发明的进一步改进，所述进行完预训练的全部文本按照训练数据与测试数据按照4：1的比例用于后续模型的处理。

作为本发明的进一步改进，预训练的BERT模型与代码能够实现词向量的嵌入。

作为本发明的进一步改进，所述BERT模型作为词向量模型，能够充分描述字符级、词级、句子级以至于句子间关系特征，将NLP任务逐渐移到预训练产生句向量上。

作为本发明的进一步改进，所述BERT模型提出预训练目标：遮蔽语言模型(maskedlanguage model，MLM)，克服传统的单向性局限，MLM目标允许表征融合左右两侧的语境，从而可以预训练一个深度双向的Transformer。

作为本发明的进一步改进，所述BERT模型引入了“下一句预测”任务，可以和MLM共同训练文本对的表示。

作为本发明的进一步改进，所述BERT模型运用句子级负采样，预测输入BERT的两端文本是否连续；在训练过程中，输入模型的第二段将从所有文本中随机选择，概率为50％，其余50％将选择第一段的后续文本。

作为本发明的进一步改进，所述构建多层次训练模型由Text CNN和注意力机制两部分组成；其中，Text CNN模型使用三个卷积尺寸分别为3,4,5的卷积核对待测向量矩阵进行卷积操作，得到关于不同卷积核基于向量矩阵的不同的特征表示，通过池化操作每个卷积核对应输入矩阵只产生一个最大特征，再通过全连接操作将不同尺寸卷积核所得特征表示相连；注意力机制对全连接后产生的特征表示根据每个特征按照对输出影响力的不同赋予不同的权重，使得影响力大的特征在进行谣言检测时会拥有更大的影响力。

本发明的有益效果如下：本发明微博谣言检测方法，在文本预处理阶段运用了BERT预训练模型，使用Transformer能更高效的捕捉更长距离的依赖，可以挖掘深层的上下文信息，使得预训练出来的句向量具有更好的潜在特征；训练模型引入了注意力机制通过给不同的特征根据其影响力赋予不同的权重，这样对输出结果影响较大的特征就会被赋予更多的权重，从而对结果产生更重要的影响，有利于进行谣言检测，提高检测的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅只是本发明的一些实施例。其中：

图1为谣言检测的通用流程图；

图2为BERT模型的结构示意图；

图3为本发明考虑注意力机制的微博谣言检测方法的流程图；

图4为神经网络Text CNN模型的结构示意图；

图5为引入注意力机制的结构示意图；

图6为实施例一实验结果MATLAB仿真图；

图7为实施例二实验结果MATLAB仿真图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明一种微博谣言检测方法，考虑了注意力机制，该方法整体流程如图1所示，主要包含以下步骤：

步骤1，收集微博事件及相应评论数据作为样本数据；

这里的样本数据包含谣言样本数据和非谣言样本数据；

谣言样本数据标签为“1”，非谣言样本数据标签为“0”。

步骤2，对样本数据进行预处理，使用正则表达式提取相应文本内容；

预处理主要目的是去除文本中的噪声，包括非中文字符、标点、停用词等。由于样本数据都是以json格式的文件进行储存；json文件是以“键值对”的形式储存数据，将数据名称作为json文件中的键，爬取到的数据值作为json文件中的值，例如“text:早餐。不许联想，以免跨省。”；

单个微博原事件的全部数据为一个json文件，单个事件的所有评论的全部数据为一个json文件；

使用正则表达式去除json文件中的噪声，对应提取微博原事件及其所有评论的text文本内容储存下来；

全部文本按照训练数据与测试数据4：1的比例用于后续模型的处理。

步骤3，下载BERT预训练模型，把文本转化成相应句向量；

BERT模型通过下载谷歌的BERT预训练模型可以获得，预训练的中文BERT模型与代码均来自于Google Research的BERT，能够实现词向量的嵌入，基本结构模型如图2所示；

BERT：全称是Bidirectional Encoder Representation from Transformers，即Transformer的双向编码表示来改进基于架构微调的方法。BERT模型作为词向量模型，能够充分描述字符级、词级、句子级以至于句子间关系特征，目的是将下游的NLP任务逐渐移到预训练产生句向量上；

BERT模型包括以下特征：BERT模型提出了一种新的预训练目标：遮蔽语言模型(masked language model，MLM)，克服传统的单向性局限，MLM目标允许表征融合左右两侧的语境，从而可以预训练一个深度双向的Transformer；BERT模型引入了“下一句预测”任务，可以和MLM共同训练文本对的表示；BERT模型运用了句子级负采样，对于句子级的连续性预测，就是预测输入BERT的两端文本是否连续。在训练过程中，输入模型的第二段将从所有文本中随机选择，概率为50％，其余50％将选择第一段的后续文本。

步骤4，按照选用句子长度和句向量维度构建相应输入矩阵；

本文采用BERT base模型，网络层数为12层，训练出的句向量维度为768维；

从微博原文和对应所有评论的句向量中选取固定条数句向量组成输入矩阵。

步骤5，采用深度学习方法，构建Text CNN-Attention的多层次训练模型。

图3所示为本发明提出的考虑注意力机制的谣言检测方法的详细流程图，模型的第一层为输入层，主要是输入经过BERT预训练模型生成的句向量组成，这里的整件微博事件构成是原微博加取出的对应随机数条评论；紧接着是卷积层，这里分别运用不同尺寸的过滤器来进行卷积对输入层的句向量进行学习，可以得到基于不同过滤器的特征表示。将属于同一窗口的特征进行拼接，就可以得到窗口的特征向量，根据先后顺序的不同就可以得到特征序列；第三层是在特征序列中引入注意力机制，可以根据注意力分配的不同，对每一个特征都赋予不同的权重，这样对输出结果影响较大的特征就会被赋予更多的权重，从而对结果产生更重要的影响，最后将输出传入分类器进行事件谣言与否的判别。

图4所示为Text CNN模型结构说明，详细过程如下：

(1)对于数据集中所有的谣言与非谣言事件及其相应的评论，通过BERT预处理模型都训练成了句向量。对于每一个微博事件，选取其事件下的相应数条评论和原微博一起作为输入传入输入层，输入层为一个m×n的矩阵，m为选取的事件的总数量，n则为单条句向量的长度。

(2)通过使用尺寸不同的三种过滤器进行卷积，分别得到对应不同过滤器的特征，过滤器会在m×n的输入矩阵中不停的滑动，为了方便提取特征，设定过滤器的长度为k，宽度与输入矩阵宽度一样为n，一个过滤器提取出的特征就可以表示为h∈R^k×n，那么对应m中的任意一条u所获得的特征为：

w_u＝(x_u,x_u+1,…,x_u-k+1)

在对输入矩阵卷积完之后就会生成一个特征列表c，每一次卷积生成的特征都会对应c：c_u＝f(w_u*h+b)，式中的f为ReLU函数，b为偏置项。

(3)当过滤器在长度为m的输入上滑过时，特征列表的长度为(m-k+1)，假设存在q个过滤器，则会产生q个特征列表，将q通过拼接得到矩阵：

W₁＝[c₁,c₂,…,c_q]

c_q代表第q个过滤器产生的特征列表。而本文一共运用了三种不同尺寸的过滤器，最后产生的总的矩阵即为：

W＝[W₁,W₂,W₃]＝[c₁,c₂,…,c_q,c_q+1,…,c_2q,c_2q+1,…,c_3q]

(4)对每种过滤器获得的特征采取最大池化操作得到输出特征，将不同过滤器输出特征进行全连接得到CNN输出：

W'＝[c₁₁,c₂₂,…,c_kk]。

(5)采用注意力层对CNN层的输出进行加权求和，以获取微博序列的隐层表示，引入注意力机制的结构图如图5所示。对CNN网络引入注意力机制能给CNN网络输出的隐状态序列W'赋予不同的权重，这样在学习微博序列的表示时模型能够有侧重的利用微博序列信息。该注意力层将CNN网络的输出c_kk作为输入，输出微博序列对应的表示v_kk，

h_i＝tanh(W_A*c_kk+b_A)

组成矩阵V＝[v₁₁,v₂₂,…,v_kk]，W_A为权重矩阵，b_A为偏置值，h_i为c_kk的隐层表示，α_i为h_i与上下文h_A的相似度，v_i为输出向量。

(6)将输出送入全连接层，通过Softmax得到谣言与非谣言的概率输出，从而达到判断谣言事件的目的。

步骤6，用多层次训练模型对输入矩阵进行训练并测试，得到相应谣言检测结果。

实施例一：

为了证明本发明的有效性，我们选取了Ma等人整理并用于论文里的一系列基于微博平台的事件数据，该数据集是通过微博API捕获的原始信息以及给定事件的所有转发和回复，还抓取了未经报道为谣言的一般主题帖子并收集类似数量的谣言事件，详细的统计情况如下表所列：

我们将所有数据按照训练集与测试集4：1的比例进行划分，具体划分情况如下表所列：

我们采用的用来评估模型有效性的评价指标分别是准确率、精确率、召回率和F1值四个，预测结果与实际结果所产生的情况如下表所列：

我们用作对比的基线方法有四种，分别是SVM-TS、CNN-1、CNN-2、CNN-GRU，关于我们方法与基线方法在谣言检测中的效果比较详细数据如下表所列，实验结果MATLAB仿真图如图6所示：

由表可知传统的SVM-TS方法使用分类器进行谣言检测最后的准确率仅仅只有85.7％，效果并不是特别优秀，对比GRU-1、GRU-2、CNN-GRU三种模型的最后结果可以发现训练模型中加入卷积神经网络后因为可以通过过滤器提取到输入中不同的潜在特征，所以在准确率上有更好的表现达到了95.7％，而我们的模型在引入注意力机制后，将CNN的输出作为输入赋予不同的权重，这样对输出结果影响较大的特征就会被赋予更多的权重，从而对结果产生更重要的影响有助于进行谣言检测，结果表明我们的模型准确率达到了96.8％，并且在召回率和F1值上也有不错的提升。

实施例二：

为了证明我们方法的可行性，我们还选用了另一个微博数据集CED_Data set[23]进行试验，通过使用相同预训练模型获得的句向量在不同训练模型上训练得到准确率进行比较。该数据集包含了1538条谣言事件和1849条非谣言事件，我们按照训练集与测试集4：1的比例进行实验，实验数据如下表所列，实验结果MATLAB仿真图如图7所示：

实验结果表明，通过BERT预训练模型获得的句向量在不同的训练模型上进行训练在准确率方面仍然会有偏差，但是偏差幅度对比之前使用不同预训练模型要小。通过实验可以得出，SVM-TS的准确率大概为86.7％，其次依次是GRU-1、CNN-GRU、GRU-2模型，效果最好的是我们提出的CNN-Attention模型，准确率达到了95.3％，并且在召回率和F1值上体现出的效果也是众多模型中最好的。

综上所述，我们的模型在两个不同的数据集上都表现出了最好的效果，通过使用BERT预训练模型可以大幅度提高预处理出的句向量的特征表现效果，搭配融入了注意力机制的CNN模型可以更有效的提取出文本中的潜在特征，对谣言检测任务意义重大。

本发明主要从预训练模型和训练模型两个方面阐述微博谣言事件检测问题，主要说明了预训练模型一样会对实验结果产生影响，当把部分下游NLP任务转移到预训练模型进行时可以取得更好的效果；在训练模型上，基于传统的Text CNN模型本文提出了一种新的引入注意力机制的谣言检测模型，可以对输入的句向量根据其对输入的影响程度赋予不同的权重，从而对预测事件谣言与否产生积极影响。本方法在真实微博数据集上经过实验验证具有较好的谣言检测效果。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种微博谣言检测方法，其特征在于，包含如下步骤：

A、收集微博事件和相应评论数据集作为样本数据；

B、对所述样本数据进行预处理，分别提取原微博与评论的文本内容；

所述构建多层次训练模型由Text CNN和注意力机制两部分组成；其中，Text CNN模型使用三个卷积尺寸分别为3，4，5的卷积核对待测向量矩阵进行卷积操作，得到关于不同卷积核基于向量矩阵的不同的特征表示，通过池化操作每个卷积核对应输入矩阵只产生一个最大特征，再通过全连接操作将不同尺寸卷积核所得特征表示相连；注意力机制对全连接后产生的特征表示根据每个特征按照对输出影响力的不同赋予不同的权重，使得影响力大的特征在进行谣言检测时会拥有更大的影响力；

2.根据权利要求1所述的微博谣言检测方法，其特征在于：所述样本数据包括谣言样本数据和非谣言样本数据。

3.根据权利要求1所述的微博谣言检测方法，其特征在于：步骤B中，使用正则表达式清除json文件中的噪声。

4.根据权利要求3所述的微博谣言检测方法，其特征在于：进行完预训练的全部文本按照训练数据与测试数据4：1的比例用于后续模型的处理。

5.根据权利要求4所述的微博谣言检测方法，其特征在于：预训练的BERT模型与代码能够实现词向量的嵌入。

6.根据权利要求5所述的微博谣言检测方法，其特征在于：所述BERT模型作为词向量模型，能够充分描述字符级、词级、句子级以及句子间关系特征，将NLP任务逐渐移到预训练产生句向量上。

7.根据权利要求1所述的微博谣言检测方法，其特征在于：所述BERT模型提出预训练目标：遮蔽语言模型(maskedlanguage model，MLM)，克服传统的单向性局限，MLM目标允许表征融合左右两侧的语境，从而可以预训练一个深度双向的Transformer。

8.根据权利要求7所述的微博谣言检测方法，其特征在于：所述BERT模型引入了“下一句预测”任务，可以和MLM共同训练文本对的表示。

9.根据权利要求8所述的微博谣言检测方法，其特征在于：所述BERT模型运用句子级负采样，预测输入BERT的两端文本是否连续；在训练过程中，输入模型的第二段将从所有文本中随机选择，概率为50％，其余50％将选择第一段的后续文本。