CN107832353A

CN107832353A - 一种社交媒体平台虚假信息识别方法

Info

Publication number: CN107832353A
Application number: CN201710993388.3A
Authority: CN
Inventors: 黄震华; 黄安忆; 张银; 庞统; 庞一统; 程久军
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2018-03-23
Anticipated expiration: 2037-10-23
Also published as: CN107832353B

Abstract

本发明公开一种社交媒体平台虚假信息识别方法，其中：虚假信息样本集生成模块使用孪生生成式对抗网络(SGAN：Siamese Generative Adversarial Network)模型来构造并生成大规模的基础虚假信息样本集，然后通过无监督学习和有监督学习相结合的方式对所生成的基础虚假信息样本的虚假等级进行标记。虚假信息离线识别学习模块基于深度学习技术来训练虚假信息的识别并迭代优化深度识别模型的参数。虚假信息在线识别模块首先使用探索‑利用策略获取新发布信息中的候选虚假信息集，然后对候选虚假信息集中的信息进行实时虚假识别和评级。与现有技术相比，本发明具有准确度高、泛化能力强以及速度快等优点，能够有效应用于电子商务、医疗健康、网络信息安全以及舆情监控等领域。

Description

一种社交媒体平台虚假信息识别方法

技术领域

本发明涉及计算机应用技术领域，尤其是涉及一种网络虚假信息的识别方法。

背景技术

进入Web2.0时代，社交网络(SNS)的崛起为人们提供了高度自由分析信息和交流观点的重要平台-社交媒体平台，如Twitter、Facebook、YouTube、新浪微博和腾讯微博等。借助基于社交媒体平台上用户社交网络关系的信息分享、传播以及获取技术，可以使用户通过WEB、WAP以及各种客户端组建、加入不同的社区群组，从而较之传统的平面媒体、网络媒体等，获得更大程度和规模的信息，同时产生更为丰富的互动交流体验，增进用户的实际使用感受。正是凭借这种社交关系产生的特有的裂变式信息传播分享模式，社交媒体平台迅速席卷整个互联网，从政府、名人、明星，到普通民众，已经成为特有的用户群体网络汇集重要平台。

社交媒体平台给我们工作和日常生活带来方便的同时，也产生了很多负面问题，特别是谣言和虚假信息众多，而且通过社交媒体平台，新鲜的消息不再以口耳相传的方式进行传播，通过网络传播的成本大大降低，很多媒体为了造成高影响力而雇佣水军进行转发，这样的转发不仅没有质量，而且容易造成误导，给人们生活带来严重的困扰。因此，对社交媒体平台的虚假信息进行准确快速的识别是非常必要的。

目前识别社交媒体平台虚假信息的方法大都采用统计学***台的全局信息进行虚假识别，这样当数据规模比较大的时候，其识别速度非常慢，也很难满足实时性的要求。

发明内容

本发明的目的就是为了解决上述现有方法存在的缺陷而提供一种准确度高、泛化能力强以及速度快的社交媒体平台虚假信息识别***，技术框架如图1所示。

本发明需要保护的技术方案：

一种社交媒体平台虚假信息识别方法，其特征在于，主要由虚假信息样本集生成、虚假信息离线识别学习以及虚假信息在线识别3个模块组成(即三大步骤)。

虚假信息样本集生成步骤(模块1)主要包含两个阶段：

第一阶段：基础虚假信息样本集构造。本发明以现有带标签数据集中的真实信息样本集为输入，训练孪生生成式对抗网络(SGAN：Siamese Generative AdversarialNetwork)模型结构来构造并生成大规模的基础虚假信息样本集，基础虚假信息样本集中的数据样本是不带虚假等级标签的。SGAN模型结构由两个绝大部分参数共享的GAN模型部件构成，其中第一个GAN模型部件用来训练生成基础虚假信息样本，而第二个GAN模型部件用来训练识别基础虚假信息样本的主题类别。当SGAN模型结构训练完毕之后，本发明最终只需要第一个GAN模型部件来生成大规模基础虚假信息样本集，而删除掉第二个GAN模型部件。

第二阶段：基础虚假信息样本集评级。本发明首先以社交媒体平台无标签数据为输入，通过无监督学习的方式来训练学习无标签数据的特征表示，在此基础上，以现有带标签数据集中带虚假级别的虚假信息样本集为输入，通过有监督学习的方式训练学习虚假信息样本的等级标记，然后利用该模型对模块1生成的每一条基础虚假信息样本进行等级识别并标记，从而得到带虚假等级的大规模虚假信息样本集。

虚假信息离线识别学习步骤(模块2)以现有带标签数据集(包括真实信息样本集和带虚假级别的虚假信息样本集)以及模块1生成的带虚假等级的虚假信息样本集为输入，利用多层卷积神经网络(CNN：Convolutional Neural Network)和长短期记忆网络(LSTM:Long Short Term Memory)组成的深度神经网络结构来训练虚假信息的识别并迭代优化识别模型的参数。

虚假信息在线识别步骤(模块3)主要包含两个阶段：

第一阶段：候选虚假信息集获取。本发明使用探索-利用(E&E:Exploitation&Exploration)策略，以社交媒体平台中自最近一次虚假信息识别操作以来新发布的信息为输入，首先获取其中最有可能的虚假信息数据集，即候选虚假信息集，然后从新发布的其余信息中随机选取一小部分数据并随机替换候选虚假信息集中的数据。

第二阶段：虚假信息识别与评级。本发明使用模块2构造的深度识别模型对候选虚假信息数据集中的每一条信息进行识别和虚假等级标定。

本发明具有以下优点：

1.本发明利用大规模的虚假信息数据样本集，并通过多层卷积神经网络和长短期记忆网络组成的深度神经网络模型来训练虚假信息的识别并迭代优化识别模型的参数，从而能够显著提高虚假信息识别的准确度。

2.本发明通过孪生生成式对抗网络模型来生成的大规模基础虚假信息样本集具有来自不同数据分布的特性，这样能够大幅度提高虚假信息识别的泛化能力。

3.本发明在虚假信息在线识别的过程中首先获取候选虚假信息集，这样能够显著减少输入到深度识别模型中信息的规模，从而能够极大加快虚假信息识别的速度。

附图说明

图1本发明的技术框架图

图2模块1第一阶段所训练SGAN模型的逻辑结构图

图3模块1第二阶段所训练虚假信息样本等级标记模型的逻辑结构图

图4模块2所训练虚假信息离线识别模型的逻辑结构图

具体实施方式

本发明提供的准确度高、泛化能力强以及速度快的社交媒体平台虚假信息识别***，技术框架如图1所示。

以下结合附图进一步详述。

虚假信息样本集生成模块(模块1)具体实施方式如下：

第一阶段(基础虚假信息样本集构造)所训练的孪生生成式对抗网络模型SGAN的逻辑结构如图2所示。

SGAN模型包含两个生成式对抗网络部件GAN1和GAN2，这两个部件均由生成子部件和判别子部件子部件构成。GAN1部件的生成子部件由编码器和解码器两个部分组成。生成子部件首先随机产生服从标准高斯分布N(0,1)且长度为m₁的一维噪声向量z₁，并在编码器中，基于卷积神经网络模型(CNN：Convolutional Neural Network)结构，依次经过卷积层1、池化层1、卷积层2、池化层2以及全连接层生成长度为m₂的一维语义向量。在解码器中，本发明首先接收编码器生成的一维语义向量，并基于长短期记忆网络模型(LSTM:Long ShortTerm Memory)结构，依次经过d个LSTM单元，并最终输出虚假信息文本f_t₁。LSTM单元的数量d不是固定的，它的取值由最后一个LSTM单元的生成概率p所决定，当p小于用户给定的某个具体阈值σ时，那么解码器处理过程结束，此时d即为解码器所使用的LSTM单元个数。GAN1的判别子部件分别接收生成子部件产生的虚假信息文本f_t₁和真实信息样本tr_t，首先将输入的文本数据f_t₁或tr_t利用Word2vec词嵌套技术映射成行、列长度分别为n₁和的两维矩阵，并基于卷积神经网络模型结构，依次经过卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1以及全连接层2生成长度为n₂的一维输出向量，并最后连接一个0/1信息真假二分类器，其中f_t₁对应0，即虚假类别，而tr_t对应1，即真实类别。GAN2部件中的生成子部件结构与GAN1相同，编码器将服从高斯分布N(0,1)且长度为m₁的随机一维噪声向量z₂编码转换成长度为m₂的一维语义向量，并在解码器中将该一维语义向量解码生成虚假信息文本f_t₂。而判别子部件与GAN1的不同之处在于将0/1信息真假二分类器替换成softmax主题类别多分类器，对应s+1个主题类别c₁,c₂,…,c_s,c_s+1，其中前s个主题类别是真实信息样本中存在的，而主题类别c_s+1是虚假信息文本f_t₂所对应的。

在SGAN模型的训练过程中，GAN1和GAN2的生成子部件的参数是共享的，判别子部件的Word2vec词嵌套、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1以及全连接层2的参数是共享的，而GAN1中全连接层2到0/1信息真假二分类器间的参数与GAN2中全连接层2到softmax主题类别多分类器间的参数是不共享的。优选实施方式，建议：GAN1和GAN2的绝大部分参数共享，尽可能极少一部分参数不共享，这样做的优点是减少参数数量的同时能够大幅度提高SGAN模型的准确度。在SGAN模型学习优化方面，本发明使用受限最小最大零和博弈策略，见公式(1)和(2)：

满足约束：

在上述两个公式中，x₁和x₂分别表示GAN1和GAN2中来源与真实信息样本的数据，p_x表示真实信息样本的数据分布；z₁和z₂分别表示GAN1和GAN2中所产生的随机一维噪声向量，p_z表示随机一维噪声向量所服从的数据分布，即高斯分布N(0,1)；f₁和f₂分别表示GAN1和GAN2中0/1信息真假二分类器和softmax主题类别多分类器的输出激活函数，g₁和g₂分别表示GAN1和GAN2中生成子部件的输出激活函数；θ(g₁)和θ(g₂)分别表示GAN1和GAN2中生成子部件的模型参数，θ(f₁ ⁽¹⁾)和θ(f₂ ⁽¹⁾)分别表示GAN1和GAN2判别子部件中共享的模型参数，而θ(f₁ ⁽²⁾)和θ(f₂ ⁽²⁾)分别表示GAN1和GAN2判别子部件中不共享的模型参数；Ω表示SGAN模型学习用到的损失函数，E表示计算期望值，c₁,c₂,…,c_s,c_s+1为GAN2中的s+1个主题类别，表示或操作，“|”表示条件概率。

当SGAN模型训练完毕之后，本发明首先抽取并保留GAN1部件中的生成子部件，同时删除掉其余的模型结构，然后使用生成子部件循环随机产生w个长度为m₁的一维噪声向量，从而生成w个虚假信息文本f_t₁,f_t₂,…,f_t_w，每个虚假信息文本做为一个基础虚假信息样本。这w个虚假信息文本构成了基础虚假信息样本集。

第二阶段(基础虚假信息样本集评级)所训练的虚假信息样本等级标记模型的逻辑结构如图3所示。

虚假信息样本等级标记模型的训练过程主要包括两个步骤：

步骤1：社交媒体平台无标签数据特征表示学***台中的无标签数据为输入，利用Word2vec词嵌套技术映射成长度为u的一维输入向量，然后输入到去噪自编码器(DAE:Denoising AutoEncoder)中实现无标签数据的特征提取。在去噪自编码器中，我们随机产生长度为u的一维随机噪声向量，该噪声向量的各分量取值只能为0或1，并将它与一维输入向量做位与操作得到一个新的带噪声的一维向量，接着，将该向量输入到特征提取部件中的神经网络结构，依次经过由多个神经元组成的输入层1、输入层2和特征提取层来产生无标签数据对应的长度为v一维特征向量，然后将该一维特征向量经过由输出层1和输出层2构成的神经网络结构并生成长度为u的一维输出向量。本发明通过不断拟合一维输出向量和一维输入向量的值来迭代优化模型的参数。

步骤2：虚假信息样本等级标记学习。本发明采用有监督的学习方式，首先以带虚假级别的虚假信息样本集为输入，虚假级别的类别分为强、中和弱三类(分别用3、2、1来表示)，利用Word2vec词嵌套技术映射成长度为u的一维输入向量，然后输入到步骤1所获得的特征提取部件中来生成长度为v一维特征向量，接着，基于卷积神经网络结构，依次经过卷积层1、池化层1、卷积层2、池化层2以及全连接层生成长度为h的一维输出向量，并将该一维输出向量连接到softmax虚假等级三分类器。本发明通过不断递减softmax虚假等级三分类器的分类误差来迭代优化模型的参数。

当虚假信息样本等级标记模型训练完毕之后，本发明首先抽取并保留步骤2中的虚假信息样本等级标记学***台无标签数据特征表示学习模型，然后对于模块1中生成的每一条基础虚假信息样本f_t输入到虚假信息样本等级标记学习模型中来产生它虚假等级f_t^(r)，从而得到带虚假等级的虚假信息样本集。

虚假信息离线识别学习模块(模块2)所训练的虚假信息离线识别模型的逻辑结构如图4所示。

在虚假信息离线识别模型的训练过程中，本发明以现有带标签数据集(包括真实信息样本集和带虚假级别的虚假信息样本集)以及模块1生成的带虚假等级的虚假信息样本集为输入，首先利用Word2vec词嵌套技术映射成行、列长度分别为n₁和的两维输入矩阵，其中每一个词通过Word2vec映射成一个行向量，接着，并行将n₁个行向量中的每一个行向量输入到依次由卷积层1、池化层1、卷积层2、池化层2和卷积层3所构成的卷积神经网络结构中，即共有n₁个卷积神经网络结构，同时，本发明分别将其中的n₁个卷积层1、n₁个卷积层2和n₁个卷积层3组成三个具有n₁个LSTM单元的长短期记忆网络结构，并分别输出三个一维输出向量，即一维输出向量1～3，然后将这三个一维输出向量依次连接到全连接层1、全连接层2以及softmax虚假等级四分类器，softmax虚假等级四分类器分别对应训练样本的4个虚假等级类别，即真实信息样本对应虚假等级0，而虚假信息样本对应强、中和弱3类虚假等级，即等级3、2、1。本发明通过不断递减softmax虚假等级四分类器的分类误差来迭代优化模型的参数。

虚假信息在线识别模块(模块3)具体实施方式如下：

在第一阶段(候选虚假信息集获取)中，本发明首先抽取***最近k(k<5)次虚假信息识别操作所得到的虚假信息集F，然后从F中获取所有虚假信息的发布源，并删除虚假信息数量少于用户给定阈值的全部发布源，从而得到虚假信息发布源集合U。在此基础上，我们使用探索-利用(E&E:Exploitation&Exploration)策略来获取候选虚假信息集C，实施过程如下：本发明首先令C为空集，并以社交媒体平台中自最近一次虚假信息识别操作以来新发布的信息Ψ为输入，获取Ψ的发布源集合NU，然后使用皮尔森相关系数(PCC:PearsonCorrelation Coefficient)方法计算并获取NU中与U的任意一个虚假信息发布源的相似度超过用户给定阈值τ的所有发布源，它们构成候选发布源集合进而得到Ψ中由FU发布的信息子集，我们将该信息子集加入到C中。接着，本发明使用余弦相似度方法计算并获取Ψ中与F的任意一个虚假信息发布源的相似度超过用户给定阈值ρ的所有信息，我们将这些信息加入到C中，并去冗余。最后，本发明从候选虚假信息集C中通过无放回随机抽样的方式选取数量的信息，并将这些从C中移除，然后从信息集Ψ-C中通过无放回随机抽样的方式选取数量的信息，并将这些信息加入到C中，这里符号表示取实数的上限整数，|C|为候选虚假信息集C中的信息个数，a为抽样比例，通常为小于1的正数。此时，C中的信息很大程度上是虚假信息，但一小部分也有可能是真实信息。

在第二阶段(虚假信息识别与评级)中，本发明将候选虚假信息集C中的每一条信息c输入到模块2的虚假信息离线识别模型中，来获取c的虚假等级，如果虚假等级为0，表明c是真实信息，将它从C中移除，如果虚假等级不为0，表明c为虚假信息，并对c的虚假等级进行标记，即1为弱虚假信息、2为中虚假信息、3为强虚假信息，同时识别其发布源

Claims

1.一种社交媒体平台虚假信息识别方法，其特征在于，包括虚假信息样本集生成、虚假信息离线识别学习以及虚假信息在线识别三大步骤；

一、虚假信息样本集生成步骤(1)主要包含两个阶段：

第一阶段：基础虚假信息样本集构造；

以现有带标签数据集中的真实信息样本集为输入，训练孪生生成式对抗网络(SGAN：Siamese Generative Adversarial Network)模型结构来构造并生成大规模的基础虚假信息样本集，基础虚假信息样本集中的数据样本是不带虚假等级标签的；SGAN模型结构由两个绝大部分参数共享的GAN模型部件构成，其中第一个GAN模型部件用来训练生成基础虚假信息样本，而第二个GAN模型部件用来训练识别基础虚假信息样本的主题类别；当SGAN模型结构训练完毕之后，最终只需要第一个GAN模型部件来生成大规模基础虚假信息样本集，而删除掉第二个GAN模型部件；

第二阶段：基础虚假信息样本集评级；

首先以社交媒体平台无标签数据为输入，通过无监督学习的方式来训练学习无标签数据的特征表示，在此基础上，以现有带标签数据集中带虚假级别的虚假信息样本集为输入，通过有监督学习的方式训练学习虚假信息样本的等级标记，然后利用该模型对所述虚假信息样本集生成步骤(1)生成的每一条基础虚假信息样本进行等级识别并标记，从而得到带虚假等级的大规模虚假信息样本集；

二、虚假信息离线识别学习步骤(2)以现有带标签数据集(包括真实信息样本集和带虚假级别的虚假信息样本集)以及所述虚假信息样本集生成步骤(1)生成的带虚假等级的虚假信息样本集为输入，利用多层卷积神经网络(CNN：Convolutional Neural Network)和长短期记忆网络(LSTM:Long Short Term Memory)组成的深度神经网络结构来训练虚假信息的识别并迭代优化识别模型的参数；

三、虚假信息在线识别步骤(3)主要包含两个阶段：

第一阶段：候选虚假信息集获取；

使用探索-利用(E&E:Exploitation&Exploration)策略，以社交媒体平台中自最近一次虚假信息识别操作以来新发布的信息为输入，首先获取其中最有可能的虚假信息数据集，即候选虚假信息集，然后从新发布的其余信息中随机选取一小部分数据并随机替换候选虚假信息集中的数据；

第二阶段：虚假信息识别与评级；

使用虚假信息离线识别学习步骤(2)构造的深度识别模型对候选虚假信息数据集中的每一条信息进行识别和虚假等级标定。