CN112650851B

CN112650851B - 基于多层次交互式证据生成的虚假新闻识别***及方法

Info

Publication number: CN112650851B
Application number: CN202011587811.8A
Authority: CN
Inventors: 饶元; 吴连伟; 孙菱; 郝哲; 贺王卜; 兰玉乾
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2023-04-07
Anticipated expiration: 2040-12-28
Also published as: CN112650851A

Abstract

本发明公开了一种基于多层次交互式证据生成的虚假新闻识别***及方法，通过设计两个渐进式编译码层次生成，以生成虚假新闻背后的真相作为验证结果的解释。本发明推理生成利用局部推理促使了新闻的虚假部分以及冲突之间的深层理解，以聚焦如何揭示假新闻背后的真实虚假部分；本发明具有可拆解性，可将本发明的三个生成模块解耦训练利用，具有模型泛化能力和任务阶段性训练能力；在两个公开的、广泛使用的假新闻数据集上实验表明，本发明比以前的最先进的方法取得了更好的性能。

Description

基于多层次交互式证据生成的虚假新闻识别***及方法

技术领域

本发明涉及一种具有可解释性的基于多层次交互式精细化证据生成的虚假新闻识别***及方法。

背景技术

当前，社交媒体已经成为人们生活中不可或缺的一部分，人们可以自由地在社交媒体中表达自我，汲取知识、互动交流。社交网络凭借其言论便捷性与信息发布的低成本性不仅带来了“群体智慧”，同时也导致了大量虚假或未经证实的信息的扩散与泛滥，尤其是在重大极端突发事件面前，极易引发虚假信息扩散，扰乱人们的生活秩序，造成社会恐慌。假新闻的肆虐严重影响了人们生活、社会稳定乃至国家安全。如何对社交网络中快速识别出信息的可信度，并使识别结果对用户可解释，已经成为了目前学术界与工业界面临的重大难题之一。

目前数据挖掘与机器学习的应用已经使假新闻的识别研究获得了长足的发展。经典的方法是借助假新闻的内容来抽取文本特征(如N元语法特征和词袋特征)并利用监督学习算法(如随机森林与支持向量机)进行信息的真伪性识别。NLP研究者还聚焦了更加深层次的语言特征，如事实/肯定动词和主观性词语以及写作风格的挖掘。尽管这些方法已经实现了一定的假新闻检测性能，但他们很难对检测结果给用户提供一个合理解释。为克服这些弊端，最近研究趋向于探索具有可解释性的假新闻检测方法，其主要是通过发展交互模型来从可靠来源中捕获证据片段来解释假新闻的虚假部分，常常聚焦于词级显著性证据语义以及句子级一致性语义来体现假新闻的可解释性。然而，尽管这些交互模型已经从一定程度上反映了可解释性，其捕获的词级与句子级证据可能仅仅是新闻与相关文章之间的冲突，这些冲突很难解释假新闻背后的真相。换句话说，当前的交互模型捕获的可能是相关文章中的多种粗粒度的冲突，而假新闻背后的真相可能需要在这些冲突中不断提炼才能获得。

发明内容

本发明的目的在于解决现有技术中的问题，提供基于多层次交互式证据生成的虚假新闻识别***及方法，本发明利用两个生成模型来探究待验证新闻中可能存在的冲突与相关文章中潜在的证据，然后构建细粒度生成模型推导假新闻的真正错误的部分以及对应的证据，从而作为待验证新闻背后的真相用于可解释性假新闻检测。本发明不仅提高了假新闻的识别性能，还为识别结果提供了合理透明的可解释性证据。

为达到上述目的，本发明采用以下技术方案予以实现：

基于多层次交互式证据生成的虚假新闻识别方法，包括以下步骤：

步骤1，将新闻序列C与相关文章序列R作为输入特征；

步骤2：针对任一新闻序列C与相关文章序列R，采用自注意力网络作为冲突生成器和虚假部分生成器的编码器来学习任意两个单词间的依赖关系以及序列内部的结构特征；

步骤3：依靠不同的线性投影将新闻序列C或相关文章序列R的查询、键和值线性投影h次，然后并行执行缩放的点乘注意力；将注意力的结果串联起来，再进行投影以得到新的表示，具体如下：

H＝MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W^o (2)

其中，W_i ^Q、

和W^o为可训练参数；H^C和H^R是虚假部分生成器模块的两个输出；

为冲突生成器针对第一个、第i个以及最后一个相关文章的输出；

步骤4，由自注意网络构成的交叉注意网络使冲突生成器与虚假部分生成器的编码器的输出作为解码器的输入相互交互，具体如下：

H_claim＝attention(Q,K,V)＝attention(H^R,H^C,H^C) (4)

H_allRA＝attention(Q,K,V)＝attention(H^c,H^R,H^R) (5)

其中，H_claim和H_allRA分别表示针对新闻和针对相关文章的交叉注意力层的输出；

步骤5：利用线性插值作为融合函数

得到：

其中，λ为超参数，用于控制应该考虑多少其他任务的信息量被吸收，0＜λ＜1；

步骤6，将前馈网络应用到融合的结果中，前馈网络加入非线性特征和尺度不变特征，其中包含一个带有ReLU的隐含层；

其中，W₁、W₂、b₁和b₂为可训练参数，O^F为解码器的长下文注意力表示；

步骤7，利用softmax层获取生成过程的单词概率；相应产生的错误部分序列

的对数似然估计表示为：

步骤8，虚假部分生成器模块基于前馈网络产生的上下文注意力表示O^F的预测单词y_t，表示为：

P(y_t|C,y₁,y₂,…,y_t-1；θ)＝P(y_t-1|O^F；θ)＝softmax(W_sO^F) (9)

其中，W_s为可训练参数；

步骤9，在交叉注意力层，

表示相关文章与第i个文章的交互；

在融合层中，融合所有相关文章的交互，即：

其中，λ₁+λ₂+…+λ_n＝1；

在反馈网络层，冲突生成模块的输出是冲突序列O^C，虚假部分生成器模块生成的序列是Y^C；

步骤10，利用局部推理单元捕获所生成序列Y^F和Y^C之间的相关性，并将其合并到基于Y^C的Y^F的新表示中；

首先计算一个共同注意力矩阵

来捕获两个序列之间的相关性，共同注意力矩阵中的每个元素E_i,j表示Y^F序列第i个词和Y^C序列的第j个词之间的相关性；共同注意力矩阵为：

其中，W和P表示可训练参数，⊙表示元素点乘操作；

对于Y^F的Y^C指导的注意力向量：

采用绝对差异与元素点乘来融合原始向量

以及

得到包含Y^F的以Y^C为导向的推理信息的新表示：

其中，LayerNorm(·)是层正则化，结果

是一个2维的与Y^F相似形状的张量；

步骤11，通过生成过程得到生成的推理序列Y^E，由于所生成的推理序列能够推理出新闻的虚假部分和相应的证据，以此推理序列来解释假新闻的出错原因；

步骤12，将这三个序列按不同比例整合吸收上下文表示，得到正特特征F：

F＝e(Y^E)+γ₁e(Y^F)+γ₂e(Y^C) (17)

其中，e(·)是词序列的表示，γ₁和γ₂是超参数；

步骤13，基于整合特征F，使用一个多层感知器MLP分类器预测分布的标签，并采取softmax函数的概率分布预测任务学习，利用一个真实的训练样本标签y使得全局损失函数模型误差最小化：

v＝ReLU(W_fF+b_f) (18)

p＝softmax(W_pF+b_p) (19)

loss＝-∑ylogp (20)

其中，W_p、W_f、b_f和b_p均为可训练参数。

一种基于多层次交互式证据生成的虚假新闻识别***，包括：

编码模块，所述编码模块用于从生成模型的输入序列中捕获上下文表示，学习并编码输入序列之间的依赖性以及内部结构特征；

交互式学习解码模块，所述交互式学习解码模块用于探索假新闻中可能出现错误的部分以及相关文章之间存在的冲突语义；

可解释证据生成模块，所述可解释证据生成模块用于生成推断序列作为假新闻的出错原因的解释序列；

任务学习模块，所述任务学习模块用于整合三种生成序列来增强假新闻的识别性能。

一种基于多层次交互式证据生成的虚假新闻识别终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明公开了一种具有可解释性的基于多层次交互式精细化证据生成的虚假新闻识别***及方法，交互式解码器模型分别使得新闻语义与相关文章语义之间以及相关文章内容之间相互交互融合，有效捕获假新闻的虚假部分以及相关文章之间的冲突部分，发展了局部推断策略捕获了虚假部分与冲突部分的深度理解推理，最终实现了方法本身的性能提升与检测结果的可解释性。

本发明通过设计两个渐进式编译码层次生成，以生成虚假新闻背后的真相作为验证结果的解释。本发明推理生成利用局部推理促使了新闻的虚假部分以及冲突之间的深层理解，以聚焦如何揭示假新闻背后的真实虚假部分；本发明具有可拆解性，可将本发明的三个生成模块解耦训练利用，具有模型泛化能力和任务阶段性训练能力；在两个公开的、广泛使用的假新闻数据集上实验表明，本发明比以前的最先进的方法取得了更好的性能。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的架构图；

图2为本发明实验在Snopes和PolitiFact两个数据集下的性能图；

图3为本发明的模块组件在Snopes和PolitiFact两个数据集下分离性能对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明实施例公开了一种基于多层次交互式证据生成的虚假新闻识别***，包括：

编码模块，以假新闻以及一系列的相关文章作为生成模型的输入，为从生成模型的输入序列中捕获上下文表示，采用了自注意力模型来学习并编码输入序列之间的依赖性以及内部结构特征。特别地，本发明的前两个生成模型以相同的自注意力网络作为编码器结构。

交互式学习解码模块，发展了交互性学习模型来使新闻与相关文章交互以及相关文章之间进行交互，从而分别探索假新闻中可能出现错误的部分以及相关文章之间存在的冲突语义。

可解释证据生成模块，在常规的解码器的基础上，提出了局部推断网络来使得模块2中获得的假新闻的错误部分与冲突语义实现全局推理过程，从而生成精细化推断序列作为假新闻的出错原因的解释序列。

任务学习模块，以线性组合方式整合三种生成序列来增强假新闻的识别性能。

本发明实施例公开了一种基于多层次交互式证据生成的虚假新闻识别方法，包括以下步骤：

阶段0：数据初始化

步骤0：给定一个新闻序列C＝{c₁,c₂,…,c_|C|}，其中c_i表示第i个单词的嵌入序列，以及一系列相关文章序列R＝<r₁；r₂；…；r_|R|>；其中，r_i表示构成的第i个相关文章，“；”表示拼接操作，且

表示第i个相关文章中第k个词的嵌入表示，；另外，|C|、|R|以及|r_i|分别表示新闻序列的词长度，相关文章的数量，以及第i个相关文章的词长度。y表示真假二分类标签；

阶段1：编码器的构建

步骤1：将新闻序列与相关文章序列作为模型的输入特征；

步骤2：为模型输入特征的上下文表示，本发明采用了自注意力网络作为两个生成器的编码器来隐式地学习任意两个单词间的依赖关系以及序列内部的结构特征，以虚假部分生成器为例，编码器的细节可表达如下：

其中，Q,K,V分别是查询矩阵、键矩阵以及值矩阵。d是键矩阵的维度。在本实施例的设置中，Q＝K＝V＝C针对新闻序列的模块，Q＝K＝V＝R针对所有相关文章序列模块。在冲突生成器的编码器中，Q＝K＝V＝r_i针对第i个相关文章的编码。

步骤3：为增强自注意力的并行性提升模型的效率，多头注意力首先依靠不同的线性投影将查询、键和值线性投影h次，然后并行执行缩放的点乘注意力。最后，将这些注意力的结果串联起来，再进行投影以得到新的表示。该过程可公式化为：

H＝MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W^° (3)

其中，W_i ^Q、

和W^o为可训练参数。特别地，H^C和H^R是虚假部分生成器模块的两个输出。

为冲突生成器针对第一个，第i个以及最后一个相关文章的输出。

阶段2：交互式学习解码器的构建

步骤4：为了探究待验证新闻中可能出现的错误部分，设计了交互式学习解码器，使新闻与相关文章进行交互。该交互模块涉及了三个层次：交叉注意力层，融合层以及前馈网络层。

步骤5：为了使待验证新闻与相关文章之间的交互作用更加充分，由自注意网络构成的交叉注意网络使两个编码器的输出作为解码器的输入相互交互。其交互过程可描述为：

H_claim＝attention(Q,K,V)＝attention(H^R,H^C,H^C) (4)

H_allRA＝attention(Q,K,V)＝attention(H^c,H^R,H^R) (5)

其中，H_claim和H_allRA分别表示针对新闻和针对相关文章的交叉注意力层的输出。

步骤6：为了将新闻融合到相关文章中并更加注重吸收新闻语义中的高层表示，利用线性插值作为融合函数，其可计算为：

其中，λ(0＜λ＜1)为超参数来控制应该考虑多少其他任务的信息量被吸收。

步骤7：紧接着，将前馈网络应用到融合的结果中，其加入了非线性特征和尺度不变特征，其中包含一个带有ReLU的隐含层。

其中，W₁、W₂、b₁和b₂为可训练参数，O^F为解码器的长下文注意力表示。

步骤8：最后，利用softmax层获取生成过程的单词概率。形式上，相应产生的错误部分序列

的对数似然估计可表达为：

步骤9：错误部分生成模块基于前馈网络产生的上下文表示O^F预测单词y_t可表达为：

P(y_t|C,y₁,y₂,…,y_t-1；θ)＝P(y_t-1|O^F；θ)＝softmax(W_sO^F) (9)

其中，W_s为可训练参数。

步骤10：特别地，冲突生成模块的解码器与错误部分生成模块的解码器相似，都为互动式学习解码器，其使所有相关的文章与各相关的文章进行交互，从而从相关的文章中捕捉可疑或冲突的语义。在交叉注意力层，

表示相关文章与第i个文章的交互。在融合层中，融合所有相关文章的交互，即

其中λ₁+λ₂+…+λ_n＝1。在反馈网络层，冲突生成模块的输出是冲突序列O^C，该模块生成的序列是Y^C。

阶段3：可解释证据的生成

步骤11：为了发现虚假新闻背后的真相，本实施例提出了借助局部推理单元来进行推理生成，从而实现一个通用的推理过程。局部推理单元捕获所生成序列Y^F和Y^C之间的相关性，并将其合并到基于Y^C的Y^F的新表示中。具体地，首先计算一个共同注意力矩阵

来捕获两个序列之间的相关性，共同注意力矩阵中的每个元素E_i,j表示Y^F序列第i个词和Y^C序列的第j个词之间的相关性。形式上，共同注意力矩阵可计算为：

其中，W和P表示可训练参数，⊙表示元素点乘操作。

步骤12：得到对于Y^F的Y^C指导的注意力向量：

步骤13：为了更充分地整合Y^F和Y^C，采用绝对差异与元素点乘来融合原始向量Y_i ^F以及

步骤14：获得了包含Y^F的以Y^C为导向的推理信息的新表示：

其中，LayerNorm(·)是层正则化，结果

是一个2维的与Y^F相似形状的张量。

步骤15：通过生成过程得到生成的推理序列Y^E(步骤8与步骤9)。由于所生成的推理序列能够推理出新闻的虚假部分和相应的证据，以此推理序列来解释假新闻的出错原因。

阶段4：任务学习

步骤16：为了充分利用所生成的三个序列来提高假新闻识别的性能，将这三个序列按不同比例整合吸收上下文表示。

F＝e(Y^E)+γ₁e(Y^F)+γ₂e(Y^C) (17)

其中，e(·)是词序列的表示，γ₁和γ₂是超参数。

步骤17：基于整合特征F，使用一个多层感知器(MLP)分类器预测分布的标签，并采取softmax函数的概率分布预测任务学习，利用一个真实的训练样本标签y使得全局损失函数模型误差最小化：

v＝ReLU(W_fF+b_f) (18)

p＝softmax(W_pF+b_p) (19)

loss＝-∑ylogp (20)

其中，W_p、W_f、b_f和b_p均为可训练参数。

本发明一实施例提供的装置。该实施例包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。

所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。