CN112650851B - 基于多层次交互式证据生成的虚假新闻识别***及方法 - Google Patents

基于多层次交互式证据生成的虚假新闻识别***及方法 Download PDF

Info

Publication number
CN112650851B
CN112650851B CN202011587811.8A CN202011587811A CN112650851B CN 112650851 B CN112650851 B CN 112650851B CN 202011587811 A CN202011587811 A CN 202011587811A CN 112650851 B CN112650851 B CN 112650851B
Authority
CN
China
Prior art keywords
sequence
attention
news
false
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011587811.8A
Other languages
English (en)
Other versions
CN112650851A (zh
Inventor
饶元
吴连伟
孙菱
郝哲
贺王卜
兰玉乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202011587811.8A priority Critical patent/CN112650851B/zh
Publication of CN112650851A publication Critical patent/CN112650851A/zh
Application granted granted Critical
Publication of CN112650851B publication Critical patent/CN112650851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于多层次交互式证据生成的虚假新闻识别***及方法,通过设计两个渐进式编译码层次生成,以生成虚假新闻背后的真相作为验证结果的解释。本发明推理生成利用局部推理促使了新闻的虚假部分以及冲突之间的深层理解,以聚焦如何揭示假新闻背后的真实虚假部分;本发明具有可拆解性,可将本发明的三个生成模块解耦训练利用,具有模型泛化能力和任务阶段性训练能力;在两个公开的、广泛使用的假新闻数据集上实验表明,本发明比以前的最先进的方法取得了更好的性能。

Description

基于多层次交互式证据生成的虚假新闻识别***及方法
技术领域
本发明涉及一种具有可解释性的基于多层次交互式精细化证据生成的虚假新闻识别***及方法。
背景技术
当前,社交媒体已经成为人们生活中不可或缺的一部分,人们可以自由地在社交媒体中表达自我,汲取知识、互动交流。社交网络凭借其言论便捷性与信息发布的低成本性不仅带来了“群体智慧”,同时也导致了大量虚假或未经证实的信息的扩散与泛滥,尤其是在重大极端突发事件面前,极易引发虚假信息扩散,扰乱人们的生活秩序,造成社会恐慌。假新闻的肆虐严重影响了人们生活、社会稳定乃至国家安全。如何对社交网络中快速识别出信息的可信度,并使识别结果对用户可解释,已经成为了目前学术界与工业界面临的重大难题之一。
目前数据挖掘与机器学习的应用已经使假新闻的识别研究获得了长足的发展。经典的方法是借助假新闻的内容来抽取文本特征(如N元语法特征和词袋特征)并利用监督学习算法(如随机森林与支持向量机)进行信息的真伪性识别。NLP研究者还聚焦了更加深层次的语言特征,如事实/肯定动词和主观性词语以及写作风格的挖掘。尽管这些方法已经实现了一定的假新闻检测性能,但他们很难对检测结果给用户提供一个合理解释。为克服这些弊端,最近研究趋向于探索具有可解释性的假新闻检测方法,其主要是通过发展交互模型来从可靠来源中捕获证据片段来解释假新闻的虚假部分,常常聚焦于词级显著性证据语义以及句子级一致性语义来体现假新闻的可解释性。然而,尽管这些交互模型已经从一定程度上反映了可解释性,其捕获的词级与句子级证据可能仅仅是新闻与相关文章之间的冲突,这些冲突很难解释假新闻背后的真相。换句话说,当前的交互模型捕获的可能是相关文章中的多种粗粒度的冲突,而假新闻背后的真相可能需要在这些冲突中不断提炼才能获得。
发明内容
本发明的目的在于解决现有技术中的问题,提供基于多层次交互式证据生成的虚假新闻识别***及方法,本发明利用两个生成模型来探究待验证新闻中可能存在的冲突与相关文章中潜在的证据,然后构建细粒度生成模型推导假新闻的真正错误的部分以及对应的证据,从而作为待验证新闻背后的真相用于可解释性假新闻检测。本发明不仅提高了假新闻的识别性能,还为识别结果提供了合理透明的可解释性证据。
为达到上述目的,本发明采用以下技术方案予以实现:
基于多层次交互式证据生成的虚假新闻识别方法,包括以下步骤:
步骤1,将新闻序列C与相关文章序列R作为输入特征;
步骤2:针对任一新闻序列C与相关文章序列R,采用自注意力网络作为冲突生成器和虚假部分生成器的编码器来学习任意两个单词间的依赖关系以及序列内部的结构特征;
步骤3:依靠不同的线性投影将新闻序列C或相关文章序列R的查询、键和值线性投影h次,然后并行执行缩放的点乘注意力;将注意力的结果串联起来,再进行投影以得到新的表示,具体如下:
Figure GDA0003957626710000021
H=MultiHead(Q,K,V)=Concat(head1,head2,…,headh)Wo      (2)
其中,Wi Q
Figure GDA0003957626710000031
和Wo为可训练参数;HC和HR是虚假部分生成器模块的两个输出;
Figure GDA0003957626710000032
为冲突生成器针对第一个、第i个以及最后一个相关文章的输出;
步骤4,由自注意网络构成的交叉注意网络使冲突生成器与虚假部分生成器的编码器的输出作为解码器的输入相互交互,具体如下:
Hclaim=attention(Q,K,V)=attention(HR,HC,HC)      (4)
HallRA=attention(Q,K,V)=attention(Hc,HR,HR)      (5)
其中,Hclaim和HallRA分别表示针对新闻和针对相关文章的交叉注意力层的输出;
步骤5:利用线性插值作为融合函数
Figure GDA0003957626710000033
得到:
Figure GDA0003957626710000034
其中,λ为超参数,用于控制应该考虑多少其他任务的信息量被吸收,0<λ<1;
步骤6,将前馈网络应用到融合的结果中,前馈网络加入非线性特征和尺度不变特征,其中包含一个带有ReLU的隐含层;
Figure GDA0003957626710000035
其中,W1、W2、b1和b2为可训练参数,OF为解码器的长下文注意力表示;
步骤7,利用softmax层获取生成过程的单词概率;相应产生的错误部分序列
Figure GDA0003957626710000036
的对数似然估计表示为:
Figure GDA0003957626710000037
步骤8,虚假部分生成器模块基于前馈网络产生的上下文注意力表示OF的预测单词yt,表示为:
P(yt|C,y1,y2,…,yt-1;θ)=P(yt-1|OF;θ)=softmax(WsOF)     (9)
其中,Ws为可训练参数;
步骤9,在交叉注意力层,
Figure GDA0003957626710000041
表示相关文章与第i个文章的交互;
在融合层中,融合所有相关文章的交互,即:
Figure GDA0003957626710000042
其中,λ12+…+λn=1;
在反馈网络层,冲突生成模块的输出是冲突序列OC,虚假部分生成器模块生成的序列是YC
步骤10,利用局部推理单元捕获所生成序列YF和YC之间的相关性,并将其合并到基于YC的YF的新表示中;
首先计算一个共同注意力矩阵
Figure GDA0003957626710000043
来捕获两个序列之间的相关性,共同注意力矩阵中的每个元素Ei,j表示YF序列第i个词和YC序列的第j个词之间的相关性;共同注意力矩阵为:
Figure GDA0003957626710000044
其中,W和P表示可训练参数,⊙表示元素点乘操作;
对于YF的YC指导的注意力向量:
Figure GDA0003957626710000045
Figure GDA0003957626710000046
采用绝对差异与元素点乘来融合原始向量
Figure GDA0003957626710000047
以及
Figure GDA0003957626710000048
Figure GDA0003957626710000049
Figure GDA0003957626710000051
得到包含YF的以YC为导向的推理信息的新表示:
Figure GDA0003957626710000052
Figure GDA0003957626710000053
其中,LayerNorm(·)是层正则化,结果
Figure GDA0003957626710000054
是一个2维的与YF相似形状的张量;
步骤11,通过生成过程得到生成的推理序列YE,由于所生成的推理序列能够推理出新闻的虚假部分和相应的证据,以此推理序列来解释假新闻的出错原因;
步骤12,将这三个序列按不同比例整合吸收上下文表示,得到正特特征F:
F=e(YE)+γ1e(YF)+γ2e(YC)         (17)
其中,e(·)是词序列的表示,γ1和γ2是超参数;
步骤13,基于整合特征F,使用一个多层感知器MLP分类器预测分布的标签,并采取softmax函数的概率分布预测任务学习,利用一个真实的训练样本标签y使得全局损失函数模型误差最小化:
v=ReLU(WfF+bf)        (18)
p=softmax(WpF+bp)       (19)
loss=-∑ylogp          (20)
其中,Wp、Wf、bf和bp均为可训练参数。
一种基于多层次交互式证据生成的虚假新闻识别***,包括:
编码模块,所述编码模块用于从生成模型的输入序列中捕获上下文表示,学习并编码输入序列之间的依赖性以及内部结构特征;
交互式学习解码模块,所述交互式学习解码模块用于探索假新闻中可能出现错误的部分以及相关文章之间存在的冲突语义;
可解释证据生成模块,所述可解释证据生成模块用于生成推断序列作为假新闻的出错原因的解释序列;
任务学习模块,所述任务学习模块用于整合三种生成序列来增强假新闻的识别性能。
一种基于多层次交互式证据生成的虚假新闻识别终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明公开了一种具有可解释性的基于多层次交互式精细化证据生成的虚假新闻识别***及方法,交互式解码器模型分别使得新闻语义与相关文章语义之间以及相关文章内容之间相互交互融合,有效捕获假新闻的虚假部分以及相关文章之间的冲突部分,发展了局部推断策略捕获了虚假部分与冲突部分的深度理解推理,最终实现了方法本身的性能提升与检测结果的可解释性。
本发明通过设计两个渐进式编译码层次生成,以生成虚假新闻背后的真相作为验证结果的解释。本发明推理生成利用局部推理促使了新闻的虚假部分以及冲突之间的深层理解,以聚焦如何揭示假新闻背后的真实虚假部分;本发明具有可拆解性,可将本发明的三个生成模块解耦训练利用,具有模型泛化能力和任务阶段性训练能力;在两个公开的、广泛使用的假新闻数据集上实验表明,本发明比以前的最先进的方法取得了更好的性能。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的架构图;
图2为本发明实验在Snopes和PolitiFact两个数据集下的性能图;
图3为本发明的模块组件在Snopes和PolitiFact两个数据集下分离性能对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明实施例公开了一种基于多层次交互式证据生成的虚假新闻识别***,包括:
编码模块,以假新闻以及一系列的相关文章作为生成模型的输入,为从生成模型的输入序列中捕获上下文表示,采用了自注意力模型来学习并编码输入序列之间的依赖性以及内部结构特征。特别地,本发明的前两个生成模型以相同的自注意力网络作为编码器结构。
交互式学习解码模块,发展了交互性学习模型来使新闻与相关文章交互以及相关文章之间进行交互,从而分别探索假新闻中可能出现错误的部分以及相关文章之间存在的冲突语义。
可解释证据生成模块,在常规的解码器的基础上,提出了局部推断网络来使得模块2中获得的假新闻的错误部分与冲突语义实现全局推理过程,从而生成精细化推断序列作为假新闻的出错原因的解释序列。
任务学习模块,以线性组合方式整合三种生成序列来增强假新闻的识别性能。
本发明实施例公开了一种基于多层次交互式证据生成的虚假新闻识别方法,包括以下步骤:
阶段0:数据初始化
步骤0:给定一个新闻序列C={c1,c2,…,c|C|},其中ci表示第i个单词的嵌入序列,以及一系列相关文章序列R=<r1;r2;…;r|R|>;其中,ri表示构成的第i个相关文章,“;”表示拼接操作,且
Figure GDA0003957626710000091
Figure GDA0003957626710000092
表示第i个相关文章中第k个词的嵌入表示,;另外,|C|、|R|以及|ri|分别表示新闻序列的词长度,相关文章的数量,以及第i个相关文章的词长度。y表示真假二分类标签;
阶段1:编码器的构建
步骤1:将新闻序列与相关文章序列作为模型的输入特征;
步骤2:为模型输入特征的上下文表示,本发明采用了自注意力网络作为两个生成器的编码器来隐式地学习任意两个单词间的依赖关系以及序列内部的结构特征,以虚假部分生成器为例,编码器的细节可表达如下:
Figure GDA0003957626710000093
其中,Q,K,V分别是查询矩阵、键矩阵以及值矩阵。d是键矩阵的维度。在本实施例的设置中,Q=K=V=C针对新闻序列的模块,Q=K=V=R针对所有相关文章序列模块。在冲突生成器的编码器中,Q=K=V=ri针对第i个相关文章的编码。
步骤3:为增强自注意力的并行性提升模型的效率,多头注意力首先依靠不同的线性投影将查询、键和值线性投影h次,然后并行执行缩放的点乘注意力。最后,将这些注意力的结果串联起来,再进行投影以得到新的表示。该过程可公式化为:
Figure GDA0003957626710000101
H=MultiHead(Q,K,V)=Concat(head1,head2,…,headh)W°     (3)
其中,Wi Q
Figure GDA0003957626710000102
和Wo为可训练参数。特别地,HC和HR是虚假部分生成器模块的两个输出。
Figure GDA0003957626710000103
为冲突生成器针对第一个,第i个以及最后一个相关文章的输出。
阶段2:交互式学习解码器的构建
步骤4:为了探究待验证新闻中可能出现的错误部分,设计了交互式学习解码器,使新闻与相关文章进行交互。该交互模块涉及了三个层次:交叉注意力层,融合层以及前馈网络层。
步骤5:为了使待验证新闻与相关文章之间的交互作用更加充分,由自注意网络构成的交叉注意网络使两个编码器的输出作为解码器的输入相互交互。其交互过程可描述为:
Hclaim=attention(Q,K,V)=attention(HR,HC,HC)    (4)
HallRA=attention(Q,K,V)=attention(Hc,HR,HR)    (5)
其中,Hclaim和HallRA分别表示针对新闻和针对相关文章的交叉注意力层的输出。
步骤6:为了将新闻融合到相关文章中并更加注重吸收新闻语义中的高层表示,利用线性插值作为融合函数,其可计算为:
Figure GDA0003957626710000111
其中,λ(0<λ<1)为超参数来控制应该考虑多少其他任务的信息量被吸收。
步骤7:紧接着,将前馈网络应用到融合的结果中,其加入了非线性特征和尺度不变特征,其中包含一个带有ReLU的隐含层。
Figure GDA0003957626710000112
其中,W1、W2、b1和b2为可训练参数,OF为解码器的长下文注意力表示。
步骤8:最后,利用softmax层获取生成过程的单词概率。形式上,相应产生的错误部分序列
Figure GDA0003957626710000113
的对数似然估计可表达为:
Figure GDA0003957626710000114
步骤9:错误部分生成模块基于前馈网络产生的上下文表示OF预测单词yt可表达为:
P(yt|C,y1,y2,…,yt-1;θ)=P(yt-1|OF;θ)=softmax(WsOF)     (9)
其中,Ws为可训练参数。
步骤10:特别地,冲突生成模块的解码器与错误部分生成模块的解码器相似,都为互动式学习解码器,其使所有相关的文章与各相关的文章进行交互,从而从相关的文章中捕捉可疑或冲突的语义。在交叉注意力层,
Figure GDA0003957626710000115
Figure GDA0003957626710000116
表示相关文章与第i个文章的交互。在融合层中,融合所有相关文章的交互,即
Figure GDA0003957626710000117
其中λ12+…+λn=1。在反馈网络层,冲突生成模块的输出是冲突序列OC,该模块生成的序列是YC
阶段3:可解释证据的生成
步骤11:为了发现虚假新闻背后的真相,本实施例提出了借助局部推理单元来进行推理生成,从而实现一个通用的推理过程。局部推理单元捕获所生成序列YF和YC之间的相关性,并将其合并到基于YC的YF的新表示中。具体地,首先计算一个共同注意力矩阵
Figure GDA0003957626710000121
来捕获两个序列之间的相关性,共同注意力矩阵中的每个元素Ei,j表示YF序列第i个词和YC序列的第j个词之间的相关性。形式上,共同注意力矩阵可计算为:
Figure GDA0003957626710000122
其中,W和P表示可训练参数,⊙表示元素点乘操作。
步骤12:得到对于YF的YC指导的注意力向量:
Figure GDA0003957626710000123
Figure GDA0003957626710000124
步骤13:为了更充分地整合YF和YC,采用绝对差异与元素点乘来融合原始向量Yi F以及
Figure GDA0003957626710000125
Figure GDA0003957626710000126
Figure GDA0003957626710000127
步骤14:获得了包含YF的以YC为导向的推理信息的新表示:
Figure GDA0003957626710000128
Figure GDA0003957626710000129
其中,LayerNorm(·)是层正则化,结果
Figure GDA00039576267100001210
是一个2维的与YF相似形状的张量。
步骤15:通过生成过程得到生成的推理序列YE(步骤8与步骤9)。由于所生成的推理序列能够推理出新闻的虚假部分和相应的证据,以此推理序列来解释假新闻的出错原因。
阶段4:任务学习
步骤16:为了充分利用所生成的三个序列来提高假新闻识别的性能,将这三个序列按不同比例整合吸收上下文表示。
F=e(YE)+γ1e(YF)+γ2e(YC)      (17)
其中,e(·)是词序列的表示,γ1和γ2是超参数。
步骤17:基于整合特征F,使用一个多层感知器(MLP)分类器预测分布的标签,并采取softmax函数的概率分布预测任务学习,利用一个真实的训练样本标签y使得全局损失函数模型误差最小化:
v=ReLU(WfF+bf)         (18)
p=softmax(WpF+bp)       (19)
loss=-∑ylogp         (20)
其中,Wp、Wf、bf和bp均为可训练参数。
本发明一实施例提供的装置。该实施例包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。
所终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。
所述处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。
所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于多层次交互式证据生成的虚假新闻识别方法,其特征在于,包括以下步骤:
步骤1,将新闻序列C与相关文章序列R作为输入特征;
步骤2:针对任一新闻序列C与相关文章序列R,采用自注意力网络作为冲突生成器和虚假部分生成器的编码器来学习任意两个单词间的依赖关系以及序列内部的结构特征;
步骤3:依靠不同的线性投影将新闻序列C或相关文章序列R的查询、键和值线性投影h次,然后并行执行缩放的点乘注意力;将注意力的结果串联起来,再进行投影以得到新的表示,具体如下:
headi=Attention(QWii Q,KWi K,VWi W)         (1)
H=MultiHead(Q,K,V)=Concat(head1,head2,…,headh)Wo       (2)
其中,Wi Q、Wi K、Wi W和Wo为可训练参数;HC和HR是虚假部分生成器模块的两个输出;
Figure FDA0003957626700000013
为冲突生成器针对第一个、第i个以及最后一个相关文章的输出;
步骤4,由自注意网络构成的交叉注意网络使冲突生成器与虚假部分生成器的编码器的输出作为解码器的输入相互交互,具体如下:
Hclaim=attention(Q,K,V)=attention(HR,HC,HC)      (4)
HallRA=attention(Q,K,V)=attention(Hc,HR,HR)     (5)
其中,Hclaim和HallRA分别表示针对新闻和针对相关文章的交叉注意力层的输出;
步骤5:利用线性插值作为融合函数
Figure FDA0003957626700000011
得到:
Figure FDA0003957626700000012
其中,λ为超参数,用于控制应该考虑多少其他任务的信息量被吸收,0<λ<1;
步骤6,将前馈网络应用到融合的结果中,前馈网络加入非线性特征和尺度不变特征,其中包含一个带有ReLU的隐含层;
Figure FDA0003957626700000021
其中,W1、W2、b1和b2为可训练参数,OF为解码器的长下文注意力表示;
步骤7,利用softmax层获取生成过程的单词概率;相应产生的错误部分序列
Figure FDA0003957626700000022
的对数似然估计表示为:
Figure FDA0003957626700000023
步骤8,虚假部分生成器模块基于前馈网络产生的上下文注意力表示OF的预测单词yt,表示为:
P(yt|C,y1,y2,…,yt-1;θ)=P(yt-1|OF;θ)=softmax(WsOF)      (9)
其中,Ws为可训练参数;
步骤9,在交叉注意力层,
Figure FDA0003957626700000024
表示相关文章与第i个文章的交互;
在融合层中,融合所有相关文章的交互,即:
Figure FDA0003957626700000025
其中,λ12+…+λn=1;
在反馈网络层,冲突生成模块的输出是冲突序列OC,虚假部分生成器模块生成的序列是YC
步骤10,利用局部推理单元捕获所生成序列YF和YC之间的相关性,并将其合并到基于YC的YF的新表示中;
首先计算一个共同注意力矩阵
Figure FDA0003957626700000031
来捕获两个序列之间的相关性,共同注意力矩阵中的每个元素Ei,j表示YF序列第i个词和YC序列的第j个词之间的相关性;共同注意力矩阵为:
Figure FDA0003957626700000032
其中,W和P表示可训练参数,⊙表示元素点乘操作;
对于YF的YC指导的注意力向量:
Figure FDA0003957626700000033
Figure FDA0003957626700000034
采用绝对差异与元素点乘来融合原始向量Yi F以及
Figure FDA0003957626700000035
Figure FDA0003957626700000036
Figure FDA0003957626700000037
得到包含YF的以YC为导向的推理信息的新表示:
Figure FDA0003957626700000038
Figure FDA0003957626700000039
其中,LayerNorm(·)是层正则化,结果
Figure FDA00039576267000000310
是一个2维的与YF相似形状的张量;
步骤11,通过生成过程得到生成的推理序列YE,由于所生成的推理序列能够推理出新闻的虚假部分和相应的证据,以此推理序列来解释假新闻的出错原因;
步骤12,将这三个序列按不同比例整合吸收上下文表示,得到正特特征F:
F=e(YE)+γ1e(YF)+γ2e(YC)            (17)
其中,e(·)是词序列的表示,γ1和γ2是超参数;
步骤13,基于整合特征F,使用一个多层感知器MLP分类器预测分布的标签,并采取softmax函数的概率分布预测任务学习,利用一个真实的训练样本标签y使得全局损失函数模型误差最小化:
v=ReLU(WfF+bf)            (18)
p=softmax(WpF+bp)            (19)
loss=-∑ylogp            (20)
其中,Wp、Wf、bf和bp均为可训练参数。
2.一种基于多层次交互式证据生成的虚假新闻识别***,其特征在于,包括:
编码模块,所述编码模块用于从生成模型的输入序列中捕获上下文表示,学习并编码输入序列之间的依赖性以及内部结构特征;
交互式学习解码模块,所述交互式学习解码模块用于探索假新闻中可能出现错误的部分以及相关文章之间存在的冲突语义;
可解释证据生成模块,所述可解释证据生成模块用于生成推断序列作为假新闻的出错原因的解释序列;
任务学习模块,所述任务学习模块用于整合三种生成序列来增强假新闻的识别性能。
3.一种基于多层次交互式证据生成的虚假新闻识别终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1所述方法的步骤。
4.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1所述方法的步骤。
CN202011587811.8A 2020-12-28 2020-12-28 基于多层次交互式证据生成的虚假新闻识别***及方法 Active CN112650851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011587811.8A CN112650851B (zh) 2020-12-28 2020-12-28 基于多层次交互式证据生成的虚假新闻识别***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011587811.8A CN112650851B (zh) 2020-12-28 2020-12-28 基于多层次交互式证据生成的虚假新闻识别***及方法

Publications (2)

Publication Number Publication Date
CN112650851A CN112650851A (zh) 2021-04-13
CN112650851B true CN112650851B (zh) 2023-04-07

Family

ID=75363650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011587811.8A Active CN112650851B (zh) 2020-12-28 2020-12-28 基于多层次交互式证据生成的虚假新闻识别***及方法

Country Status (1)

Country Link
CN (1) CN112650851B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113849599B (zh) * 2021-09-03 2023-01-24 北京中科睿鉴科技有限公司 基于模式信息和事实信息的联合虚假新闻检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018237098A1 (en) * 2017-06-20 2018-12-27 Graphika, Inc. METHODS AND SYSTEMS FOR IDENTIFYING COORDINATED ACTIVITY MARKERS IN SOCIAL MEDIA MOVEMENTS
WO2020061578A1 (en) * 2018-09-21 2020-03-26 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for collecting, detecting and visualizing fake news
CN111177554A (zh) * 2019-12-27 2020-05-19 西安交通大学 一种基于生成对抗学习的可解释探索的假新闻识别***及方法
CN111581980A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于决策树与共同注意力协作的假新闻检测***及方法
CN111581979A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于证据感知分层交互注意网络的假新闻检测***及方法
CN112035759A (zh) * 2020-09-02 2020-12-04 胡煜昊 英文新闻媒体报道的假新闻检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018237098A1 (en) * 2017-06-20 2018-12-27 Graphika, Inc. METHODS AND SYSTEMS FOR IDENTIFYING COORDINATED ACTIVITY MARKERS IN SOCIAL MEDIA MOVEMENTS
WO2020061578A1 (en) * 2018-09-21 2020-03-26 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for collecting, detecting and visualizing fake news
CN111177554A (zh) * 2019-12-27 2020-05-19 西安交通大学 一种基于生成对抗学习的可解释探索的假新闻识别***及方法
CN111581980A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于决策树与共同注意力协作的假新闻检测***及方法
CN111581979A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于证据感知分层交互注意网络的假新闻检测***及方法
CN112035759A (zh) * 2020-09-02 2020-12-04 胡煜昊 英文新闻媒体报道的假新闻检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Multi-semantics Classification Method Based on Deep Learning for Incredible Messages on Social Media;WU Lianwei;《Chinese Journal of Electronics》;20190731;第754-765页 *
基于特征聚合的假新闻内容检测模型;何韩森等;《计算机应用》;20200514(第08期);第2189-2193页 *

Also Published As

Publication number Publication date
CN112650851A (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
Wu et al. A comprehensive survey on graph neural networks
Minaee et al. Deep learning--based text classification: a comprehensive review
Yu et al. A review of recurrent neural networks: LSTM cells and network architectures
Yuan et al. Adversarial examples: Attacks and defenses for deep learning
Han et al. Semi-supervised active learning for sound classification in hybrid learning environments
KR20230128492A (ko) 설명 가능 트랜스듀서 변환기
Hong et al. Deep attributed network embedding by preserving structure and attribute information
Fei et al. Topic-enhanced capsule network for multi-label emotion classification
Zhang et al. An emotional classification method of Chinese short comment text based on ELECTRA
Ye et al. Multi-view ensemble learning method for microblog sentiment classification
Beseiso et al. Subword attentive model for Arabic sentiment analysis: A deep learning approach
CN117081831A (zh) 基于数据生成和注意力机制的网络入侵检测方法及***
Islam et al. A review on recent advances in Deep learning for Sentiment Analysis: Performances, Challenges and Limitations
CN112650851B (zh) 基于多层次交互式证据生成的虚假新闻识别***及方法
Wu et al. An empirical exploration of skip connections for sequential tagging
Xu et al. BERT gated multi-window attention network for relation extraction
Hussain et al. Improving source code suggestion with code embedding and enhanced convolutional long short‐term memory
Deng et al. Hierarchical network with label embedding for contextual emotion recognition
Zhu et al. Knowledge-based BERT word embedding fine-tuning for emotion recognition
Liu et al. Hierarchical graph convolutional networks for structured long document classification
Anass et al. Deceptive opinion spam based on deep learning
Shah et al. Dark web: E-commerce information extraction based on name entity recognition using bidirectional-LSTM
Zhou et al. An attention-based model for joint extraction of entities and relations with implicit entity features
CN115964497A (zh) 一种融合注意力机制与卷积神经网络的事件抽取方法
Yu et al. Efficient Classification of Malicious URLs: M-BERT-A Modified BERT Variant for Enhanced Semantic Understanding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant