CN114547310A - 一种假新闻早期检测方法、***、设备及介质 - Google Patents

一种假新闻早期检测方法、***、设备及介质 Download PDF

Info

Publication number
CN114547310A
CN114547310A CN202210195635.6A CN202210195635A CN114547310A CN 114547310 A CN114547310 A CN 114547310A CN 202210195635 A CN202210195635 A CN 202210195635A CN 114547310 A CN114547310 A CN 114547310A
Authority
CN
China
Prior art keywords
asymmetric
hypergraph
news
detection
false news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210195635.6A
Other languages
English (en)
Inventor
韩晓鸿
赵梦凡
张钰涛
刘婷
陈晓龙
刘子轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Engineering
Original Assignee
Hebei University of Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Engineering filed Critical Hebei University of Engineering
Priority to CN202210195635.6A priority Critical patent/CN114547310A/zh
Publication of CN114547310A publication Critical patent/CN114547310A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种假新闻早期检测方法、***、设备及介质,涉及新闻检测的技术领域。对待检测新闻中的自然语言进行预处理;根据多模态数据构建非对称超图,根据非对称超图生成对应的邻接矩阵;将非对称超图进行连接,提取高阶关联非对称超图的节点和边之间的关系,构建非对称超图神经网络,将非对称超图邻接矩阵和节点特征输入非对称超图神经网络,得到节点输出标签;基于领域自适应技术进行交叉主题建模,建立注意力机制实现假新闻检测可解释性;通过代入现有数据集,得到假新闻检测六分类结果,实现假新闻的细粒度检测。其能够实现假新闻的早期检测,避免新闻观看者被假新闻误导。

Description

一种假新闻早期检测方法、***、设备及介质
技术领域
本发明涉及新闻检测领域,具体而言,涉及一种假新闻早期检测方法、***、设备及介质。
背景技术
目前关于假新闻检测这一研究,大都集中于二分类任务,即仅把新闻简单的分类为真或者假,但是现在的新闻具有多模态化的特征,这导致绝大多数新闻是真假陈述的混合体,比如,很多假新闻会引用真实新闻的例子进行虚假宣传,这就导致了假新闻检测难度的加大,也促使假新闻检测研究从简单的二分类任务向细粒度分类的转变。从目前假新闻检测所用技术和方法取得的效果来看,假新闻检测二分类任务取得了很好的研究进展,但是假新闻检测二分类任务中所使用的模型,在检测新闻六分类的时候,其准确度仍旧不高,这说明二分类任务中的模型和技术不具有良好的泛化性,迫切需要新的模型进行细粒度假新闻检测。此外,新闻特征具有多样化,如何通过融合多视图的新闻特征实现假新闻的早期检测是亟待解决的问题。
发明内容
本发明的目的在于提供一种假新闻早期检测方法,其能够实现假新闻的早期检测,避免新闻观看者被假新闻误导。
本发明的实施例是这样实现的:
第一方面,本申请实施例提供一种假新闻早期检测方法,其对待检测新闻中的自然语言进行预处理;根据多模态数据构建非对称超图,根据非对称超图生成对应的邻接矩阵;将非对称超图进行连接,提取高阶关联非对称超图的节点和边之间的关系,构建非对称超图神经网络,将非对称超图邻接矩阵和节点特征输入非对称超图神经网络,得到节点输出标签;基于领域自适应技术进行交叉主题建模,建立注意力机制实现假新闻检测可解释性;建立门控机制进行多视图特征动态融合,解决多视图特征在假新闻检测中的噪声问题;建立损失函数判断非对称超图模型对真实数据的拟合效果;通过代入现有数据集,得到假新闻检测六分类结果,实现假新闻的细粒度检测。
在本发明的一些实施例中,根据非对称超图构建非对称超图神经网络,输出节点特征中的步骤包括:超图中的初始节点特征由可学习的过滤处理矩阵提取维特征;然后根据超边收集节点特征,形成超边特征矩阵;连接每个超图特征矩阵,最后通过聚合相关的超边特征得到输出的节点特征。
在本发明的一些实施例中,基于领域自适应技术进行交叉主题建模,建立注意力机制实现假新闻检测可解释性中的步骤包括:采用改进的缩放点积注意力机制,由输入由序列Q和键值对K-V组成,通过在需要注意的固定向量的顶部添加一个完全连接层或一个卷积层来计算Q,如果向量的数量是可变的,则在序列长度上进行平均池化操作以获得固定向量;而后通过计算序列的点积来计算注意力,根据softmax函数获得值的权重,得到注意力机制公式:
Figure BDA0003527082610000021
在本发明的一些实施例中,建立损失函数判断非对称超图模型对真实数据的拟合效果的步骤包括:
利用修正线性单元激活函数和分类器函数进行输出,得到:
Figure BDA0003527082610000031
其中f是特征向量,Wf是学习参数矩阵,bf是偏置;
使用多元分类交叉熵损失函数,得到:
Figure BDA0003527082610000032
其中M是类别的数量,yic是符号函数,取值为0或1,如果样本i的真实类别等于c则取1,否则取0,pic是观测样本i属于类别c的预测概率;
调参优化时选择Adam优化器,β1=0.9,β1=0.999,ε=10-5,而后得到学习公式:
learningrate=max(0.9epochnumber×0.001,5×10-5)
其中初始学习率为0.001,饱和学习率为5×10-5
在本发明的一些实施例中,建立门控机制进行多视图特征动态融合,解决多视图特征在假新闻检测中的噪声问题的步骤包括:在传统门控循环单元的基础上加入用于遗忘预设条件内容的遗忘门、模拟不同节点类别之间的信息变化调整门和控制输入/状态向量的不同组合选择门。
在本发明的一些实施例中,将非对称超图邻接矩阵和节点特征输入非对称超图神经网络,得到节点输出标签的步骤包括:对预设数量的新闻分别构建非对称超图,所述非对称超图的任一子图都对应生成一个邻接矩阵,将预设数量的子邻接矩阵进行连接;以邻接矩阵行数或节点数最大的矩阵为基准,其余子邻接矩阵在相应位置上填充0;根据非对称超图构建非对称超图神经网络,输出节点特征的标签。
在本发明的一些实施例中,数据集为LIAR公开数据集。
第二方面,本申请实施例提供一种假新闻早期检测***,包括预处理模块,用于对待检测新闻中的自然语言进行预处理;非对称超图数据处理模块,根据多模态数据构建非对称超图,根据非对称超图生成对应的邻接矩阵;将非对称超图进行连接,提取高阶关联非对称超图的节点和边之间的关系,构建非对称超图神经网络,将非对称超图邻接矩阵和节点特征输入非对称超图神经网络,得到节点输出标签;注意力机制模块,用于基于领域自适应技术进行交叉主题建模,建立注意力机制实现假新闻检测可解释性;门控机制模块,用于建立门控机制进行多视图特征动态融合,解决多视图特征在假新闻检测中的噪声问题;拟合效果判断模块,用于建立损失函数判断非对称超图模型对真实数据的拟合效果;结果模块,用于通过代入现有数据集,得到假新闻检测六分类结果,实现假新闻的细粒度检测。
第三方面,本申请实施例提供一种电子设备,包括至少一个处理器、至少一个存储器和数据总线;其中:处理器与存储器通过数据总线完成相互间的通信;存储器存储有可被处理器执行的程序指令,处理器调用程序指令以执行一种假新闻早期检测方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现一种假新闻早期检测方法。
相对于现有技术,本发明的实施例至少具有如下优点或有益效果:
本设计提出非对称超图结构,结合特征动态融合进行假新闻检测。其原理在于以建模社交媒体用户和部分新闻传播网络之间的复杂关系,并结合文章内容、社会背景信息和主题信息,构建深度关系图进行早期新闻检测。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明中一种假新闻早期检测方法的流程示意图;
图2为本发明中传统图和超图的结构示意图;
图3为本发明中超图神经网络的结构示意图;
图4为本发明中提取特征过程的示意图;
图5为本发明中非对称超图的结构示意图;
图6为本发明中传统门控循环单元的模型结构示意图;
图7为本发明中门控融合单元的模型结构示意图;
图8为本发明中一种假新闻早期检测方法的具体实施方式的流程示意图;
图9为本发明中一种假新闻早期检测***的结构示意图;
图10为本发明中一种电子设备的结构示意图。
图标:1、预处理模块;2、非对称超图数据处理模块;3、注意力机制模块;4、门控机制模块;5、拟合效果判断模块;6、结果模块;7、处理器;8、存储器;9、数据总线。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
实施例1
请参阅图1、图2和图8,为本申请实施例提供的一种假新闻早期检测方法,如何通过融合多视图的新闻特征实现假新闻的早期检测是亟待解决的问题。本设计提出非对称超图结构,结合特征动态融合进行假新闻检测。其原理在于以建模社交媒体用户和部分新闻传播网络之间的复杂关系,并结合文章内容、社会背景信息和主题信息,构建深度关系图进行早期新闻检测。其具体实施方式如下:
S101:对待检测新闻中的自然语言进行预处理;
对于模型而言,其更善于处理结构化的数据,社交媒体上的新闻具有很多干扰检测效果的词语,为了最大限度提高模型的效果,需要先对数据集中的新闻进行预处理,如删除停用词、进行词形还原等。
S102:根据多模态数据构建非对称超图,根据非对称超图生成对应的邻接矩阵;将非对称超图进行连接,提取高阶关联非对称超图的节点和边之间的关系,构建非对称超图神经网络,将非对称超图邻接矩阵和节点特征输入非对称超图神经网络,得到节点输出标签。
传统的二阶图中,每条边只连接两个顶点,仅能表示两个节点之间的关系,无法表示新闻传播路径这类复杂的关系图。鉴于此,能表示复杂关系的超图就产生了。多模态数据集中,每个数据都包含n个具有特征的节点,利用多模态数据集的复杂相关性可以构造多个超边结构群,将超边组连接起来,生成超图邻接矩阵。与所有边的度都是强制性的简单图相比,超图可以使用其无度的超边来编码高阶数据相关性(超越成对连接),并且一个超图利用其灵活的超边形,易于扩展到多模态和异构的数据表示中。例如,可以通过结合邻接矩阵,联合使用多模态数据来生成超图。其中传统图和超图如图2所示。
S103:基于领域自适应技术进行交叉主题建模,建立注意力机制实现假新闻检测可解释性;
不同主题和来源的新闻重要程度不同,当结合多个来源和特征的时候,通过对新闻中不同句子和单词赋予不同的权重,捕捉假新闻的重要特征,学习到的权重可以为假新闻检测提供证据,从而增强假新闻的可解释性。
S104:建立门控机制进行多视图特征动态融合,解决多视图特征在假新闻检测中的噪声问题;
如何将多特征的数据进行有效融合是目前存在的一大挑战,其次,不同虚假程度的新闻可能不容易区分,这就需要合适的门控机制进行数据信息选择和过滤。
S105:建立损失函数判断非对称超图模型对真实数据的拟合效果;
损失函数可以衡量一个模型的好坏,即用来表现实际数据与预测数据之间的差距程度,损失函数越小,说明模型的鲁棒性越好,由此建立损失函数判断非对称超图模型对真实数据的拟合效果。
S106:通过代入现有数据集,得到假新闻检测六分类结果,实现假新闻的细粒度检测。
其具体实施方式如图8所示,从而得出结果,其中ReLU(全称Rectified LinearUnits):修正线性单元,是非线性激活函数的一种,可以提高模型的表达能力。Softmax为分类器,通过全连接层进行特征处理,由softmax分类器能够得到不同类别的概率。另外Softmax层:用于计算的注意力对齐。标量乘法之后获得最终的注意力向量。LReLU(全称LeakyReLU):带泄露单元的ReLU,收敛速度更快,并且不会出现梯度消失。
请参阅图4,在本发明的一些实施例中,根据非对称超图构建非对称超图神经网络,输出节点特征中的步骤包括:超图中的初始节点特征由可学习的过滤处理矩阵提取维特征;然后根据超边收集节点特征,形成超边特征矩阵;连接每个超图特征矩阵,最后通过聚合相关的超边特征得到输出的节点特征。
其详细变化过程如图4所示,具体来说,超图中的初始节点特征X(1)(代表N×C1的矩阵维数)由可学习的过滤处理矩阵θ(1)(训练过程中得到的参数矩阵)提取C2维特征,然后根据超边收集节点特征,形成超边特征矩阵RE×N,连接每个超图特征矩阵,最后通过聚合相关的超边特征得到输出的节点特征。
在本发明的一些实施例中,基于领域自适应技术进行交叉主题建模,建立注意力机制实现假新闻检测可解释性中的步骤包括:采用改进的缩放点积注意力机制,由输入由序列Q和键值对K-V组成,通过在需要注意的固定向量的顶部添加一个完全连接层或一个卷积层来计算Q,如果向量的数量是可变的,则在序列长度上进行平均池化操作以获得固定向量;而后通过计算序列的点积来计算注意力,根据softmax函数获得值的权重,得到注意力机制公式:
Figure BDA0003527082610000101
由于“缩放点积注意力”(Scaled Dot-Product Attention)大多与循环神经网络一起工作,因此在空间上十分有效,并且比其他注意力机制速度快,所以本课题选用改进的缩放点积注意力机制,输入由序列Q和键值对K-V组成,通过在需要注意的固定向量的顶部添加一个完全连接层或一个卷积层来计算Q,如果向量的数量是可变的,则在序列长度上进行平均池化操作以获得固定向量。然后,通过计算序列的点积来计算注意力,键后跟softmax函数,以获得值的权重。在本设计中,序列是压缩成固定向量的不同元数据信息,而键和值是相同的新闻语句表示,从而得出上述注意力机制公式
在本发明的一些实施例中,损失函数可以衡量一个模型的好坏,即用来表现实际数据与预测数据之间的差距程度,损失函数越小,说明模型的鲁棒性越好,常见二分类任务的交叉熵损失函数如下:
Figure BDA0003527082610000111
其中:yi表示样本i的标签,正类为1,负类为0,pi表示样本i预测为正类的概率。
由于本课题中假新闻检测最后输出六分类结果,即多分类任务,六个类别分别为:True,Mostly-true,Half-true,Barely-true,False,Pants-fire,故对应的输出标签分别为:
Y={y1=0,y2=1,y3=2,y4=3,y5=4,y6=5,}
由此建立损失函数判断非对称超图模型对真实数据的拟合效果的步骤包括:
利用修正线性单元激活函数和分类器函数进行输出,得到:
Figure BDA0003527082610000112
其中f是特征向量,Wf是学习参数矩阵,bf是偏置;
使用多元分类交叉熵损失函数,得到:
Figure BDA0003527082610000113
其中M是类别的数量,yic是符号函数,取值为0或1,如果样本i的真实类别等于c则取1,否则取0,pic是观测样本i属于类别c的预测概率;
调参优化时选择Adam优化器,β1=0.9,β1=0.999,ε=10-5,而后得到学习公式:
learningrate=max(0.9epochnumber×0.001,5×10-5)
其中初始学习率为0.001,饱和学习率为5×10-5
在本发明的一些实施例中,建立门控机制进行多视图特征动态融合,解决多视图特征在假新闻检测中的噪声问题的步骤包括:在传统门控循环单元的基础上加入用于遗忘预设条件内容的遗忘门、模拟不同节点类别之间的信息变化调整门和控制输入/状态向量的不同组合选择门。
对于本设计研究的门控机制进行多视图特征动态融合,实现假新闻细粒度检测。当训练的数据量很大的时候,门控循环单元(Gated Recurrent Unit,以下简称GRU)能节省很多时间,能够有效捕捉长序列之间的语义关联,缓解梯度消失或者梯度***现象,传统门控循环单元结构图如图6所示。
GRU核心结构可以分为两部分,更新门zt和重置门rt,更新门控制从前一个隐藏状态将有多少信息转移到当前隐藏状态,重置门接近0时,隐藏状态被迫忽略先前的隐藏状态,仅用当前输入进行复位,更新门和重置门公式如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure BDA0003527082610000121
Figure BDA0003527082610000122
其中
Figure BDA0003527082610000131
表示重置门计算的隐藏状态,ht表示更新门对隐藏的状态更新。
但由于本设计中特征较多,为了进行更好的融合,从而使模型效果更好,设计适合于本课题的门控机制,即“门控融合单元(Gated Fusion Unit,GFU)”,与门控循环单元(GRU)不同,门控融合单元(GFU)中加入“遗忘门”、“调整门”和“选择门”,在实际场景中,遗忘某些内容是必要的,比如一条新闻可能涉及到很多主题,此时在建模时遗忘来自主题的部分输入是必要的。调整门的作用是模拟不同节点类别之间的信息变化,例如从创建者到新闻之间信息的必要变化。选择门的作用是控制输入/状态向量的不同组合。门控融合单元结构图如图7所示。
在本发明的一些实施例中,将非对称超图邻接矩阵和节点特征输入非对称超图神经网络,得到节点输出标签的步骤包括:对预设数量的新闻分别构建非对称超图,非对称超图的任一子图都对应生成一个邻接矩阵,将预设数量的子邻接矩阵进行连接;以邻接矩阵行数或节点数最大的矩阵为基准,其余子邻接矩阵在相应位置上填充0;根据非对称超图构建非对称超图神经网络,输出节点特征的标签。
通过结合新闻和部分传播网络构建非对称超图结构,以实现假新闻的早期检测。这里的早期指的是相对于事后检测来说是早期,事后检测的时候有完整的传播网络,新闻发布的早期阶段也会有小范围的传播,这个时候可以通过构建传播图进行早期检测。在实际场景中,社交媒体上每一条新闻的传播深度和广度是不一样的,因此超图不适用于假新闻检测模型的构建,为了使其更加适用于假新闻检测,提出非对称超图模型。拟构建的非对称超图模型图如图5所示。具体来说,就是对n条新闻分别构建非对称子超图,每一个子图都对应生成一个邻接矩阵,最后将n个子邻接矩阵进行连接。其中节点是新闻,边表示新闻之间的传播关系,同一条超边上的新闻属于一条传播链。考虑到子邻接矩阵的行数和列数可能不一致,在本课题中,以邻接矩阵行数(即节点数)最大的矩阵为基准,其余子邻接矩阵在相应位置上填充0。根据非对称超图构建非对称超图神经网络,输出节点特征:(转发用户ID,转发时间),和普通超图神经网络一样,非对称超图神经网络具体构建过程如图3所示,提取特征过程如图4所示。
在本发明的一些实施例中,数据集为LIAR公开数据集。该数据集是从PolitiFact收集,包括简短陈述,例如新闻稿,电视或电台采访,竞选演讲等,并包含元数据。
实施例2
请参阅图9,为本发明提供的一种假新闻早期检测***,包括预处理模块1,用于对待检测新闻中的自然语言进行预处理;非对称超图数据处理模块2,根据多模态数据构建非对称超图,根据非对称超图生成对应的邻接矩阵;将非对称超图进行连接,提取高阶关联非对称超图的节点和边之间的关系,构建非对称超图神经网络,将非对称超图邻接矩阵和节点特征输入非对称超图神经网络,得到节点输出标签;注意力机制模块3,用于基于领域自适应技术进行交叉主题建模,建立注意力机制实现假新闻检测可解释性;门控机制模块4,用于建立门控机制进行多视图特征动态融合,解决多视图特征在假新闻检测中的噪声问题;拟合效果判断模块5,用于建立损失函数判断非对称超图模型对真实数据的拟合效果;结果模块6,用于通过代入现有数据集,得到假新闻检测六分类结果,实现假新闻的细粒度检测。
实施例3
请参阅图10,为本发明提供的一种电子设备,包括至少一个处理器7、至少一个存储器8和数据总线9;其中:所述处理器7与所述存储器8通过所述数据总线9完成相互间的通信;所述存储器8存储有可被所述处理器7执行的程序指令,所述处理器7调用所述程序指令以执行一种假新闻早期检测方法。例如实现:
对待检测新闻中的自然语言进行预处理;根据多模态数据构建非对称超图,根据非对称超图生成对应的邻接矩阵;将非对称超图进行连接,提取高阶关联非对称超图的节点和边之间的关系,构建非对称超图神经网络,将非对称超图邻接矩阵和节点特征输入非对称超图神经网络,得到节点输出标签;基于领域自适应技术进行交叉主题建模,建立注意力机制实现假新闻检测可解释性;建立门控机制进行多视图特征动态融合,解决多视图特征在假新闻检测中的噪声问题;建立损失函数判断非对称超图模型对真实数据的拟合效果;通过代入现有数据集,得到假新闻检测六分类结果,实现假新闻的细粒度检测。
实施例4
本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器7执行时实现一种假新闻早期检测方法。例如实现:
对待检测新闻中的自然语言进行预处理;根据多模态数据构建非对称超图,根据非对称超图生成对应的邻接矩阵;将非对称超图进行连接,提取高阶关联非对称超图的节点和边之间的关系,构建非对称超图神经网络,将非对称超图邻接矩阵和节点特征输入非对称超图神经网络,得到节点输出标签;基于领域自适应技术进行交叉主题建模,建立注意力机制实现假新闻检测可解释性;建立门控机制进行多视图特征动态融合,解决多视图特征在假新闻检测中的噪声问题;建立损失函数判断非对称超图模型对真实数据的拟合效果;通过代入现有数据集,得到假新闻检测六分类结果,实现假新闻的细粒度检测。
其中,存储器8可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器7可以是一种集成电路芯片,具有信号处理能力。该处理器7可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种假新闻早期检测方法,其特征在于,包括:
对待检测新闻中的自然语言进行预处理;
根据多模态数据构建非对称超图,根据非对称超图生成对应的邻接矩阵;将非对称超图进行连接,提取高阶关联非对称超图的节点和边之间的关系,构建非对称超图神经网络,将非对称超图邻接矩阵和节点特征输入非对称超图神经网络,得到节点输出标签;
基于领域自适应技术进行交叉主题建模,建立注意力机制实现假新闻检测可解释性;
建立门控机制进行多视图特征动态融合,解决多视图特征在假新闻检测中的噪声问题;
建立损失函数判断非对称超图模型对真实数据的拟合效果;
通过代入现有数据集,得到假新闻检测六分类结果,实现假新闻的细粒度检测。
2.如权利要求1所述的一种假新闻早期检测方法,其特征在于,根据非对称超图构建非对称超图神经网络,输出节点特征中的步骤包括:
超图中的初始节点特征由可学习的过滤处理矩阵提取维特征;然后根据超边收集节点特征,形成超边特征矩阵;连接每个超图特征矩阵,最后通过聚合相关的超边特征得到输出的节点特征。
3.如权利要求1所述的一种假新闻早期检测方法,其特征在于,基于领域自适应技术进行交叉主题建模,建立注意力机制实现假新闻检测可解释性中的步骤包括:
采用改进的缩放点积注意力机制,由输入由序列Q和键值对K-V组成,通过在需要注意的固定向量的顶部添加一个完全连接层或一个卷积层来计算Q,如果向量的数量是可变的,则在序列长度上进行平均池化操作以获得固定向量;而后通过计算序列的点积来计算注意力,根据softmax函数获得值的权重,得到注意力机制公式:
Figure FDA0003527082600000021
4.如权利要求1所述的一种假新闻早期检测方法,其特征在于,建立损失函数判断非对称超图模型对真实数据的拟合效果的步骤包括:
利用修正线性单元激活函数和分类器函数进行输出,得到:
Figure FDA0003527082600000022
其中f是特征向量,Wf是学习参数矩阵,bf是偏置;
使用多元分类交叉熵损失函数,得到:
Figure FDA0003527082600000023
其中M是类别的数量,yic是符号函数,取值为0或1,如果样本i的真实类别等于c则取1,否则取0,pic是观测样本i属于类别c的预测概率;
调参优化时选择Adam优化器,β1=0.9,β1=0.999,ε=10-5,而后得到学习公式:
learningrate=max(0.9epochnumber×0.001,5×10-5)
其中初始学习率为0.001,饱和学习率为5×10-5
5.如权利要求1所述的一种假新闻早期检测方法,其特征在于,建立门控机制进行多视图特征动态融合,解决多视图特征在假新闻检测中的噪声问题的步骤包括:
在传统门控循环单元的基础上加入用于遗忘预设条件内容的遗忘门、模拟不同节点类别之间的信息变化调整门和控制输入/状态向量的不同组合选择门。
6.如权利要求1所述的一种假新闻早期检测方法,其特征在于,将非对称超图邻接矩阵和节点特征输入非对称超图神经网络,得到节点输出标签的步骤包括:
对预设数量的新闻分别构建非对称超图,所述非对称超图的任一子图都对应生成一个邻接矩阵,将预设数量的子邻接矩阵进行连接;以邻接矩阵行数或节点数最大的矩阵为基准,其余子邻接矩阵在相应位置上填充0;根据非对称超图构建非对称超图神经网络,输出节点特征的标签。
7.如权利要求1所述的一种假新闻早期检测方法,其特征在于,所述数据集为LIAR公开数据集。
8.一种假新闻早期检测***,其特征在于,包括:
预处理模块,用于对待检测新闻中的自然语言进行预处理;
非对称超图数据处理模块,根据多模态数据构建非对称超图,根据非对称超图生成对应的邻接矩阵;将非对称超图进行连接,提取高阶关联非对称超图的节点和边之间的关系,构建非对称超图神经网络,将非对称超图邻接矩阵和节点特征输入非对称超图神经网络,得到节点输出标签;
注意力机制模块,用于基于领域自适应技术进行交叉主题建模,建立注意力机制实现假新闻检测可解释性;
门控机制模块,用于建立门控机制进行多视图特征动态融合,解决多视图特征在假新闻检测中的噪声问题;
拟合效果判断模块,用于建立损失函数判断非对称超图模型对真实数据的拟合效果;
结果模块,用于通过代入现有数据集,得到假新闻检测六分类结果,实现假新闻的细粒度检测。
9.一种电子设备,其特征在于,包括至少一个处理器、至少一个存储器和数据总线;其中:所述处理器与所述存储器通过所述数据总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令以执行如权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202210195635.6A 2022-03-01 2022-03-01 一种假新闻早期检测方法、***、设备及介质 Pending CN114547310A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210195635.6A CN114547310A (zh) 2022-03-01 2022-03-01 一种假新闻早期检测方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210195635.6A CN114547310A (zh) 2022-03-01 2022-03-01 一种假新闻早期检测方法、***、设备及介质

Publications (1)

Publication Number Publication Date
CN114547310A true CN114547310A (zh) 2022-05-27

Family

ID=81661537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210195635.6A Pending CN114547310A (zh) 2022-03-01 2022-03-01 一种假新闻早期检测方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN114547310A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116130089A (zh) * 2023-02-02 2023-05-16 湖南工商大学 基于超图神经网络的多模态抑郁症检测***、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116130089A (zh) * 2023-02-02 2023-05-16 湖南工商大学 基于超图神经网络的多模态抑郁症检测***、装置及介质
CN116130089B (zh) * 2023-02-02 2024-01-02 湖南工商大学 基于超图神经网络的多模态抑郁症检测***、装置及介质

Similar Documents

Publication Publication Date Title
US11687728B2 (en) Text sentiment analysis method based on multi-level graph pooling
CN111125358B (zh) 一种基于超图的文本分类方法
Miao et al. Lasagne: A multi-layer graph convolutional network framework via node-aware deep architecture
CN110399518A (zh) 一种基于图卷积的视觉问答增强方法
Chen et al. Calibrating a Land Parcel Cellular Automaton (LP-CA) for urban growth simulation based on ensemble learning
CN109685153A (zh) 一种基于特征聚合的社交网络谣言鉴别方法
CN107506786A (zh) 一种基于深度学习的属性分类识别方法
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN112765480A (zh) 一种信息推送方法、装置及计算机可读存储介质
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN113139052B (zh) 基于图神经网络特征聚合的谣言检测方法及装置
CN113255844A (zh) 基于图卷积神经网络交互的推荐方法及***
CN107133248A (zh) 一种应用程序的分类方法和装置
CN113762703A (zh) 确定企业画像的方法和装置、计算设备和存储介质
CN115204171A (zh) 基于超图神经网络的文档级事件抽取方法及***
Sun et al. Graph force learning
CN114547310A (zh) 一种假新闻早期检测方法、***、设备及介质
Cao et al. Deep multi-task learning model for time series prediction in wireless communication
Liu et al. Identification of drainage patterns using a graph convolutional neural network
Hafidi et al. Graph-assisted Bayesian node classifiers
CN111814917A (zh) 一种存在模糊态的字轮图像数字识别方法
Zhang et al. Clustering optimization algorithm for data mining based on artificial intelligence neural network
CN116522232A (zh) 文档分类方法、装置、设备及存储介质
CN114842247B (zh) 基于特征累加的图卷积网络半监督节点分类方法
CN116467466A (zh) 基于知识图谱的编码推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination