CN116579337A - 一种融合证据可信度的虚假新闻检测方法 - Google Patents
一种融合证据可信度的虚假新闻检测方法 Download PDFInfo
- Publication number
- CN116579337A CN116579337A CN202310825631.6A CN202310825631A CN116579337A CN 116579337 A CN116579337 A CN 116579337A CN 202310825631 A CN202310825631 A CN 202310825631A CN 116579337 A CN116579337 A CN 116579337A
- Authority
- CN
- China
- Prior art keywords
- evidence
- news
- false
- features
- preliminary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 238000012795 verification Methods 0.000 claims abstract description 20
- 230000009193 crawling Effects 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims 6
- 238000000034 method Methods 0.000 abstract description 7
- 238000012360 testing method Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000237519 Bivalvia Species 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 235000020639 clam Nutrition 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及虚假新闻检测技术领域,提供一种融合证据可信度的虚假新闻检测方法。该方法包括:获取待测新闻,爬取获得待测新闻的真证据;通过人工智能程序生成待测新闻对应的假证据,根据待测新闻与真证据和假证据构建数据集;通过神经网络学习数据集,获得数据集的包括新闻特征和初步证据特征的初步特征表示;对初步证据特征进行迭代交叉验证并引入多头输入层,获得数据集中每条证据对应的多头可信度分数;根据多头可信度分数调制新闻特征和初步证据特征间的注意力权重获得整体证据特征;对整体证据特征进行卷积学习以检测待测新闻的真假。该方法模拟更不可信的证据场景,通过多头可信度来模拟不同可信度,提高了虚假新闻检测的准确率。
Description
技术领域
本发明涉及虚假新闻检测技术领域,尤其涉及一种融合证据可信度的虚假新闻检测方法。
背景技术
现今在基于证据的虚假新闻检测方向的研究已有很多,很多模型在Snopes以及PolitiFact等常用数据集上取得了很好的效果,其中的新闻及标签在事实核查网站得到,证据通过在搜索引擎中通过检索新闻得到,一条新闻对应若干条证据。现有的工作将新闻以及证据作为输入,通过门控循环单元(GRU)、长短期记忆网络(LSTM)或门控图神经网络(GGNN)等对输入进行编码,之后通过注意力机制建立新闻和证据之间的联系得到证据的特征表示,最后由新闻和证据的特征一起通过一个全连接层以及softmax函数得到新闻为真或假的概率,选取概率最大的作为预测结果。
首先,Snopes和PolitiFact在获取证据后进行数据清洗时,是提取爬行证据中最相似的片段,片段的词嵌入与索赔之间的相似性至少为0.5。这种数据处理使得数据集过于干净,数据集中也有很多新闻的证据仅有1个,这是不符合现实情况的,因为对于一条新闻的检索结果不会只有一条,这无法反映真实情况,可能会导致在这些数据集上表现良好的模型在真实世界的应用程序中出现显著的性能下降。
现有的基于证据的虚假新闻检测方法都通过注意力机制等方法建模了claim和证据之间的关系,提升了模型性能,但也都忽略了一个至关重要的问题,是这些被用于进行虚假新闻检测的证据本身是否可信,用于虚假新闻检测的证据来源于搜索引擎检索,可想而知这其中必会存在一些不可信的证据,甚至会有一些恶意攻击者散布的带有模型攻击性的假证据来干扰虚假新闻检测模型的预测结果,这会使得现有模型因缺少对证据是否可信的判断而使用了假证据作为新闻检测的依据,从而对新闻的真假给出了错误判断。
此外其它研究包括DeClarE、MAC和GET使用到了证据的来源作为证据文本特征的一个补充,但模型对证据可信程度的理解仅依靠来源是远远不够的,并且新的来源层出不穷,一旦有攻击者捏造的证据来源是模型没见过的,模型根本无法判断证据是否可信。
发明内容
本发明旨在至少解决相关技术中存在的技术问题之一。为此,本发明提供一种融合证据可信度的虚假新闻检测方法。
本发明提供一种融合证据可信度的虚假新闻检测方法,包括:
S100:获取待测新闻,爬取所述待测新闻的真证据;
S200:通过人工智能程序生成所述待测新闻对应的假证据,根据所述待测新闻与所述真证据和所述假证据构建数据集;
S300:通过神经网络学习所述数据集,获得所述数据集的初步特征表示,所述初步特征表示包括新闻特征和初步证据特征;
S400:对所述初步证据特征进行迭代交叉验证并引入多头输出层,获得所述数据集中每条真证据和假证据对应的多头可信度分数;
S500:根据所述多头可信度分数调制所述新闻特征和所述初步证据特征间的注意力权重,获得所述数据集的整体证据特征;
S600:对所述整体证据特征进行卷积学习,获得所述待测新闻的真假检测结果。
根据本发明提供的一种融合证据可信度的虚假新闻检测方法,步骤S100包括:
S110:基于现有数据库获取待测新闻;
S120:通过爬虫工具对所述待测新闻重新爬取新闻文本;
S130:对于所述新闻文本定位其中新闻相关关键词的所在位置;
S140:根据所述所在位置在预设长度内截取证据文本,清洗所述证据文本,获得所述待测新闻的真证据。
根据本发明提供的一种融合证据可信度的虚假新闻检测方法,步骤S300中获得所述新闻特征的步骤包括:
S311:为所述待测新闻设置滑动窗口;
S312:通过所述滑动窗口识别词语作为节点,建立所述待测新闻对应的新闻文本图;
S313:根据所述新闻文本图建立邻接矩阵并进行拉普拉斯标准化,通过图神经网络层获得新闻文本词特征;
S314:对所有新闻文本词特征取均值获得所述新闻特征。
根据本发明提供的一种融合证据可信度的虚假新闻检测方法,步骤S300中获得所述初步证据特征的步骤包括:
S321:为所述真证据和所述假证据设置滑动窗口;
S322:通过所述滑动窗口识别词语作为节点,建立所述真证据和所述假证据对应的预证据文本图;
S323:根据所述预证据文本图建立预邻接矩阵并进行拉普拉斯标准化,通过图神经网络层获得证据文本词特征;
S324:将所有所述证据文本词特征经过全连接层降维,对降维后的证据文本词特征经过图神经网络层分别计算获得每条证据文本词特征对应的冗余分数;
S325:根据所述冗余分数对所述预证据文本图进行去边操作,获得证据文本图并建立邻接矩阵,通过图神经网络层获得所述初步证据特征。
根据本发明提供的一种融合证据可信度的虚假新闻检测方法,步骤S400包括:
S410:按照缩放点积注意力评分函数和可训练参数分别计算获得当前条初步证据特征和其它各条初步证据特征的交互结果;
S420:对每条交互结果取均值获得均值结果;
S430:对所述均值结果进行非线性变换,获得所述当前条初步证据特征的验证得分;
S440:对各条初步证据特征分别进行步骤S410至步骤S430操作,获得每条初步证据特征对应的验证得分;
S450:对每条初步证据特征进行多轮步骤S410至步骤S440操作,对获得的对应的验证得分引入多头注意力,获得所述数据集中每条真证据和假证据对应的多头可信度分数。
根据本发明提供的一种融合证据可信度的虚假新闻检测方法,步骤S450包括:
S451:对每条初步证据特征对应的验证得分分别进行全连接层计算映射至二维空间;
S452:对置于二维空间的每条初步证据特征对应的验证得分进行指数函数和激活函数的非线性变换,获得所述数据集中每条证据对应的多头可信度分数。
根据本发明提供的一种融合证据可信度的虚假新闻检测方法,步骤S500包括:
S510:对所述新闻特征和所述初步证据特征进行多头注意力计算,获得注意力权重矩阵;
S520:将所述注意力权重矩阵和每条证据对应的多头可信度分数进行元素相乘,获得可信度调制注意力权重矩阵;
S530:将所述可信度调制注意力权重矩阵和所述初步证据特征进行矩阵相乘,获得所述整体证据特征。
本发明提供的一种融合证据可信度的虚假新闻检测方法,在基于证据的虚假新闻检测任务中,在没有可信度标签的情况下对检索证据的可信度评分进行建模,构建了一个新的数据集以模拟一个更不可信的证据场景,提出了一个新的方法框架,通过多头证据可信度的计算来明确模拟不同证据的不同可信度,经过数据集上的训练和测试,提高了基于证据的虚假新闻检测的准确率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种融合证据可信度的虚假新闻检测方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。以下实施例用于说明本发明,但不能用来限制本发明的范围。
在本发明实施例的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明实施例中的具体含义。
在本发明实施例中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
下面结合图1描述本发明提供的实施例。
本发明提供一种融合证据可信度的虚假新闻检测方法,包括:
S100:获取待测新闻,爬取获得所述待测新闻的真证据;
其中,步骤S100包括:
S110:基于现有数据库获取待测新闻;
S120:通过爬虫工具对所述待测新闻重新爬取新闻文本;
S130:对于所述新闻文本定位其中新闻相关关键词的所在位置;
S140:根据所述所在位置在预设长度内截取证据文本,清洗所述证据文本,获得所述待测新闻的真证据。
在一些实施例中,基于现有Snopes数据集中的新闻及其证据的网站链接,使用Python爬虫工具重新爬取证据;对于爬取的文本定位新闻中的关键词所在位置,根据该位置截取文本,控制文本长度在100以内,得到简单清洗后的爬取证据集。
S200:通过人工智能程序生成所述待测新闻对应的假证据,根据所述待测新闻与所述真证据和所述假证据构建数据集;
在一些实施例中,通过构建Prompt,对每条新闻使用ChatGPT生成5条假证据,将生成的假证据添加到爬取证据数大于5的新闻证据集中,控制总的证据数不超过30,得到最终的数据集SnopesE。
进一步的,在假证据生成步骤中,因为ChatGPT强大的文本生成功能,将构建完成的Prompt输入ChatGPT的“gpt-3.5-turbo”API,让其生成5条假证据,之后将生成证据与之前的爬取证据合并,生成证据的来源从原有证据源中随机选取得到,从而可以模拟可能发生的恶意证据攻击情景。对于合并后的证据集,需要控制其数量不超过30,因而需要通过判定证据数量是否大于30来将超过30条的那部分生成证据移除,否则不做处理,之后如果有下一条新闻则继续证据爬取步骤,没有则结束。
S300:通过神经网络学习所述数据集,获得所述数据集的初步特征表示,所述初步特征表示包括新闻特征和初步证据特征;
其中,步骤S300中获得所述新闻特征的步骤包括:
S311:为所述待测新闻设置滑动窗口;
S312:通过所述滑动窗口识别词语作为节点,建立所述待测新闻对应的新闻文本图;
S313:根据所述新闻文本图建立邻接矩阵并进行拉普拉斯标准化,通过图神经网络层获得新闻文本词特征;
S314:对所有新闻文本词特征取均值获得所述新闻特征。
在一些实施例中,由于GET方法中门控图神经网络在证据冗余词去除以及特征编码中的有效性,在新闻及证据编码步骤中继续使用门控图神经网络学习新闻和证据的特征表示。
进一步的,对于新闻特征表示编码中,为新闻中的每个词设置滑动窗口大小为3,每个词为一个节点并将滑动窗口内的所有词之间建立边,相同的词节点合并为一个节点,得到所述新闻的文本图,之后根据文本图建立邻接矩阵并进行拉普拉斯标准化,通过一个标准门控图神经网络层得到新闻各个词的特征,其中初始词节点特征为Glove预训练词嵌入向量,每个特征维度均为300,最后对所有词特征取均值得到所述的新闻特征表示。
其中,步骤S300中获得所述初步证据特征的步骤包括:
S321:为所述真证据和所述假证据设置滑动窗口;
S322:通过所述滑动窗口识别词语作为节点,建立所述真证据和所述假证据对应的预证据文本图;
S323:根据所述预证据文本图建立预邻接矩阵并进行拉普拉斯标准化,通过图神经网络层获得证据文本词特征;
S324:将所有所述证据文本词特征经过全连接层降维,对降维后的证据文本词特征经过图神经网络层分别计算获得每条证据文本词特征对应的冗余分数;
S325:根据所述冗余分数对所述预证据文本图进行去边操作,获得证据文本图并建立邻接矩阵,通过图神经网络层获得所述初步证据特征。
在一些实施例中,对于各个证据,同样为其中的每个词设置滑动窗口大小为3,每个词为一个节点并将滑动窗口内的所有词之间建立边,相同的词节点合并为一个节点,得到所述证据的文本图,之后根据文本图建立邻接矩阵并进行拉普拉斯标准化,通过一个门控图神经网络层得到证据各个词的初步特征,其中初始词节点特征为Glove预训练词嵌入向量,每个特征维度均为300,将各个词的初步特征经过一个全连接层将其维度从300映射到1后再经过一个门控图神经网络层计算,得到每个词的冗余分数,然后根据证据中词的个数,取冗余分数前40%高的词,将其在文本图中所具有的边去掉,得到新的证据文本图以及相应的邻接矩阵,最后以各个词的初步特征为初始节点特征,再通过一个门控图神经网络层计算得到最终证据中所有词的特征表示。
S400:对所述初步证据特征进行迭代交叉验证并引入多头输出层,获得所述数据集中每条真证据和假证据对应的多头可信度分数;
在一些实施例中,为了解决缺乏证据可信度标签的问题,我们假设大多数检索到的证据都是可信的,因为在互联网上公然用虚假证据占据大多数排名靠前的位置几乎是不可能,因此本发明选择对一条新闻的多个证据进行交叉验证,这使得它们能够评估彼此的可信度,又考虑到只有一次交叉验证可能是不可靠的,需要迭代地重复这个过程,以确保输出的可信度评分已经稳定。
其中,步骤S400包括:
S410:按照缩放点积注意力评分函数和可训练参数分别计算获得当前条初步证据特征和其它各条初步证据特征的交互结果;
S420:对每条交互结果取均值获得均值结果;
S430:对所述均值结果进行非线性变换,获得所述当前条初步证据特征的验证得分;
S440:对各条初步证据特征分别进行步骤S410至步骤S430操作,获得每条初步证据特征对应的验证得分;
S450:对每条初步证据特征进行多轮步骤S410至步骤S440操作,对获得的验证得分引入多头注意力,获得所述数据集中每条真证据和假证据对应的多头可信度分数。
在一些实施例中,在迭代交叉验证步骤中,首先将证据来源的id输入嵌入层计算得到128维的来源特征,将其与初步证据特征进行连结操作得到用于后续步骤的1628维证据特征表示,对若干条证据特征表示迭代地相互验证,第一轮交叉验证以当前证据特征和其他证据特征为基础,按照缩放点积注意力的评分函数并乘以一个可训练参数,计算得到交互结果,作为其他证据对当前证据的验证得分,其他证据也进行该步骤;当前证据特征与其他所有证据均进行该交互操作得到对当前证据特征的验证得分,对这些得分取均值并经过一个全连接层以及指数函数和tanh激活函数的非线性变换,得到当前证据的一个总体验证得分,其他证据也进行该步骤;之后的每轮迭代进行同样的操作,仍以当前所述证据特征为基础,但以其他证据上轮迭代的总体验证得分与其原特征表示的乘积迭代,总的迭代次数6,最终第I轮迭代后每个证据的总体验证得分为所述反应每条证据可信程度的初步结果。
其中,步骤S450包括:
S451:对每条初步证据特征对应的验证得分分别进行全连接层计算映射至二维空间;
S452:对置于二维空间的每条初步证据特征对应的验证得分进行指数函数和激活函数的非线性变换,获得所述数据集中每条证据对应的多头可信度分数。
在一些实施例中,对上述得分进行一次全连接层计算将其映射到2维,其他证据也进行该步骤;经过指数函数和tanh激活函数的非线性变换,得到头数为2的所述多头可信度分数,其他证据也进行该步骤。
S500:根据所述多头可信度分数调制所述新闻特征和所述初步证据特征间的注意力权重,获得所述数据集的整体证据特征;
其中,步骤S500包括:
S510:对所述新闻特征和所述初步证据特征进行多头注意力计算,获得注意力权重矩阵;
S520:将所述注意力权重矩阵和每条证据对应的多头可信度分数进行元素相乘,获得可信度调制注意力权重矩阵;
S530:将所述可信度调制注意力权重矩阵和所述初步证据特征进行矩阵相乘,获得所述整体证据特征。
S600:将所述整体证据特征和所述新闻特征连结进行卷积学习,获得所述待测新闻的真假检测结果。
在一些实施例中,在新闻真实性预测步骤中,基于之前得到的新闻特征和所有证据整体特征,将两者进行concat连结操作后进入全连接层和softmax函数计算得到新闻为真或假的概率,概率大的标签为预测值,将数据集SnopesE划分成五折交叉验证数据集,以交叉熵为损失函数对架构模型的参数进行训练,最终在测试集得到测试结果。
本发明提供的一种融合证据可信度的虚假新闻检测方法,获取到的数据集内新闻的证据比较充足,能够符合客观规律且能够反映真实情况,另外通过爬取证据后引入假证据,构建新的数据集用于虚假新闻的检测,也模拟了更真实的更不可信的证据场景,建立新的方法框架后通过多头证据可信度来模拟不同证据的不同可信度,考虑了虚假证据对新闻检测的影响,提升了基于证据的虚假新闻检测的准确率。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种融合证据可信度的虚假新闻检测方法,其特征在于,包括:
S100:获取待测新闻,爬取所述待测新闻的真证据;
S200:通过人工智能程序生成所述待测新闻对应的假证据,根据所述待测新闻与所述真证据和所述假证据构建数据集;
S300:通过神经网络学习所述数据集,获得所述数据集的初步特征表示,所述初步特征表示包括新闻特征和初步证据特征;
S400:对所述初步证据特征进行迭代交叉验证并引入多头输出层,获得所述数据集中每条真证据和假证据对应的多头可信度分数;
S500:根据所述多头可信度分数调制所述新闻特征和所述初步证据特征间的注意力权重,获得所述数据集的整体证据特征;
S600:将所述整体证据特征和所述新闻特征连结进行卷积学习,获得所述待测新闻的真假检测结果。
2.根据权利要求1所述的一种融合证据可信度的虚假新闻检测方法,其特征在于,步骤S100包括:
S110:基于现有数据库获取待测新闻;
S120:通过爬虫工具对所述待测新闻重新爬取新闻文本;
S130:定位所述新闻文本中新闻相关的关键词的所在位置;
S140:根据所述所在位置在预设长度内截取证据文本,清洗所述证据文本,获得所述待测新闻的真证据。
3.根据权利要求1所述的一种融合证据可信度的虚假新闻检测方法,其特征在于,步骤S300中获得所述新闻特征的步骤包括:
S311:为所述待测新闻设置滑动窗口;
S312:通过所述滑动窗口识别词语作为节点,建立所述待测新闻对应的新闻文本图;
S313:根据所述新闻文本图建立邻接矩阵并进行拉普拉斯标准化,通过图神经网络层获得新闻文本词特征;
S314:对所有新闻文本词特征取均值获得所述新闻特征。
4.根据权利要求1所述的一种融合证据可信度的虚假新闻检测方法,其特征在于,步骤S300中获得所述初步证据特征的步骤包括:
S321:为所述真证据和所述假证据设置滑动窗口;
S322:通过所述滑动窗口识别词语作为节点,建立所述真证据和所述假证据对应的预证据文本图;
S323:根据所述预证据文本图建立预邻接矩阵并进行拉普拉斯标准化,通过图神经网络层获得证据文本词特征;
S324:将所有所述证据文本词特征经过全连接层降维,对降维后的证据文本词特征经过图神经网络层分别计算获得每条证据文本词特征对应的冗余分数;
S325:根据所述冗余分数对所述预证据文本图进行去边操作,获得证据文本图并建立邻接矩阵,通过图神经网络层获得所述初步证据特征。
5.根据权利要求1所述的一种融合证据可信度的虚假新闻检测方法,其特征在于,步骤S400包括:
S410:按照缩放点积注意力评分函数和可训练参数分别计算获得当前条初步证据特征和其它各条初步证据特征的交互结果;
S420:对每条交互结果取均值获得均值结果;
S430:对所述均值结果进行非线性变换,获得所述当前条初步证据特征的验证得分;
S440:对各条初步证据特征分别进行步骤S410至步骤S430操作,获得每条初步证据特征对应的验证得分;
S450:对每条初步证据特征进行多轮步骤S410至步骤S440操作,对获得的验证得分引入多头注意力,获得所述数据集中每条真证据和假证据对应的多头可信度分数。
6.根据权利要求5所述的一种融合证据可信度的虚假新闻检测方法,其特征在于,步骤S450包括:
S451:对每条初步证据特征对应的验证得分分别进行全连接层计算映射至二维空间;
S452:对置于二维空间的每条初步证据特征对应的验证得分进行指数函数和激活函数的非线性变换,获得所述数据集中每条证据对应的多头可信度分数。
7.根据权利要求1所述的一种融合证据可信度的虚假新闻检测方法,其特征在于,步骤S500包括:
S510:对所述新闻特征和所述初步证据特征进行多头注意力计算,获得注意力权重矩阵;
S520:将所述注意力权重矩阵和每条证据对应的多头可信度分数进行元素相乘,获得可信度调制注意力权重矩阵;
S530:将所述可信度调制注意力权重矩阵和所述初步证据特征进行矩阵相乘,获得所述整体证据特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310825631.6A CN116579337B (zh) | 2023-07-07 | 2023-07-07 | 一种融合证据可信度的虚假新闻检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310825631.6A CN116579337B (zh) | 2023-07-07 | 2023-07-07 | 一种融合证据可信度的虚假新闻检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116579337A true CN116579337A (zh) | 2023-08-11 |
CN116579337B CN116579337B (zh) | 2023-10-10 |
Family
ID=87536103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310825631.6A Active CN116579337B (zh) | 2023-07-07 | 2023-07-07 | 一种融合证据可信度的虚假新闻检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116579337B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781679A (zh) * | 2019-10-15 | 2020-02-11 | 上海大学 | 一种基于关联语义链网络的新闻事件关键词挖掘方法 |
CN111177554A (zh) * | 2019-12-27 | 2020-05-19 | 西安交通大学 | 一种基于生成对抗学习的可解释探索的假新闻识别***及方法 |
CN112988959A (zh) * | 2021-01-13 | 2021-06-18 | 西安交通大学 | 基于证据推断网络的虚假新闻可解释性检测***及方法 |
CN114462420A (zh) * | 2022-01-28 | 2022-05-10 | 河海大学 | 一种基于特征融合模型的虚假新闻检测方法 |
CN114579878A (zh) * | 2022-03-15 | 2022-06-03 | 中国科学院空天信息创新研究院 | 虚假新闻判别模型的训练方法、虚假新闻判别方法及装置 |
CN115130613A (zh) * | 2022-07-26 | 2022-09-30 | 西北工业大学 | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 |
WO2023093574A1 (zh) * | 2021-11-25 | 2023-06-01 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及*** |
-
2023
- 2023-07-07 CN CN202310825631.6A patent/CN116579337B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781679A (zh) * | 2019-10-15 | 2020-02-11 | 上海大学 | 一种基于关联语义链网络的新闻事件关键词挖掘方法 |
CN111177554A (zh) * | 2019-12-27 | 2020-05-19 | 西安交通大学 | 一种基于生成对抗学习的可解释探索的假新闻识别***及方法 |
CN112988959A (zh) * | 2021-01-13 | 2021-06-18 | 西安交通大学 | 基于证据推断网络的虚假新闻可解释性检测***及方法 |
WO2023093574A1 (zh) * | 2021-11-25 | 2023-06-01 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及*** |
CN114462420A (zh) * | 2022-01-28 | 2022-05-10 | 河海大学 | 一种基于特征融合模型的虚假新闻检测方法 |
CN114579878A (zh) * | 2022-03-15 | 2022-06-03 | 中国科学院空天信息创新研究院 | 虚假新闻判别模型的训练方法、虚假新闻判别方法及装置 |
CN115130613A (zh) * | 2022-07-26 | 2022-09-30 | 西北工业大学 | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116579337B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022068196A1 (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN106060008B (zh) | 一种网络入侵异常检测方法 | |
CN109413023B (zh) | 机器识别模型的训练及机器识别方法、装置、电子设备 | |
CN109902018B (zh) | 一种智能驾驶***测试案例的获取方法 | |
WO2021174812A1 (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
WO2021104125A1 (zh) | 禽蛋异常的识别方法、装置及***、存储介质、电子装置 | |
CN110880019A (zh) | 通过无监督域适应训练目标域分类模型的方法 | |
Ajay et al. | [Retracted] Environmental and Geographical (EG) Image Classification Using FLIM and CNN Algorithms | |
CN111612041A (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
CN112528035A (zh) | 基于关系注意力的知识图谱推理方法、装置和计算机设备 | |
CN111241338B (zh) | 一种基于注意力机制的深度特征融合视频拷贝检测方法 | |
CN113343901A (zh) | 基于多尺度注意力图卷积网络的人体行为识别方法 | |
CN112217787B (zh) | 一种基于ed-gan的仿冒域名训练数据生成方法及*** | |
CN113269228B (zh) | 一种图网络分类模型的训练方法、装置、***及电子设备 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN113065601A (zh) | 基于遗传算法优化的深度学习林火异常检测方法 | |
CN112163493A (zh) | 一种视频虚假人脸检测方法及电子装置 | |
CN113792594B (zh) | 一种基于对比学习的视频中语言片段定位方法及装置 | |
EP4030355A1 (en) | Neural reasoning path retrieval for multi-hop text comprehension | |
CN117692242A (zh) | 一种基于图谱分析的网络攻击路径分析方法 | |
CN116579337B (zh) | 一种融合证据可信度的虚假新闻检测方法 | |
CN115277065B (zh) | 一种物联网异常流量检测中的对抗攻击方法及装置 | |
CN114881103A (zh) | 一种基于通用扰动贴纸的对抗样本检测方法及装置 | |
CN112487394A (zh) | 图形推理验证码识别方法、***、设备及介质 | |
CN116863313B (zh) | 基于标签增量精炼和对称评分的目标重识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |