CN116579337A

CN116579337A - 一种融合证据可信度的虚假新闻检测方法

Info

Publication number: CN116579337A
Application number: CN202310825631.6A
Authority: CN
Inventors: 刘明铭; 刘梦莹; 吴一可; 肖洋; 王鹏程; 胡梦婷
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-08-11
Anticipated expiration: 2043-07-07
Also published as: CN116579337B

Abstract

本发明涉及虚假新闻检测技术领域，提供一种融合证据可信度的虚假新闻检测方法。该方法包括：获取待测新闻，爬取获得待测新闻的真证据；通过人工智能程序生成待测新闻对应的假证据，根据待测新闻与真证据和假证据构建数据集；通过神经网络学习数据集，获得数据集的包括新闻特征和初步证据特征的初步特征表示；对初步证据特征进行迭代交叉验证并引入多头输入层，获得数据集中每条证据对应的多头可信度分数；根据多头可信度分数调制新闻特征和初步证据特征间的注意力权重获得整体证据特征；对整体证据特征进行卷积学习以检测待测新闻的真假。该方法模拟更不可信的证据场景，通过多头可信度来模拟不同可信度，提高了虚假新闻检测的准确率。

Description

一种融合证据可信度的虚假新闻检测方法

技术领域

本发明涉及虚假新闻检测技术领域，尤其涉及一种融合证据可信度的虚假新闻检测方法。

背景技术

现今在基于证据的虚假新闻检测方向的研究已有很多，很多模型在Snopes以及PolitiFact等常用数据集上取得了很好的效果，其中的新闻及标签在事实核查网站得到，证据通过在搜索引擎中通过检索新闻得到，一条新闻对应若干条证据。现有的工作将新闻以及证据作为输入，通过门控循环单元（GRU）、长短期记忆网络（LSTM）或门控图神经网络（GGNN）等对输入进行编码，之后通过注意力机制建立新闻和证据之间的联系得到证据的特征表示，最后由新闻和证据的特征一起通过一个全连接层以及softmax函数得到新闻为真或假的概率，选取概率最大的作为预测结果。

首先，Snopes和PolitiFact在获取证据后进行数据清洗时，是提取爬行证据中最相似的片段，片段的词嵌入与索赔之间的相似性至少为0.5。这种数据处理使得数据集过于干净，数据集中也有很多新闻的证据仅有1个，这是不符合现实情况的，因为对于一条新闻的检索结果不会只有一条，这无法反映真实情况，可能会导致在这些数据集上表现良好的模型在真实世界的应用程序中出现显著的性能下降。

现有的基于证据的虚假新闻检测方法都通过注意力机制等方法建模了claim和证据之间的关系，提升了模型性能，但也都忽略了一个至关重要的问题，是这些被用于进行虚假新闻检测的证据本身是否可信，用于虚假新闻检测的证据来源于搜索引擎检索，可想而知这其中必会存在一些不可信的证据，甚至会有一些恶意攻击者散布的带有模型攻击性的假证据来干扰虚假新闻检测模型的预测结果，这会使得现有模型因缺少对证据是否可信的判断而使用了假证据作为新闻检测的依据，从而对新闻的真假给出了错误判断。

此外其它研究包括DeClarE、MAC和GET使用到了证据的来源作为证据文本特征的一个补充，但模型对证据可信程度的理解仅依靠来源是远远不够的，并且新的来源层出不穷，一旦有攻击者捏造的证据来源是模型没见过的，模型根本无法判断证据是否可信。

发明内容

本发明旨在至少解决相关技术中存在的技术问题之一。为此，本发明提供一种融合证据可信度的虚假新闻检测方法。

本发明提供一种融合证据可信度的虚假新闻检测方法，包括：

S100：获取待测新闻，爬取所述待测新闻的真证据；

S200：通过人工智能程序生成所述待测新闻对应的假证据，根据所述待测新闻与所述真证据和所述假证据构建数据集；

S300：通过神经网络学习所述数据集，获得所述数据集的初步特征表示，所述初步特征表示包括新闻特征和初步证据特征；

S400：对所述初步证据特征进行迭代交叉验证并引入多头输出层，获得所述数据集中每条真证据和假证据对应的多头可信度分数；

S500：根据所述多头可信度分数调制所述新闻特征和所述初步证据特征间的注意力权重，获得所述数据集的整体证据特征；

S600：对所述整体证据特征进行卷积学习，获得所述待测新闻的真假检测结果。

根据本发明提供的一种融合证据可信度的虚假新闻检测方法，步骤S100包括：

S110：基于现有数据库获取待测新闻；

S120：通过爬虫工具对所述待测新闻重新爬取新闻文本；

S130：对于所述新闻文本定位其中新闻相关关键词的所在位置；

S140：根据所述所在位置在预设长度内截取证据文本，清洗所述证据文本，获得所述待测新闻的真证据。

根据本发明提供的一种融合证据可信度的虚假新闻检测方法，步骤S300中获得所述新闻特征的步骤包括：

S311：为所述待测新闻设置滑动窗口；

S312：通过所述滑动窗口识别词语作为节点，建立所述待测新闻对应的新闻文本图；

S313：根据所述新闻文本图建立邻接矩阵并进行拉普拉斯标准化，通过图神经网络层获得新闻文本词特征；

S314：对所有新闻文本词特征取均值获得所述新闻特征。

根据本发明提供的一种融合证据可信度的虚假新闻检测方法，步骤S300中获得所述初步证据特征的步骤包括：

S321：为所述真证据和所述假证据设置滑动窗口；

S322：通过所述滑动窗口识别词语作为节点，建立所述真证据和所述假证据对应的预证据文本图；

S323：根据所述预证据文本图建立预邻接矩阵并进行拉普拉斯标准化，通过图神经网络层获得证据文本词特征；

S324：将所有所述证据文本词特征经过全连接层降维，对降维后的证据文本词特征经过图神经网络层分别计算获得每条证据文本词特征对应的冗余分数；

S325：根据所述冗余分数对所述预证据文本图进行去边操作，获得证据文本图并建立邻接矩阵，通过图神经网络层获得所述初步证据特征。

根据本发明提供的一种融合证据可信度的虚假新闻检测方法，步骤S400包括：

S410：按照缩放点积注意力评分函数和可训练参数分别计算获得当前条初步证据特征和其它各条初步证据特征的交互结果；

S420：对每条交互结果取均值获得均值结果；

S430：对所述均值结果进行非线性变换，获得所述当前条初步证据特征的验证得分；

S440：对各条初步证据特征分别进行步骤S410至步骤S430操作，获得每条初步证据特征对应的验证得分；

S450：对每条初步证据特征进行多轮步骤S410至步骤S440操作，对获得的对应的验证得分引入多头注意力，获得所述数据集中每条真证据和假证据对应的多头可信度分数。

根据本发明提供的一种融合证据可信度的虚假新闻检测方法，步骤S450包括：

S451：对每条初步证据特征对应的验证得分分别进行全连接层计算映射至二维空间；

S452：对置于二维空间的每条初步证据特征对应的验证得分进行指数函数和激活函数的非线性变换，获得所述数据集中每条证据对应的多头可信度分数。

根据本发明提供的一种融合证据可信度的虚假新闻检测方法，步骤S500包括：

S510：对所述新闻特征和所述初步证据特征进行多头注意力计算，获得注意力权重矩阵；

S520：将所述注意力权重矩阵和每条证据对应的多头可信度分数进行元素相乘，获得可信度调制注意力权重矩阵；

S530：将所述可信度调制注意力权重矩阵和所述初步证据特征进行矩阵相乘，获得所述整体证据特征。

本发明提供的一种融合证据可信度的虚假新闻检测方法，在基于证据的虚假新闻检测任务中，在没有可信度标签的情况下对检索证据的可信度评分进行建模，构建了一个新的数据集以模拟一个更不可信的证据场景，提出了一个新的方法框架，通过多头证据可信度的计算来明确模拟不同证据的不同可信度，经过数据集上的训练和测试，提高了基于证据的虚假新闻检测的准确率。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种融合证据可信度的虚假新闻检测方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下实施例用于说明本发明，但不能用来限制本发明的范围。

在本发明实施例的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明实施例的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明实施例中的具体含义。

在本发明实施例中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

下面结合图1描述本发明提供的实施例。

S100：获取待测新闻，爬取获得所述待测新闻的真证据；

其中，步骤S100包括：

S110：基于现有数据库获取待测新闻；

S120：通过爬虫工具对所述待测新闻重新爬取新闻文本；

在一些实施例中，基于现有Snopes数据集中的新闻及其证据的网站链接，使用Python爬虫工具重新爬取证据；对于爬取的文本定位新闻中的关键词所在位置，根据该位置截取文本，控制文本长度在100以内，得到简单清洗后的爬取证据集。

在一些实施例中，通过构建Prompt，对每条新闻使用ChatGPT生成5条假证据，将生成的假证据添加到爬取证据数大于5的新闻证据集中，控制总的证据数不超过30，得到最终的数据集SnopesE。

进一步的，在假证据生成步骤中，因为ChatGPT强大的文本生成功能，将构建完成的Prompt输入ChatGPT的“gpt-3.5-turbo”API，让其生成5条假证据，之后将生成证据与之前的爬取证据合并，生成证据的来源从原有证据源中随机选取得到，从而可以模拟可能发生的恶意证据攻击情景。对于合并后的证据集，需要控制其数量不超过30，因而需要通过判定证据数量是否大于30来将超过30条的那部分生成证据移除，否则不做处理，之后如果有下一条新闻则继续证据爬取步骤，没有则结束。

其中，步骤S300中获得所述新闻特征的步骤包括：

S311：为所述待测新闻设置滑动窗口；

S314：对所有新闻文本词特征取均值获得所述新闻特征。

在一些实施例中，由于GET方法中门控图神经网络在证据冗余词去除以及特征编码中的有效性，在新闻及证据编码步骤中继续使用门控图神经网络学习新闻和证据的特征表示。

进一步的，对于新闻特征表示编码中，为新闻中的每个词设置滑动窗口大小为3，每个词为一个节点并将滑动窗口内的所有词之间建立边，相同的词节点合并为一个节点，得到所述新闻的文本图，之后根据文本图建立邻接矩阵并进行拉普拉斯标准化，通过一个标准门控图神经网络层得到新闻各个词的特征，其中初始词节点特征为Glove预训练词嵌入向量，每个特征维度均为300，最后对所有词特征取均值得到所述的新闻特征表示。

其中，步骤S300中获得所述初步证据特征的步骤包括：

S321：为所述真证据和所述假证据设置滑动窗口；

在一些实施例中，对于各个证据，同样为其中的每个词设置滑动窗口大小为3，每个词为一个节点并将滑动窗口内的所有词之间建立边，相同的词节点合并为一个节点，得到所述证据的文本图，之后根据文本图建立邻接矩阵并进行拉普拉斯标准化，通过一个门控图神经网络层得到证据各个词的初步特征，其中初始词节点特征为Glove预训练词嵌入向量，每个特征维度均为300，将各个词的初步特征经过一个全连接层将其维度从300映射到1后再经过一个门控图神经网络层计算，得到每个词的冗余分数，然后根据证据中词的个数，取冗余分数前40%高的词，将其在文本图中所具有的边去掉，得到新的证据文本图以及相应的邻接矩阵，最后以各个词的初步特征为初始节点特征，再通过一个门控图神经网络层计算得到最终证据中所有词的特征表示。

在一些实施例中，为了解决缺乏证据可信度标签的问题，我们假设大多数检索到的证据都是可信的，因为在互联网上公然用虚假证据占据大多数排名靠前的位置几乎是不可能，因此本发明选择对一条新闻的多个证据进行交叉验证，这使得它们能够评估彼此的可信度，又考虑到只有一次交叉验证可能是不可靠的，需要迭代地重复这个过程，以确保输出的可信度评分已经稳定。

其中，步骤S400包括：

S420：对每条交互结果取均值获得均值结果；

S450：对每条初步证据特征进行多轮步骤S410至步骤S440操作，对获得的验证得分引入多头注意力，获得所述数据集中每条真证据和假证据对应的多头可信度分数。

在一些实施例中，在迭代交叉验证步骤中，首先将证据来源的id输入嵌入层计算得到128维的来源特征，将其与初步证据特征进行连结操作得到用于后续步骤的1628维证据特征表示，对若干条证据特征表示迭代地相互验证，第一轮交叉验证以当前证据特征和其他证据特征为基础，按照缩放点积注意力的评分函数并乘以一个可训练参数，计算得到交互结果，作为其他证据对当前证据的验证得分，其他证据也进行该步骤；当前证据特征与其他所有证据均进行该交互操作得到对当前证据特征的验证得分，对这些得分取均值并经过一个全连接层以及指数函数和tanh激活函数的非线性变换，得到当前证据的一个总体验证得分，其他证据也进行该步骤；之后的每轮迭代进行同样的操作，仍以当前所述证据特征为基础，但以其他证据上轮迭代的总体验证得分与其原特征表示的乘积迭代，总的迭代次数6，最终第I轮迭代后每个证据的总体验证得分为所述反应每条证据可信程度的初步结果。

其中，步骤S450包括：

在一些实施例中，对上述得分进行一次全连接层计算将其映射到2维，其他证据也进行该步骤；经过指数函数和tanh激活函数的非线性变换，得到头数为2的所述多头可信度分数，其他证据也进行该步骤。

其中，步骤S500包括：

S600：将所述整体证据特征和所述新闻特征连结进行卷积学习，获得所述待测新闻的真假检测结果。

在一些实施例中，在新闻真实性预测步骤中，基于之前得到的新闻特征和所有证据整体特征，将两者进行concat连结操作后进入全连接层和softmax函数计算得到新闻为真或假的概率，概率大的标签为预测值，将数据集SnopesE划分成五折交叉验证数据集，以交叉熵为损失函数对架构模型的参数进行训练，最终在测试集得到测试结果。

本发明提供的一种融合证据可信度的虚假新闻检测方法，获取到的数据集内新闻的证据比较充足，能够符合客观规律且能够反映真实情况，另外通过爬取证据后引入假证据，构建新的数据集用于虚假新闻的检测，也模拟了更真实的更不可信的证据场景，建立新的方法框架后通过多头证据可信度来模拟不同证据的不同可信度，考虑了虚假证据对新闻检测的影响，提升了基于证据的虚假新闻检测的准确率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种融合证据可信度的虚假新闻检测方法，其特征在于，包括：

S100：获取待测新闻，爬取所述待测新闻的真证据；

2.根据权利要求1所述的一种融合证据可信度的虚假新闻检测方法，其特征在于，步骤S100包括：

S110：基于现有数据库获取待测新闻；

S120：通过爬虫工具对所述待测新闻重新爬取新闻文本；

S130：定位所述新闻文本中新闻相关的关键词的所在位置；

3.根据权利要求1所述的一种融合证据可信度的虚假新闻检测方法，其特征在于，步骤S300中获得所述新闻特征的步骤包括：

S311：为所述待测新闻设置滑动窗口；

S314：对所有新闻文本词特征取均值获得所述新闻特征。

4.根据权利要求1所述的一种融合证据可信度的虚假新闻检测方法，其特征在于，步骤S300中获得所述初步证据特征的步骤包括：

S321：为所述真证据和所述假证据设置滑动窗口；

5.根据权利要求1所述的一种融合证据可信度的虚假新闻检测方法，其特征在于，步骤S400包括：

S420：对每条交互结果取均值获得均值结果；

6.根据权利要求5所述的一种融合证据可信度的虚假新闻检测方法，其特征在于，步骤S450包括：

7.根据权利要求1所述的一种融合证据可信度的虚假新闻检测方法，其特征在于，步骤S500包括：