CN117763151A - 一种低资源多领域的假新闻检测方法及*** - Google Patents

一种低资源多领域的假新闻检测方法及*** Download PDF

Info

Publication number
CN117763151A
CN117763151A CN202311828071.6A CN202311828071A CN117763151A CN 117763151 A CN117763151 A CN 117763151A CN 202311828071 A CN202311828071 A CN 202311828071A CN 117763151 A CN117763151 A CN 117763151A
Authority
CN
China
Prior art keywords
tag
false
prompt
domain
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311828071.6A
Other languages
English (en)
Inventor
周咏梅
范长永
周栋
林楠铠
阳爱民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN202311828071.6A priority Critical patent/CN117763151A/zh
Publication of CN117763151A publication Critical patent/CN117763151A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种低资源多领域的假新闻检测方法及***,涉及虚假新闻检测技术领域,该方法包括:构建带有可学习标记的提示模板;基于注意力机制得到领域增强的提示模板;利用领域增强的提示模板包装原始新闻文本,得到提示文本;通过预训练语言模型预测生成提示文本中掩码标记处待预测的标签词,经过掩码语言模型的头部预测输出,得到标签单词集中每个标签词的概率,基于上下文先验和可学习权重构建表达器,将标签单词集中标签词映射到对应的真假分类标签,将标签词的概率转换为相对应的真假分类标签的概率,以二元交叉熵损失函数为训练目标函数来检测假新闻。本发明有效利用领域信息增强的提示模板,能适应多领域、低资源场景的假新闻检测。

Description

一种低资源多领域的假新闻检测方法及***
技术领域
本发明涉及虚假新闻检测技术领域,特别是涉及一种低资源多领域的假新闻检测方法及***。
背景技术
现代技术中,社交媒体平台已成为人们接收新闻的主要渠道之一。其中,虚假新闻包含虚构的故事、虚假的事实陈述、断章取义或误导性的标题,在这种情况下,人们无疑会被误导,因此,自动检测虚假新闻既是必要的,也是具有挑战性的。
现有的假新闻检测方法大致有以下几类,基于新闻内容的方法主要是通过提取新闻内容的特征来进行检测,而真实新闻和虚假新闻在写作风格、词汇和句法上存在差异。为了提高模型的性能和可靠性,整合更多信息是非常有必要的,例如,假新闻的内容往往具有煽动性,Zhang等人在文献“Zhang X,Cao J,Li X,et al.Mining dual emotion for fakenews detection[C]//Proceedings of the web conference 2021,2021:3465-3476”中,利用情感信息来提高模型的性能。结合外部知识也是一种有效的手段,Wang等人在文献“WangY,Qian S,Hu J,et al.Fake news detection via knowledge-driven multimodalgraph convolutional networks[C]//Proceedings of the 2020internationalconference on multimedia retrieval,2020:540-547”中,将外部知识整合到新闻内容中,增强了模型对新闻中语义信息的理解;同时外部知识中包含许多客观事实,Hu等人在文献“Hu L,Yang T,Zhang L,et al.Compare to the knowledge:Graph neural fake newsdetection with external knowledge[C]//Proceedings ofthe 59thAnnual Meeting ofthe Association for Computational Linguistics and the 11th InternationalJoint Conference on Natural Language Processing(Volume 1:Long Papers),2021:754-763”中,将新闻内容的实体信息与外部知识形成实体比对网络来检测虚假新闻。Jiang等人在文献“Jiang G,Liu S,ZhaoY,et al.Fake news detection via knowledgeableprompt learning[J].Information Processing&Management,2022,59(5):103029”中,利用外部知识结合提示学习,在低资源场景下的特定领域假新闻检测中取得了不错的效果。基于社会背景的方法关注发布者与用户之间的互动(评论、转发等)和传播模式(传播线程和传播结构)。因为新闻文章通常是由兴趣相似的用户分享的,Jeong等人在文献“Jeong U,Ding K,Cheng L,et al.Nothing stands alone:Relational fake news detection withhypergraph neural networks[C]//2022IEEE International Conference on Big Data(Big Data).IEEE,2022:596-605”中,利用超图神经网络来捕捉新闻片段间群体的互动特性。Min等人在文献“Min E,Rong Y,Bian Y,et al.Divide-and-conquer:Post-userinteraction network for fake news detection on social media[C]//Proceedingsofthe ACM Web Conference 2022,2022:1148-1158”中,还利用图注意力网络整合新闻传播和用户社交信息,以检测假新闻。
现实世界的新闻涉及各个领域,不同领域的新闻在写作风格、词汇使用和传播方式等方面存在差异。不同领域数据分布的差异被称为领域偏移,比如文献“Pan S J,YangQ.A survey on transfer learning[J].IEEE Transactions on knowledge and dataengineering,2009,22(10):1345-1359”。多领域假新闻检测也逐渐受到学者们的关注,通过对多个领域建模,提高模型的整体性能及领域泛化能力。由于域标签对于多域学习非常有用(可参考“Zhuang F,Qi Z,Duan K,et al.A comprehensive survey on transferlearning[J].Proceedings ofthe IEEE,2020,109(1):43-76”),构建准确的多域标签数据集对于假新闻检测来说也非常重要,Kleinberg等人在文献中“Pérez-Rosas V,KleinbergB,LefevreA,et al.Automatic detection offake news[J].arXivpreprint arXiv:1708.07104,2017”构建了两个多领域假新闻检测数据集,涵盖了7个不同的新闻领域。Cao等人在文献“Nan Q,Cao J,Zhu Y,et al.MDFEND:Multi-domain fake news detection[C]//Proceedings of the 30th ACM International Conference on Information&Knowledge Management,2021:3343-3347”中构建了一个涵盖了9个领域的中文假新闻检测数据集,并设计了一个多域假新闻检测模型。Zhu等人在文献中“Y.Zhu,Q.Sheng,J.Cao,Q.Nan,K.Shu,M.Wu,J.Wang,and F.Zhuang,“Memory-guided multi-view multi-domainfake news detection,”IEEE Transactions on Knowledge and Data Engineering,2022”通过多视角建模获取交互信息,并利用领域记忆库在多领域假新闻检测中有效地强化了特定领域的特征。
但是,上述现有技术多数都聚焦于单一的特定领域,在其他领域上的模型性能往往表现不佳。多领域假新闻检测技术虽然注重从多个角度出发,结合不同领域之间的相关性,在多个领域上的模型性能表现良好,但是,这些技术都需要足够的数据样本来训练模型,在资源匮乏的情况下,模型性能表现较差。以往基于外部知识提示学习的技术在特定领域下的低资源场景有着不错的表现,但是在其他领域模型性能依然表现较差,且其在提示学习表达器模块的设计过于局限。尽管有学者关注到低资源场景下的假新闻检测,但其只针对单一的特定领域且技术局限,这些技术需要充足的数据资源进行训练。
在现实世界中,各领域的数据分布非常不平衡,某些领域的数据资源非常有限,比如文献“Y.Li,K.Lee,N.Kordzadeh,B.Faber,C.Fiddes,E.Chen,and K.Shu,“Multi-sourcedomain adaptation with weak supervision for early fake news detection,”in2021IEEE International Conference on Big Data(Big Data).IEEE,2021,pp.668–676.”。在假新闻检测的早期阶段,传播处于初期,缺少交互信息,难以在短时间内收集足够的信息以及外部知识,标注数据也远远不够,这使得以往的技术很难从有限的数据中学习到充分的领域特征,其性能和泛化能力受到了极大的限制。
因此,亟需一种能够领域信息增强提示学习的假新闻检测方案,以解决上述现有技术的问题。
发明内容
本发明的目的是提供一种低资源多领域的假新闻检测方法及***,能够有效利用领域信息增强的提示模板,可适应不同领域、低资源场景,实现假新闻高效、精准检测。
为实现上述目的,本发明提供了如下方案:
一种低资源多领域的假新闻检测方法,所述方法包括:
S1,基于提示学习范式,构建初始提示模板,所述初始提示模板带有掩码标记;所述掩码标记用于掩蔽待预测的标签词,并在所述初始提示模板中添加可学习标记,得到带有可学习标记的提示模板;
S2,将领域标签提供的领域信息整合到带有可学习标记的提示模板中,得到领域增强的提示模板;
S3,利用所述领域增强的提示模板对原始新闻文本进行包装,得到提示文本;通过预训练语言模型M预测生成所述提示文本中掩码标记处待预测的多个标签词v,多个标签词v构成与真假分类标签相对应的标签单词集V,经过掩码语言模型的头部预测输出,得到标签单词集V中每个标签词的概率;
S4,采用二元交叉熵损失函数作为假新闻检测二元分类任务的训练目标函数,来评估并优化掩码语言模型的性能;
S5,基于上下文先验和可学习权重,构建表达器,利用所述表达器将所述标签单词集V中标签词映射到相对应的真假分类标签,将标签词的概率转换得到相对应的真假分类标签的概率;
S6,基于得到的真假分类标签的概率进行假新闻检测。
进一步的,所述S2,将领域标签提供的领域信息整合到带有可学习标记的提示模板中,得到领域增强的提示模板,具体包括:
将原始新闻文本和相应的领域信息通过预训练语言模型M进行编码,得到隐藏的原始新闻文本词嵌入向量和隐藏的领域嵌入向量hd,其中,/>整合了整个原始新闻文本的语义信息,然后,利用注意力机制整合hd和/>得到可学习嵌入向量hα,将所述可学习嵌入向量hα注入到提示模板的可学习标记的位置,得到领域增强的提示模板。
将整合后的可学习嵌入向量hα注入提示模板中的[DOMAIN]位置:
其中,表示提示模板中[DOMAIN]标记的隐藏向量,hDOMAIN是注入可学习隐藏向量hα后[DOMAIN]更新的隐藏向量;
在训练过程中,提示文本xp的隐藏向量H=(h[CLS],h1,…,h[DOMAIN],…,h[MASK],…,h[SEP])也会根据领域信息进行更新,更新后的[MASK]表示用于预测标签词。
进一步的,所述S3中,基于上下文先验和可学习权重,构建表达器,具体包括:
在零样本的场景下,利用上下文先验法对标签词进行过滤和去噪处理,即:将样本集中文本x的分布表示为D,将D中每个句子都封装为一个提示文本xp,通过对整个句子分布的概率期望,得到掩码标记位置的标签词的先验分布为:
PD(v)=Ex~D PM([MASK]=v|xp)
其中,[MASK]是指掩码标记;
为了估计期望值,从训练集中抽取一个小的无标签支持集C,假设输入样本{x∈C}遵循均匀先验分布,则每个标签词的上下文先验分布近似为:
然后,将先验概率进行排名,选取阈值内的标签词;
在小样本的场景下,为每个标签词分配一个可学习的权重ωv,这些权重表示为向量ω∈R|V|,同时初始化为零向量,并在训练中学习为权重;在学习过程中,对每个标签词集中Vy的权重进行归一化处理,计算公式如下:
其中,表示标签词集Vy中所有标签词权重的指数项之和,将标签词集V映射到特定标签y的子集定义为Vy
进一步的,所述S5,将标签词的概率转换得到相对应的真假分类标签的概率,具体包括:
在零样本的场景中,不需要对参数进行训练,假定每个标签词对类标签y有相同的贡献,则标签词的预测概率取平均值,从而得到标签y的预测概率:
其中,Vy是映射到特定标签y的V子集;
在小样本的场景中,由于每个标签词都有一个可学***均,从而得到标签y的预测概率:
进一步的,所述二元交叉熵损失函数为:
其中,yi表示地面实况标签,表示预测标签。
本发明还提供了一种低资源多领域的假新闻检测***,应用于所述低资源多领域的假新闻检测方法,所述***包括:
提示模板构建模块,用于基于提示学习范式,构建初始提示模板,所述初始提示模板带有掩码标记;所述掩码标记用于掩蔽待预测的标签词,并在所述初始提示模板中添加可学习标记,得到带有可学习标记的提示模板;
领域增强提示表示模块,用于将领域标签提供的领域信息整合到带有可学习标记的提示模板中,得到领域增强的提示模板;
预处理模块,用于利用所述领域增强的提示模板对原始新闻文本进行包装,得到提示文本;通过预训练语言模型M预测生成所述提示文本中掩码标记处待预测的多个标签词v,多个标签词v构成与真假分类标签相对应的标签单词集V,经过掩码语言模型的头部预测输出,得到标签单词集V中每个标签词的概率;
表达器构建模块,用于基于上下文先验和可学习权重,构建表达器,所述表达器用于将所述标签单词集V中标签词映射到相对应的真假分类标签,将标签词的概率转换得到相对应的真假分类标签的概率;
假新闻识别模块,用于基于得到的真假分类标签的概率,采用二元交叉熵损失函数作为假新闻检测二元分类任务的训练目标函数,基于所述训练目标函数进行假新闻检测。
进一步的,所述将领域标签提供的领域信息整合到带有可学习标记的提示模板中,得到领域增强的提示模板,具体包括:
将原始新闻文本和相应的领域信息通过预训练语言模型M进行编码,得到隐藏的原始新闻文本词嵌入向量和隐藏的领域嵌入向量hd,其中,/>整合了整个原始新闻文本的语义信息,然后,利用注意力机制整合hd和/>得到可学习嵌入向量hα,将所述可学习嵌入向量hα注入到提示模板的可学习标记的位置,得到领域增强的提示模板。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的低资源多领域的假新闻检测方法及***,将假新闻检测的文本分类任务形式化为文本生成任务,构建一个带有可学习标记的提示模板,将新闻领域信息注入标记中,并且掩蔽一个词语作为待预测的标签词,然后将新闻文本与其结合成为一个提示文本,通过预训练语言模型的预测生成提示文本中掩蔽的标签词,再构建一个表达器将预测生成的标签词映射到相应的真假分类标签上。本发明可以适应低资源多领域的场景,更加切合真实世界的情况。
与现有的针对假新闻检测的提示学习技术相比,本申请适应不同的领域,不再局限于单个的特定领域,并且在表达器模块的设计中,提出上下文先验和可学习权重的技术,使标签词覆盖更全面,标签词预测更准确;采用四个模块的组合来执行假新闻检测任务。并且在对比基线模型的实验评估后,本申请所述方案在低资源多领域的场景下是最优的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明低资源多领域的假新闻检测***的框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种低资源多领域的假新闻检测方法及***,能够有效利用领域信息增强的提示模板,可适应不同领域、低资源场景,实现假新闻高效、精准检测。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
如图1所示,本发明实施例提供的一种低资源多领域的假新闻检测方法,包括步骤:
S1,基于提示学习范式,构建初始提示模板,所述初始提示模板带有掩码标记[MASK];所述掩码标记用于掩蔽待预测的标签词,并在所述初始提示模板中添加可学习标记,得到带有可学习标记的提示模板;
通过在提示模板中添加可学习标记[DOMAIN],可以提高提示学习的指导性,提高提示学习效果。这个标记的嵌入在训练过程中被初始化和更新,我们使用这个标记来让模型学习领域信息。由于领域标签已被证明非常有利于多领域学习,因此我们将领域标签提供的领域信息整合到提示模板中,以改善提示引导。
S2,将领域标签提供的领域信息整合到带有可学习标记的提示模板中,得到领域增强的提示模板;
S3,利用所述领域增强的提示模板对原始新闻文本进行包装,得到提示文本;通过预训练语言模型M预测生成所述提示文本中掩码标记处待预测的多个标签词v,多个标签词v构成与真假分类标签相对应的标签单词集V,经过掩码语言模型的头部预测输出,得到标签单词集V中每个标签词的概率PM([MASK]=v|xp);
S4,采用二元交叉熵损失函数作为假新闻检测二元分类任务的训练目标函数,来评估并优化掩码语言模型的性能;
S5,基于上下文先验和可学习权重,构建表达器,利用所述表达器将所述标签单词集V中标签词映射到相对应的真假分类标签,将标签词的概率转换得到相对应的真假分类标签的概率;
S6,基于得到的真假分类标签的概率进行假新闻检测。
本实施例中,假定x=(x1,x2,…,xn)是一个包含n个单词的新闻文本,M是一个预训练语言模型,假新闻检测可以看作是一个二元分类任务,目标是通过M将每个新闻文本分类为唯一标签y∈{0,1},其中0代表真实新闻,1代表假新闻。
提示学习范式将假新闻检测任务形式化为一种屏蔽语言建模任务。具体来说,提示学习用任务相关的模板包装新闻文本输入,并屏蔽模板中的关键词。例如,我们将新闻文本x=“凌晨2点43分M军驻扎在T国乌塔堡军事基地...提供这段信号。”分类为真假标签,并使用提示模板(例如“请评估这条新闻的真实性?它是[MASK]。“)对该文本进行包装,得到提示文本xp
xp=[CLS]x.Please assess the veracity of th is news?It is[MASK].[SEP]。
本实施例中,领域增强的提示模板可以是xp=CLS]x.Please assess theveracity of this[DOMAIN]news?It is[MASK].[SEP]。
本实施例中,所述S2,将领域标签提供的领域信息整合到带有可学习标记的提示模板中,得到领域增强的提示模板,具体包括:
将原始新闻文本和相应的领域信息通过预训练语言模型M进行编码,得到隐藏的原始新闻文本词嵌入向量和隐藏的领域嵌入向量hd,其中,/>整合了整个原始新闻文本的语义信息,然后,利用注意力机制整合hd和/>得到可学习嵌入向量hα,将所述可学习嵌入向量hα注入到提示模板的可学习标记的位置,得到领域增强的提示模板;
其中,可学习嵌入向量这里,dk是向量/>和hd的维度;
将整合后的可学习嵌入向量hα注入提示模板中的[DOMAIN]位置,得到:
这里表示提示模板中[DOMAIN]标记的隐藏向量,hDOMAIN是注入可学习隐藏向量hα后[DOMAIN]更新的隐藏向量;
在训练过程中,提示文本xp的隐藏向量H=(h[CLS],h1,…,h[DOMAIN],…,h[MASK],…,h[SEP])也会根据领域信息进行更新,更新后的[MASK]表示用于预测标签词。
本实施例中,将经过领域信息编码的提示文本xp融合后得到隐藏向量H;经过掩码语言建模的头部预测输出,得到[MASK]的V中每个标签词v的概率:
P(v|xp)=PM([MASK]=v|xp)
然后,通过定义的表达器,可以计算出标签y的预测概率P(y|xp):
P(y|xp)=g(P(v|xp)|v∈Vy)
其中,g是一个函数,用于将标签词的概率转换为相应标签的概率。
本实施例中,所述所述S3中,基于上下文先验和可学习权重,构建表达器,具体包括:
在零样本的场景下,由于过多的词可能会增加模型对词的模糊性和含混性,而且有些词很少见,不具有代表性。这会误导模型预测,使模型预测概率不准确,因此有必要对这些词进行过滤和去噪处理,本实施例中,利用上下文先验法对标签词进行过滤和去噪处理,即:将样本集中文本x的分布表示为D,将D中每个句子都封装为一个提示文本xp,通过对整个句子分布的概率期望,得到掩码标记位置的标签词的先验分布为:
PD(v)=Ex~D PM([MASK]=v|xp)
为了估计期望值,从训练集中抽取一个小的无标签支持集C,假设输入样本{x∈C}遵循均匀先验分布,则每个标签词的上下文先验分布近似为:
然后,将先验概率进行排名,选取阈值内的标签词;
在小样本的场景下,可以使用少量注释数据进行训练,为每个标签词分配一个可学习的权重ωv,以尽量减少噪声对预测的影响,这些权重表示为向量ω∈R|V|,同时初始化为零向量,并在训练中学习为权重;在学习过程中,对每个标签词集中Vy的权重进行归一化处理,计算公式如下:
其中,表示标签词集Vy中所有标签词权重的指数项之和,将标签词集V映射到特定标签y的子集定义为Vy
本实施例中,S5中,将标签词的概率转换得到相对应的真假分类标签的概率,具体包括:
在零样本的场景中,不需要对参数进行训练,假定每个标签词对标签y有相同的贡献,则标签词的预测概率取平均值,从而得到标签y的预测概率:
其中,Vy是映射到标签y的V子集。
在小样本的场景中,由于每个标签词都有一个可学***均,从而得到标签y的预测概率:
本实施例中,S4,采用二元交叉熵损失函数作为假新闻检测二元分类任务的训练目标函数,来评估并优化掩码语言模型的性能,具体包括:
根据二元交叉熵损失函数的值评估的掩码语言模型的性能,并对掩码语言模型进行不断优化;在训练过程中掩码语言模型会逐渐学习到正确的分类边界,从而提高对于新样本的泛化能力;在训练掩码语言模型时,关键是观察损失值的变化趋势而不是具体的数值,一般损失函数值为3左右预测结果更加准确
所述二元交叉熵损失函数为:
其中,yi表示地面实况标签,即标记好的真假分类标签;表示预测标签。
实施例2
如图1所示,本实施例提供了一种低资源多领域的假新闻检测***,应用于实施例1所述的低资源多领域的假新闻检测方法,包括:
提示模板构建模块,用于基于提示学习范式,构建初始提示模板,所述初始提示模板带有掩码标记;所述掩码标记用于掩蔽待预测的标签词,并在所述初始提示模板中添加可学习标记,得到带有可学习标记的提示模板;
领域增强提示表示模块,用于将领域标签提供的领域信息整合到带有可学习标记的提示模板中,得到领域增强的提示模板;
预处理模块,用于利用所述领域增强的提示模板对原始新闻文本进行包装,得到提示文本;通过预训练语言模型M预测生成所述提示文本中掩码标记处待预测的多个标签词v,多个标签词v构成与真假分类标签相对应的标签单词集V,经过掩码语言模型的头部预测输出,得到标签单词集V中每个标签词的概率;采用二元交叉熵损失函数作为假新闻检测二元分类任务的训练目标函数,来评估并优化掩码语言模型的性能;
表达器构建模块,用于用于基于上下文先验和可学习权重,构建表达器,所述表达器用于将所述标签单词集V中标签词映射到相对应的真假分类标签,将标签词的概率转换得到相对应的真假分类标签的概率。表达器用于将预测的标签单词集V映射到(真假)分类标签空间{0,1},表达器对提示学习性能有重大影响,以往的技术使用人工主观设置词汇,这使得词汇覆盖范围小,主观偏见也会影响标签词预测的准确率。本实施例通过收集足够多的与分类标签语义最相近的词来扩展标签词,并筛选出最有效的词来形成动词化器。鉴于CHATGPT庞大的数据库和广泛的知识覆盖面,它非常善于收集各种词库和信息。本实施例中,利用它收集了最能表达判断标签为"真实"或"虚假"的含义和语义特征的词汇各50个。
假新闻识别模块,用于根据得到的真假分类标签的概率,进行假新闻检测。
本实施例中,将领域标签提供的领域信息整合到带有可学习标记的提示模板中,得到领域增强的提示模板,具体包括:
将原始新闻文本和相应的领域信息通过预训练语言模型M进行编码,得到隐藏的原始新闻文本词嵌入向量和隐藏的领域嵌入向量hd,其中,/>整合了整个原始新闻文本的语义信息,然后,利用注意力机制整合hd和/>得到可学习嵌入向量hα,将所述可学习嵌入向量hα注入到提示模板的可学习标记的位置,得到领域增强的提示模板。
综上,本发明提供的低资源多领域的假新闻检测方法及***,有效的利用领域信息增强的提示学习进行假新闻检测,本发明对表达词器模块进行了优化,可以适应低资源场景和资源丰富的场景,进一步提高了模型性能。比较以往的基线方法,本发明以一个包含9个不同领域的数据集为基准,达到了最优的效果,为这项任务提供了新的基线。本发明有效利用领域信息增强的提示模板,充分发挥了提示学习的指导,适应不同的领域和低资源场景,实验结果表明了本发明的有效性,为假新闻检测提供了新的基准。
在本实施例中的其余技术特征,本领域技术人员均可以根据实际情况进行灵活选用以满足不同的具体实际需求。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的组成,结构或部件,均在本发明的权利要求书请求保护的技术方案限定技术保护范围之内。
本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。在以上描述中,为了提供对本发明的透彻理解,阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的技术,例如具体的施工细节,作业条件和其他的技术条件等。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种低资源多领域的假新闻检测方法,其特征在于,所述方法包括以下步骤:
S1,基于提示学习范式,构建初始提示模板,所述初始提示模板带有掩码标记;所述掩码标记用于掩蔽待预测的标签词,并在所述初始提示模板中添加可学习标记,得到带有可学习标记的提示模板;
S2,将领域标签提供的领域信息整合到带有可学习标记的提示模板中,得到领域增强的提示模板;
S3,利用所述领域增强的提示模板对原始新闻文本进行包装,得到提示文本;通过预训练语言模型M预测生成所述提示文本中掩码标记处待预测的多个标签词v,多个标签词v构成与真假分类标签相对应的标签单词集V,经过掩码语言模型的头部预测输出,得到标签单词集V中每个标签词的概率;
S4,采用二元交叉熵损失函数作为假新闻检测二元分类任务的训练目标函数,来评估并优化掩码语言模型的性能;
S5,基于上下文先验和可学习权重,构建表达器,利用所述表达器将所述标签单词集V中标签词映射到相对应的真假分类标签,将标签词的概率转换得到相对应的真假分类标签的概率;
S6,基于得到的真假分类标签的概率进行假新闻检测。
2.根据权利要求1所述的低资源多领域的假新闻检测方法,其特征在于,所述S2,将领域标签提供的领域信息整合到带有可学习标记的提示模板中,得到领域增强的提示模板,具体包括:
将原始新闻文本和相应的领域信息通过预训练语言模型M进行编码,得到隐藏的原始新闻文本词嵌入向量和隐藏的领域嵌入向量hd,其中,整合了整个原始新闻文本的语义信息,然后,利用注意力机制整合hd和/>得到可学习嵌入向量hα,将所述可学习嵌入向量hα注入到提示模板的可学习标记的位置,得到领域增强的提示模板。
3.根据权利要求2所述的低资源多领域的假新闻检测方法,其特征在于,所述可学习嵌入向量hα的表达式为:
将整合后的可学习嵌入向量hα注入提示模板中的[DOMAIN]位置:
其中,表示提示模板中[DOMAIN]标记的隐藏向量,hDOMAIN是注入可学习隐藏向量hα后[DOMAIN]更新的隐藏向量;
在训练过程中,提示文本xp的隐藏向量H=(h[CLS],h1,…,h[DOMAIN],…,h[MASK],…,h[SEP])也会根据领域信息进行更新,更新后的[MASK]表示用于预测标签词。
4.根据权利要求1所述的低资源多领域的假新闻检测方法,其特征在于,所述S3中,基于上下文先验和可学习权重,构建表达器,具体包括:
在零样本的场景下,利用上下文先验法对标签词进行过滤和去噪处理,即:将样本集中文本x的分布表示为D,将D中每个句子都封装为一个提示文本xp,通过对整个句子分布的概率期望,得到掩码标记位置的标签词的先验分布为:
PD(v)=Ex~DPM([MASK]=v|xp)
其中,[MASK]是指掩码标记;
为了估计期望值,从训练集中抽取一个小的无标签支持集C,假设输入样本{x∈C}遵循均匀先验分布,则每个标签词的上下文先验分布近似为:
然后,将先验概率进行排名,选取阈值内的标签词;
在小样本的场景下,为每个标签词分配一个可学习的权重ωv,这些权重表示为向量ω∈R|V|,同时初始化为零向量,并在训练中学习为权重;在学习过程中,对每个标签词集中Vy的权重进行归一化处理,计算公式如下:
其中,表示标签词集Vy中所有标签词权重的指数项之和,将标签词集V映射到特定标签y的子集定义为Vy
5.根据权利要求4所述的低资源多领域的假新闻检测方法,其特征在于,所述S5,将标签词的概率转换得到相对应的真假分类标签的概率,具体包括:
在零样本的场景中,不需要对参数进行训练,假定每个标签词对类标签y有相同的贡献,则标签词的预测概率取平均值,从而得到标签y的预测概率:
其中,Vy是映射到特定标签y的V子集;
在小样本的场景中,由于每个标签词都有一个可学***均,从而得到标签y的预测概率:
6.根据权利要求1所述的低资源多领域的假新闻检测方法,其特征在于,所述二元交叉熵损失函数为:
其中,yi表示地面实况标签,表示预测标签。
7.一种低资源多领域的假新闻检测***,应用于权利要求1-6所述的低资源多领域的假新闻检测方法,其特征在于,包括:
提示模板构建模块,用于基于提示学习范式,构建初始提示模板,所述初始提示模板带有掩码标记;所述掩码标记用于掩蔽待预测的标签词,并在所述初始提示模板中添加可学习标记,得到带有可学习标记的提示模板;
领域增强提示表示模块,用于将领域标签提供的领域信息整合到带有可学习标记的提示模板中,得到领域增强的提示模板;
预处理模块,用于利用所述领域增强的提示模板对原始新闻文本进行包装,得到提示文本;通过预训练语言模型M预测生成所述提示文本中掩码标记处待预测的多个标签词v,多个标签词v构成与真假分类标签相对应的标签单词集V,经过掩码语言模型的头部预测输出,得到标签单词集V中每个标签词的概率;并采用二元交叉熵损失函数作为假新闻检测二元分类任务的训练目标函数,来评估并优化掩码语言模型的性能;
表达器构建模块,用于基于上下文先验和可学习权重,构建表达器,所述表达器用于将所述标签单词集V中标签词映射到相对应的真假分类标签,将标签词的概率转换得到相对应的真假分类标签的概率;
假新闻识别模块,用于根据得到的真假分类标签的概率进行假新闻检测。
8.根据权利要求7所述的低资源多领域的假新闻检测***,其特征在于,所述将领域标签提供的领域信息整合到带有可学习标记的提示模板中,得到领域增强的提示模板,具体包括:
将原始新闻文本和相应的领域信息通过预训练语言模型M进行编码,得到隐藏的原始新闻文本词嵌入向量和隐藏的领域嵌入向量hd,其中,整合了整个原始新闻文本的语义信息,然后,利用注意力机制整合hd和/>得到可学习嵌入向量hα,将所述可学习嵌入向量hα注入到提示模板的可学习标记的位置,得到领域增强的提示模板。
CN202311828071.6A 2023-12-28 2023-12-28 一种低资源多领域的假新闻检测方法及*** Pending CN117763151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311828071.6A CN117763151A (zh) 2023-12-28 2023-12-28 一种低资源多领域的假新闻检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311828071.6A CN117763151A (zh) 2023-12-28 2023-12-28 一种低资源多领域的假新闻检测方法及***

Publications (1)

Publication Number Publication Date
CN117763151A true CN117763151A (zh) 2024-03-26

Family

ID=90317974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311828071.6A Pending CN117763151A (zh) 2023-12-28 2023-12-28 一种低资源多领域的假新闻检测方法及***

Country Status (1)

Country Link
CN (1) CN117763151A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118170920A (zh) * 2024-05-13 2024-06-11 南昌大学 一种混合语种文本检测方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118170920A (zh) * 2024-05-13 2024-06-11 南昌大学 一种混合语种文本检测方法及***

Similar Documents

Publication Publication Date Title
Ali et al. XAI for transformers: Better explanations through conservative propagation
Xu et al. Investigating local and global information for automated audio captioning with transfer learning
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
Robeer et al. Generating realistic natural language counterfactuals
Liu et al. Adversarial learning with multi-modal attention for visual question answering
CN110889003B (zh) 一种基于文本的车辆图像细粒度检索***
Zhang et al. Image-enhanced multi-level sentence representation net for natural language inference
CN110956044A (zh) 一种基于注意力机制的司法场景用文案输入识别分类方法
CN117763151A (zh) 一种低资源多领域的假新闻检测方法及***
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
Nikolov et al. Uncovering semantic bias in neural network models using a knowledge graph
Zhang et al. Video corpus moment retrieval via deformable multigranularity feature fusion and adversarial training
Lee et al. DVC‐Net: A deep neural network model for dense video captioning
Al-Tameemi et al. Multi-model fusion framework using deep learning for visual-textual sentiment classification
Vardhan et al. Fake news detection in social media using supervised learning techniques
CN117390299A (zh) 基于图证据的可解释性虚假新闻检测方法
CN116910683A (zh) 一种基于事件依赖的多模态虚假新闻检测方法
CN116226756A (zh) 开放域社会事件分类方法、装置、电子设备和存储介质
Anand et al. Story semantic relationships from multimodal cognitions
Ma et al. Propagation structure fusion for rumor detection based on node-level contrastive learning
Chadha et al. ireason: Multimodal commonsense reasoning using videos and natural language with interpretability
Qi et al. Video captioning via a symmetric bidirectional decoder
CN115017356A (zh) 图像文本对的判断方法和装置
Pham et al. Towards a large-scale person search by vietnamese natural language: dataset and methods
Yu et al. Information Security Field Event Detection Technology Based on SAtt‐LSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination