CN116383381A - 一种虚假新闻检测方法、装置和电子设备 - Google Patents

一种虚假新闻检测方法、装置和电子设备 Download PDF

Info

Publication number
CN116383381A
CN116383381A CN202310263872.6A CN202310263872A CN116383381A CN 116383381 A CN116383381 A CN 116383381A CN 202310263872 A CN202310263872 A CN 202310263872A CN 116383381 A CN116383381 A CN 116383381A
Authority
CN
China
Prior art keywords
information
data
false news
determining
similarity score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310263872.6A
Other languages
English (en)
Inventor
杨涛
高兴宇
卫建泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Microelectronics of CAS
Original Assignee
Institute of Microelectronics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Microelectronics of CAS filed Critical Institute of Microelectronics of CAS
Priority to CN202310263872.6A priority Critical patent/CN116383381A/zh
Publication of CN116383381A publication Critical patent/CN116383381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开一种虚假新闻检测方法、装置和电子设备,涉及智能检测技术领域,获取待检测的多模态虚假新闻数据;提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据;确定所述组合多模态数据的模态间相似性得分;基于所述模态相似性得分和预设相似性得分阈值确定对应的检测结果,将待检测的多模态虚假新闻数据中新闻帖子里图像和文本中的实体信息融入了外部知识图谱对应匹配的外部知识信息,有效利用背景知识信息检测虚假新闻,实现好的检测效果,保证了虚假新闻检测的可靠性和稳定性。

Description

一种虚假新闻检测方法、装置和电子设备
技术领域
本发明涉及智能检测技术领域,尤其涉及一种虚假新闻检测方法、装置和电子设备。
背景技术
近些年来,随着网络信息技术的飞速发展以及手机、平板等移动终端的迭代更新,人们更倾向于从社交媒体、新闻软件上获取最新的新闻。这样的获取方式更加方便快捷,随手转发就能被广泛传播。由于通过社交媒体、新闻软件获取新闻的成本低廉和广泛传播性,随之而来的是新闻消息的真实性引人质疑,每天都会有部分新闻可能是虚假的。这些虚假新闻消息往往流量巨大、博人眼球,但是会对社会和公众产生负面的影响并带来非必要的麻烦。
目前,对虚假新闻进行检测往往通过人工去鉴别,这是一个巨大的工作量,需要大量的人力和物力,并且缺乏时效性,无法做到及时辟谣。随着机器学习的发展应用,特别是深度学习在图像和文本识别领域的快速发展,使得采用自动化手段识别虚假新闻成为可能。现有的一些多模态方法,主要是针对包含图像和文本的多模态的新闻数据,使用对应的特征提取器分别提取图像和文本的特征,然后将得到的两种特征简单拼接之后进行分类或将两种特征通过注意力机制进行融合操作,将融合后的输出进行分类。
但是,上述对虚假新闻的检测方法只是对图像特征和文本特征的简单挖掘,对于伪造的图像和文本信息,特别是伪造的图像和文本语义一致的情况,由于缺乏先验的知识信息,无法做出正确的判断,降低了虚假新闻检测的可靠性和稳定性。
发明内容
本发明的目的在于提供一种虚假新闻检测方法、装置和电子设备,解决由于缺乏先验的知识信息,无法做出正确的判断,降低了虚假新闻检测的可靠性和稳定性的问题。
第一方面,本发明提供一种虚假新闻检测方法,所述方法包括:
获取待检测的多模态虚假新闻数据;
提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据;
确定所述组合多模态数据的模态间相似性得分;
基于所述模态间相似性得分和预设相似性得分阈值确定对应的检测结果。
采用上述技术方案的情况下,本发明提供的虚假新闻检测方法,获取待检测的多模态虚假新闻数据;提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据;确定所述组合多模态数据的模态间相似性得分;基于所述模态间相似性得分和预设相似性得分阈值确定对应的检测结果。将待检测的多模态虚假新闻数据中新闻帖子里图像和文本中的实体信息融入了外部知识图谱对应匹配的外部知识信息,有效利用背景知识信息检测虚假新闻,实现好的检测效果,保证了虚假新闻检测的可靠性和稳定性。
在一种可能的实现方式中,所述提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据,包括:
分别提取所述多模态虚假新闻数据中的图像实体信息和文本实体信息;
基于所述文本实体信息、所述图像实体信息和外部知识信息库确定所述外部知识信息;
将所述外部知识信息、所述文本实体信息和所述图像实体信息进行数据处理,得到所述组合多模态数据。
在一种可能的实现方式中,所述基于所述文本实体信息、所述图像实体信息和外部知识信息库确定所述外部知识信息,包括:
通过实体链接工具将所述文本实体信息和所述图像实体信息链接至外部知识信息库中,确定与所述文本实体信息和所述图像实体信息匹配的所述外部知识信息。
在一种可能的实现方式中,所述组合多模态数据包括目标文本信息和目标图像信息;所述将所述外部知识信息、所述文本实体信息和所述图像实体信息进行数据处理,得到所述组合多模态数据,包括:
将所述外部知识信息与所述文本实体信息进行拼接处理,得到所述目标文本信息;
对所述图像实体信息进行目标数据处理确定所述目标图像信息。
在一种可能的实现方式中,所述确定所述组合多模态数据的模态间相似性得分,包括:
通过视觉语言模型对所述目标图像信息和所述目标文本信息进行融合处理,得到目标虚假新闻数据;
基于预设激活函数对所述目标虚假新闻数据进行分类,得到所述多模态虚假新闻数据对应的所述模态间相似性得分。
在一种可能的实现方式中,所述基于所述模态间相似性得分和预设相似性得分阈值确定对应的检测结果,包括:
在所述模态间相似性得分大于或者等于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为真实新闻数据;
在所述模态间相似性得分小于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为虚假新闻数据。
第二方面,本发明还提供一种虚假新闻检测装置,所述装置包括:
获取模块,用于获取待检测的多模态虚假新闻数据;
提取模块,用于提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据;
第一确定模块,用于确定所述组合多模态数据的模态间相似性得分;
第二确定模块,用于基于所述模态间相似性得分和预设相似性得分阈值确定对应的检测结果。
在一种可能的实现方式中,所述提取模块包括:
提取子模块,用于分别提取所述多模态虚假新闻数据中的图像实体信息和文本实体信息;
第一确定子模块,用于基于所述文本实体信息、所述图像实体信息和外部知识信息库确定所述外部知识信息;
数据处理子模块,用于将所述外部知识信息、所述文本实体信息和所述图像实体信息进行数据处理,得到所述组合多模态数据;
所述第一确定子模块包括:
第一确定单元,用于通过实体链接工具将所述文本实体信息和所述图像实体信息链接至外部知识信息库中,确定与所述文本实体信息和所述图像实体信息匹配的所述外部知识信息;
所述组合多模态数据包括目标文本信息和目标图像信息;所述数据处理子模块包括:
拼接处理单元,用于将所述外部知识信息与所述文本实体信息进行拼接处理,得到所述目标文本信息;
第二确定单元,用于对所述图像实体信息进行目标数据处理确定所述目标图像信息。
在一种可能的实现方式中,所述第一确定模块包括:
融合处理子模块,用于通过视觉语言模型对所述目标图像信息和所述目标文本信息进行融合处理,得到目标虚假新闻数据;
分类子模块,用于基于预设激活函数对所述目标虚假新闻数据进行分类,得到所述多模态虚假新闻数据对应的所述模态间相似性得分;
所述第二确定模块包括:
第二确定子模块,用于在所述模态间相似性得分大于或者等于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为真实新闻数据;
第三确定子模块,用于在所述模态间相似性得分小于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为虚假新闻数据。
第二方面提供的虚假新闻检测装置的有益效果与第一方面或第一方面任一可能的实现方式描述的虚假新闻检测方法的有益效果相同,此处不做赘述。
第三方面,本发明还提供一种电子设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行第二方面任一可能的实现方式描述的虚假新闻检测装置。
第三方面提供的电子设备的有益效果与第二方面或第二方面任一可能的实现方式描述的虚假新闻检测装置的有益效果相同,此处不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本申请实施例提供的一种虚假新闻检测方法的流程示意图;
图2示出了本申请实施例提供的另一种虚假新闻检测方法的流程示意图;
图3示出了本申请实施例提供的一种虚假新闻检测模型的模型结构示意图;
图4示出了本申请实施例提供的一种虚假新闻检测装置的结构流程图;
图5为本发明实施例提供的一种电子设备的硬件结构示意图;
图6为本发明实施例提供的芯片的结构示意图。
具体实施方式
为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一阈值和第二阈值仅仅是为了区分不同的阈值,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本发明中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本发明中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,a和b的结合,a和c的结合,b和c的结合,或a、b和c的结合,其中a,b,c可以是单个,也可以是多个。
图1示出了本申请实施例提供的一种虚假新闻检测方法的流程示意图,如图1所示,该虚假新闻检测方法包括:
步骤101:获取待检测的多模态虚假新闻数据。
步骤102:提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据。
在本申请中,可以分别提取所述多模态虚假新闻数据中的图像实体信息和文本实体信息;基于所述文本实体信息、所述图像实体信息和外部知识信息库确定所述外部知识信息;将所述外部知识信息、所述文本实体信息和所述图像实体信息进行数据处理,得到所述组合多模态数据。
步骤103:确定所述组合多模态数据的模态间相似性得分。
在本申请中,可以通过视觉语言模型对所述目标图像信息和所述目标文本信息进行融合处理,得到目标虚假新闻数据;基于预设激活函数对所述目标虚假新闻数据进行分类,得到所述多模态虚假新闻数据对应的所述模态间相似性得分。
步骤104:基于所述模态间相似性得分和预设相似性得分阈值确定对应的检测结果。
在本申请中,可以在所述模态间相似性得分大于或者等于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为真实新闻数据;在所述模态间相似性得分小于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为虚假新闻数据。
本发明实施例提供的虚假新闻检测方法,获取待检测的多模态虚假新闻数据;提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据;确定所述组合多模态数据的模态间相似性得分;基于所述模态间相似性得分和预设相似性得分阈值确定对应的检测结果。将待检测的多模态虚假新闻数据中新闻帖子里图像和文本中的实体信息融入了外部知识图谱对应匹配的外部知识信息,有效利用背景知识信息检测虚假新闻,实现好的检测效果,保证了虚假新闻检测的可靠性和稳定性。
图2示出了本申请实施例提供的另一种虚假新闻检测方法的流程示意图,参见图2,该虚假新闻检测方法包括:
步骤201:获取待检测的多模态虚假新闻数据。
在本申请中,图3示出了本申请实施例提供的一种虚假新闻检测模型的模型结构示意图,如图3所示,虚假新闻检测模型可以包括多模态新闻获取单元301,可以获取待检测的多模态虚假新闻数据。
步骤202:分别提取所述多模态虚假新闻数据中的图像实体信息和文本实体信息。
在本申请中,所述多模态新闻获取单元301可以提取多模态虚假新闻数据中的图像实体信息和文本实体信息。
步骤203:基于所述文本实体信息、所述图像实体信息和外部知识信息库确定所述外部知识信息。
在本申请中,参见图3,虚假新闻检测模型还可以包括分别和多模态新闻获取单元301连接的知识图谱单元302和图像目标检测单元303,知识图谱单元302和图像目标检测单元303相互连接。图像目标检测单元303可以对图像实体信息进行处理,可以通过实体链接工具将所述文本实体信息和所述图像实体信息链接至知识图谱单元302中的外部知识信息库中,确定与所述文本实体信息和所述图像实体信息匹配的所述外部知识信息。
在本申请中,知识图谱单元可以使用外部知识图谱WiKidata,其中包含了网络上大量信息,以三元组形式存储。外部知识的使用具体是分别提取新闻帖子中图像和文本的中的实体信息,对于图像中的实体,采用Fast-Rcnn也即是图像目标检测单元检测图像中的目标实体,得到实体表示Ei。
利用实体链接工具TAGME将文本中的实体(文本中的专有名词、人名、地名等实体Et)和图像中得到目标实体(Ei)链接到知识图谱Wikidata,与知识图谱中存在的实体匹配对齐,利用TransE模型将知识图谱中对齐的实体和关系进行编码。
步骤204:将所述外部知识信息、所述文本实体信息和所述图像实体信息进行数据处理,得到所述组合多模态数据。
在本申请中,所述组合多模态数据包括目标文本信息和目标图像信息,上述步骤204的具体实现过程可以包括:将所述外部知识信息与所述文本实体信息进行拼接处理,得到所述目标文本信息;对所述图像实体信息进行目标数据处理确定所述目标图像信息。
具体的,将对齐的外部知识信息作为补充,得到外部知识信息编码Tkg,将外部知识信息Tkg与原始新闻的文本信息T拼接作为最后的文本信息Tf+Tkg
步骤205:通过视觉语言模型对所述目标图像信息和所述目标文本信息进行融合处理,得到目标虚假新闻数据。
参见图3,虚假新闻检测模型还包括分别和多模态新闻获取单元301以及知识图谱单元302连接的视觉语言模型304,该视觉语言模型可以是CLIP模型,是对比语言视觉预训练模型,该模型直接使用大量的互联网数据进行预训练,使用OpenAI收集到的4亿对图像文本对进行训练,可以在下游任务取得较好的效果,本申请采用CLIP模型进行图像和文本匹配判别。
具体的,CLIP模型包括文本编码器和图像编码器,两者分别编码后,将文本和视觉嵌入映射到相同空间中,使用对比学习的思想,将匹配的图片-文本嵌入的距离拉近,将不匹配的图片-文本嵌入(Embedding)拉远,对于图像和文本两种模态使用2个编码器分别处理文本和图片数据,文本编码器使用Bert模型,图像编码器可以使用Vision Transformer(ViT)模型,文本特征Tf=text_encoder(T),图像特征If=image_encoder(I)。
在本申请中,可以通过视觉语言模型对所述目标图像信息和所述目标文本信息进行融合处理,得到目标虚假新闻数据。
具体的,将对齐的外部知识信息作为补充,得到外部知识信息编码Tkg,将外部知识信息Tkg与原始新闻的文本信息T拼接作为最后的文本信息Tf+Tkg。最后将文本信息Tf+Tkg,原始图像信息I也即是目标图像信息输入到视觉语言模型中得到最后结果F,也即是得到目标虚假新闻数据。
步骤206:基于预设激活函数对所述目标虚假新闻数据进行分类,得到所述多模态虚假新闻数据对应的所述模态间相似性得分。
参见图3,虚假新闻检测模型还包括和视觉语言模型304连接的分类预测单元305,分类预测单元可以基于预设激活函数对所述目标虚假新闻数据进行分类,得到所述多模态虚假新闻数据对应的预测分数。
在本申请中,可以通过Sigmoid激活函数输入到全连接层得到预测分数进行分类。
Figure BDA0004132350290000091
其中,Wf和bf为权重和偏置参数,
Figure BDA0004132350290000092
为预测标签。
需要说明的是,可以采用交叉熵损失函数计算分类损失,目标函数是使交叉熵损失最小化,从而正确预测真假新闻。
Figure BDA0004132350290000093
其中y为真实标签,
Figure BDA0004132350290000094
为预测标签,L表示损失函数值。
步骤207:在所述模态间相似性得分大于或者等于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为真实新闻数据。
在本申请中,视觉语言模型304可以在所述模态间相似性得分大于或者等于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为真实新闻数据。
步骤208:在所述模态间相似性得分小于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为虚假新闻数据。
在本申请中,视觉语言模型304可以在所述模态间相似性得分小于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为虚假新闻数据。
其中,本申请实施例对相似性得分阈值不作具体限定,可以根据实际应用场景做具体设置。
本发明针对多模态虚假新闻数据的特点,通过将多模态新闻数据与外部大规模知识图谱对齐,利用图像和文本中的实体有效引入先验知识信息,利用图文对比学习模型CLIP很好作出图文匹配情况的判别,在通用的数据集上取得了好的表现。将新闻帖子里图像和文本中的实体信息融入了外部知识图谱的信息,有效利用背景知识信息检测虚假新闻。将对比语言-图像预训练模型引入虚假新闻检测,同时结合外部知识信息,实现好的检测效果。
本发明实施例提供的虚假新闻检测方法,获取待检测的多模态虚假新闻数据;提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据;确定所述组合多模态数据的模态间相似性得分;基于所述模态间相似性得分和预设相似性得分阈值确定对应的检测结果。将待检测的多模态虚假新闻数据中新闻帖子里图像和文本中的实体信息融入了外部知识图谱对应匹配的外部知识信息,有效利用背景知识信息检测虚假新闻,实现好的检测效果,保证了虚假新闻检测的可靠性和稳定性。
图4示出了本申请实施例提供的一种虚假新闻检测装置的结构示意图,如图4所示,该虚假新闻检测装置400包括:
获取模块401,用于获取待检测的多模态虚假新闻数据;
提取模块402,用于提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据;
第一确定模块403,用于确定所述组合多模态数据的模态间相似性得分;
第二确定模块404,用于基于所述模态间相似性得分和预设相似性得分阈值确定对应的检测结果。
在一种可能的实现方式中,所述提取模块包括:
提取子模块,用于分别提取所述多模态虚假新闻数据中的图像实体信息和文本实体信息;
第一确定子模块,用于基于所述文本实体信息、所述图像实体信息和外部知识信息库确定所述外部知识信息;
数据处理子模块,用于将所述外部知识信息、所述文本实体信息和所述图像实体信息进行数据处理,得到所述组合多模态数据;
所述第一确定子模块包括:
第一确定单元,用于通过实体链接工具将所述文本实体信息和所述图像实体信息链接至外部知识信息库中,确定与所述文本实体信息和所述图像实体信息匹配的所述外部知识信息;
所述组合多模态数据包括目标文本信息和目标图像信息;所述数据处理子模块包括:
拼接处理单元,用于将所述外部知识信息与所述文本实体信息进行拼接处理,得到所述目标文本信息;
第二确定单元,用于对所述图像实体信息进行目标数据处理确定所述目标图像信息。
在一种可能的实现方式中,所述第一确定模块包括:
融合处理子模块,用于通过视觉语言模型对所述目标图像信息和所述目标文本信息进行融合处理,得到目标虚假新闻数据;
分类子模块,用于基于预设激活函数对所述目标虚假新闻数据进行分类,得到所述多模态虚假新闻数据对应的所述模态间相似性得分;
所述第二确定模块包括:
第二确定子模块,用于在所述模态间相似性得分大于或者等于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为真实新闻数据;
第三确定子模块,用于在所述模态间相似性得分小于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为虚假新闻数据。
本发明实施例提供的虚假新闻检测装置,通过获取待检测的多模态虚假新闻数据;提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据;确定所述组合多模态数据的模态间相似性得分;基于所述模态间相似性得分和预设相似性得分阈值确定对应的检测结果。将待检测的多模态虚假新闻数据中新闻帖子里图像和文本中的实体信息融入了外部知识图谱对应匹配的外部知识信息,有效利用背景知识信息检测虚假新闻,实现好的检测效果,保证了虚假新闻检测的可靠性和稳定性。
本发明提供的一种虚假新闻检测装置,应用于包括控制器以及与控制器电连接的至少一个检测电路的如图1至图3任一所示的虚假新闻检测方法,为避免重复,这里不再赘述。
本发明实施例中的电子设备可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本发明实施例不作具体限定。
本发明实施例中的电子设备可以为具有操作***的装置。该操作***可以为安卓(Android)操作***,可以为IOS操作***,还可以为其他可能的操作***,本发明实施例不作具体限定。
图5示出了本发明实施例提供的一种电子设备的硬件结构示意图。如图5所示,该电子设备500包括处理器510。
如图5所示,上述处理器510可以是一个通用中央处理器(central processingunit,CPU),微处理器,专用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。
如图5所示,上述电子设备500还可以包括通信线路540。通信线路540可包括一通路,在上述组件之间传送信息。
可选的,如图5所示,上述电子设备还可以包括通信接口520。通信接口520可以为一个或多个。通信接口520可使用任何收发器一类的装置,用于与其他设备或通信网络通信。
可选的,如图5所示,该电子设备还可以包括存储器530。存储器530用于存储执行本发明方案的计算机执行指令,并由处理器来控制执行。处理器用于执行存储器中存储的计算机执行指令,从而实现本发明实施例提供的方法。
如图5所示,存储器530可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器530可以是独立存在,通过通信线路540与处理器510相连接。存储器530也可以和处理器510集成在一起。
可选的,本发明实施例中的计算机执行指令也可以称之为应用程序代码,本发明实施例对此不作具体限定。
在具体实现中,作为一种实施例,如图5所示,处理器510可以包括一个或多个CPU,如图5中的CPU0和CPU1。
在具体实现中,作为一种实施例,如图5所示,终端设备可以包括多个处理器,如图5中的第一处理器5101和第二处理器5102。这些处理器中的每一个可以是一个单核处理器,也可以是一个多核处理器。
图6是本发明实施例提供的芯片的结构示意图。如图6所示,该芯片600包括一个或两个以上(包括两个)处理器510。
可选的,如图6所示,该芯片还包括通信接口520和存储器530,存储器530可以包括只读存储器和随机存取存储器,并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory,NVRAM)。
在一些实施方式中,如图6所示,存储器530存储了如下的元素,执行模块或者数据结构,或者他们的子集,或者他们的扩展集。
在本发明实施例中,如图6所示,通过调用存储器存储的操作指令(该操作指令可存储在操作***中),执行相应的操作。
如图6所示,处理器510控制终端设备中任一个的处理操作,处理器510还可以称为中央处理单元(central processing unit,CPU)。
如图6所示,存储器530可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器530的一部分还可以包括NVRAM。例如应用中存储器、通信接口以及存储器通过总线***耦合在一起,其中总线***除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图6中将各种总线都标为总线***640。
如图6所示,上述本发明实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processing,DSP)、ASIC、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
一方面,提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令被运行时,实现上述实施例中由终端设备执行的功能。
一方面,提供一种芯片,该芯片应用于终端设备中,芯片包括至少一个处理器和通信接口,通信接口和至少一个处理器耦合,处理器用于运行指令,以实现上述实施例中由虚假新闻检测方法执行的功能。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘(digital video disc,DVD);还可以是半导体介质,例如,固态硬盘(solid state drive,SSD)。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
尽管结合具体特征及其实施例对本发明进行了描述,显而易见的,在不脱离本发明的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明,且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种虚假新闻检测方法,其特征在于,所述方法包括:
获取待检测的多模态虚假新闻数据;
提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据;
确定所述组合多模态数据的模态间相似性得分;
基于所述模态间相似性得分和预设相似性得分阈值确定对应的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据,包括:
分别提取所述多模态虚假新闻数据中的图像实体信息和文本实体信息;
基于所述文本实体信息、所述图像实体信息和外部知识信息库确定所述外部知识信息;
将所述外部知识信息、所述文本实体信息和所述图像实体信息进行数据处理,得到所述组合多模态数据。
3.根据权利要求2所述的方法,其特征在于,所述基于所述文本实体信息、所述图像实体信息和外部知识信息库确定所述外部知识信息,包括:
通过实体链接工具将所述文本实体信息和所述图像实体信息链接至外部知识信息库中,确定与所述文本实体信息和所述图像实体信息匹配的所述外部知识信息。
4.根据权利要求2所述的方法,其特征在于,所述组合多模态数据包括目标文本信息和目标图像信息;所述将所述外部知识信息、所述文本实体信息和所述图像实体信息进行数据处理,得到所述组合多模态数据,包括:
将所述外部知识信息与所述文本实体信息进行拼接处理,得到所述目标文本信息;
对所述图像实体信息进行目标数据处理确定所述目标图像信息。
5.根据权利要求4所述的方法,其特征在于,所述确定所述组合多模态数据的模态间相似性得分,包括:
通过视觉语言模型对所述目标图像信息和所述目标文本信息进行融合处理,得到目标虚假新闻数据;
基于预设激活函数对所述目标虚假新闻数据进行分类,得到所述多模态虚假新闻数据对应的所述模态间相似性得分。
6.根据权利要求5所述的方法,其特征在于,所述基于所述模态间相似性得分和预设相似性得分阈值确定对应的检测结果,包括:
在所述模态间相似性得分大于或者等于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为真实新闻数据;
在所述模态间相似性得分小于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为虚假新闻数据。
7.一种虚假新闻检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测的多模态虚假新闻数据;
提取模块,用于提取与所述多模态虚假新闻数据匹配的外部知识信息,得到组合多模态数据;
第一确定模块,用于确定所述组合多模态数据的模态间相似性得分;
第二确定模块,用于基于所述模态间相似性得分和预设相似性得分阈值确定对应的检测结果。
8.根据权利要求7所述的装置,其特征在于,所述提取模块包括:
提取子模块,用于分别提取所述多模态虚假新闻数据中的图像实体信息和文本实体信息;
第一确定子模块,用于基于所述文本实体信息、所述图像实体信息和外部知识信息库确定所述外部知识信息;
数据处理子模块,用于将所述外部知识信息、所述文本实体信息和所述图像实体信息进行数据处理,得到所述组合多模态数据;
所述第一确定子模块包括:
第一确定单元,用于通过实体链接工具将所述文本实体信息和所述图像实体信息链接至外部知识信息库中,确定与所述文本实体信息和所述图像实体信息匹配的所述外部知识信息;
所述组合多模态数据包括目标文本信息和目标图像信息;所述数据处理子模块包括:
拼接处理单元,用于将所述外部知识信息与所述文本实体信息进行拼接处理,得到所述目标文本信息;
第二确定单元,用于对所述图像实体信息进行目标数据处理确定所述目标图像信息。
9.根据权利要求8所述的装置,其特征在于,所述第一确定模块包括:
融合处理子模块,用于通过视觉语言模型对所述目标图像信息和所述目标文本信息进行融合处理,得到目标虚假新闻数据;
分类子模块,用于基于预设激活函数对所述目标虚假新闻数据进行分类,得到所述多模态虚假新闻数据对应的所述模态间相似性得分;
所述第二确定模块包括:
第二确定子模块,用于在所述模态间相似性得分大于或者等于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为真实新闻数据;
第三确定子模块,用于在所述模态间相似性得分小于所述相似性得分阈值的情况下,确定待检测的所述多模态虚假新闻数据为虚假新闻数据。
10.一种电子设备,其特征在于,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行权利要求7-9任一所述的虚假新闻检测装置。
CN202310263872.6A 2023-03-17 2023-03-17 一种虚假新闻检测方法、装置和电子设备 Pending CN116383381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310263872.6A CN116383381A (zh) 2023-03-17 2023-03-17 一种虚假新闻检测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310263872.6A CN116383381A (zh) 2023-03-17 2023-03-17 一种虚假新闻检测方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN116383381A true CN116383381A (zh) 2023-07-04

Family

ID=86960762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310263872.6A Pending CN116383381A (zh) 2023-03-17 2023-03-17 一种虚假新闻检测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN116383381A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593224A (zh) * 2023-12-06 2024-02-23 北京建筑大学 古建筑点云缺失数据补全方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593224A (zh) * 2023-12-06 2024-02-23 北京建筑大学 古建筑点云缺失数据补全方法及装置

Similar Documents

Publication Publication Date Title
US10685245B2 (en) Method and apparatus of obtaining obstacle information, device and computer storage medium
CN110569846A (zh) 图像文字识别方法、装置、设备及存储介质
WO2013112746A1 (en) Detecting and correcting skew in regions of text in natural images
US20140023275A1 (en) Redundant aspect ratio decoding of devanagari characters
JP6465215B2 (ja) 画像処理プログラムおよび画像処理装置
CN111242129A (zh) 一种用于端到端的文字检测与识别的方法和装置
CN115546488B (zh) 信息分割方法、信息提取方法和信息分割模型的训练方法
CN114663871A (zh) 图像识别方法、训练方法、装置、***及存储介质
CN116383381A (zh) 一种虚假新闻检测方法、装置和电子设备
CN113591758A (zh) 一种人体行为识别模型训练方法、装置及计算机设备
US11348254B2 (en) Visual search method, computer device, and storage medium
CN116912847A (zh) 一种医学文本识别方法、装置、计算机设备及存储介质
CN111159354A (zh) 一种敏感资讯检测方法、装置、设备及***
CN112926700B (zh) 针对目标图像的类别识别方法和装置
CN113297525B (zh) 网页分类方法、装置、电子设备、及存储介质
CN117786058A (zh) 一种多模态大模型知识迁移框架的构建方法
US20230067033A1 (en) Vision-based document language identification by joint supervision
CN110852261A (zh) 目标检测方法、装置、电子设备和可读存储介质
CN114328884B (zh) 一种图文去重方法及装置
CN116189109A (zh) 模型训练方法、道路事件检测方法、装置及相关设备
CN114926437A (zh) 一种图像质量评价方法及装置
CN114219938A (zh) 感兴趣区域获取方法
CN114117423A (zh) 仿冒应用信息获取方法、装置和设备
CN108009233B (zh) 一种图像还原方法、装置、计算机设备及存储介质
CN111339367A (zh) 视频处理方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination