CN117972497A - 基于多视图特征分解的虚假信息检测方法及*** - Google Patents

基于多视图特征分解的虚假信息检测方法及*** Download PDF

Info

Publication number
CN117972497A
CN117972497A CN202410381950.7A CN202410381950A CN117972497A CN 117972497 A CN117972497 A CN 117972497A CN 202410381950 A CN202410381950 A CN 202410381950A CN 117972497 A CN117972497 A CN 117972497A
Authority
CN
China
Prior art keywords
feature
features
view
shared
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410381950.7A
Other languages
English (en)
Other versions
CN117972497B (zh
Inventor
黄子鉴
蔡娟娟
王京玲
李传珍
朱云洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202410381950.7A priority Critical patent/CN117972497B/zh
Publication of CN117972497A publication Critical patent/CN117972497A/zh
Application granted granted Critical
Publication of CN117972497B publication Critical patent/CN117972497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种基于多视图特征分解的虚假信息检测方法及***,方法包括以下步骤:S1:从信息样本中获取不同视图的特征;S2:将每个视图的特征分离为共享特征和特有特征,对齐不同视图间的共享特征得到最终共享特征;所述共享特征为与其他视图的特征相同的特征,所述特有特征为与其他视图的特征不同的特征;S3:获取每个特有特征的重要性参数,将获取重要性参数后的特有特征与所述最终共享特征进行交互,并输出聚合特征;S4:将所述聚合特征输入预设分类器,得到预测分数,根据所述预测分数判断所述信息样本的虚假性。本发明充分利用多视图的共享特征和特有特征的一致性和互补性信息,提高虚假信息的检测性能。

Description

基于多视图特征分解的虚假信息检测方法及***
技术领域
本发明涉及虚假信息检测技术领域,更为具体地,涉及一种基于多视图特征分解的虚假信息检测方法及***。
背景技术
目前,研究学者在虚假信息检测领域广泛应用了多种深度学习方法,如长短期记忆网络、循环神经网络、卷积神经网络以及图神经网络等,这些方法在虚假信息的检测上取得了不错的结果。然而,传统的虚假信息检测方法主要针对单一数据或单一视图进行研究,比如基于立场特征的检测、基于传播网络的检测、基于风格的检测等。单视图虚假信息检测方法依赖于信息的单一源或者只分析信息的部分属性,忽略了其他视图的互补性带来的增益效果。为了充分利用信息数据的多方面特征,目前对虚假信息的研究已经逐渐从单一视图转变为多视图的研究。基于多视图的虚假信息检测方法通常是枚举所有视图的组合,这样的方法无法避免有噪声的视图组合,产生巨大的信息冗余,不仅计算量大而且难以充分利用不同视图间的一致性和互补性信息。
自各大社交媒体平台兴起以来,虚假信息层出不穷,国内外已有不少学者针对此现象做出相应研究。由于同一信息数据可以表示为不同视图,这些研究根据使用特征集的不同可以分为单视图虚假信息检测和多视图虚假信息检测。
单视图虚假信息检测方法,为只采用了信息的单一视图特征集进行的虚假信息检测。这类方法一方面可以从数据出发,侧重于分析和建模不同类别的数据特征,例如信息文本、社交媒体帖子和网络传播路径,以发现虚假信息的共性和规律,另一方面可以从特征出发致力于从多个数据来源中确定可用于虚假信息检测的有效特征,包括从作者、标题、内容、图像、视频等抽取的信息内容特征和从社交媒体上用户对信息的行为中提取的社交上下文特征。同时,也有部分方法侧重于模型的构建,通过信息内容特征和现有的事实来源,或是分析用户的立场和信息的传播模式来对虚假信息进行分类。
多视图虚假信息检测方法,是采用了信息的多视图特征集进行的虚假信息检测,这种检测方法通过收集来自不同的视角或来源的信息内容,如社交媒体、信息机构、专家评论等,以获取更全面的信息表示,获得不同的观点和观察,能够更准确地识别虚假信息。面向数据的多视图虚假信息检测研究致力于从数据的多个视角分析真实信息与虚假信息的差异,以此来构建或生成更有效的虚假信息检测数据集,并挖掘信息的多视图特征,这种方法还需要考虑到机器生成的虚假信息与人类撰写的虚假信息之间存在明显差异,包括风格和意图上的显著差异。面向特征的多视图虚假信息检测与传统的单视图虚假信息检测方法有所区别,它不再局限于使用某种单一特征进行检测,而是从同一数据源或多种数据源中挖掘多个视角的特征,这种方法通过综合多个特征来提高虚假信息检测器的性能。面向模型的多视图虚假信息检测中模型的输入为多视图特征,侧重于利用多视图特征进行建模。然而上述这些多视图虚假信息检测方法仍然忽略了多视图互补性和一致性利用不充分的问题。
发明内容
鉴于上述问题,本发明的目的是提供一种基于多视图特征分解的虚假信息检测方法及***,针对虚假信息检测中难以充分利用不同视图特征的一致性和互补性的问题,将每个视图的特征分离为共享特征和特有特征,充分利用多视图的共享特征和特有特征的一致性和互补性特征,提高虚假信息的检测性能。
本发明提供的一种基于多视图特征分解的虚假信息检测方法,包括以下步骤:
S1:从信息样本中获取不同视图的特征;
S2:将每个视图的特征分离为共享特征和特有特征,对齐不同视图间的共享特征得到最终共享特征;
所述共享特征为与其他视图的特征相同的特征,所述特有特征为与其他视图的特征不同的特征;
S3:获取每个特有特征的重要性参数,将获取重要性参数后的特有特征与所述最终共享特征进行交互,并输出聚合特征;
S4:将所述聚合特征输入预设分类器,得到预测分数,根据所述预测分数判断所述信息样本的虚假性。
所述步骤S1中,不同视图包括语义视图、风格视图和情感视图。
获取所述语义视图的特征,包括:将所述信息样本的文本输入预设预训练模型,将所述文本的单词按照语义编码为词向量的形式,以获取所述文本的语义浅层特征向量集,得到所述文本的结构化表征,将所述语义浅层特征向量集输入高阶语义特征提取层,映射为语义高阶特征向量集;
获取所述风格视图的特征,包括:设定预设数量种风格特征,根据所述风格特征从所述文本中获取风格浅层特征向量集,将所述风格浅层特征向量集输入风格嵌入层,通过所述风格嵌入层的MLP神经网络,映射为风格高阶特征向量集;
获取所述情感视图的特征,包括:设定预设数量种情感特征,根据所述情感特征从所述文本中获取内容情感特征向量集,从所述信息样本的评论中获取评论情感特征向量集,对所述内容情感特征向量集和所述评论情感特征向量集做差分获得双重情感差异特征向量集,将所述内容情感特征向量集、所述评论情感特征向量集和所述双重情感差异特征向量集统一拼合为情感浅层特征向量集,将所述情感浅层特征向量集输入情感嵌入层的MLP神经网络,获得情感高阶特征向量集。
在所述步骤S2中,将每个视图的特征分离为共享特征和特有特征,包括:
为每个视图设置两个特征提取网络,一个特征提取网络用于将所述视图的高阶特征向量集映射到共享特征向量空间,所述共享特征向量空间输出所述视图的共享特征向量;
另一个特征提取网络用于将所述视图的高阶特征向量集映射到特有特征向量空间,所述特有特征向量空间输出所述视图的特有特征向量;
根据所述共享特征向量和所述特有特征向量,求同一视图的共享特征矩阵和特有特征矩阵,计算所述共享特征矩阵和所述特有特征矩阵的欧氏距离l orth ,使l orth 达到最大化,同一视图的特征分离为共享特征和特有特征。
在所述步骤S2中,对齐不同视图间的共享特征得到最终共享特征,包括:
求取两两视图的共享特征矩阵之间的欧氏距离之和L sim ,使L sim 达到最小化,得到最终共享特征矩阵。
所述步骤S3中,获取每个特有特征的重要性参数,包括:根据所述特有特征矩阵,求取所有视图的总特有特征矩阵,引入自注意力机制,根据所述总特有特征矩阵,得到自注意力权重矩阵,所述自注意力权重矩阵的每个向量为自注意力机制下每个特有特征向量。
所述步骤S3中,将获取重要性参数后的特有特征与所述最终共享特征进行交互,并输出聚合特征,包括:为所述自注意力机制下每个特有特征向量分配一个权重,为所述最终共享特征矩阵分配一个权重,然后将分配权重后的每个特有特征向量和最终共享特征矩阵进行叠加,输出所述聚合特征。
所述步骤S4中,将所述聚合特征输入预设分类器,得到预测分数,包括:将所述聚合特征输入预设分类器,经过线性变换和激活函数的转换,得到表示所述信息样本为真实或虚假的预测分数。
将所述预测分数映射在[0, 1]的范围内,所述预测分数接近0表示所述信息样本的真实性高,所述预测分数接近1表示所述信息样本的虚假性高。
另一方面本发明提供的一种基于多视图特征分解的虚假信息检测***,包括:
特征获取模块:用于从信息样本中获取不同视图的特征;
特征分离模块:用于将每个视图的特征分离为共享特征和特有特征,对齐不同视图间的共享特征得到最终共享特征;所述共享特征为与其他视图的特征相同的特征,所述特有特征为与其他视图的特征不同的特征;
特征交互模块:用于获取每个特有特征的重要性参数,将获取重要性参数后的特有特征与所述最终共享特征进行交互,并输出聚合特征;
信息检测模块:用于将所述聚合特征输入预设分类器,得到预测分数,根据所述预测分数判断所述信息样本的虚假性。
利用上述根据本发明的基于多视图特征分解的虚假信息检测方法及***,采用了从多个视图角度出发捕获信息的特征,将每个视图间的特有特征和共享特征进行分离,通过获取共享特征间的一致性特征和特有特征间的互补性特征,自适应地学习信息的多视图表示,达到充分利用多视图信息的目的,实现提高虚假信息的检测性能。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例1的基于多视图特征分解的虚假信息检测方法的流程图;
图2为根据本发明实施例2的基于多视图特征分解的虚假信息检测***的结构示意图;
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
本发明可施加各种变更并可具有各种实施例,将特定实施例示例于附图并进行说明。但是,本发明并非限定于该特定实施方式,涵盖落入本发明的思想及技术范围的所有变更、等同物以及替代物,应理解为都包括在内。
包括诸如第一、第二等的序数术语可用于说明各种构成要素,但是所述构成要素并非限定于所述术语。所述术语仅用于区分一个构成要素与另一个构成要素。例如,在不脱离本发明的权利要求范围下,第二构成要素可被命名为第一构成要素,类似地,第一构成要素也可被命名为第二构成要素。术语及/或包括多个被关联记载的项目的组合或多个被关联记载的项目中的某一项目。
本申请中使用的术语只是为了说明特定的实施例而使用,并非指在限定本发明。除非上下文另有明确规定,否则单数的表达包括复数的表达。在本申请中,应当理解“包括”或“具有”等术语用于指定存在说明书中所记载的特征、数字、步骤、操作、构成要素、部件或其组合,并非预先排除一个或其以上的其他特征、数字、步骤、操作、构成要素、部件或其组合的存在或附加可能性。
除非另有定义,包括技术术语或科学术语,在此使用的所有术语与本领域技术人员一般所理解的拥有相同的含义。一般使用的词典中所定义的术语,应解释与相关技术的文脉上所具有的含义一致的含义,如果未在本申请中明确定义,不能被解释为理想的或过于形式的含义。
为了更加清楚的说明本发明的技术方案,以下对本发明中涉及到的部分技术术语做简单的解释说明。
TextCNN(Convolutional Neural Networks,卷积神经网络)是利用卷积神经网络对文本进行分类的算法。
MLP(Multi-Layer Perceptron,多层感知机)是一种前馈人工神经网络,可以用于分类、回归、预测等任务。它是一个多层的结构,每一层都由多个神经元组成,前一层的输出作为下一层的输入。
BERT(Bidirectional Encoder Representation from Transformers)是一种预训练语言模型,使用了transformer模型的encoder层来进行特征的提取,学习深度单词级和句子级的特征。
Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。 在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到[0,1]之间。
以下将结合附图对本发明的具体实施例进行详细描述。
实施例1
图1为根据本发明实施例1的基于多视图特征分解的虚假信息检测方法的流程图;
如图1所示,本实施例提出的基于多视图特征分解的虚假信息检测方法,可用于信息(包括新闻)的真假检测。
本基于多视图特征分解的虚假信息检测方法,包括以下步骤:
S1:从信息样本中获取不同视图的特征。
探索一个数据对象的多个视图的特征可以使模型关注来自不同的特征子空间的信息,这些不同的特征子空间的信息表示包含能够相互补充的信息。因此,提取多个不同视图的特征集,能够对数据进行更全面、更准确的表示,弥补了只获取单一视图的特征,部分特征可能会缺失的劣势。
对于一个信息的文本内容来说,同样可以从多个视图的角度去获取特征。本实施例中,可从语义、风格、情感三个视图角度出发,获取信息样本的特征,不同视图可包括语义视图、风格视图和情感视图,分别从这三个视图的角度获取信息样本的特征。真实的信息与虚假的信息在视图特征上存在较大差异。
本实施例中,获取视图特征的具体做法可为,先捕获信息样本的结构化表征与浅层表征,再通过TextCNN或MLP神经网络将其拟合为更具有分辨率的高阶特征。
具体的,可从信息的文本和评论数据获取不同视图的数字化表示,并将这些浅层的数字化表示通过嵌入层映射为高阶特征向量,以得到具有分辨率的高阶特征。
获取语义视图的特征,可包括:将信息样本的文本输入预设预训练模型,将文本的单词按照语义编码为词向量的形式,以获取文本的语义浅层特征向量集,得到文本的结构化表征;将语义浅层特征向量集输入高阶语义特征提取层,映射为语义高阶特征向量集。
提取信息样本的文本内容的语义信息作为语义视图的表征,可分为语义浅层特征向量集的获取和语义高阶特征向量集的提取。
以信息样本文本内容输入预设预训练模型,预设预训练模型将文本单词按照词的语义编码为词向量的形式。由于BERT预训练模型集中了token(词向量)嵌入、位置嵌入和分割嵌入,在获取词向量上取得了良好的结果,可采用BERT预训练模型获取语义视图的语义浅层特征向量集。
语义浅层特征向量只能获得文本的结构化表征,如语言的主谓结构等。结构化表征不能很好地传递语义信息,仍然需要将词向量映射到更加抽象、分辨率更高的高阶向量空间,因此BERT预训练模型后加入高阶语义特征提取层。高阶语义特征提取层以语义浅层特征向量集作为输入,通过TextCNN神经网络的卷积层与池化层,实现高阶语义空间的映射,映射为语义高阶特征向量集。
获取风格视图的特征,可包括:设定预设数量种风格特征,根据风格特征从文本中获取风格浅层特征向量集,将风格浅层特征向量集输入后面的风格嵌入层,通过风格嵌入层的MLP神经网络,映射为风格高阶特征向量集。
提取信息样本的文本内容的风格信息作为风格视图的表征,可分为获取风格视图的风格浅层特征向量集和获取风格高阶特征向量集。本实施例中将预设数量种风格特征作为风格上的数字化编码,根据各种风格特征从文本中对应获取风格视图的数字化表示向量,形成风格浅层特征向量集,风格嵌入层以风格浅层特征向量集作为输入,通过MLP神经网络的全连接层,实现风格高阶特征向量嵌入。
预设数量种风格特征可为8个高级特征和高级特征下的基础特征,具体如下:
8个高级特征可为可读性、逻辑性、公信力、正式性、互动性、趣味性、感知力、完整性。
可读性是信息的基本要求,规范的信息必须清晰易读。在社交媒体上的信息,例如微博平台上的信息,其长度通常被限制在140字以内,用户的浏览速度快、花费时间少,因此文章的可读性是信息写作中一个重要的风格属性。断句、字符、单词、平均单词长度、句子、从句、RIX、LIX和LW等都曾被提出来表示信息的可读性。此外,考虑到社交网络的用户涉及各行各业,存在过多的专业术语也会让用户阅读困难,因此使用专业词汇统计数量来表示可读性,数量越小,信息的可读性也就越高。可读性可以被表示为:可读性=-(断句+字符+单词+句子+从句+平均单词长度+专业词汇+RIX+LIX+LW)。断句、字符、单词、句子、从句、平均单词长度、专业词汇、RIX、LIX、LW为基础特征。
其中表示可读性分数,/>表示断句数,/>表示字符数,/>表示单词数,表示句子数,/>表示从句数,/>表示平均单词长度,/>表示专业词汇数,/>表示LW分数,/>表示RIX分数,/>表示LIX分数。
逻辑性,一篇好的信息应当是合乎逻辑、上下文连贯的,因此逻辑性也是信息重要的风格指标。前向引用能够用于表示信息,它可以在几个句子之间产生一种信息链接,包括指示代词(这、那、这些、那些等)和第三人称代词(他、她、它)。另外,连词可以使上下文更加连贯,比如“和”。逻辑性可以被表示为:逻辑性=前向引用+并列连接词,前向引用、并列连接词为基础特征。
其中为逻辑性分数,/>表示前向引用数,/>表示并列连接词数。
公信力表示信息是否可信。对于官方媒体来说,信息应当严谨可信。在微博中,“@”经常被用来引出事件的对象或信息的来源,以证明信息的可信程度。同时,详细的数字和相关的图片也让信息更加真实。严谨真实的信息需要包含信息三要素:时间、地点、对象。上述元素都是信息公信力的表现。同时由于不确定词会让用户产生疑惑,比如“也许”、“可能”等,信息应当避免使用这些不确定词。结合上述内容,公信力可以被表示为:公信力=@+数量词+官方讲话+时间+地点+对象–不确定词+图像。@、数量词、官方讲话、时间、地点、对象、不确定词、图像为基础特征。
其中为公信力分数,/>表示符号“@”的个数,/>表示数量词数,/>表示官方讲话数,/>表示时间词数,/>表示地点词数,/>表示对象个数,/>表示不确定词数,/>表示图片数。
正式性,社交媒体上的信息往往比传统报纸更口头化。信息的正式性与名词、形容词、介词、动词、副词等词类的数量有关。同时,信息的正式程度越高,句子中的停顿越少。正式性可以被表示为:正式性=名词+形容词+介词–代词–动词–副词–断句。名词、形容词、介词、代词、动词、副词、断句为基础特征。
其中为正式性分数,/>为名词数,/>为形容词数,/>为介词数,为代词数,/>为动词数,/>为副词数,/>为断句数。
互动性强的信息能引起读者思考,促进读者参与讨论,如“你怎么看待这件事呢”类似句子可以达到这种效果。因此,本文通过统计信息中问号、第一代词、第二代词和疑问代词的数量来表示信息的互动性。互动性可以被表示为:互动性=疑问号+第一人称代词+第二人称代词+疑问代词。疑问号、第一人称代词、第二人称代词、疑问代词为基础特征。
其中为互动性分数,/>为问号数,/>为第一人称代词数,/>为第二人称代词数,/>为疑问代词数。
趣味性,有趣的描述能够吸引更多的读者。修辞手法、成语、感叹号等手段都能增加信息文章的趣味性,像“然而”这样的转折词和形容词也能够使文字内容更加丰富。因此,趣味性可以表示为:趣味性=修辞+感叹号+成语+转折+形容词+图像。修辞、感叹号、成语、转折、形容词、图像为基础特征。
其中为趣味性分数,/>为修辞数,/>为感叹号数,/>为成语数,为转折词数,n Adj 为形容词数,n Image 为图像数。
感知力,好的信息能给人留下深刻印象并引起强烈共鸣。在海量连续的信息流中,具有鲜明情感取向的内容显然更容易被读者注意到。情感表达已成为信息内容获得关注的重要手段。因此,感知力可以被表示为:感知力=情感分数+程度副词+情态语气词+第一人称代词+第二人称代词+感叹号+问号。情感分数、程度副词、情态语气词、第一人称代词、第二人称代词、感叹号、问号为基础特征。
其中为感知力分数,/>为情感极性分数,/>为程度副词数,/>为情态语气词数、n Fp 为第一人称代词数、n Sp 为第二人称代词数、n Em 为感叹号数、n Qm 为问号数。
完整性,有些部分对于信息来说是必不可少的,比如标题。社交网络上的信息媒体一般具有以下基本结构:标题、图像、视频、标签、‘@’和网页链接。由于标题是吸引读者眼球的焦点,标签可以帮助信息推送给更多的人,人们更愿意阅读多模式信息,所以在计算一条信息的完整性时,可以给与这些特征更高的权重。因此,完整性可以被表示为:完整性=2×标题+2×图像+2×视频+2×标签+‘@’+网页链接。标题、图像、视频、标签、‘@’和网页链接为基础特征。
其中表示完整性分数,/>表示是否含有标题,/>表示是否含有图片,/>表示是否含有视频,/>表示是否含有标签,/>表示是否含有“@”符号,/>表示是否含有网页链接。
获取情感视图的特征,可包括:设定预设数量种情感特征,根据情感特征从文本中获取内容情感特征向量集,从信息样本的评论中获取评论情感特征向量集,对内容情感特征向量集和评论情感特征向量集做差分获得双重情感差异特征向量集,将内容情感特征向量集、评论情感特征向量集和双重情感差异特征向量集统一拼合为情感浅层特征向量集,将情感浅层特征向量集输入情感嵌入层的MLP神经网络,获得情感高阶特征向量集。
信息往往能够传达发布者的情感信息,同时由于假信息在人群中病毒式传播,也会引起人群的高度觉醒或激活情绪,因此信息报道的情感可以被定义为两类:1)信息内容情感:信息报道的发布者所传达的情感;2)信息评论情感:人群面对信息时所产生的情感。
为了全面表征信息的情感视图,可从信息内容和评论中提取情感特征,根据预设数量种情感特征,从信息内容文本中获取信息内容的情感数字化表示,从信息评论文本中获取信息评论的情感数字化表示,再对两者做差分获得双重情感差异数字化表示,最后将三者统一拼合为情感的数字化表征。将MLP神经网络作为情感嵌入层,将情感的数字化表征输入,获得情感高阶特征向量嵌入。
预设数量种情感特征可包括情感类别、情感词汇、情感强度、情感得分以及其他辅助特征。在这五种特征中,情感类别、情感强度和情感得分提供了整体信息,另外两种特征提供了文字和符号层面的信息。这五种情感特征和获取方法分别可为:
情感类别:使用百度AI平台的公共情感分类器来获取情感类别特征,情感类别分类可包括喜爱、愉快、感谢、抱怨、愤怒、厌恶、恐惧、悲伤和中性。
情感词汇:通常一段文本通过使用几个特定的词来表达特定的情感,可以将这类词视为情感词汇。这一部分利用现有的情感词典汉语语料库中的情感词汇提取特征。
情感强度:在表达同一种情感时,不同的词汇具有不同的强度。例如“狂喜”会比“快乐”强度更高。这一部分在情感词汇上添加了强度分数。这一部分使用汉语语料库获取。
情感得分:为文本的粗粒度情感分数。情感得分是一个正值或负值,代表整个文本的正负极性程度,这一部分使用情感词典汉语语料库来计算。
其他辅助特征:表情符号、标点符号等,由***中的表情符号列表获取。
S2:将每个视图的特征分离为共享特征和特有特征,对齐不同视图间的共享特征得到最终共享特征。共享特征为与其他视图的特征相同的特征,特有特征为与其他视图的特征不同的特征。
每个视图对于理解一个信息都是有益的,且它们之间可能存在重叠的信息。一般多视图学习的表示方法分为联合表示和对齐表示。联合表示是将多个特征串联融合起来,简单有效但没有考虑一致性和冗余,表示繁琐且难以高效利用特征信息。对齐表示则利用一致性信息对不同视图进行对齐,最大限度地提高了表示的一致性,但会造成互补性信息的缺失。
针对现有虚假信息检测模型中,普遍忽视不同视图特征一致性、互补性和冗余的问题,通过正交约束与相似约束分离出所有视图间的共享特征和每个视图独有的特有特征。只对齐共享特征的部分,使得不同视图间的一致性得到提高,同时保留了互补性信息,这样可以更好地利用多视图的信息进行信息的理解与表示。
具体的,针对每个信息样本,将每个视图的特征分离为共享特征和特有特征,可包括:为每个视图设置两个特征提取网络,一个特征提取网络用于将所述视图的高阶特征向量集映射到共享特征向量空间,共享特征向量空间输出所述视图的共享特征向量;另一个特征提取网络用于将所述视图的高阶特征向量集映射到特有特征向量空间,特有特征向量空间输出所述视图的特有特征向量。
为了学习多个视图间的共享特征和特有特征,首先为每个视图设置两个特征提取网络作为特征提取器,分别将该视图的高阶特征向量集映射到两个子空间中,一个是共享特征向量空间用于输出该视图的共享特征向量,一个是特有特征向量空间用于输出该视图的特有特征向量。每个特征提取网络由两层全连接层组成。
来自信息样本的语义、风格、情感三种视图的高阶特征向量集,分别通过各自的特征提取器,得到各自的共享特征向量集合和特有特征向量集合。
在模型的训练和学习过程中,为了有效地分离视图的共享特征和特有特征,减少它们之间的冗余,在损失函数中加入了正交约束和相似约束。正交性约束的作用是解除视图的共享特征和特有特征之间的纠缠,防止它们相互污染。通过强制共享特征与特有特征在特征空间上正交,可以确保它们之间的独立性,从而更好地分离出共享特征和特有特征。相似性约束利用特征矩阵的相似性来保证不同视图的共享特征的相似性,通过约束不同视图中的共享特征在特征空间中具有相似的表示,可以增强不同视图间的一致性,进一步提高了共享信息的准确性和可靠性。
为了获得正交约束,通过计算共享特征和特有特征的欧氏距离实现。根据同一视图共享特征向量和特有特征向量,求同一视图的共享特征矩阵和特有特征矩阵,计算共享特征矩阵和特有特征矩阵的欧氏距离l orth ,使l orth 达到最大化,同一视图的特征彻底分离为共享特征和特有特征。
令信息样本的第k个视图的共享特征矩阵为,其中n为/>的维数,c n 为第n个共享特征向量;第k个视图的特有特征矩阵为/>,其中n为/>的维数,s n 为第n个特有特征向量,则欧氏距离l orth 的计算如公式(1)所示
(1)
对该欧氏距离l orth 取平方得到公式(2)
(2)
由此可以得到欧氏距离l orth 平方的矩阵形式,如公式(3)所示
(3)
对上述矩阵形式进行分配律化简,最终得到平方下的欧氏距离,如公式(4)所示
(4)
为了确保共享特征和特有特征的完全分离,共享特征矩阵和特有特征矩阵的欧氏距离应该最大化,使它们在特征空间中具有更明显的差异性。
由于和/>中的向量都为单位向量,/>和/>的计算结果都为常数。因此,求取/>的最大化也就是求取/>的最小化。
最终,正交约束的损失由的F范数进行表示,如公式(5)所示
(5)
其中,m为视图数。
对齐不同视图间的共享特征得到最终共享特征,包括:求取两两视图的共享特征矩阵之间的欧氏距离的和L sim ,使L sim 达到最小化,得到最终共享特矩阵。
两个不同视图间共享特征矩阵的相似性同样可以用欧氏距离进行描述,如公式(6)所示,
(6)
其中k 1 k 2 表示两个不同的视图, />表示两个不同视图的共享特征矩阵,表示第k 1个视图的第i个共享特征向量,/>表示第k 2个视图的第i个共享特征向量;
为了使所有视图的共享特征矩阵相似度最大化,应当尽可能减小所有视图之间的两两欧氏距离之和,增强不同视图之间的一致性。
因此,相似约束的损失可以被表示为所有视图的共享特征矩阵两两欧氏距离之和,如公式(7)所示,m表示共有m个视图。
(7)
最终,在模型加入了正交约束与相似约束的情况下,得到最终损失函数L的计算公式(8),其中为分类损失,/>和/>分别为正交约束和相似约束的权重,/>和/>通过参数敏感性分析法获取合适的值。
(8)
分类损失则由最小化交叉熵损失实现。通过最小化交叉熵损失,我们能够有效地优化模型的分类能力,使其能够更准确地对样本进行分类。交叉熵损失是一种常用的分类损失函数,它在训练过程中能够推动模型的输出概率分布更接近于真实标签的概率分布,从而提高分类准确率。
S3:获取每个特有特征的重要性参数,将获取重要性参数后的特有特征与最终共享特征进行交互,并输出聚合特征。
多视图特征交互可以从不同的视角捕捉信息,并生成更多样化的视图特征组合。然而,直接枚举所有可能的视图特有特征组合是一种非常耗时的计算方法,会给模型带来巨大的计算复杂度。此外,简单地将所有的视图特有特征都看作是同等重要的,会导致噪声视图特征的组合,从而降低模型的性能。
引入自注意力机制和一个可学习的权重参数,来对最终共享特征和特有特征的重要性进行建模,旨在使模型从上述特征中关注更为重要的特征,自适应地学习信息的多视图表示,达到充分利用多视图信息的目的,更好地整合多视图的信息,提高模型对信息的表达能力,实现虚假信息的有效检测。
针对信息样本,获取每个特有特征的重要性参数,可包括:根据特有特征矩阵,求取所有视图的总特有特征矩阵,引入自注意力机制,根据总特有特征矩阵,得到自注意力权重矩阵,自注意力权重矩阵的每个向量为自注意力机制下的每个特有特征向量。这样,模型可以更好地理解不同视图之间的关联。
对所有视图的特有特征矩阵引入了自注意力机制,目的是通过捕捉特有特征矩阵内部的相关性,为每个特有特征矩阵建模其重要性。
通过自注意力机制捕捉不同视图特有特征之间的关联信息,并为整合后的每个特有特征分配一个权重,以表示其在整体表示中的重要程度。其输入为所有视图的总特有特征矩阵m为视图的数量,/>为第k个视图的特有特征向量。
首先将总特有特征矩阵H s 中的特征向量分别通过三个全连接层映射为查询向量(query)、键向量(key)和值向量(value),其特征矩阵的数学表示分别为、/>,其中d k 为键向量的维数,d v 为输入向量的维数。映射公式如下:
(9)
(10)
(11)
其中W q W k W v 为三个可训练的参数矩阵,,/>
然后将Q s 矩阵中的每个查询向量和K s 矩阵中的键向量进行点乘得到相似度矩阵,再将该相似度矩阵除以缩放因子得到注意力分数,再通过softmax函数进行归一化,将注意力分数映射到[0, 1]区间并使其和为1,得到注意力权重。
最终将该注意力权重与值向量相乘计算加权求和,得到自注意力权重矩阵,其中/>,/>为自注意力机制下的第k个特有特征向量。该过程计算公式如(12)所示。
(12)/>
Z s 是将所有的特有特征整合后又形成的与视图数量相同的特有特征向量的矩阵。
为了更好地聚合特有特征和共享特征,将获取重要性参数后的特有特征与最终共享特征进行交互,并输出聚合特征,可包括,为自注意力机制下的每个特有特征向量分配一个权重,为最终共享特征矩阵分配一个权重,然后将每个特有特征向量和最终共享特征矩阵进行叠加,并输出聚合特征。
引入可学***衡,用于聚合信息多视图的交互表示,以获得更准确的结果。聚合特征计算方式如公式(13)所示。
(13)
其中,表示自注意力机制下第k个特有特征向量/>的权重参数,/>表示最终共享特征矩阵/>的权重参数。这两个权重参数是在训练过程中设置为可学习的参数,在模型训练过程中不断更新得到最优的参数值。
exp是指数函数,ln是以e为底的对数函数。先对特有特征和共享特征取对数,缩小绝对值差异,平衡不同值域区间的差异影响,再与权重系数相乘并通过指数函数还原得到z
聚合特征z为信息多视图交互的最终输出,它表示了不同视图之间的关联信息和各个特征的重要程度,充分整合了不同视图之间的一致性、互补性和冗余信息。
S4:将聚合特征输入预设分类器,得到预测分数,根据预测分数判断信息样本的虚假性。
采用一个MLP网络作为预设分类器,聚合特征z作为输入,经过多层的线性变换和激活函数的转换,最终得到一个表示真实或虚假可能性的预测分数。
可通过sigmoid函数的运算,将预测分数映射到[0, 1]的范围内,以便更直观地理解该分数与真实性之间的关系。预测分数越接近0,表示信息样本为真实信息的可能性越高,而预测分数越接近1,表示信息样本为虚假信息的可能性较高。
本方法针对虚假信息检测中难以充分利用不同视图间的一致性和互补性信息的问题,将正交约束、相似约束和自注意力机制引入检测模型,从而充分利用不同视图的一致性和互补性信息,提高虚假信息的检测性能。
实施例2
图2为根据本发明实施例2的基于多视图特征分解的虚假信息检测***的结构示意图;
如图2所示,本实施例提供的基于多视图特征分解的虚假信息检测***,基于实施例1中的方法,与实施例1中的方法一一对应,本实施例可以安装于电子设备中。
本基于多视图特征分解的虚假信息检测***,包括:特征获取模块、特征分离模块、特征交互模块、信息检测模块。
特征获取模块,可用于从信息样本中获取不同视图的特征。
本实施例中,不同视图可包括语义视图、风格视图和情感视图,特征获取模块可包括语义特征获取单元、风格特征获取单元和情感特征获取单元。
语义特征获取单元,用于获取语义视图的特征,将信息样本的文本输入预设预训练模型,将文本的单词按照语义编码为词向量的形式,以获取文本的语义浅层特征向量集,得到文本的结构化表征,将语义浅层特征向量集输入高阶语义特征提取层,映射为语义高阶特征向量集。
风格特征获取单元,用于获取风格视图的特征,设定预设数量种风格特征,根据风格特征从文本中获取风格浅层特征向量集,将风格浅层特征向量集输入风格嵌入层,通过风格嵌入层的MLP神经网络,映射为风格高阶特征向量集。
情感特征获取单元,用于获取情感视图的特征,设定预设数量种情感特征,根据情感特征从文本中获取内容情感特征向量集,从信息样本的评论中获取评论情感特征向量集,对内容情感特征向量集和评论情感特征向量集做差分获得双重情感差异特征向量集,将内容情感特征向量集、评论情感特征向量集和双重情感差异特征向量集统一拼合为情感浅层特征向量集,将情感浅层特征向量集输入情感嵌入层的MLP神经网络,获得情感高阶特征向量集。
特征分离模块,可用于将每个视图的特征分离为共享特征和特有特征,对齐不同视图间的共享特征得到最终共享特征。共享特征为与其他视图的特征相同的特征,特有特征为与其他视图的特征不同的特征。
特征分离模块可包括视图特征分离单元和共享特征对齐单元。
视图特征分离单元,用于将每个视图的特征分离为共享特征和特有特征,
为每个视图设置两个特征提取网络,一个特征提取网络用于将视图的高阶特征向量集映射到共享特征向量空间,共享特征向量空间输出视图的共享特征向量;另一个特征提取网络用于将视图的高阶特征向量集映射到特有特征向量空间,特有特征向量空间输出视图的特有特征向量;根据共享特征向量和特有特征向量,求同一视图的共享特征矩阵和特有特征矩阵,计算共享特征矩阵和特有特征矩阵的欧氏距离,使/>达到最大化,同一视图的特征分离为共享特征和特有特征。
共享特征对齐单元,用于对齐不同视图间的共享特征得到最终共享特征,
求取两两视图的共享特征矩阵之间的欧氏距离之和,使/>达到最小化,得到最终共享特征矩阵。
特征交互模块:用于获取每个视图的特有特征的重要性参数,将获取重要性参数后的特有特征与最终共享特征进行交互,并输出聚合特征。
特征交互模块包括特有特征重要性分配单元和聚合特征输出单元。
特有特征重要性分配单元,用于获取每个每个特有特征的重要性参数,根据特有特征矩阵,求取所有视图的总特有特征矩阵,引入自注意力机制,根据总特有特征矩阵,得到自注意力权重矩阵,自注意力权重矩阵的每个向量为自注意力机制下的每个特有特征向量。
聚合特征输出单元,用于将获取重要性参数后的特有特征与最终共享特征进行交互,并输出聚合特征。为自注意力机制下的每个特有特征向量分配一个权重,为最终共享特征向量分配一个权重,然后将每个特有特征向量和最终共享特征向量进行叠加,并输出聚合特征。
信息检测模块:用于将聚合特征输入预设分类器,得到预测分数,根据预测分数判断信息样本的虚假性。
将聚合特征输入预设分类器,经过线性变换和激活函数的转换,得到表示信息样本为真实或虚假的预测分数,将预测分数映射在[0, 1]的范围内,预测分数接近0表示信息样本的真实性高,预测分数接近1表示信息样本的虚假性高。
如上参照附图以示例的方式描述根据本发明的基于多视图特征分解的虚假信息检测方法及***。但是,本领域技术人员应当理解,对于上述本发明所提出的基于多视图特征分解的虚假信息检测方法及***,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (10)

1.一种基于多视图特征分解的虚假信息检测方法,其特征在于,包括以下步骤:
S1:从信息样本中获取不同视图的特征;
S2:将每个视图的特征分离为共享特征和特有特征,对齐不同视图间的共享特征得到最终共享特征;
所述共享特征为与其他视图的特征相同的特征,所述特有特征为与其他视图的特征不同的特征;
S3:获取每个特有特征的重要性参数,将获取重要性参数后的特有特征与所述最终共享特征进行交互,并输出聚合特征;
S4:将所述聚合特征输入预设分类器,得到预测分数,根据所述预测分数判断所述信息样本的虚假性。
2.如权利要求1所述的基于多视图特征分解的虚假信息检测方法,其特征在于,所述步骤S1中,不同视图包括语义视图、风格视图和情感视图。
3.如权利要求2所述的基于多视图特征分解的虚假信息检测方法,其特征在于,
获取所述语义视图的特征,包括:将所述信息样本的文本输入预设预训练模型,将所述文本的单词按照语义编码为词向量的形式,以获取所述文本的语义浅层特征向量集,得到所述文本的结构化表征,将所述语义浅层特征向量集输入高阶语义特征提取层,映射为语义高阶特征向量集;
获取所述风格视图的特征,包括:设定预设数量种风格特征,根据所述风格特征从所述文本中获取风格浅层特征向量集,将所述风格浅层特征向量集输入风格嵌入层,通过所述风格嵌入层的MLP神经网络,映射为风格高阶特征向量集;
获取所述情感视图的特征,包括:设定预设数量种情感特征,根据所述情感特征从所述文本中获取内容情感特征向量集,从所述信息样本的评论中获取评论情感特征向量集,对所述内容情感特征向量集和所述评论情感特征向量集做差分获得双重情感差异特征向量集,将所述内容情感特征向量集、所述评论情感特征向量集和所述双重情感差异特征向量集统一拼合为情感浅层特征向量集,将所述情感浅层特征向量集输入情感嵌入层的MLP神经网络,获得情感高阶特征向量集。
4.如权利要求3所述的基于多视图特征分解的虚假信息检测方法,其特征在于,在所述步骤S2中,将每个视图的特征分离为共享特征和特有特征,包括:
为每个视图设置两个特征提取网络,一个特征提取网络用于将所述视图的高阶特征向量集映射到共享特征向量空间,所述共享特征向量空间输出所述视图的共享特征向量;
另一个特征提取网络用于将所述视图的高阶特征向量集映射到特有特征向量空间,所述特有特征向量空间输出所述视图的特有特征向量;
根据所述共享特征向量和所述特有特征向量,求同一视图的共享特征矩阵和特有特征矩阵,计算所述共享特征矩阵和所述特有特征矩阵的欧氏距离l orth ,使l orth 达到最大化,同一视图的特征分离为共享特征和特有特征。
5.如权利要求4所述的基于多视图特征分解的虚假信息检测方法,其特征在于,在所述步骤S2中,对齐不同视图间的共享特征得到最终共享特征,包括:
求取两两视图的共享特征矩阵之间的欧氏距离之和L sim ,使L sim 达到最小化,得到最终共享特征矩阵。
6.如权利要求4所述的基于多视图特征分解的虚假信息检测方法,其特征在于,所述步骤S3中,获取每个特有特征的重要性参数,包括:
根据所述特有特征矩阵,求取所有视图的总特有特征矩阵,引入自注意力机制,根据所述总特有特征矩阵,得到自注意力权重矩阵,所述自注意力权重矩阵的每个向量为自注意力机制下每个特有特征向量。
7.如权利要求6所述的基于多视图特征分解的虚假信息检测方法,其特征在于,所述步骤S3中,将获取重要性参数后的特有特征与所述最终共享特征进行交互,并输出聚合特征,包括:
为所述自注意力机制下每个特有特征向量分配一个权重,为所述最终共享特征矩阵分配一个权重,然后将分配权重后的每个特有特征向量和最终共享特征矩阵进行叠加,输出所述聚合特征。
8.如权利要求1所述的基于多视图特征分解的虚假信息检测方法,其特征在于,所述步骤S4中,将所述聚合特征输入预设分类器,得到预测分数,包括:
将所述聚合特征输入预设分类器,经过线性变换和激活函数的转换,得到表示所述信息样本为真实或虚假的预测分数。
9.如权利要求8所述的基于多视图特征分解的虚假信息检测方法,其特征在于,将所述预测分数映射在[0, 1]的范围内,所述预测分数接近0表示所述信息样本的真实性高,所述预测分数接近1表示所述信息样本的虚假性高。
10.一种基于多视图特征分解的虚假信息检测***,其特征在于,包括:
特征获取模块:用于从信息样本中获取不同视图的特征;
特征分离模块:用于将每个视图的特征分离为共享特征和特有特征,对齐不同视图间的共享特征得到最终共享特征;所述共享特征为与其他视图的特征相同的特征,所述特有特征为与其他视图的特征不同的特征;
特征交互模块:用于获取每个特有特征的重要性参数,将获取重要性参数后的特有特征与所述最终共享特征进行交互,并输出聚合特征;
信息检测模块:用于将所述聚合特征输入预设分类器,得到预测分数,根据所述预测分数判断所述信息样本的虚假性。
CN202410381950.7A 2024-04-01 2024-04-01 基于多视图特征分解的虚假信息检测方法及*** Active CN117972497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410381950.7A CN117972497B (zh) 2024-04-01 2024-04-01 基于多视图特征分解的虚假信息检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410381950.7A CN117972497B (zh) 2024-04-01 2024-04-01 基于多视图特征分解的虚假信息检测方法及***

Publications (2)

Publication Number Publication Date
CN117972497A true CN117972497A (zh) 2024-05-03
CN117972497B CN117972497B (zh) 2024-06-18

Family

ID=90846468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410381950.7A Active CN117972497B (zh) 2024-04-01 2024-04-01 基于多视图特征分解的虚假信息检测方法及***

Country Status (1)

Country Link
CN (1) CN117972497B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591879A (zh) * 2021-07-22 2021-11-02 大连理工大学 基于自监督学习的深度多视图聚类方法、网络、装置及存储介质
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models
CN114118416A (zh) * 2021-12-09 2022-03-01 广西师范大学 一种基于多任务学习的变分图自动编码器方法
CN116701569A (zh) * 2023-05-09 2023-09-05 江苏海洋大学 一种基于多视角协同的多领域虚假新闻检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models
CN113591879A (zh) * 2021-07-22 2021-11-02 大连理工大学 基于自监督学习的深度多视图聚类方法、网络、装置及存储介质
CN114118416A (zh) * 2021-12-09 2022-03-01 广西师范大学 一种基于多任务学习的变分图自动编码器方法
CN116701569A (zh) * 2023-05-09 2023-09-05 江苏海洋大学 一种基于多视角协同的多领域虚假新闻检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHI ZENG ET AL: "An Explainable Multi-view Semantic Fusion Model for Multimodal Fake News Detection", 《IEEE XPLORE》, 25 August 2023 (2023-08-25) *
金妍君 等: "基于注意力机制的三维模型多视图分类算法研究", 工业控制计算机, no. 06, 25 June 2020 (2020-06-25) *

Also Published As

Publication number Publication date
CN117972497B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
Kumar et al. Sentiment analysis of multimodal twitter data
CN111079444B (zh) 一种基于多模态关系的网络谣言检测方法
Li et al. Visual to text: Survey of image and video captioning
Ravi et al. A novel automatic satire and irony detection using ensembled feature selection and data mining
Moens Argumentation mining: How can a machine acquire common sense and world knowledge?
CN110162620B (zh) 黑产广告的检测方法、装置、服务器及存储介质
CN111814454A (zh) 一种社交网络上的多模态网络欺凌检测模型
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
Jahanbakhsh-Nagadeh et al. A semi-supervised model for Persian rumor verification based on content information
Lin et al. Detecting multimedia generated by large ai models: A survey
Merkx et al. Learning semantic sentence representations from visually grounded language without lexical knowledge
He et al. Deep learning in natural language generation from images
Chaudhuri Visual and text sentiment analysis through hierarchical deep learning networks
CN115878752A (zh) 文本情感的分析方法、装置、设备、介质及程序产品
Mahajan et al. EnsMulHateCyb: Multilingual hate speech and cyberbully detection in online social media
Rehman et al. User-aware multilingual abusive content detection in social media
Jahanbakhsh-Nagadeh et al. A deep content-based model for Persian rumor verification
Rajput et al. Hate me not: detecting hate inducing memes in code switched languages
CN117972497B (zh) 基于多视图特征分解的虚假信息检测方法及***
Maynard et al. Entity-based opinion mining from text and multimedia
Hamida et al. Hybrid-MELAu: A Hybrid Mixing Engineered Linguistic Features Framework Based on Autoencoder for Social Bot Detection.
Chong et al. Bot or Human? Detection of DeepFake Text with Semantic, Emoji, Sentiment and Linguistic Features
Oghaz et al. Detection and Classification of ChatGPT Generated Contents Using Deep Transformer Models
Thimmappa Paragraph Vector based Sarcasm Detection in Text
Singh et al. Neural approaches towards text summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant