CN114817541A - 基于双重情感感知的谣言检测方法及装置 - Google Patents

基于双重情感感知的谣言检测方法及装置 Download PDF

Info

Publication number
CN114817541A
CN114817541A CN202210454682.8A CN202210454682A CN114817541A CN 114817541 A CN114817541 A CN 114817541A CN 202210454682 A CN202210454682 A CN 202210454682A CN 114817541 A CN114817541 A CN 114817541A
Authority
CN
China
Prior art keywords
rumor
features
text
emotional
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210454682.8A
Other languages
English (en)
Inventor
葛晓义
张明书
刘佳
魏彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Engineering University of Chinese Peoples Armed Police Force
Original Assignee
Engineering University of Chinese Peoples Armed Police Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Engineering University of Chinese Peoples Armed Police Force filed Critical Engineering University of Chinese Peoples Armed Police Force
Priority to CN202210454682.8A priority Critical patent/CN114817541A/zh
Publication of CN114817541A publication Critical patent/CN114817541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于双重情感感知的谣言检测方法及装置,该方法,包括:获取谣言文本和用户评论,并对谣言文本和用户评论进行向量嵌入表示;根据向量嵌入表示,提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征;将谣言文本语义特征与用户评论情感特征结合,以获得语义融合特征,将谣言文本情感特征与用户评论情感特征结合,以获得情感融合特征;将语义融合特征和情感融合特征进行分类,以获得检测结果。本发明通过分别提取谣言文本语义特征,谣言文本情感特征和用户评论情感特征进行谣言检测,具有较高的检测结果,可用于社交媒体上,尤其是当前社交媒体上认知战正愈演愈烈,可利用该方案进行仇恨语言检测,意识形态检测等任务。

Description

基于双重情感感知的谣言检测方法及装置
技术领域
本发明涉及谣言检测技术领域,尤其是指基于双重情感感知的谣言检测方法及装置。
背景技术
社交媒体的快捷性和便利性等优点给工作、生活和学习带来了巨大的便利,为用户发布、分享和获取各种信息提供了便捷的渠道。不可忽视的是社交媒体正演变成“网络认知战”的主战场,也导致了谣言泛滥,严重影响网络的良性发展,甚至影响社会、经济和文化的发展。为了遏制谣言传播,消除谣言带来的影响,政府、社会媒体、学术界等都展开了相应的行动,越来越多的学者致力于谣言检测任务。有效检测谣言和扼制谣言的传播有助于社会的安定和健康发展,具有重要的现实意义。
谣言的发布者希望使用各种方法来实现谣言的传播和带来影响,其中一种方法是激发受众的情绪。情感分析作为文本分析中负责确定文本表达的情感极性和强度的部分,被用于谣言检测方法,作为***的基础,或作为增强特征。在基于内容的谣言检测模型中,情感分析一直被认为是谣言检测方法的重要部分。现有的模型大多利用谣言获取发布者的情感特征,而很少关注在评论中引起的情感。目前基于情感特征的谣言检测方法,没有考虑到评论情感与谣言文本的关系、谣言情感与用户评论情感的关系,谣言内容与情感为什么引起评论情感的?用户评论情感能不能解释为什么一条消息被检测为谣言?因此,导致谣言检测效果不佳。
发明内容
本发明的目的在于克服现有技术的不足,提供基于双重情感感知的谣言检测方法及装置。
为了解决上述技术问题,本发明采用如下技术方案:
第一方面,本实施例提供了一种基于双重情感感知的谣言检测方法,包括以下步骤:
获取谣言文本和用户评论,并对谣言文本和用户评论进行向量嵌入表示;
根据向量嵌入表示,提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征;
将谣言文本语义特征与用户评论情感特征结合,以获得语义融合特征,将谣言文本情感特征与用户评论情感特征结合,以获得情感融合特征;
将语义融合特征和情感融合特征进行分类,以获得检测结果。
其进一步技术方案为:所述获取谣言文本和用户评论,并对谣言文本和用户评论进行向量嵌入表示步骤中,谣言文本中一条谣言由M个句子组成,其中每个句子s由m个词组成
Figure BDA0003618351980000021
一条谣言对应的用户评论由n个句子组成,其中每个句子e由N个词组成
Figure BDA0003618351980000022
其进一步技术方案为:所述根据向量嵌入表示,提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征步骤中,谣言文本语义特征的提取包括:
谣言文本中的词与上下文具有关联性,具有较强的双向语义依赖,从词的两个方向建模获取谣言文本语义特征;其中,词嵌入的向量为
Figure BDA0003618351980000023
前向隐藏状态为
Figure BDA0003618351980000024
后向隐藏状态为
Figure BDA0003618351980000025
词的特征表示为
Figure BDA0003618351980000026
句子向量s∈2d×m
Figure BDA0003618351980000027
Figure BDA0003618351980000028
Figure BDA0003618351980000029
其中,
Figure BDA00036183519800000210
用于衡量第t个单词对句子s的重要性,
Figure BDA00036183519800000211
的计算公式如下:
Figure BDA00036183519800000212
Figure BDA00036183519800000213
其中,
Figure BDA00036183519800000214
是通过完全嵌入层从隐藏状态
Figure BDA00036183519800000215
获得的,Ww,bw是可训练的参数,uw为权重矩阵;
谣言文本情感特征和用户评论情感特征的提取包括:谣言文本情感特征为U=[u1,u2,…uM],用户评论情感特征为V=[v1,v2,…vN],其中,对用户评论中某一行评论情感嵌入后的向量
Figure BDA0003618351980000031
进行卷积操作:
Figure BDA0003618351980000032
其中,W∈λ×d是可学习的参数矩阵,b是偏置项,偏ReLU是激活函数;对卷积得到hj进行最大池化,可得到每一句评论的情感特征:
Figure BDA0003618351980000033
其中,通过CNN层使用2个过滤器λ∈{2,3},以获取多个特征,将不同的输出连接起来,形成vj作为用户评论的单个表示,通过同样的方式,得到用户评论中每个评论的情感特征,形成用户评论的情感特征矩阵V=[v1,v2,…,vN]。
其进一步技术方案为:所述将谣言文本语义特征与用户评论情感特征结合,以获得语义融合特征,将谣言文本情感特征与用户评论情感特征结合,以获得情感融合特征步骤中,谣言文本表示为:S=[s1,s2,…,sM],用户评论情感特征表示为:E=[e1,e2,…,eN];
首先计算相似矩阵F=tanh(EWseS),其中F=N×M,Wse2d×2d是可学习的参数矩阵,将相似矩阵作为一个特征,则谣言文本语义特征和用户评论情感特征的协同表示:
Hs=tanh(WsS+(WeE)F)
He=tanh(WeE+(WsS)FT)
其中,Ws,Wek×2d为可学习的参数矩阵,谣言文本和用户评论情感特征的注意力权重为:
Figure BDA0003618351980000034
Figure BDA0003618351980000035
其中,as1×M,ae1×N分别是谣言文本中每个词和评论的情感特征中每个评论的注意权重,Whs,Whe是可训练权重,最终,通过加权协同表示,得到语义融合特征为:
Figure BDA0003618351980000036
利用协同注意力机制对谣言文本情感特征和用户评论情感特征,通过计算相似矩阵,获取对应的权重分别生成协同表示,得到情感融合特征为:
Figure BDA0003618351980000041
其进一步技术方案为:所述将语义融合特征和情感融合特征进行分类,以获得检测结果步骤中,检测结果的计算包括:
Figure BDA0003618351980000042
其中,
Figure BDA0003618351980000043
为softmax函数计算的概率值,Wf为权重矩阵,b为偏置项。
第二方面,本实施例提供了一种基于双重情感感知的谣言检测装置,包括:获取嵌入单元,提取单元,结合单元及分类单元;
所述获取嵌入单元,用于获取谣言文本和用户评论,并对谣言文本和用户评论进行向量嵌入表示;
所述提取单元,用于根据向量嵌入表示,提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征;
所述结合单元,用于将谣言文本语义特征与用户评论情感特征结合,以获得语义融合特征,将谣言文本情感特征与用户评论情感特征结合,以获得情感融合特征;
所述分类单元,用于将语义融合特征和情感融合特征进行分类,以获得检测结果。
其进一步技术方案为:所述获取嵌入单元中,谣言文本中一条谣言由M个句子组成,其中每个句子s由m个词组成
Figure BDA0003618351980000044
一条谣言对应的用户评论由n个句子组成,其中每个句子e由N个词组成
Figure BDA0003618351980000045
其进一步技术方案为:所述提取单元中,谣言文本语义特征的提取包括:
谣言文本中的词与上下文具有关联性,具有较强的双向语义依赖,从词的两个方向建模获取谣言文本语义特征;其中,词嵌入的向量为
Figure BDA0003618351980000046
前向隐藏状态为
Figure BDA0003618351980000047
后向隐藏状态为
Figure BDA0003618351980000048
词的特征表示为
Figure BDA0003618351980000049
句子向量s∈2d×m
Figure BDA00036183519800000410
Figure BDA00036183519800000411
Figure BDA0003618351980000051
其中,
Figure BDA0003618351980000052
用于衡量第t个单词对句子s的重要性,
Figure BDA0003618351980000053
的计算公式如下:
Figure BDA0003618351980000054
Figure BDA0003618351980000055
其中,
Figure BDA0003618351980000056
是通过完全嵌入层从隐藏状态
Figure BDA0003618351980000057
获得的,Ww,bw是可训练的参数,uw为权重矩阵;
谣言文本情感特征和用户评论情感特征的提取包括:谣言文本情感特征为U=[u1,u2,…uM],用户评论情感特征为V=[v1,v2,…vN],其中,对用户评论中某一行评论情感嵌入后的向量
Figure BDA0003618351980000058
进行卷积操作:
Figure BDA0003618351980000059
其中,W∈λ×d是可学习的参数矩阵,b是偏置项,偏ReLU是激活函数;对卷积得到hj进行最大池化,可得到每一句评论的情感特征:
Figure BDA00036183519800000510
其中,通过CNN层使用2个过滤器λ∈{2,3},以获取多个特征,将不同的输出连接起来,形成vj作为用户评论的单个表示,通过同样的方式,得到用户评论中每个评论的情感特征,形成用户评论的情感特征矩阵V=[v1,v2,…,vN]。
其进一步技术方案为:所述结合单元中,谣言文本表示为:S=[s1,s2,…,sM],用户评论情感特征表示为:E=[e1,e2,…,eN];
首先计算相似矩阵F=tanh(EWseS),其中F=N×M,Wse2d×2d是可学习的参数矩阵,将相似矩阵作为一个特征,则谣言文本语义特征和用户评论情感特征的协同表示:
Hs=tanh(WsS+(WeE)F)
He=tanh(WeE+(WsS)FT)
其中,Ws,Wek×2d为可学习的参数矩阵,谣言文本和用户评论情感特征的注意力权重为:
Figure BDA00036183519800000511
Figure BDA00036183519800000512
其中,as1×M,ae1×N分别是谣言文本中每个词和评论的情感特征中每个评论的注意权重,Whs,Whe是可训练权重,最终,通过加权协同表示,得到语义融合特征为:
Figure BDA0003618351980000061
利用协同注意力机制对谣言文本情感特征和用户评论情感特征,通过计算相似矩阵,获取对应的权重分别生成协同表示,得到情感融合特征为:
Figure BDA0003618351980000062
其进一步技术方案为:所述分类单元中,检测结果的计算包括:
Figure BDA0003618351980000063
其中,
Figure BDA0003618351980000064
为softmax函数计算的概率值,Wf为权重矩阵,b为偏置项。
本发明与现有技术相比的有益效果是:通过分别提取谣言文本语义特征,谣言文本情感特征和用户评论情感特征进行谣言检测,具有较高的检测结果和合理的解释性,可以用于社交媒体上,尤其是当前社交媒体上认知战正愈演愈烈,可以利用该方案进行仇恨语言检测,意识形态检测等任务,能够更好地满足需求。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于双重情感感知的谣言检测方法的流程示意图;
图2为本发明实施例提供的基于双重情感感知的谣言检测方法的检测模型框架示意图;
图3为本发明实施例提供的谣言文本语义特征提取过程的示意图;
图4为本发明实施例提供的情感特征提取过程的示意图;
图5为本发明实施例提供的谣言文本与用户评论情感特征结合的示意图;
图6为本发明实施例提供的基于双重情感感知的谣言检测装置的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1所示的具体实施例,本发明公开了一种基于双重情感感知的谣言检测方法,包括以下步骤:
S1,获取谣言文本和用户评论,并对谣言文本和用户评论进行向量嵌入表示;
其中,在进行特征提取前,首先对每个词进行词向量嵌入和情感向量嵌入。词向量嵌入采用Robyn等人预先训练好的Numberbatch词向量,在词向量相似性上优于word2vec和GloVe。根据情感建模,本方案采取一种将情感元素融入到原有模型中的方法获取情感嵌入向量;该方法通过使用情感词汇和基本情绪词汇将情感信息拟合到预训练Numberbatch词向量中获取情感向量。
其中,在S1步骤中,谣言文本中一条谣言由M个句子组成,其中每个句子s由m个词组成
Figure BDA0003618351980000071
一条谣言对应的用户评论由n个句子组成,其中每个句子e由N个词组成
Figure BDA0003618351980000081
经过预训练的词向量和情感向量表示后用于提取语义特征和情感特征。
请参阅图2所示,检测模型框架,通过向量嵌入,特征提取,协同表示及输出层,以获得检测结果,谣言检测效果良好。
S2,根据向量嵌入表示,提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征;
请参阅图3所示,在S2步骤中,理论上RNN能够捕获长期依赖,但在实践中,旧的记忆会随着序列变长而消失。为了捕获RNN的长期依赖关系,使用GRU来确保更持久的内存。虽然词中包含上下文信息,也就包含整个句子的信息,但是句子中每个词的重要性不同,谣言文本语义特征的提取包括:
谣言文本中的词与上下文具有关联性,具有较强的双向语义依赖,因此逆序处理十分必要,采用Bi-GRU从词的两个方向建模获取谣言文本语义特征,从词的两个方向建模获取谣言文本语义特征;其中,词嵌入的向量为
Figure BDA0003618351980000082
前向隐藏状态为
Figure BDA0003618351980000083
后向隐藏状态为
Figure BDA0003618351980000084
词的特征表示为
Figure BDA0003618351980000085
通过连接前向隐藏状态
Figure BDA0003618351980000086
和后向隐藏状态
Figure BDA0003618351980000087
得到词的特征表示
Figure BDA0003618351980000088
通过注意力机制学习词的重要性来得到句子向量s∈2d×m
Figure BDA0003618351980000089
Figure BDA00036183519800000810
Figure BDA00036183519800000811
其中,
Figure BDA00036183519800000812
用于衡量第t个单词对句子s的重要性,
Figure BDA00036183519800000813
的计算公式如下:
Figure BDA00036183519800000814
Figure BDA00036183519800000815
其中,
Figure BDA00036183519800000816
是通过完全嵌入层从隐藏状态
Figure BDA00036183519800000817
获得的,Ww,bw是可训练的参数,uw为权重矩阵;
其中,如图2所示,在模型框架中,共提取两部分情感特征,图中一部分用户评论情感特征与谣言文本语义特征提取方法相同,采用Bi-GRU与Attention的方法获得用户评论情感特征E=[e1,e2,…,eN]。
请参阅图4所示,谣言文本情感特征与另一部分用户评论情感特征采用CNN模型提取,CNN模型能够较好的提取局部特征,并且模型训练的效率高,因此利用一维卷积神经网络,谣言文本情感特征和用户评论情感特征的提取包括:谣言文本情感特征为U=[u1,u2,…uM],用户评论情感特征为V=[v1,v2,…vN],其中,对用户评论中某一行评论情感嵌入后的向量
Figure BDA0003618351980000091
进行卷积操作:
Figure BDA0003618351980000092
其中,W∈λ×d是可学习的参数矩阵,b是偏置项,偏ReLU是激活函数;对卷积得到hj进行最大池化,可得到每一句评论的情感特征:
Figure BDA0003618351980000093
其中,通过CNN层使用2个过滤器λ∈{2,3},以获取多个特征,将不同的输出连接起来,形成vj作为用户评论的单个表示,通过同样的方式,得到用户评论中每个评论的情感特征,形成用户评论的情感特征矩阵V=[v1,v2,…,vN]。
S3,将谣言文本语义特征与用户评论情感特征结合,以获得语义融合特征,将谣言文本情感特征与用户评论情感特征结合,以获得情感融合特征;
请参阅图5所示,用户评论可能包含了解释为什么一条谣言文本是假的重要方面的相关信息,但它们信息量较小、噪音较大。因此利用谣言文本自身进行谣言检测和解释谣言真假是薄弱的,而用户评论中情感丰富,相较于语义特征,情感特征更加突出,更有利于谣言检测,并通过情感特征能反应谣言真假的原因。通过协同注意力机制学习用户评论情感与谣言的相关性,利用情感的注意力权重和谣言中的词汇来进行谣言检测和谣言解释,在S3步骤中,谣言文本表示为:S=[s1,s2,…,sM],用户评论情感特征表示为:E=[e1,e2,…,eN];
首先计算相似矩阵F=tanh(EWseS),其中F=N×M,Wse2d×2d是可学习的参数矩阵,将相似矩阵作为一个特征,则谣言文本语义特征和用户评论情感特征的协同表示:
Hs=tanh(WsS+(WeE)F)
He=tanh(WeE+(WsS)FT)
其中,Ws,Wek×2d为可学习的参数矩阵,谣言文本和用户评论情感特征的注意力权重为:
Figure BDA0003618351980000101
Figure BDA0003618351980000102
其中,as1×M,ae1×N分别是谣言文本中每个词和评论的情感特征中每个评论的注意权重,Whs,Whe是可训练权重,最终,通过加权协同表示,得到语义融合特征为:
Figure BDA0003618351980000103
利用协同注意力机制对谣言文本情感特征和用户评论情感特征,通过计算相似矩阵,获取对应的权重分别生成协同表示,得到情感融合特征为:
Figure BDA0003618351980000104
S4,将语义融合特征和情感融合特征进行分类,以获得检测结果。
其中,在S4步骤中,通过将提取到的特征通过全连接层输出,最后通过softmax函数来获得分类的结果:
检测结果的计算包括:
Figure BDA0003618351980000105
其中,
Figure BDA0003618351980000106
为softmax函数计算的概率值,Wf为权重矩阵,b为偏置项。
本方案的具体实施例如下:采用两个英文数据集谣言检测twitter15和twitter16。选择“真”和“假”标签数据,数据集中都包含谣言内容、用户评论和相应的转发用户序列等信息。均采用谣言内容和用户评论作为输入。数据集的统计数据如表1所示。
表1数据集统计
Figure BDA0003618351980000107
其中,分别在这上述两个数据集上进行实验,将实验结果与基准模型进行比对和分析。
RNN:一种基于RNN的方法,将社交上下文信息建模为可变长度的时间序列,用于学习谣言的连续表示。
text-CNN:一种基于卷积神经网络的文本分类模型,利用多个卷积滤波器来捕获不同粒度的文本特征。
HAN:一种基于层次注意力网络的文档分类模型,利用词级注意力和句子级注意力来学习新闻内容表示。
dEFEND;一种基于协同注意力机制的假新闻检测模型,学习新闻内容和用户评论之间的相关性。
GCAN:一种基于双重共同注意的假新闻检测模型,可以学习相关性在源短文本推文之间,以新闻内容和转发回复序列作为输入。
Dual Emotion:一种基于双重情感特征的假新闻检测模型,通过学习谣言情感特征,评论情感特征以及情感特征差作为假新闻检测器的补充特征。
在实验中,根据Twitter15与Twitter16数据集实际情况,dEFEND模型中谣言文本句子个数为1,长度为32,评论句子分别选取12和9条;GCAN模型引用原论文的实验结果;为了对比公平,Dual emotion模型利用Bi-GRU提取文本特征,分别选择12和9条评论提取情感特征;本方案所提模型,谣言句子个数为1,长度为32,评论个数分别为12和9条。将数据集按照6:2:2的比例划分为训练集、验证集、测试集,每一个数据集中的样本比例为1∶1。实验使用Adam更新参数,初始学习率为0.001,采取自适应递减策略更新学习率。词向量与情感词向量维度均设置为300。设置常用的评价指标为:正确率Accuracy、准确率Precision、召回率Recall以及F1。在twitter15、twitter16上的实验结果如表2和表3所示。
表2 Twitter15上不同模型的结果对比
Figure BDA0003618351980000111
Figure BDA0003618351980000121
表3 Twitter16上不同模型的结果对比
methods accuracy precision recall F1
RNN 0.662 0.655 0.655 0.658
Text-CNN 0.676 0.678 0.681 0.677
HAN 0.723 0.712 0.712 0.716
dEFEND 0.774 0.772 0.774 0.774
GCAN 0.908 0.763 0.759 0.759
DualEmotion 0.812 <u>0.821</u> <u>0.817</u> <u>0.812</u>
ours <u>0.857</u> 0.859 0.857 0.857
其中,从表2和表3中可以发现,在Twitter 15和Twitter 16两个数据集上,该方案所提模型在各个指标上都显著优于其他的模型,在Twitter 15上的性能提高了约4%,在Twitter16上的性能提高了约4%。不仅优于基于单一特征的方法,更是优于基于混合特征的方法,充分体现了模型优越的性能。RNN、text-CNN、HAN三种基于单一特征的方法中,HAN模型效果更好,说明在提取语义特征上,HAN模型更具有优势。dEFEND、GCAN、Dual Emotion三种基于混合特征的方法明显优于基于单一特征的方法,这说明基于混合特征的模型利用不同的方法融合更多的特征往往具有更好的效果。在基于混合特征的模型中,GCAN模型通过两次Co-attention提取谣言文本语义特征、用户特征和转发序列特征取得优于dEFEND模型仅利用一次Co-attention的效果,Dual Emotion模型在不采用Co-attention下,仅利用谣言文本语义特征与情感特征融合就取的更好的结果。
该模型与基于混合特征的方法相比,也具有明显的优势。该方案所提模型优于dEFEND模型,说明同样采用Co-Attention提取特征相关性,文本与情感的相关性模型更优于文本与评论文本的模型;该方案所提模型优于Dual Emotion模型,说明同样是文本与评论情感作为谣言检测器特征,但是Co-Attention提取特征相关性更具有优势;该方案所提模型与GCAN模型相比,同样是采用2次Co-Attention提取特征,但仅利用谣言和评论,提取语义特征和情感特征就取得最优结果,这表明选取更有效的特征是检测谣言的关键。
本发明通过分别提取谣言文本语义特征,谣言文本情感特征和用户评论情感特征进行谣言检测,具有较高的检测结果和合理的解释性,可以用于社交媒体上,尤其是当前社交媒体上认知战正愈演愈烈,可以利用该方案进行仇恨语言检测,意识形态检测等任务,能够更好地满足需求。
请参阅图6所示,本发明还公开了一种基于双重情感感知的谣言检测装置,包括:获取嵌入单元10,提取单元20,结合单元30及分类单元40;
所述获取嵌入单元10,用于获取谣言文本和用户评论,并对谣言文本和用户评论进行向量嵌入表示;
所述提取单元20,用于根据向量嵌入表示,提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征;
所述结合单元30,用于将谣言文本语义特征与用户评论情感特征结合,以获得语义融合特征,将谣言文本情感特征与用户评论情感特征结合,以获得情感融合特征;
所述分类单元40,用于将语义融合特征和情感融合特征进行分类,以获得检测结果。
其中,所述获取嵌入单元10中,谣言文本中一条谣言由M个句子组成,其中每个句子s由m个词组成
Figure BDA0003618351980000131
一条谣言对应的用户评论由n个句子组成,其中每个句子e由N个词组成
Figure BDA0003618351980000132
其中,所述提取单元20中,谣言文本语义特征的提取包括:
谣言文本中的词与上下文具有关联性,具有较强的双向语义依赖,从词的两个方向建模获取谣言文本语义特征;其中,词嵌入的向量为
Figure BDA0003618351980000133
前向隐藏状态为
Figure BDA0003618351980000134
后向隐藏状态为
Figure BDA0003618351980000135
词的特征表示为
Figure BDA0003618351980000136
句子向量s∈2d×m
Figure BDA0003618351980000141
Figure BDA0003618351980000142
Figure BDA0003618351980000143
其中,
Figure BDA0003618351980000144
用于衡量第t个单词对句子s的重要性,
Figure BDA0003618351980000145
的计算公式如下:
Figure BDA0003618351980000146
Figure BDA0003618351980000147
其中,
Figure BDA0003618351980000148
是通过完全嵌入层从隐藏状态
Figure BDA0003618351980000149
获得的,Ww,bw是可训练的参数,uw为权重矩阵;
谣言文本情感特征和用户评论情感特征的提取包括:谣言文本情感特征为U=[u1,u2,…uM],用户评论情感特征为V=[v1,v2,…vN],其中,对用户评论中某一行评论情感嵌入后的向量
Figure BDA00036183519800001410
进行卷积操作:
Figure BDA00036183519800001411
其中,W∈λ×d是可学习的参数矩阵,b是偏置项,偏ReLU是激活函数;对卷积得到hj进行最大池化,可得到每一句评论的情感特征:
Figure BDA00036183519800001412
其中,通过CNN层使用2个过滤器λ∈{2,3},以获取多个特征,将不同的输出连接起来,形成vj作为用户评论的单个表示,通过同样的方式,得到用户评论中每个评论的情感特征,形成用户评论的情感特征矩阵V=[v1,v2,…,vN]。
其中,所述结合单元30中,谣言文本表示为:S=[s1,s2,…,sM],用户评论情感特征表示为:E=[e1,e2,…,eN];
首先计算相似矩阵F=tanh(EWseS),其中F=N×M,Wse2d×2d是可学习的参数矩阵,将相似矩阵作为一个特征,则谣言文本语义特征和用户评论情感特征的协同表示:
Hs=tanh(WsS+(WeE)F)
He=tanh(WeE+(WsS)FT)
其中,Ws,Wek×2d为可学习的参数矩阵,谣言文本和用户评论情感特征的注意力权重为:
Figure BDA0003618351980000151
Figure BDA0003618351980000152
其中,as1×M,ae1×N分别是谣言文本中每个词和评论的情感特征中每个评论的注意权重,Whs,Whe是可训练权重,最终,通过加权协同表示,得到语义融合特征为:
Figure BDA0003618351980000153
利用协同注意力机制对谣言文本情感特征和用户评论情感特征,通过计算相似矩阵,获取对应的权重分别生成协同表示,得到情感融合特征为:
Figure BDA0003618351980000154
其中,所述分类单元40中,检测结果的计算包括:
Figure BDA0003618351980000155
其中,
Figure BDA0003618351980000156
为softmax函数计算的概率值,Wf为权重矩阵,b为偏置项。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述基于双重情感感知的谣言检测装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
上述实施例为本发明较佳的实现方案,除此之外,本发明还可以其它方式实现,在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范围之内。

Claims (10)

1.基于双重情感感知的谣言检测方法,其特征在于,包括以下步骤:
获取谣言文本和用户评论,并对谣言文本和用户评论进行向量嵌入表示;
根据向量嵌入表示,提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征;
将谣言文本语义特征与用户评论情感特征结合,以获得语义融合特征,将谣言文本情感特征与用户评论情感特征结合,以获得情感融合特征;
将语义融合特征和情感融合特征进行分类,以获得检测结果。
2.根据权利要求1所述的基于双重情感感知的谣言检测方法,其特征在于,所述获取谣言文本和用户评论,并对谣言文本和用户评论进行向量嵌入表示步骤中,谣言文本中一条谣言由M个句子组成,其中每个句子s由m个词组成
Figure FDA0003618351970000011
一条谣言对应的用户评论由n个句子组成,其中每个句子e由N个词组成
Figure FDA0003618351970000012
3.根据权利要求2所述的基于双重情感感知的谣言检测方法,其特征在于,所述根据向量嵌入表示,提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征步骤中,谣言文本语义特征的提取包括:
谣言文本中的词与上下文具有关联性,具有较强的双向语义依赖,从词的两个方向建模获取谣言文本语义特征;其中,词嵌入的向量为
Figure FDA0003618351970000013
前向隐藏状态为
Figure FDA0003618351970000014
后向隐藏状态为
Figure FDA0003618351970000015
词的特征表示为
Figure FDA0003618351970000016
句子向量s∈2d×m
Figure FDA0003618351970000017
Figure FDA0003618351970000018
Figure FDA0003618351970000019
其中,
Figure FDA00036183519700000110
用于衡量第t个单词对句子s的重要性,
Figure FDA00036183519700000111
的计算公式如下:
Figure FDA0003618351970000021
Figure FDA0003618351970000022
其中,
Figure FDA0003618351970000023
是通过完全嵌入层从隐藏状态
Figure FDA0003618351970000024
获得的,Ww,bw是可训练的参数,uw为权重矩阵;
谣言文本情感特征和用户评论情感特征的提取包括:谣言文本情感特征为U=[u1,u2,…uM],用户评论情感特征为V=[v1,v2,…vN],其中,对用户评论中某一行评论情感嵌入后的向量
Figure FDA0003618351970000025
进行卷积操作:
Figure FDA0003618351970000026
其中,W∈λ×d是可学习的参数矩阵,b是偏置项,偏ReLU是激活函数;对卷积得到hj进行最大池化,可得到每一句评论的情感特征:
Figure FDA0003618351970000027
其中,通过CNN层使用2个过滤器λ∈{2,3},以获取多个特征,将不同的输出连接起来,形成vj作为用户评论的单个表示,通过同样的方式,得到用户评论中每个评论的情感特征,形成用户评论的情感特征矩阵V=[v1,v2,…,vN]。
4.根据权利要求3所述的基于双重情感感知的谣言检测方法,其特征在于,所述将谣言文本语义特征与用户评论情感特征结合,以获得语义融合特征,将谣言文本情感特征与用户评论情感特征结合,以获得情感融合特征步骤中,谣言文本表示为:S=[s1,s2,…,sM],用户评论情感特征表示为:E=[e1,e2,…,eN];
首先计算相似矩阵F=tanh(EWseS),其中F=N×M,Wse2d×2d是可学习的参数矩阵,将相似矩阵作为一个特征,则谣言文本语义特征和用户评论情感特征的协同表示:
Hs=tanh(WsS+(WeE)F)
He=tanh(WeE+(WsS)FT)
其中,Ws,Wek×2d为可学习的参数矩阵,谣言文本和用户评论情感特征的注意力权重为:
Figure FDA0003618351970000028
Figure FDA0003618351970000029
其中,as1×M,ae1×N分别是谣言文本中每个词和评论的情感特征中每个评论的注意权重,Whs,Whe是可训练权重,最终,通过加权协同表示,得到语义融合特征为:
Figure FDA0003618351970000031
利用协同注意力机制对谣言文本情感特征和用户评论情感特征,通过计算相似矩阵,获取对应的权重分别生成协同表示,得到情感融合特征为:
Figure FDA0003618351970000032
5.根据权利要求4所述的基于双重情感感知的谣言检测方法,其特征在于,所述将语义融合特征和情感融合特征进行分类,以获得检测结果步骤中,检测结果的计算包括:
Figure FDA0003618351970000033
其中,
Figure FDA0003618351970000034
为softmax函数计算的概率值,Wf为权重矩阵,b为偏置项。
6.基于双重情感感知的谣言检测装置,其特征在于,包括:获取嵌入单元,提取单元,结合单元及分类单元;
所述获取嵌入单元,用于获取谣言文本和用户评论,并对谣言文本和用户评论进行向量嵌入表示;
所述提取单元,用于根据向量嵌入表示,提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征;
所述结合单元,用于将谣言文本语义特征与用户评论情感特征结合,以获得语义融合特征,将谣言文本情感特征与用户评论情感特征结合,以获得情感融合特征;
所述分类单元,用于将语义融合特征和情感融合特征进行分类,以获得检测结果。
7.根据权利要求6所述的基于双重情感感知的谣言检测装置,其特征在于,所述获取嵌入单元中,谣言文本中一条谣言由M个句子组成,其中每个句子s由m个词组成
Figure FDA0003618351970000035
一条谣言对应的用户评论由n个句子组成,其中每个句子e由N个词组成
Figure FDA0003618351970000036
8.根据权利要求7所述的基于双重情感感知的谣言检测装置,其特征在于,所述提取单元中,谣言文本语义特征的提取包括:
谣言文本中的词与上下文具有关联性,具有较强的双向语义依赖,从词的两个方向建模获取谣言文本语义特征;其中,词嵌入的向量为
Figure FDA0003618351970000041
前向隐藏状态为
Figure FDA0003618351970000042
后向隐藏状态为
Figure FDA0003618351970000043
词的特征表示为
Figure FDA0003618351970000044
句子向量s∈2d×m
Figure FDA0003618351970000045
Figure FDA0003618351970000046
Figure FDA0003618351970000047
其中,
Figure FDA0003618351970000048
用于衡量第t个单词对句子s的重要性,
Figure FDA0003618351970000049
的计算公式如下:
Figure FDA00036183519700000410
Figure FDA00036183519700000411
其中,
Figure FDA00036183519700000412
是通过完全嵌入层从隐藏状态
Figure FDA00036183519700000413
获得的,Ww,bw是可训练的参数,uw为权重矩阵;
谣言文本情感特征和用户评论情感特征的提取包括:谣言文本情感特征为U=[u1,u2,…uM],用户评论情感特征为V=[v1,v2,…vN],其中,对用户评论中某一行评论情感嵌入后的向量
Figure FDA00036183519700000414
进行卷积操作:
Figure FDA00036183519700000415
其中,W∈λ×d是可学习的参数矩阵,b是偏置项,偏ReLU是激活函数;对卷积得到hj进行最大池化,可得到每一句评论的情感特征:
Figure FDA00036183519700000416
其中,通过CNN层使用2个过滤器λ∈{2,3},以获取多个特征,将不同的输出连接起来,形成vj作为用户评论的单个表示,通过同样的方式,得到用户评论中每个评论的情感特征,形成用户评论的情感特征矩阵V=[v1,v2,…,vN]。
9.根据权利要求8所述的基于双重情感感知的谣言检测装置,其特征在于,所述结合单元中,谣言文本表示为:S=[s1,s2,…,sM],用户评论情感特征表示为:E=[e1,e2,…,eN];
首先计算相似矩阵F=tanh(EWseS),其中F=N×M,Wse2d×2d是可学习的参数矩阵,将相似矩阵作为一个特征,则谣言文本语义特征和用户评论情感特征的协同表示:
Hs=tanh(WsS+(WeE)F)
He=tanh(WeE+(WsS)FT)
其中,Ws,Wek×2d为可学习的参数矩阵,谣言文本和用户评论情感特征的注意力权重为:
Figure FDA0003618351970000051
Figure FDA0003618351970000052
其中,as1×M,ae1×N分别是谣言文本中每个词和评论的情感特征中每个评论的注意权重,Whs,Whe是可训练权重,最终,通过加权协同表示,得到语义融合特征为:
Figure FDA0003618351970000053
利用协同注意力机制对谣言文本情感特征和用户评论情感特征,通过计算相似矩阵,获取对应的权重分别生成协同表示,得到情感融合特征为:
Figure FDA0003618351970000054
10.根据权利要求9所述的基于双重情感感知的谣言检测装置,其特征在于,所述分类单元中,检测结果的计算包括:
Figure FDA0003618351970000055
其中,
Figure FDA0003618351970000056
为softmax函数计算的概率值,Wf为权重矩阵,b为偏置项。
CN202210454682.8A 2022-04-24 2022-04-24 基于双重情感感知的谣言检测方法及装置 Pending CN114817541A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210454682.8A CN114817541A (zh) 2022-04-24 2022-04-24 基于双重情感感知的谣言检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210454682.8A CN114817541A (zh) 2022-04-24 2022-04-24 基于双重情感感知的谣言检测方法及装置

Publications (1)

Publication Number Publication Date
CN114817541A true CN114817541A (zh) 2022-07-29

Family

ID=82509816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210454682.8A Pending CN114817541A (zh) 2022-04-24 2022-04-24 基于双重情感感知的谣言检测方法及装置

Country Status (1)

Country Link
CN (1) CN114817541A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431760A (zh) * 2023-01-10 2023-07-14 重庆理工大学 基于情感感知和图卷积网络的社交网络谣言检测方法
CN117743581A (zh) * 2023-12-26 2024-03-22 中国农业科学院农业信息研究所 一种农产品质量安全网络谣言的干预方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431760A (zh) * 2023-01-10 2023-07-14 重庆理工大学 基于情感感知和图卷积网络的社交网络谣言检测方法
CN117743581A (zh) * 2023-12-26 2024-03-22 中国农业科学院农业信息研究所 一种农产品质量安全网络谣言的干预方法
CN117743581B (zh) * 2023-12-26 2024-06-11 中国农业科学院农业信息研究所 一种农产品质量安全网络谣言的干预方法

Similar Documents

Publication Publication Date Title
CN110188194B (zh) 一种基于多任务学习模型的假新闻检测方法及***
Karim et al. Deephateexplainer: Explainable hate speech detection in under-resourced bengali language
Wiedemann et al. Transfer learning from lda to bilstm-cnn for offensive language detection in twitter
Mukhtar et al. Urdu sentiment analysis using supervised machine learning approach
CN110059183B (zh) 一种基于大数据的汽车行业用户观点情感分类方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN114817541A (zh) 基于双重情感感知的谣言检测方法及装置
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN110415071A (zh) 一种基于观点挖掘分析的汽车竞品对比方法
Akter et al. Deep learning approach for classifying the aggressive comments on social media: Machine translated data vs real life data
CN116578705A (zh) 基于预训练语言模型与集成神经网络的微博情感分类方法
Chen et al. cs@ DravidianLangTech-EACL2021: Offensive language identification based on multilingual BERT model
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及***
Basri et al. A deep learning based sentiment analysis on bang-lish disclosure
Pabbi et al. Opinion summarisation using bi-directional long-short term memory
Razali et al. Context-driven satire detection with deep learning
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN115758218A (zh) 一种基于长短时特征和决策融合的三模态情感分析方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114840665A (zh) 一种基于情感分析的谣言检测方法、装置及相关介质
Wang Text emotion detection based on Bi-LSTM network
Alvarado et al. Detecting Disaster Tweets using a Natural Language Processing technique
CN109254993B (zh) 一种基于文本的性格数据分析方法及***
Zhu et al. A Performance Comparison of Fake News Detection Approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination