CN112199606A - 一种基于层次用户表示的面向社交媒体的谣言检测*** - Google Patents

一种基于层次用户表示的面向社交媒体的谣言检测*** Download PDF

Info

Publication number
CN112199606A
CN112199606A CN202011186366.4A CN202011186366A CN112199606A CN 112199606 A CN112199606 A CN 112199606A CN 202011186366 A CN202011186366 A CN 202011186366A CN 112199606 A CN112199606 A CN 112199606A
Authority
CN
China
Prior art keywords
representation
text
word
user
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011186366.4A
Other languages
English (en)
Other versions
CN112199606B (zh
Inventor
廖祥文
苏锦河
陈志豪
叶锴
王灿杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202011186366.4A priority Critical patent/CN112199606B/zh
Publication of CN112199606A publication Critical patent/CN112199606A/zh
Application granted granted Critical
Publication of CN112199606B publication Critical patent/CN112199606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于层次用户表示的面向社交媒体的谣言检测***,包括数据预处理模块,用于对数据进行预处理,抽取用户静态行为特征,按照时间序列对数据进行分段处理;文本表示学习模块,用于从微博/推特文本内容层面以及时间段层面学习词语序列和时间段序列所蕴含的隐层表达,作为事件的文本表示向量,用户行为特征表示学习模块,用于捕获用户行为特征潜在的变化规律及其隐层信息,作为事件的用户行为特征表示向量;谣言检测标签输出模块,用于融合文本、用户行为特征隐藏向量表示,完成谣言检测的标签预测工作。本发明能够较好地对社交媒体上的谣言事件进行检测,并且在早期谣言检测中具备更加快速和稳定的检测效果。

Description

一种基于层次用户表示的面向社交媒体的谣言检测***
技术领域
本发明涉及面向社交媒体的谣言检测领域,特别是一种基于层次用户表示的面向社交媒体的谣言检测***。
背景技术
谣言(Rumor),一般指的是未经核实的陈述或说明,它往往与公众关心的某一事件相关,并在大众之间广泛流传。这一未经核实的陈述有可能会被证实是真实的,或者部分乃至完全是虚假的,甚至其真实性也可能长期无法得到证实。随着社交网络的发展,互联网信息海量庞杂,但大量的信息中却夹杂着各种虚假信息,特别是谣言信息。近年来,随着微博、推特等社交媒体的深度普及,用户可以自由的发布信息,用户之间能够直接建立联系和交流,这直接加速了互联网平台信息的流动和传播,同时也使得谣言事件的产生和传播更加的容易和迅速,造谣者往往只需要少量的成本便可以编造和传播谣言。因此面向社交媒体的谣言检测,对于科技、经济、以及社会稳定和发展都具有非常重要的意义和价值,近年来,谣言检测也受到了更多的关注。
目前,许多研究者将谣言检测作为一个二分类问题来处理。近些年的研究工作大体上可以分为以下两类1)基于传统机器学习的谣言检测,主要集中在谣言事件的特征设计和选择上,通过手动提取的方式从事件消息中抽取显著的特征集,包括用户特征,内容特征,传播特征等,例如地理位置信息,质疑更正信号,情感极性,传播树特征。接着使用支持向量机、决策树等分类器进行分类,判断事件是否是谣言。该类方法取得了明显的效果,但是手工提取特征依赖于人工设计,需要消耗大量的时间和人力物力。2)基于特征表示学习的谣言检测,该类方法更多的是对谣言事件中的文本内容进行建模,通常对事件消息按照时间顺序分割成多个时间段,将每一个时间段内的帖子当成一个整体进行处理,接着对一个时间段的帖子计算出文本表示,然后通过各种神经网络,例如循环神经网络模型、卷积神经网络模型以及双向循环神经网络模型等对谣言事件进行学习,进而进行分类。但该方法忽视了时间段内微博的时序信息,因此,在此基础上,引入分层神经网络框架,首先对时间段的帖子采用合适的神经网络模型加以学习其潜在的隐层信息,最后再学习谣言的整体表示,取得了不错的效果。
但以上方法局限对文本内容捕捉其潜在的信息,而用户表示更多的依旧是采用传统的基于统计的方法对事件中用户行为进行统计计算,并以此作为用户表示,忽视了事件中用户表示潜在的时序信息对于谣言检测的重要性,谣言事件往往是由权威性较低的用户发布自己未经证实的观点为起点,进而被有影响力且权威性高的在线社区和用户转发和评论,最后在社交媒体中广泛传播,而用户粉丝数量、关注用户数、以及是否被认证等用户特征能够一定程度上反应用户的权威特性。在早期谣言检测任务中,消息传播初期通常存在大量的转发事件描述的重复信息,这些文本内容对于识别谣言并没有什么帮助,而用户特征则相对稳定,能够为早期谣言检测提供更加充分的特征线索。基于此,对谣言事件中的用户选择合适的算法进行表示学习,获取其潜在的变化规律,对于谣言检测,特别是早期谣言检测具有重要的意义和价值。
发明内容
有鉴于此,本发明的目的是提供一种基于层次用户表示的面向社交媒体的谣言检测***,能够自动抽取出有效特征,并对特征进行抽象和组合,最终检测出事件是否是谣言。
本发明采用以下方案实现:一种基于层次用户表示的面向社交媒体的谣言检测***,包括数据预处理模块、文本表示模块、用户行为特征表示模块和谣言检测标签输出模块,所述数据预处理模块用于对谣言检测数据集,进行预处理,构造用户初始向量表示,按照微博/推特发布的时间对事件进行分段处理,每个时间段包含若干条帖子和相关用户,并将所输出的文本数据和用户初始特征向量分别作为文本表示模块以及用户行为特征表示模块的输入;所述文本表示模块用于从微博/推特社交媒体文本层面以及时间段层面学习词语序列和时间段文本序列所蕴含的隐层表达,作为事件文本特征向量,所述用户行为特征表示模块用于捕获用户行为特征潜在的变化规律及其隐层信息,作为事件用户特征向量,并将所述文本表示模块输出的事件文本特征向量与用户行为特征表示模块输出的事件用户特征向量作为所述谣言检测标签输出模块的输入,最终所述谣言检测标签输出模块输出预测事件所预测的标签,其中1代表谣言事件,0代表非谣言事件。
进一步地,所述数据预处理模块对谣言检测数据集进行预处理具体包括以下步骤:
步骤S1:通过正则匹配式去除文档中的网页链接、特殊字符和标点符号;采用结巴分词对中文文档进行分词处理,根据中英文的停用词表分别过滤掉数据集中包含的停用词;
步骤S2:数据预处理模块构造用户初始向量表示;用户行为特征包括推文内容长度、推文内容是否包含质疑或纠正短句、用户是否认证、用户个人描述内容长度、用户关注的用户的数量和用户的粉丝数量,对上述特征进行拼接,作为用户初始向量表示;除了判断是否包含质疑或纠正语气词需要额外利用正则匹配式进行提取外,其余用户行为特征均已包含在谣言检测数据集中;
步骤S3:将事件相关消息按照微博/推特发布的时间划分成不同的时间段,每个时间段中包含若干微博/推特内容以及所对应的用户,保证每个时间段内具有基本相同的微博密度。
进一步地,所述文本表示学习模块包括文本词嵌入表示、社交媒体文本表示和时间段表示。
进一步地,所述文本词嵌入表示将数据中的文本信息映射到便于计算机处理的向量空间,采用100维Glove词向量模型对推特数据进行转换,而微博数据基于word2vec算法将微博文本转换成词向量e(wi),wi表示第i个单词。
进一步地,所述社交媒体文本表示采用循环卷积神经网络学习时间段内的文本信息,循环卷积神经网络包括一个双向长短期记忆神经网络和一个卷积神经网络;将文本词嵌入表示中获得的词向量e(wi)输入到双向长短期记忆神经网络中得到上下文隐层状态,假设hl(wi)是单词wi上一个单词的隐层向量,而hr(wi)是单词下一个单词的隐层状态,计算公式如下:
hl(wi)=f(Wlhl(wi-1)+Wele(wi-1))
hr(wi)=f(Wrhr(wi+1)+Were(wi+1))
其中,e(wi-1)和e(wi+1)分别为单词wi-1和单词wi+1的词向量表示;hl(wi-1)和hr(wi+1)分别代表单词wi-1和单词wi+1的隐层状态;Wl,Wel,Wr,Wer分别为各自的权重矩阵;f是一个非线性激活函数tanh;hl(wi)是单词wi的上一个单词的隐层状态,hr(wi)是单词wi的下一个单词的隐层状态;当计算获得当前单词wi的两个上下文隐层状态hl(wi)和hr(wi)之后,将两个状态与当前单词的词词向量进行拼接操作,即
Xi=(hl(wi),e(wi),hr(wi))
接着采用卷积神经网络学习对Xi捕获局部特征,并使用一个最大池化操作将不同长度的文本表示向量转换为固定长度,从而获得每个时间段的文本特征表示向量,具体公式如下:
Ci=Conv1D(Xi)
Figure BDA0002751325030000051
其中Ci是Xi经过一维卷积Conv1D操作之后的结果,Yt是表示第t个时间段学习到的文本特征表示向量。
进一步地,所述时间段表示利用双向门控循环神经网络(Bi-GRU)从时间段层面学习时间段序列的隐层表示,作为事件的文本表示向量;
Figure BDA0002751325030000061
Figure BDA0002751325030000062
ht=(htf,htb)
其中,htf为前向GRU神经网络在时间段t生成的隐层表示,htb为后向GRU神经网络在时间段t生成的隐层表示,Tn为时间段的长度,即时间段数量;ht是双向GRU神经网络在第t个时间段的输出,由htf和htb连接得到;并结合注意力机制能够有所侧重考虑到各时间段的信息,最终作为事件的整体文本表示;注意力公式如下:
ut=tanh(Whht+bh)
Figure BDA0002751325030000063
Figure BDA0002751325030000064
其中ut是双向门控循环神经网络(Bi-GRU)的输出ht采用tanh激活函数处理后得到的结果;而βt是经过注意力机制计算出的权重值,而Ve是对每个时间段文本特征向量加权求和表示。
进一步地,所述用户行为特征表示学习模块包括社交媒体用户行为表示和时间段序列用户行为表示;
所述社交媒体用户行为表示将时间段内的用户行为特征以数据预处理阶段构造用户行为表示的初始向量xt作为输入,利用循环神经网络(LSTM)和卷积神经网络(CNN)分别学习社交媒体用户行为特征潜在全局和局部变化规律,为谣言的检测提供判别线索,具体计算公式如下;
hC=MeanPooling1D(CNN(Xt))
hR=LSTM(Xt)
ht=(hC,hR)
hC为用户行为表示的初始向量xt,使用卷积神经网络捕获其局部特性,并经过平均池化操作的隐层输出;hR为循环神经网络的输出;ht为对hC,hR两个隐层向量进行拼接操作的结果;
所述时间段序列用户行为采用门控循环单元神经网络(GRU)对各个时间段的用户行文特征隐层表示进一步学习其蕴含的时序信息,作为事件的整体用户表示;
Vu=GRU(ht)
其中ht是每个时间段用户特征向量,Vu是门控循环单元网络(GRU)学习到的时间段用户特征表示。
进一步地,谣言检测标签输出模块将文本表示模块以及用户行为特征表示模块所学习到的文本特征向量以及用户行为特征向量进行融合,作为事件的整体特征向量,并使用softmax函数对于该隐层向量进行计算,输出其预测标签;
Figure BDA0002751325030000071
最后将事件整体文本表示ve以及整体用户表示vu进行拼接操作,送入一个全连接层,并使用softmax函数进行激活,得到社交媒体事件的标签
Figure BDA0002751325030000081
用于分类,标签1表示该事件为谣言,标签0表示该事件为非谣言。
与现有技术相比,本发明具有以下有益效果:
本发明能够较好地对社交媒体上的谣言事件进行检测,并且在早期谣言检测中具备更加快速和稳定的检测效果。
附图说明
图1为本发明实施例的谣言检测***的示意配置图。
图2为本发明实施例的模型图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1,2所示,本实施例提供一种基于层次用户表示的面向社交媒体的谣言检测***,包括数据预处理模块、文本表示模块、用户行为特征表示模块和谣言检测标签输出模块,所述数据预处理模块用于对谣言检测数据集,进行预处理,构造用户初始向量表示,按照微博/推特发布的时间对事件进行分段处理,每个时间段包含若干条帖子和相关用户,并将所输出的文本数据和用户初始特征向量分别作为文本表示模块以及用户行为特征表示模块的输入;所述文本表示模块用于从微博/推特社交媒体文本层面以及时间段层面学习词语序列和时间段文本序列所蕴含的隐层表达,作为事件文本特征向量,所述用户行为特征表示模块用于捕获用户行为特征潜在的变化规律及其隐层信息,作为事件用户特征向量,并将所述文本表示模块输出的事件文本特征向量与用户行为特征表示模块输出的事件用户特征向量作为所述谣言检测标签输出模块的输入,最终所述谣言检测标签输出模块输出预测事件所预测的标签,其中1代表谣言事件,0代表非谣言事件。所述谣言检测数据集为公开的数据集。
所述数据预处理模块用于对谣言检测数据集,包括微博数据集、推特数据集进行预处理,即对事件相关消息文本内容进行清洗,构造用户初始向量表示,按照微博/推特发布的时间对事件进行分段处理,每个时间段包含若干条帖子和相关用户;所述文本表示模块用于从微博/推特社交媒体文本层面以及时间段层面学习词语序列和时间段文本序列所蕴含的隐层表达,作为事件文本特征向量;所述用户行为特征表示模块用于捕获用户行为特征潜在的变化规律及其隐层信息,作为事件用户特征向量;所述谣言检测标签输出模块用于融合文本表示模块以及用户行为特征表示模块所学习到的文本表示以及用户表示,完成谣言检测的标签预测工作。
在本实施例中,所述数据预处理模块对谣言检测数据集进行预处理具体包括以下步骤:
步骤S1:通过正则匹配式去除文档中的网页链接、特殊字符和标点符号;采用结巴分词对中文文档进行分词处理,根据中英文的停用词表分别过滤掉数据集中包含的停用词;
步骤S2:数据预处理模块构造用户初始向量表示;用户行为特征包括推文内容长度、推文内容是否包含质疑或纠正短句、用户是否认证、用户个人描述内容长度、用户关注的用户的数量和用户的粉丝数量,具体特征说明如表1所示,对上述特征进行拼接,作为用户初始向量表示;除了判断是否包含质疑或纠正语气词需要额外利用正则匹配式进行提取外,其余用户行为特征均已包含在谣言检测数据集中;
步骤S3:将事件相关消息按照微博/推特发布的时间划分成不同的时间段,每个时间段中包含若干微博/推特内容以及所对应的用户,保证每个时间段内具有基本相同的微博密度。
表1
Figure BDA0002751325030000101
Figure BDA0002751325030000111
在本实施例中,所述文本表示学习模块包括文本词嵌入表示、社交媒体文本表示和时间段表示。
在本实施例中,所述文本词嵌入表示将数据中的文本信息映射到便于计算机处理的向量空间,采用100维Glove词向量模型对推特数据进行转换,而微博数据基于word2vec算法将微博文本转换成词向量e(wi),wi表示第i个单词。
在本实施例中,所述社交媒体文本表示采用循环卷积神经网络学习时间段内的文本信息,循环卷积神经网络包括一个双向长短期记忆神经网络和一个卷积神经网络;将文本词嵌入表示中获得的词向量e(wi)输入到双向长短期记忆神经网络中得到上下文隐层状态,假设hl(wi)是单词wi上一个单词的隐层向量,而hr(wi)是单词下一个单词的隐层状态,计算公式如下:
hl(wi)=f(Wlhl(wi-1)+Wele(wi-1))
hr(wi)=f(Wrhr(wi+1)+Were(wi+1))
其中,e(wi-1)和e(wi+1)分别为单词wi-1和单词wi+1的词向量表示;hl(wi-1)和hr(wi+1)分别代表单词wi-1和单词wi+1的隐层状态;Wl,Wel,Wr,Wer分别为各自的权重矩阵;f是一个非线性激活函数tanh;hl(wi)是单词wi的上一个单词的隐层状态,hr(wi)是单词wi的下一个单词的隐层状态;当计算获得当前单词wi的两个上下文隐层状态hl(wi)和hr(wi)之后,将两个状态与当前单词的词词向量进行拼接操作,即
Xi=(hl(wi),e(wi),hr(wi))
接着采用卷积神经网络学习对Xi捕获局部特征,并使用一个最大池化操作将不同长度的文本表示向量转换为固定长度,从而获得每个时间段的文本特征表示向量,具体公式如下:
Ci=Conv1D(Xi)
Figure BDA0002751325030000121
其中Ci是Xi经过一维卷积Conv1D操作之后的结果,Yt是表示第t个时间段学习到的文本特征表示向量。
循环卷积神经网络能够更大程度地捕捉时间段内长文本中所隐含的上下文信息,并且能够更大范围地保留词序信息。通过循环卷积神经网络捕获时间段内文本内容上下文依赖关系,获取其隐层向量表示。
在本实施例中,所述时间段表示利用双向门控循环神经网络(Bi-GRU)从时间段层面学习时间段序列的隐层表示,作为事件的文本表示向量;
Figure BDA0002751325030000131
Figure BDA0002751325030000132
ht=(htf,htb)
其中,htf为前向GRU神经网络在时间段t生成的隐层表示,htb为后向GRU神经网络在时间段t生成的隐层表示,Tn为时间段的长度,即时间段数量;ht是双向GRU神经网络在第t个时间段的输出,由htf和htb连接得到;并结合注意力机制能够有所侧重考虑到各时间段的信息,最终作为事件的整体文本表示;注意力公式如下:
ut=tanh(Whht+bh)
Figure BDA0002751325030000133
Figure BDA0002751325030000134
其中ut是双向门控循环神经网络(Bi-GRU)的输出ht采用tanh激活函数处理后得到的结果;而βt是经过注意力机制计算出的权重值,而Ve是对每个时间段文本特征向量加权求和表示。
在本实施例中,所述用户行为特征表示学习模块包括社交媒体用户行为表示和时间段序列用户行为表示;
所述社交媒体用户行为表示将时间段内的用户行为特征以数据预处理阶段构造用户行为表示的初始向量xt作为输入,利用循环神经网络(LSTM)和卷积神经网络(CNN)分别学习社交媒体用户行为特征潜在全局和局部变化规律,为谣言的检测提供判别线索,具体计算公式如下;
hC=MeanPooling1D(CNN(Xt))
hR=LSTM(Xt)
ht=(hC,hR)
hC为用户行为表示的初始向量xt,使用卷积神经网络捕获其局部特性,并经过平均池化操作的隐层输出;hR为循环神经网络的输出;ht为对hC,hR两个隐层向量进行拼接操作的结果;
所述时间段序列用户行为采用门控循环单元神经网络(GRU)对各个时间段的用户行文特征隐层表示进一步学习其蕴含的时序信息,作为事件的整体用户表示;
Vu=GRU(ht)
其中ht是每个时间段用户特征向量,Vu是门控循环单元网络(GRU)学习到的时间段用户特征表示。
在本实施例中,谣言检测标签输出模块将文本表示模块以及用户行为特征表示模块所学习到的文本特征向量以及用户行为特征向量进行融合,作为事件的整体特征向量,并使用softmax函数对于该隐层向量进行计算,输出其预测标签;
Figure BDA0002751325030000141
最后将事件整体文本表示ve以及整体用户表示vu进行拼接操作,送入一个全连接层,并使用softmax函数进行激活,得到社交媒体事件的标签
Figure BDA0002751325030000151
用于分类,标签1表示该事件为谣言,标签0表示该事件为非谣言。
较佳的,在本实施例中,数据预处理模块中所述的数据预处理,对文本数据去除噪声,比如去除文本中的链接、特殊字符、标点符号等,过滤文本中的停用词。
较佳的,在本实施例中,数据预处理模块中所述的按照时间序列对数据进行分段处理,即将推文按照时间顺序,并选择合适的算法对推文集合进行切分,使得推文尽量均匀地分布在每个时间段,每个时间段内都有一定的推文。
较佳的,在本实施例中,文本嵌入表示学习借助了开源的Glove模型,将时间段内的推文内容分别映射到低维的语义空间中获取词向量表示。
较佳的,在本实施例中,时间段序列文本表示采用双向门控循环神经网络从时间段层面学习时间段序列的隐层表示,并结合注意力机制能够有所侧重考虑到各时间段的信息,最终作为事件的整体文本表示。
较佳的,在本实施例中,事件用户行为特征表示学习模块包含两个部分:时间段内用户行为表示、时间段序列用户行为表示;时间段内用户行为表示将时间段内的用户行为建模为有序时间序列,并利用循环神经网络和卷积神经网络分别学习用户行为特征的潜在全局和局部变化规律,为谣言的检测提供判别线索。时间序列用户行为表示采用门控循环神经网络对每个时间段的用户行为表示进一步学习其蕴含的时序信息,作为事件的整体用户表示。
较佳的,在本实施例中,谣言检测标签输出模块将事件文本表示模块以及事件用户行为特征表示模块所学习到的事件文本表示以及事件用户行为表示进行融合,作为事件的整体特征向量,并使用softmax函数对于该隐层向量进行计算,输出其预测标签。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (8)

1.一种基于层次用户表示的面向社交媒体的谣言检测***,其特征在于:包括数据预处理模块、文本表示模块、用户行为特征表示模块和谣言检测标签输出模块,所述数据预处理模块用于对谣言检测数据集,进行预处理,构造用户初始向量表示,按照微博/推特发布的时间对事件进行分段处理,每个时间段包含若干条帖子和相关用户,并将所输出的文本数据和用户初始特征向量分别作为文本表示模块以及用户行为特征表示模块的输入;所述文本表示模块用于从微博/推特社交媒体文本层面以及时间段层面学习词语序列和时间段文本序列所蕴含的隐层表达,作为事件文本特征向量,所述用户行为特征表示模块用于捕获用户行为特征潜在的变化规律及其隐层信息,作为事件用户特征向量,并将所述文本表示模块输出的事件文本特征向量与用户行为特征表示模块输出的事件用户特征向量作为所述谣言检测标签输出模块的输入,最终所述谣言检测标签输出模块输出预测事件所预测的标签,其中1代表谣言事件,0代表非谣言事件。
2.根据权利要求1所述的一种基于层次用户表示的面向社交媒体的谣言检测***,其特征在于:所述数据预处理模块对谣言检测数据集进行预处理具体包括以下步骤:
步骤S1:通过正则匹配式去除文档中的网页链接、特殊字符和标点符号;采用结巴分词对中文文档进行分词处理,根据中英文的停用词表分别过滤掉数据集中包含的停用词;
步骤S2:数据预处理模块构造用户初始向量表示;用户行为特征包括推文内容长度、推文内容是否包含质疑或纠正短句、用户是否认证、用户个人描述内容长度、用户关注的用户的数量和用户的粉丝数量,对上述特征进行拼接,作为用户初始向量表示;除了判断是否包含质疑或纠正语气词需要额外利用正则匹配式进行提取外,其余用户行为特征均已包含在谣言检测数据集中;
步骤S3:将事件相关消息按照微博/推特发布的时间划分成不同的时间段,每个时间段中包含若干微博/推特内容以及所对应的用户,保证每个时间段内具有基本相同的微博密度。
3.根据权利要求1所述的一种基于层次用户表示的面向社交媒体的谣言检测***,其特征在于:所述文本表示学习模块包括文本词嵌入表示、社交媒体文本表示和时间段表示。
4.根据权利要求3所述的一种基于层次用户表示的面向社交媒体的谣言检测***,其特征在于:所述文本词嵌入表示将数据中的文本信息映射到便于计算机处理的向量空间,采用100维Glove词向量模型对推特数据进行转换,而微博数据基于word2vec算法将微博文本转换成词向量e(wi),wi表示第i个单词。
5.根据权利要求4所述的一种基于层次用户表示的面向社交媒体的谣言检测***,其特征在于:所述社交媒体文本表示采用循环卷积神经网络学习时间段内的文本信息,循环卷积神经网络包括一个双向长短期记忆神经网络和一个卷积神经网络;将文本词嵌入表示中获得的词向量e(wi)输入到双向长短期记忆神经网络中得到上下文隐层状态,假设hl(wi)是单词wi上一个单词的隐层向量,而hr(wi)是单词下一个单词的隐层状态,计算公式如下:
hl(wi)=f(Wlhl(wi-1)+Wele(wi-1))
hr(wi)=f(Wrhr(wi+1)+Were(wi+1))
其中,e(wi-1)和e(wi+1)分别为单词wi-1和单词wi+1的词向量表示;hl(wi-1)和hr(wi+1)分别代表单词wi-1和单词wi+1的隐层状态;Wl,Wel,Wr,Wer分别为各自的权重矩阵;f是一个非线性激活函数tanh;hl(wi)是单词wi的上一个单词的隐层状态,hr(wi)是单词wi的下一个单词的隐层状态;当计算获得当前单词wi的两个上下文隐层状态hl(wi)和hr(wi)之后,将两个状态与当前单词的词词向量进行拼接操作,即
Xi=(hl(wi),e(wi),hr(wi))
接着采用卷积神经网络学习对Xi捕获局部特征,并使用一个最大池化操作将不同长度的文本表示向量转换为固定长度,从而获得每个时间段的文本特征表示向量,具体公式如下:
Ci=Conv1D(Xi)
Figure FDA0002751325020000031
其中Ci是Xi经过一维卷积Conv1D操作之后的结果,Yt是表示第t个时间段学习到的文本特征表示向量。
6.根据权利要求3所述的一种基于层次用户表示的面向社交媒体的谣言检测***,其特征在于:所述时间段表示利用双向门控循环神经网络从时间段层面学习时间段序列的隐层表示,作为事件的文本表示向量;
Figure FDA0002751325020000041
Figure FDA0002751325020000042
ht=(htf,htb)
其中,htf为前向GRU神经网络在时间段t生成的隐层表示,htb为后向GRU神经网络在时间段t生成的隐层表示,Tn为时间段的长度,即时间段数量;ht是双向GRU神经网络在第t个时间段的输出,由htf和htb连接得到;并结合注意力机制能够有所侧重考虑到各时间段的信息,最终作为事件的整体文本表示;注意力公式如下:
ut=tanh(Whht+bh)
Figure FDA0002751325020000043
Figure FDA0002751325020000044
其中ut是双向门控循环神经网络的输出ht采用tanh激活函数处理后得到的结果;而βt是经过注意力机制计算出的权重值,而Ve是对每个时间段文本特征向量加权求和表示。
7.根据权利要求1所述的一种基于层次用户表示的面向社交媒体的谣言检测***,其特征在于:所述用户行为特征表示学习模块包括社交媒体用户行为表示和时间段序列用户行为表示;
所述社交媒体用户行为表示将时间段内的用户行为特征以数据预处理阶段构造用户行为表示的初始向量xt作为输入,利用循环神经网络和卷积神经网络分别学习社交媒体用户行为特征潜在全局和局部变化规律,为谣言的检测提供判别线索,具体计算公式如下;
hC=MeanPooling1D(CNN(Xt))
hR=LSTM(Xt)
ht=(hC,hR)
hC为用户行为表示的初始向量xt,使用卷积神经网络捕获其局部特性,并经过平均池化操作的隐层输出;hR为循环神经网络的输出;ht为对hC,hR两个隐层向量进行拼接操作的结果;
所述时间段序列用户行为采用门控循环单元神经网络对各个时间段的用户行文特征隐层表示进一步学习其蕴含的时序信息,作为事件的整体用户表示;
Vu=GRU(ht)
其中ht是每个时间段用户特征向量,Vu是门控循环单元网络(GRU)学习到的时间段用户特征表示。
8.根据权利要求1所述的一种基于层次用户表示的面向社交媒体的谣言检测***,其特征在于:谣言检测标签输出模块将文本表示模块以及用户行为特征表示模块所学习到的文本特征向量以及用户行为特征向量进行融合,作为事件的整体特征向量,并使用softmax函数对于该隐层向量进行计算,输出其预测标签;
Figure FDA0002751325020000051
最后将事件整体文本表示ve以及整体用户表示vu进行拼接操作,送入一个全连接层,并使用softmax函数进行激活,得到社交媒体事件的标签
Figure FDA0002751325020000052
用于分类,标签1表示该事件为谣言,标签0表示该事件为非谣言。
CN202011186366.4A 2020-10-30 2020-10-30 一种基于层次用户表示的面向社交媒体的谣言检测*** Active CN112199606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011186366.4A CN112199606B (zh) 2020-10-30 2020-10-30 一种基于层次用户表示的面向社交媒体的谣言检测***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011186366.4A CN112199606B (zh) 2020-10-30 2020-10-30 一种基于层次用户表示的面向社交媒体的谣言检测***

Publications (2)

Publication Number Publication Date
CN112199606A true CN112199606A (zh) 2021-01-08
CN112199606B CN112199606B (zh) 2022-06-03

Family

ID=74012119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011186366.4A Active CN112199606B (zh) 2020-10-30 2020-10-30 一种基于层次用户表示的面向社交媒体的谣言检测***

Country Status (1)

Country Link
CN (1) CN112199606B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254652A (zh) * 2021-07-01 2021-08-13 中南大学 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN113515634A (zh) * 2021-07-09 2021-10-19 福州大学 基于分层异质图神经网络的社交媒体谣言检测方法及***
CN114662595A (zh) * 2022-03-25 2022-06-24 王登辉 大数据融合处理方法及***
CN115809327A (zh) * 2023-02-08 2023-03-17 四川大学 一种多模融合和话题的实时社交网络谣言检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160212163A1 (en) * 2015-01-16 2016-07-21 The Trustees Of The Stevens Institute Of Technology Method and Apparatus to Identify the Source of Information or Misinformation in Large-Scale Social Media Networks
CN108804608A (zh) * 2018-05-30 2018-11-13 武汉烽火普天信息技术有限公司 一种基于层次attention的微博谣言立场检测方法
CN110210016A (zh) * 2019-04-25 2019-09-06 中国科学院计算技术研究所 基于风格引导的双线性神经网络虚假新闻检测方法及***
CN111046136A (zh) * 2019-11-13 2020-04-21 天津大学 融合表情符号与短文本的多维情感强度值计算方法
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160212163A1 (en) * 2015-01-16 2016-07-21 The Trustees Of The Stevens Institute Of Technology Method and Apparatus to Identify the Source of Information or Misinformation in Large-Scale Social Media Networks
CN108804608A (zh) * 2018-05-30 2018-11-13 武汉烽火普天信息技术有限公司 一种基于层次attention的微博谣言立场检测方法
CN110210016A (zh) * 2019-04-25 2019-09-06 中国科学院计算技术研究所 基于风格引导的双线性神经网络虚假新闻检测方法及***
CN111046136A (zh) * 2019-11-13 2020-04-21 天津大学 融合表情符号与短文本的多维情感强度值计算方法
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SUJUN DONG 等: ""Rumor Detection on Hierarchical Attention Network with User and Sentiment Information"", 《NATURAL LANGUAGE PROCESSING AND CHINESE COMPUTING 2020》 *
尹鹏博 等: ""基于用户特征分析的微博谣言早期检测研究"", 《情报杂志》 *
廖祥文 等: ""基于分层注意力网络的社交媒体谣言检测"", 《中国科学:信息科学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254652A (zh) * 2021-07-01 2021-08-13 中南大学 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN113515634A (zh) * 2021-07-09 2021-10-19 福州大学 基于分层异质图神经网络的社交媒体谣言检测方法及***
CN113515634B (zh) * 2021-07-09 2023-08-01 福州大学 基于分层异质图神经网络的社交媒体谣言检测方法及***
CN114662595A (zh) * 2022-03-25 2022-06-24 王登辉 大数据融合处理方法及***
CN115809327A (zh) * 2023-02-08 2023-03-17 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN115809327B (zh) * 2023-02-08 2023-05-05 四川大学 一种多模融合和话题的实时社交网络谣言检测方法

Also Published As

Publication number Publication date
CN112199606B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN112199606B (zh) 一种基于层次用户表示的面向社交媒体的谣言检测***
Wei et al. Twitter bot detection using bidirectional long short-term memory neural networks and word embeddings
CN111159395B (zh) 基于图神经网络的谣言立场检测方法、装置和电子设备
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN112084335B (zh) 一种基于信息融合的社交媒体用户账号分类方法
CN111966786B (zh) 一种微博谣言检测方法
CN111914185B (zh) 一种基于图注意力网络的社交网络中文本情感分析方法
CN108984530A (zh) 一种网络敏感内容的检测方法及检测***
CN109753602B (zh) 一种基于机器学习的跨社交网络用户身份识别方法和***
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN111401063B (zh) 一种基于多池化网络的文本处理方法、装置和相关设备
CN112131368B (zh) 对话生成方法、装置、电子设备及存储介质
CN108256968A (zh) 一种电商平台商品专家评论生成方法
CN111193657A (zh) 聊天表情回复方法、装置及存储介质
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN109815485A (zh) 一种微博短文本情感极性识别的方法、装置及存储介质
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
CN115062139A (zh) 一种对话文本摘要模型自动搜索方法
WO2024109597A1 (zh) 文本合并判断模型的训练方法和文本合并判断方法
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN112052869B (zh) 一种用户心理状态识别方法及***
CN110110079B (zh) 一种社交网络垃圾用户检测方法
CN114928501B (zh) 一种基于个性化联邦学习的网络钓鱼邮件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant