CN112231562A - 一种网络谣言识别方法及*** - Google Patents

一种网络谣言识别方法及*** Download PDF

Info

Publication number
CN112231562A
CN112231562A CN202011099869.8A CN202011099869A CN112231562A CN 112231562 A CN112231562 A CN 112231562A CN 202011099869 A CN202011099869 A CN 202011099869A CN 112231562 A CN112231562 A CN 112231562A
Authority
CN
China
Prior art keywords
rumor
matrix
neural network
network model
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011099869.8A
Other languages
English (en)
Other versions
CN112231562B (zh
Inventor
段大高
白宸宇
韩忠明
刘文文
张翙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202011099869.8A priority Critical patent/CN112231562B/zh
Publication of CN112231562A publication Critical patent/CN112231562A/zh
Application granted granted Critical
Publication of CN112231562B publication Critical patent/CN112231562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种网络谣言识别方法即***,方法包括:根据包含谣言信息的多个文本得到文本特征矩阵;构建传播图结构,图结构中的节点为多个文本,图结构中的邻接矩阵为谣言信息在多个文本之间的转发和评论关系;构建图卷积神经网络模型;图卷积神经网络模型的输入为文本特征矩阵和邻接矩阵,图卷积神经网络模型的输出为谣言特征矩阵;根据谣言特征矩阵训练神经网络模型,得到谣言识别模型;根据谣言识别模型识别网络谣言。本发明根据谣言在多个文本之间的转发和评论关系训练图卷积神经网络模型,根据谣言特征矩阵训练神经网络模型,有效的捕获了谣言信息广泛且分散的传播特征,可以有效识别谣言信息。

Description

一种网络谣言识别方法及***
技术领域
本发明涉及网络谣言识别技术领域,特别是涉及一种网络谣言识别方法及***。
背景技术
大数据环境下,在线社会网络与人们的生活、娱乐以及工作逐渐融为一体。社交媒体已经成为人们分享信息以及交流的平台,其信息繁杂,传播自由便捷,影响力大等特点,使其成为舆情爆发和升温的重要传播媒介。由于缺乏有效监管,谣言等虚假信息的泛滥会给政治、经济、文化等领域带来很大的威胁和影响,已成为在线社会网络诸多应用发展面临的主要瓶颈之一。社交媒体谣言识别任务引起自然语言处理、数据挖掘等领域研究者的强烈关注,它能够用于辅助预警、预防、监控、治理等谣言清除工作,因此社交媒体谣言识别是改善在线社会网络信息生态环境质量、提升用户体验的有效手段。
目前有很多方法检测谣言。传统方法主要从人工定义特征的角度出发,主要通过构建相关谣言微博的特征,使用决策树或支持向量机等机器学习分类器进行事件分类,通用性较差。这种基于特征工程的方法虽然取得了一定的成效,但是需要耗费大量资源,并且受限于人工设计的规则。当今,随着深度学习的快速发展,基于深度神经网络模型在语义表示与谣言检测运用方面更具优势。
神经网络模型与机器学习方法相比,能够自动从数据中学习事件特征,避免了大量的特征工程,在捕获上下文之间复杂的语义关系方面也有更好的拓展性。但目前神经网络谣言检测模型,大多在于学习更好的事件特征或语义信息,而现实生活中社交媒体的信息传播具有结构关系,因此神经网络模型检测谣言并不理想。
发明内容
本发明的目的是提供一种网络谣言识别方法及***,以有效识别网络中传播的谣言信息。
为实现上述目的,本发明提供了如下方案:
一种网络谣言识别方法,包括:
根据包含谣言信息的多个文本得到文本特征矩阵;
构建传播图结构,所述图结构中的节点为多个所述文本,所述图结构中的邻接矩阵为所述谣言信息在多个所述文本之间的转发和评论关系;
构建图卷积神经网络模型;所述图卷积神经网络模型的输入为所述文本特征矩阵和所述邻接矩阵,所述图卷积神经网络模型的输出为谣言特征矩阵;
根据所述谣言特征矩阵训练神经网络模型,得到谣言识别模型;
根据所述谣言识别模型识别网络谣言。
可选地,所述根据包含谣言信息的多个文本得到文本特征矩阵,具体为:
训练包含谣言信息的多个文本中的单词,得到所述单词的词向量;
根据所述词向量获取多个所述文本的第一词特征矩阵;
将所述第一词特征矩阵通过注意力机制学习所述单词之间的依赖关系,得到第二词特征矩阵;
将所述第二词特征矩阵输入卷积层和最大池化层得到文本特征矩阵。
可选地,还包括:
对多个所述文本进行清洗和长度规范化。
可选地,所述训练包含谣言信息的多个文本中的单词,得到所述单词的词向量,具体为:
根据Word2Vec中的Skip-Gram神经网络模型训练包含谣言信息的多个文本中的单词,得到所述单词的词向量;其中所述Skip-Gram神经网络模型使用的窗口大小为5,所述词向量的嵌入维度为300。
可选地,所述将所述第一词特征矩阵通过注意力机制学习所述单词之间的依赖关系,得到第二词特征矩阵,具体为:
将所述第一词特征矩阵通过相同的h组多头注意力机制进行学习,得到h组更新后的第一词特征矩阵;h为大于1的正整数;
将h组所述更新后的第一词特征矩阵连接起来,得到第二词特征矩阵。
可选地,所述将所述第二词特征矩阵输入卷积层和最大池化层得到文本特征矩阵,具体为:
将所述第二词特征矩阵输入卷积层,得到卷积层特征;
将所述卷积层特征输入最大池化层,得到所述文本特征矩阵。
可选地,所述根据所述谣言特征矩阵训练神经网络模型,得到谣言识别模型,具体为:
将所述谣言特征矩阵输入平均池化层、全连接层以及Softmax层得到谣言预测类别;
根据所述谣言预测类别和真实谣言类别反向训练所述神经网络模型,得到谣言识别模型。
可选地,所述根据所述谣言预测类别和真实谣言类别反向训练所述神经网络模型,得到谣言识别模型,具体为:
获取所述谣言预测类别与所述真实谣言类别之间的差值;
判断所述差值是否在预设阈值范围内;
若是,则确定所述神经网络模型为所述谣言识别模型;
若否,则根据所述差值反向训练所述神经网络模型,使所述差值在所述预设阈值范围内。
一种网络谣言识别***,包括:
文本特征矩阵获取模块,用于根据包含谣言信息的多个文本得到文本特征矩阵;
第一构建模块,用于构建传播图结构,所述图结构中的节点为多个所述文本,所述图结构中的邻接矩阵为所述谣言信息在多个所述文本之间的转发和评论关系;
第二构建模块,用于构建图卷积神经网络模型;所述图卷积神经网络模型的输入为所述文本特征矩阵和所述邻接矩阵,所述图卷积神经网络模型的输出为谣言特征矩阵;
训练模块,用于根据所述谣言特征矩阵训练神经网络模型,得到谣言识别模型;
识别模块,用于根据所述谣言识别模型识别网络谣言。
可选地,所述文本特征矩阵获取模块包括:
训练单元,用于训练包含谣言信息的多个文本中的单词,得到所述单词的词向量;
获取单元,用于根据所述词向量获取多个所述文本的第一词特征矩阵;
学习单元,用于将所述第一词特征矩阵通过注意力机制学习所述单词之间的依赖关系,得到第二词特征矩阵;
输入单元,用于将所述第二词特征矩阵输入卷积层和最大池化层得到文本特征矩阵。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种网络谣言识别方法及***,方法包括:根据包含谣言信息的多个文本得到文本特征矩阵;构建传播图结构,所述图结构中的节点为多个所述文本,所述图结构中的邻接矩阵为所述谣言信息在多个所述文本之间的转发和评论关系;构建图卷积神经网络模型;所述图卷积神经网络模型的输入为所述文本特征矩阵和所述邻接矩阵,所述图卷积神经网络模型的输出为谣言特征矩阵;根据所述谣言特征矩阵训练神经网络模型,得到谣言识别模型;根据所述谣言识别模型识别网络谣言。本发明根据谣言在多个文本之间的转发和评论关系训练图卷积神经网络模型,根据谣言特征矩阵训练神经网络模型,有效的捕获了谣言信息广泛且分散的传播特征,可以有效识别谣言信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的网络谣言识别方法的流程图;
图2为本发明实施例1提供的注意力机制原理图;
图3为本发明实施例1提供的获得文本特征矩阵的卷积层和池化层原理图;
图4为本发明实施例2提供的网络谣言识别方法的原理图;
图5为本发明实施例3提供的网络谣言识别***的***框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种网络谣言识别方法及***,以有效识别网络中传播的谣言信息。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
图1为本发明实施例1提供的网络谣言识别方法的流程图,如图1所示,方法包括:
步骤101:根据包含谣言信息的多个文本得到文本特征矩阵。
步骤102:构建传播图结构,所述图结构中的节点为多个所述文本,所述图结构中的邻接矩阵为所述谣言信息在多个所述文本之间的转发和评论关系。
步骤103:构建图卷积神经网络模型;所述图卷积神经网络模型的输入为所述文本特征矩阵和所述邻接矩阵,所述图卷积神经网络模型的输出为谣言特征矩阵。
步骤104:根据所述谣言特征矩阵训练神经网络模型,得到谣言识别模型。
步骤105:根据所述谣言识别模型识别网络谣言。
在本实施例中,步骤101具体包括:
步骤1011:训练包含谣言信息的多个文本中的单词,得到所述单词的词向量。具体为:根据Word2Vec中的Skip-Gram神经网络模型训练包含谣言信息的多个文本中的单词,得到所述单词的词向量;其中所述Skip-Gram神经网络模型使用的窗口大小为5,所述词向量的嵌入维度为300。
步骤1012:根据所述词向量获取多个所述文本的第一词特征矩阵。第一词特征矩阵用vi∈RL*d表示,L表示文本长度,d表示词向量的维度。
步骤1013:将所述第一词特征矩阵通过注意力机制学习所述单词之间的依赖关系,得到第二词特征矩阵。具体为:将所述第一词特征矩阵通过相同的h组多头注意力机制进行学习,得到h组更新后的第一词特征矩阵。h为大于1的正整数。将h组所述更新后的第一词特征矩阵连接起来,得到第二词特征矩阵。
图2为本发明实施例1提供的注意力机制原理图,如图2所示,多头注意力机制由相同的h组构成,每组中的缩放点积注意力方法计算公式如下:
Figure BDA0002724972140000061
其中Q,K,V相同,Q∈RL*d,K∈RL*d,V∈RL*d均表示第一词特征矩阵vi,Wi Q,Wi K,Wi V表示线性层1的不同参数矩阵,i∈[1,h],
Figure BDA0002724972140000062
表示防止内积过大且易于训练的规范数,一般选择K的维度,QWi Q,KWi K,VWi V为Q,K,V经过不同组的线性变化得到的。
自注意力机制分为不同组可以在不同的组捕获不同的子空间的信息。然后将计算出的h组Z1~Zh连接起来,经过一个线性层2输出第二词特征矩阵O∈RL*d,公式如下:
O=W0(Concat(Z1,Z2...Zh))
其中W0为线性层2的参数矩阵。
步骤1014:将所述第二词特征矩阵输入卷积层和最大池化层得到文本特征矩阵。具体为:将所述第二词特征矩阵输入卷积层,得到卷积层特征。公式为:
Figure BDA0002724972140000063
其中σ为非线性激活函数,W∈Rc*d为卷积核,Word为单词,
Figure BDA0002724972140000071
为单词的词向量。经过卷积层得到卷积层特征e,e=[e1,e2...eL-c+1],其中L为文本中的单词数量。
将所述卷积层特征输入最大池化层,得到所述文本特征矩阵。具体为:对e∈R(L -c+1)*d在d维度进行最大池化得到m∈Rd,通过各文本特征得到文本特征矩阵:M=(m1,m2...mn)∈Rn*d。图3为本发明实施例1提供的获得文本特征矩阵的卷积层和池化层原理图。
其中,步骤101还包括:
步骤1010:对多个所述文本进行清洗和长度规范化。具体为:去除文本中不规则的符号。由于每条文本信息中的文本长度不同,假设文本长度为L,当文本不足长度L时,在文本前补零,当文本长度大于L时,截取L长度之后的部分。
在本实施例中,步骤102具体包括:
将谣言在多个文本之间的转发和评论关系,构成传播图结构G=(M,E),图中节点M表示和谣言相关的多个文本,图中边集合E表示谣言在多个文本之间的转发和评论关系,用邻接矩阵A∈Rn*n表示,其中n为M中节点的个数,邻接矩阵中对应位置元素为aij,若文本存在转发或评论关系则为1,否则为0,对应关系如下:
Figure BDA0002724972140000072
然后将文本特征矩阵和邻接矩阵作为输入到图卷积神经网络模型,输出谣言特征矩阵Conv_x∈Rn*c,其中n为谣言相关的文本数量,c为文本特征的维度。计算公式为:
Figure BDA0002724972140000073
其中
Figure BDA0002724972140000074
为添加了自环的邻接矩阵,
Figure BDA0002724972140000075
Figure BDA0002724972140000076
Figure BDA0002724972140000077
的度矩阵,θ∈Rd*c为可学习的参数矩阵,б为非线性激活函数。
在本实施例中,步骤104具体包括:
步骤1041:将所述谣言特征矩阵输入平均池化层、全连接层以及Softmax层得到谣言预测类别。具体为:
将谣言特征矩阵Conv_x∈Rn*c输入平均池化层得到图级别输出S∈R1*c谣言矩阵,公式为:S=MEAN(Conv_X)。然后将谣言矩阵输入到全连接层和Softmax层得到谣言预测类别,公式为:
Figure BDA0002724972140000081
其中
Figure BDA0002724972140000082
为谣言预测类别,W∈Rc*|class|为可学习的参数矩阵,b为偏置项。
步骤1042:根据所述谣言预测类别和真实谣言类别反向训练所述神经网络模型,得到谣言识别模型。具体为:
获取所述谣言预测类别与所述真实谣言类别之间的差值。
判断所述差值是否在预设阈值范围内。
若是,则确定所述神经网络模型为所述谣言识别模型。
若否,则根据所述差值反向训练所述神经网络模型,使所述差值在所述预设阈值范围内。
其中,神经网络通过反向传播,随机梯度下降法迭代,每次选择64Batch size做训练样本训练网络,计算出预测输出,将预测输出与实际类别值进行比较,并将比较结果之间的差值称为误差,使用误差来表示损失函数loss,并根据误差通过优化方法更新神经网络中可学习的参数模型权重,以最小化损失函数loss,对每个批次重复上述过程,直到对整个样本集来说,损失函数最小,并更新模型中的参数。
实施例2
图4为本发明实施例2提供的网络谣言识别方法的原理图,如图4所示:
(1)以twitter(推特)数据集为例,其中包括有1490个源微博信息,分别有374条非谣言微博、370条假谣言微博、374条不确定谣言微博和372条真谣言微博。将数据集划分为训练集、验证集和测试集三个部分,随机选取百分之十作为验证集,剩余部分百分之七十五作为训练集,百分之二十五作为测试集。
谣言集合{r,w1,w2,w3,w4,w5},其中r表示源微博,w1,w2,w3,w4,w5表示转发或相关的微博。去掉所有微博文本中没有含义的特殊符号,屏蔽掉出现次数低于两次的低频词汇,将所有微博文本内容设置为50词,当文本信息不足50词长度时,在文本信息前补零,当文本长度大于50词时,去掉多余部分。50词的设置基本大于所有数据集中处理过后的微博文本长度,因此不必担心此长度设置导致大量微博的文本信息散失。对于谣言微博类别的特征,用[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0,1]等one-hot(独热编码)编码分别对非谣言、假谣言、真谣言、未确认谣言进行不同类别的表示。例如微博r类别标签为[0,1,0,0],即为假谣言。
将所有微博句子中的词构成一个词典,将数据清洗后的所有微博句子利用Skip-Gram算法对其进行训练,得到每个词的向量表达。模型中使用的窗口大小为5,模型中所有单词的嵌入d=300维,用微博词特征矩阵表示一条微博的文本嵌入信息。
(2)通过多头注意力机制学习单词之间的依赖关系。多头注意力机制由相同的h组构成。每组中的缩放点积注意力方法计算公式如下:
Figure BDA0002724972140000091
其中Q、K、V相同,Q∈R50*300,K∈R50*300,V∈R50*300均表示M={r,w1,w2,w3,w4,w5}中的一条微博信息,Wi Q,Wi K,Wi V表示图2中第i组线性变换层的参数矩阵,i∈[1,h],
Figure BDA0002724972140000092
表示防止内积过大且易于训练的规范数,一般选择K的维度,QWi Q,KWi K,VWi V为Q,K,V经过不同组的线性变化得到的。不同组各自进行注意力机制得到不同的Zi
终将计算出的h组的输出Z1~Zh连接起来,并且乘以矩阵W0做一次线性变换得到输出,W0为参数矩阵。自注意力机制分为不同组可以在不同的组捕获不同的子空间的信息。与输入矩阵维度相同,输出微博词特征矩阵O∈R50*300,聚合公式如下:
O=W0(Concat(Z1,Z2...Zh))
Figure BDA0002724972140000093
作为卷积层和最大池化层输入,将卷积层作用于微博词特征矩阵,通过最大池化层
Figure BDA0002724972140000094
得到微博特征表示mi∈R300。将谣言相关的微博文本特征一起构成微博文本矩阵M=[m1,m2...mn]∈R6*300,矩阵M每行表示r,w1,w2,w3,w4,w5的文本特征。
(3)将源微博信息以及转发信息通过他们的转发或评论关系构成图结构,例如构造传播图结构G=(M,E),图中节点为M={r,w1,w2,w3,w4,w5},存在评论或转发关系的边为r-w1,r-w2,r-w3,w2-w5,w1-w4,因此E={e01,e02,e03,e25,e14},其中e01,e02,e03表示,e14,e25表示相关微博间转发,用邻接矩阵A∈R6*6表示,邻接矩阵中对应位置元素为aij,若存在转发关系则为1,否则为0,对应如下:
Figure BDA0002724972140000101
将邻接矩阵A∈R6*6和微博文本矩阵M=[m1,m2...mn]∈R6*300作为图卷积神经网络的输入,利用图卷积神经网络捕获传播结构以更新节点特征:
Figure BDA0002724972140000102
Figure BDA0002724972140000103
其中,
Figure BDA0002724972140000104
为添加了自环的邻接矩阵,
Figure BDA0002724972140000105
Figure BDA0002724972140000106
Figure BDA0002724972140000107
的度矩阵,
Figure BDA0002724972140000108
是对邻接矩阵的标准化,θ为可学习的参数矩阵,б为非线性激活函数。网络设置为两层,第一层的输入为微博文本矩阵M=[m1,m2...mn]∈R6*300,邻接矩阵A∈R6*6,H(0)为传播公式将输入映射到第一层的隐藏状态表示,H(0)∈R6*64,每行代表更新后的节点特征表示,将隐藏状态H(0)作为第二层的输入特征矩阵,θ(1)表示第二层中网络学习的参数矩阵,得到第二层的输出矩阵H(1)∈R6*64,每行代表更新后的节点特征表示。
(4)对输出的特征矩阵H(1)∈R6*64在隐藏维度进行平均池化,得到图级别的输出S∈R1*64作为谣言特征的表示,将S通过全连接层和Softmax层得到不同谣言类别的概率,公式为:
S=MEAN(H(1))
y=soft max(SW+b)
其中W∈R6*64为可学习的参数矩阵,b为偏置项。Softmax公式为:
Figure BDA0002724972140000111
由Softmax层计算后,数值转为相对的概率S=[0.0057,0.8390,0.0418,0.1135],因此判断输出为第二类即假谣言的概率最大,该事件为假谣言。
实施例3
图5为本发明实施例3提供的网络谣言识别***的***框图,如图5所示,***包括:
文本特征矩阵获取模块201,用于根据包含谣言信息的多个文本得到文本特征矩阵。
第一构建模块202,用于构建传播图结构,所述图结构中的节点为多个所述文本,所述图结构中的邻接矩阵为所述谣言信息在多个所述文本之间的转发和评论关系。
第二构建模块203,用于构建图卷积神经网络模型;所述图卷积神经网络模型的输入为所述文本特征矩阵和所述邻接矩阵,所述图卷积神经网络模型的输出为谣言特征矩阵。
训练模块204,用于根据所述谣言特征矩阵训练神经网络模型,得到谣言识别模型。
识别模块205,用于根据所述谣言识别模型识别网络谣言。
在本实施例中,所述文本特征矩阵获取模块201包括:
训练单元2011,用于训练包含谣言信息的多个文本中的单词,得到所述单词的词向量。
获取单元2012,用于根据所述词向量获取多个所述文本的第一词特征矩阵。
学习单元2013,用于将所述第一词特征矩阵通过注意力机制学习所述单词之间的依赖关系,得到第二词特征矩阵。
输入单元2014,用于将所述第二词特征矩阵输入卷积层和最大池化层得到文本特征矩阵。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
(1)本发明直接从源微博和相关转发微博的文本信息建模,提取相关微博内容隐含的语义信息,通过注意力机制捕获微博文本特征。对比于传统地手工构造特征地模型,能够自动的提取更高维度的特征表示,减少了人工介入,更方便于我们的使用,更适用于社交媒体复杂环境。
(2)本发明利用图神经网络对文本特征和转发结构进行建模,将谣言相关的微博文本信息特征通过图卷积神经网络迭代更新,将通过图卷积神经网络更新后的文本特征进行谣言分类预测,有效的捕获了谣言信息广泛且分散的传播特征。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种网络谣言识别方法,其特征在于,包括:
根据包含谣言信息的多个文本得到文本特征矩阵;
构建传播图结构,所述图结构中的节点为多个所述文本,所述图结构中的邻接矩阵为所述谣言信息在多个所述文本之间的转发和评论关系;
构建图卷积神经网络模型;所述图卷积神经网络模型的输入为所述文本特征矩阵和所述邻接矩阵,所述图卷积神经网络模型的输出为谣言特征矩阵;
根据所述谣言特征矩阵训练神经网络模型,得到谣言识别模型;
根据所述谣言识别模型识别网络谣言。
2.根据权利要求1所述的网络谣言识别方法,其特征在于,所述根据包含谣言信息的多个文本得到文本特征矩阵,具体为:
训练包含谣言信息的多个文本中的单词,得到所述单词的词向量;
根据所述词向量获取多个所述文本的第一词特征矩阵;
将所述第一词特征矩阵通过注意力机制学习所述单词之间的依赖关系,得到第二词特征矩阵;
将所述第二词特征矩阵输入卷积层和最大池化层得到文本特征矩阵。
3.根据权利要求2所述的网络谣言识别方法,其特征在于,还包括:
对多个所述文本进行清洗和长度规范化。
4.根据权利要求2所述的网络谣言识别方法,其特征在于,所述训练包含谣言信息的多个文本中的单词,得到所述单词的词向量,具体为:
根据Word2Vec中的Skip-Gram神经网络模型训练包含谣言信息的多个文本中的单词,得到所述单词的词向量;其中所述Skip-Gram神经网络模型使用的窗口大小为5,所述词向量的嵌入维度为300。
5.根据权利要求2所述的网络谣言识别方法,其特征在于,所述将所述第一词特征矩阵通过注意力机制学习所述单词之间的依赖关系,得到第二词特征矩阵,具体为:
将所述第一词特征矩阵通过相同的h组多头注意力机制进行学习,得到h组更新后的第一词特征矩阵;h为大于1的正整数;
将h组所述更新后的第一词特征矩阵连接起来,得到第二词特征矩阵。
6.根据权利要求2所述的网络谣言识别方法,其特征在于,所述将所述第二词特征矩阵输入卷积层和最大池化层得到文本特征矩阵,具体为:
将所述第二词特征矩阵输入卷积层,得到卷积层特征;
将所述卷积层特征输入最大池化层,得到所述文本特征矩阵。
7.根据权利要求1所述的网络谣言识别方法,其特征在于,所述根据所述谣言特征矩阵训练神经网络模型,得到谣言识别模型,具体为:
将所述谣言特征矩阵输入平均池化层、全连接层以及Softmax层得到谣言预测类别;
根据所述谣言预测类别和真实谣言类别反向训练所述神经网络模型,得到谣言识别模型。
8.根据权利要求7所述的网络谣言识别方法,其特征在于,所述根据所述谣言预测类别和真实谣言类别反向训练所述神经网络模型,得到谣言识别模型,具体为:
获取所述谣言预测类别与所述真实谣言类别之间的差值;
判断所述差值是否在预设阈值范围内;
若是,则确定所述神经网络模型为所述谣言识别模型;
若否,则根据所述差值反向训练所述神经网络模型,使所述差值在所述预设阈值范围内。
9.一种网络谣言识别***,其特征在于,包括:
文本特征矩阵获取模块,用于根据包含谣言信息的多个文本得到文本特征矩阵;
第一构建模块,用于构建传播图结构,所述图结构中的节点为多个所述文本,所述图结构中的邻接矩阵为所述谣言信息在多个所述文本之间的转发和评论关系;
第二构建模块,用于构建图卷积神经网络模型;所述图卷积神经网络模型的输入为所述文本特征矩阵和所述邻接矩阵,所述图卷积神经网络模型的输出为谣言特征矩阵;
训练模块,用于根据所述谣言特征矩阵训练神经网络模型,得到谣言识别模型;
识别模块,用于根据所述谣言识别模型识别网络谣言。
10.根据权利要求9所述的网络谣言识别***,其特征在于,所述文本特征矩阵获取模块包括:
训练单元,用于训练包含谣言信息的多个文本中的单词,得到所述单词的词向量;
获取单元,用于根据所述词向量获取多个所述文本的第一词特征矩阵;
学习单元,用于将所述第一词特征矩阵通过注意力机制学习所述单词之间的依赖关系,得到第二词特征矩阵;
输入单元,用于将所述第二词特征矩阵输入卷积层和最大池化层得到文本特征矩阵。
CN202011099869.8A 2020-10-15 2020-10-15 一种网络谣言识别方法及*** Active CN112231562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011099869.8A CN112231562B (zh) 2020-10-15 2020-10-15 一种网络谣言识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011099869.8A CN112231562B (zh) 2020-10-15 2020-10-15 一种网络谣言识别方法及***

Publications (2)

Publication Number Publication Date
CN112231562A true CN112231562A (zh) 2021-01-15
CN112231562B CN112231562B (zh) 2023-07-14

Family

ID=74112967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011099869.8A Active CN112231562B (zh) 2020-10-15 2020-10-15 一种网络谣言识别方法及***

Country Status (1)

Country Link
CN (1) CN112231562B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765352A (zh) * 2021-01-21 2021-05-07 东北大学秦皇岛分校 基于具有自注意力机制的图卷积神经网络文本分类方法
CN112925907A (zh) * 2021-02-05 2021-06-08 昆明理工大学 基于事件图卷积神经网络的微博评论观点对象分类方法
CN113139052A (zh) * 2021-04-14 2021-07-20 三峡大学 基于图神经网络特征聚合的谣言检测方法及装置
CN113191144A (zh) * 2021-03-19 2021-07-30 北京工商大学 一种基于传播影响力的网络谣言识别***及方法
CN113268675A (zh) * 2021-05-19 2021-08-17 湖南大学 一种基于图注意力网络的社交媒体谣言检测方法和***
CN113469261A (zh) * 2021-07-12 2021-10-01 上海交通大学 基于感染图卷积网络的源识别方法及***
CN113515591A (zh) * 2021-04-22 2021-10-19 平安科技(深圳)有限公司 文本不良信息识别方法、装置、电子设备及存储介质
CN113742604A (zh) * 2021-08-24 2021-12-03 三峡大学 一种谣言检测方法、装置、电子设备和存储介质
CN113919440A (zh) * 2021-10-22 2022-01-11 重庆理工大学 一种融合双重注意力机制和图卷积社交网络谣言检测***
CN113946680A (zh) * 2021-10-20 2022-01-18 河南师范大学 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法
CN114444516A (zh) * 2022-04-08 2022-05-06 四川大学 一种基于深度语义感知图卷积网络的粤语谣言检测方法
CN117743581A (zh) * 2023-12-26 2024-03-22 中国农业科学院农业信息研究所 一种农产品质量安全网络谣言的干预方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165599A (ja) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology 風評情報抽出装置及び風評情報抽出方法
CN105354305A (zh) * 2015-11-05 2016-02-24 北京邮电大学 一种网络谣言的识别方法及装置
CN107797998A (zh) * 2016-08-29 2018-03-13 腾讯科技(深圳)有限公司 含谣言用户生成内容识别方法和装置
CN108563686A (zh) * 2018-03-14 2018-09-21 中国科学院自动化研究所 基于混合神经网络的社交网络谣言识别方法及***
US20180373751A1 (en) * 2017-06-21 2018-12-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing a low-quality news resource, computer device and readable medium
WO2018237098A1 (en) * 2017-06-20 2018-12-27 Graphika, Inc. METHODS AND SYSTEMS FOR IDENTIFYING COORDINATED ACTIVITY MARKERS IN SOCIAL MEDIA MOVEMENTS
CN110362818A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 基于用户关系结构特征的微博谣言检测方法和***
CN110688484A (zh) * 2019-09-24 2020-01-14 北京工商大学 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN110795641A (zh) * 2019-11-05 2020-02-14 重庆邮电大学 基于表示学习的网络谣言传播控制方法
CN110825948A (zh) * 2019-11-05 2020-02-21 重庆邮电大学 基于促谣-辟谣消息和表示学习的谣言传播控制方法
CN111144131A (zh) * 2019-12-25 2020-05-12 北京中科研究院 一种基于预训练语言模型的网络谣言检测方法
CN111159395A (zh) * 2019-11-22 2020-05-15 国家计算机网络与信息安全管理中心 基于图神经网络的谣言立场检测方法、装置和电子设备
WO2020140633A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 文本主题提取方法、装置、电子设备及存储介质
CN111400452A (zh) * 2020-03-16 2020-07-10 腾讯科技(深圳)有限公司 文本信息分类处理方法、电子设备及计算机可读存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165599A (ja) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology 風評情報抽出装置及び風評情報抽出方法
CN105354305A (zh) * 2015-11-05 2016-02-24 北京邮电大学 一种网络谣言的识别方法及装置
CN107797998A (zh) * 2016-08-29 2018-03-13 腾讯科技(深圳)有限公司 含谣言用户生成内容识别方法和装置
WO2018237098A1 (en) * 2017-06-20 2018-12-27 Graphika, Inc. METHODS AND SYSTEMS FOR IDENTIFYING COORDINATED ACTIVITY MARKERS IN SOCIAL MEDIA MOVEMENTS
US20180373751A1 (en) * 2017-06-21 2018-12-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing a low-quality news resource, computer device and readable medium
CN108563686A (zh) * 2018-03-14 2018-09-21 中国科学院自动化研究所 基于混合神经网络的社交网络谣言识别方法及***
WO2020140633A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 文本主题提取方法、装置、电子设备及存储介质
CN110362818A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 基于用户关系结构特征的微博谣言检测方法和***
CN110688484A (zh) * 2019-09-24 2020-01-14 北京工商大学 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN110795641A (zh) * 2019-11-05 2020-02-14 重庆邮电大学 基于表示学习的网络谣言传播控制方法
CN110825948A (zh) * 2019-11-05 2020-02-21 重庆邮电大学 基于促谣-辟谣消息和表示学习的谣言传播控制方法
CN111159395A (zh) * 2019-11-22 2020-05-15 国家计算机网络与信息安全管理中心 基于图神经网络的谣言立场检测方法、装置和电子设备
CN111144131A (zh) * 2019-12-25 2020-05-12 北京中科研究院 一种基于预训练语言模型的网络谣言检测方法
CN111400452A (zh) * 2020-03-16 2020-07-10 腾讯科技(深圳)有限公司 文本信息分类处理方法、电子设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
夏鑫林;许亮;: "基于注意力机制的谣言检测算法研究", 现代计算机, no. 08 *
段大高,韩忠明: "基于梯度提升决策树的微博虚假消息检测", 计算机应用 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765352A (zh) * 2021-01-21 2021-05-07 东北大学秦皇岛分校 基于具有自注意力机制的图卷积神经网络文本分类方法
CN112925907A (zh) * 2021-02-05 2021-06-08 昆明理工大学 基于事件图卷积神经网络的微博评论观点对象分类方法
CN113191144A (zh) * 2021-03-19 2021-07-30 北京工商大学 一种基于传播影响力的网络谣言识别***及方法
CN113191144B (zh) * 2021-03-19 2024-04-09 北京工商大学 一种基于传播影响力的网络谣言识别***及方法
CN113139052B (zh) * 2021-04-14 2022-04-19 三峡大学 基于图神经网络特征聚合的谣言检测方法及装置
CN113139052A (zh) * 2021-04-14 2021-07-20 三峡大学 基于图神经网络特征聚合的谣言检测方法及装置
CN113515591A (zh) * 2021-04-22 2021-10-19 平安科技(深圳)有限公司 文本不良信息识别方法、装置、电子设备及存储介质
CN113515591B (zh) * 2021-04-22 2024-03-15 平安科技(深圳)有限公司 文本不良信息识别方法、装置、电子设备及存储介质
CN113268675A (zh) * 2021-05-19 2021-08-17 湖南大学 一种基于图注意力网络的社交媒体谣言检测方法和***
CN113268675B (zh) * 2021-05-19 2022-07-08 湖南大学 一种基于图注意力网络的社交媒体谣言检测方法和***
CN113469261A (zh) * 2021-07-12 2021-10-01 上海交通大学 基于感染图卷积网络的源识别方法及***
CN113469261B (zh) * 2021-07-12 2022-07-15 上海交通大学 基于感染图卷积网络的源识别方法及***
CN113742604A (zh) * 2021-08-24 2021-12-03 三峡大学 一种谣言检测方法、装置、电子设备和存储介质
CN113742604B (zh) * 2021-08-24 2024-04-16 三峡大学 一种谣言检测方法、装置、电子设备和存储介质
CN113946680A (zh) * 2021-10-20 2022-01-18 河南师范大学 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法
CN113946680B (zh) * 2021-10-20 2024-04-16 河南师范大学 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法
CN113919440A (zh) * 2021-10-22 2022-01-11 重庆理工大学 一种融合双重注意力机制和图卷积社交网络谣言检测***
CN114444516A (zh) * 2022-04-08 2022-05-06 四川大学 一种基于深度语义感知图卷积网络的粤语谣言检测方法
CN117743581A (zh) * 2023-12-26 2024-03-22 中国农业科学院农业信息研究所 一种农产品质量安全网络谣言的干预方法
CN117743581B (zh) * 2023-12-26 2024-06-11 中国农业科学院农业信息研究所 一种农产品质量安全网络谣言的干预方法

Also Published As

Publication number Publication date
CN112231562B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN112231562A (zh) 一种网络谣言识别方法及***
CN111125358B (zh) 一种基于超图的文本分类方法
CN108737406B (zh) 一种异常流量数据的检测方法及***
CN112084335B (zh) 一种基于信息融合的社交媒体用户账号分类方法
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN109740655B (zh) 基于矩阵分解及神经协同过滤的物品评分预测方法
CN113315789B (zh) 一种基于多级联合网络的Web攻击检测方法及***
CN113268675B (zh) 一种基于图注意力网络的社交媒体谣言检测方法和***
CN111866004B (zh) 安全评估方法、装置、计算机***和介质
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN112217787A (zh) 一种基于ed-gan的仿冒域名训练数据生成方法及***
CN111641608A (zh) 异常用户识别方法、装置、电子设备及存储介质
CN113919440A (zh) 一种融合双重注意力机制和图卷积社交网络谣言检测***
Abinaya et al. Spam detection on social media platforms
CN108596205B (zh) 基于地域相关因子与稀疏表示的微博转发行为预测方法
CN113220964A (zh) 一种基于网信领域短文本的观点挖掘方法
CN116956289A (zh) 动态调整潜在黑名单和黑名单的方法
CN113191144B (zh) 一种基于传播影响力的网络谣言识别***及方法
CN113609294B (zh) 一种基于情感分析的生鲜冷链监管方法及***
CN114529762A (zh) 基于ds证据理论融合的社交网络异常用户检测方法
CN113094504A (zh) 基于自动机器学习的自适应文本分类方法及装置
CN113157993A (zh) 一种基于时序图极化分析的网络水军行为预警模型
CN113537272A (zh) 基于深度学习的半监督社交网络异常账号检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant