CN110705276A

CN110705276A - 基于神经网络监控网络舆情的方法、装置及存储介质

Info

Publication number: CN110705276A
Application number: CN201910915242.6A
Authority: CN
Inventors: 李保印; 蒋哲峰; 刘涛; 张宝玉; 王坤
Original assignee: China Telecom Wanwei Information Technology Co Ltd
Current assignee: China Telecom Wanwei Information Technology Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-01-17

Abstract

一种基于神经网络监控网络舆情的方法、装置及存储介质，方法包括：对预设时长内的训练文本进行结巴分词处理，删除停用词，得到多个词条；确定多个词条所属的类别总数，根据类别总数和每个词条在训练文本中出现的概率分别计算每个词条的词条特征向量；根据词条特征向量分别计算各词条的信息熵；删除信息熵小于预设信息熵的词条，得到结构化文本；计算结构化文本中的文本词条特征总数，将文本词条特征总数作为神经网络模型的输入神经元个数，根据输入神经元个数确定神经网络模型的输出神经元个数和隐藏神经元个数；随机生成神经网络模型的初始权值；基于神经网络模型对结构化文本进行情感分析，得到输出值，根据输出值确定结构化文本的情感类型。

Description

基于神经网络监控网络舆情的方法、装置及存储介质

技术领域

本申请涉及神经网络技术领域，尤其涉及一种基于神经网络监控网络舆情的方法、装置及存储介质。

背景技术

网民对社会现象及问题表达意见、态度使得网络舆情对社会的影响力越来越大。网络舆情是近几十年伴着互联网广泛使用而产生的一个新概念，是网民或媒体针对某社会热门话题和事务所表达出的态度和情绪的总和，是社会民意在互联网上的集中反映，然后其最主要特征是通过互联网进行传播扩散。针对网络上负面、消极的舆论信息可能引发的舆情危机，政府部门与舆情管理机构应针对互网络舆情建立舆情数据采集和舆情分析机制，去追踪舆情传播源头，跟踪舆情变化趋势，以及掌握舆情事件起因发展。

但是，目前的跟踪方式较为传统，需要大量人力物力，并且跟踪效率较低，还需要人力判断网路舆情的事态发展趋势。

发明内容

本申请提供了一种基于神经网络监控网络舆情的方法、装置及存储介质，能够解决现有技术中跟踪网络舆情的效率较低的问题。

第一方面，本申请提供一种基于神经网络监控网络舆情的方法，所述方法包括：

获取预设时长内的训练文本，所述训练文本是指与网络舆情相关联的文本；

对所述训练文本进行结巴分词处理，删除所述训练文本中的停用词，得到多个词条；

确定所述多个词条所属的类别总数，根据所述类别总数和每个词条在所述训练文本中出现的概率分别计算每个词条的词条特征向量；

根据每个词条的词条特征向量分别计算各词条的信息熵，词条的信息熵表示词条类别之间的关系；

将信息熵小于预设信息熵的词条删除，得到结构化文本；

计算所述结构化文本中的文本词条特征总数，将所述文本词条特征总数作为神经网络模型的输入神经元个数，根据所述输入神经元个数确定所述神经网络模型的输出神经元个数和隐藏神经元个数；

根据所述输入神经元个数、所述输出神经元个数和所述隐藏神经元个数随机生成所述神经网络模型的初始权值；

基于所述神经网络模型对所述结构化文本进行情感分析，得到输出值，根据所述输出值确定所述结构化文本的情感类型，所述情感类型包括消极舆情或积极舆情。

一种可能的设计中，所述根据所述类别总数和每个词条在所述训练文本中出现的概率分别计算每个词条的词条特征向量，包括：

根据下述计算公式计算每个词条的词条特征向量：

Pi＝Ci/Max(i＝1,2,3,...,n)

N1+N2+...+Nn＝Max

其中，Ci表示第i个词条，Nn为第n个词条在文中出现的次数，Pi作为词条i的特征向量。

一种可能的设计中，所述方法还包括：

根据当前公众人社建立一个积极词条库和一个消极词条库；

计算每个词条Ci是否属于所述积极词条库和所述消极词条库，最终得到第一Ci词条和第二Ci词条，所述第一词条是指所述积极词条库中的积极词条，所述第二Ci词条是指所述消极词条库中的消极词条。

分别从所述第一词条和所述第二词条中选取非空的词条特征向量，以及选取所述第一词条和所述第二词条中概率Pi排序在预设阈值前的词条特征向量作为最终的特征向量；

若所述第一词条和所述第二词条中非空的词条特征向量值少于所述预设阈值，则选择Pi中概率最高的特征向量作为进行补充到缺少的项，以得到最终的特征向量。

一种可能的设计中，所述神经网络模型包括一组神经元突触、求和单元和非线性激活函数；其中，神经元突触的连接强度由各连接上的权值；所述非线性激活函数用于对输入所述神经网络模型的电子政务服务数据进行非线性映射，以及并将神经元的输出幅度限制在预设范围内；

所述基于所述神经网络模型对所述结构化文本进行情感分析，得到输出值，根据所述输出值确定所述结构化文本的情感类型，所述情感类型包括消极舆情或积极舆情，包括：

根据以下计算公式得到所述输出值，以及根据所述输出值确定所述结构化文本的情感类型，所述情感类型包括消极舆情或积极舆情：

v_k＝net_k＝u_k-θ_k

其中，x₁，x₂，…，x_n为输入信号，w_k1，w_k2，…，w_kp为神经元k的权值，u_k为线性组合权值，θ_k为阈值，

为非线性激活函数，y_k为神经元k的实际输出值：

若将输入的维数增加一维，则将阈值θ_k包括进去，则在所述神经网络模型中增加一个新连接u_k：

其中，u_k的输入为x₀＝-1，权值为w_k0＝θ_k(或b_k)，φ(v)∈(1，1)，当φ(v)＜0时，所述输出值为0，当φ(v)≥0时，所述输出值为1。

第二方面，本申请提供一种基于神经网络监控网络舆情的装置，具有实现对应于上述第一方面提供的基于神经网络监控网络舆情的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

一种可能的设计中，所述装置包括：

输入输出模块，用于获取预设时长内的训练文本，所述训练文本是指与网络舆情相关联的文本；

处理模块，用于对所述训练文本进行结巴分词处理，删除所述训练文本中的停用词，得到多个词条；确定所述多个词条所属的类别总数，根据所述类别总数和每个词条在所述训练文本中出现的概率分别计算每个词条的词条特征向量；根据每个词条的词条特征向量分别计算各词条的信息熵，词条的信息熵表示词条类别之间的关系；将信息熵小于预设信息熵的词条删除，得到结构化文本；计算所述结构化文本中的文本词条特征总数，将所述文本词条特征总数作为神经网络模型的输入神经元个数，根据所述输入神经元个数确定所述神经网络模型的输出神经元个数和隐藏神经元个数；根据所述输入神经元个数、所述输出神经元个数和所述隐藏神经元个数随机生成所述神经网络模型的初始权值；基于所述神经网络模型对所述结构化文本进行情感分析，得到输出值，根据所述输入输出模块输出的所述输出值确定所述结构化文本反映的是消极舆情还是积极舆情。

一种可能的设计中，所述处理模块具体用于：

根据下述计算公式计算每个词条的词条特征向量：

Pi＝Ci/Max(i＝1,2,3,...,n)

N1+N2+...+Nn＝Max

一种可能的设计中，所述处理模块还用于：

根据当前公众人社建立一个积极词条库和一个消极词条库；

一种可能的设计中，所述处理模块具体用于：

所述处理模块具体用于：

v_k＝net_k＝u_k-θ_k

为非线性激活函数，y_k为神经元k的实际输出值：

本申请又一方面提供了一种计算机设备，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。

本申请又一方面提供了一种计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

相较于现有技术，本申请提供的方案中，对预设时长内的训练文本进行结巴分词处理，删除停用词，得到多个词条；确定多个词条所属的类别总数，根据类别总数和每个词条在训练文本中出现的概率分别计算每个词条的词条特征向量；根据词条特征向量分别计算各词条的信息熵；删除信息熵小于预设信息熵的词条，得到结构化文本；计算结构化文本中的文本词条特征总数，将文本词条特征总数作为神经网络模型的输入神经元个数，根据输入神经元个数确定神经网络模型的输出神经元个数和隐藏神经元个数；随机生成神经网络模型的初始权值；基于神经网络模型对结构化文本进行情感分析，得到输出值，根据输出值确定结构化文本的情感类型。采用本方案，能够准确的分析出网络舆情的情感类型，及时追踪舆情传播源头并跟踪舆情变化趋势，全面掌握舆情事件起因发展。

附图说明

图1为本申请实施例中基于神经网络监控网络舆情的方法的一种流程示意图；

图2为本申请实施例中神经网络模型的一种结构示意图；

图3为本申请实施例神经元的一种模型示意图；

图4为本申请实施例XX示意图；

图5为本申请实施例中基于神经网络监控网络舆情的装置的一种结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个***中，或一些特征可以忽略，或不执行。

本申请提供一种基于神经网络监控网络舆情的方法、装置及存储介质。

为解决上述技术问题，本申请主要提供以下技术方案：

通过结巴分词方法将中文进行分析分词，将文章分解成一个一个的词条；再删除文中不用停用词，简化词条，计算每个词条的特征向量，删除信息信息量少的词条，获取结构花的文档，再通过神经网络区别文章是否是积极和消极。

参照图1，以下介绍本申请实施例中的一种基于神经网络监控网络舆情的方法，所述方法包括：

101、获取预设时长内的训练文本。

所述训练文本是指与网络舆情相关联的文本；

102、对所述训练文本进行结巴分词处理，删除所述训练文本中的停用词，得到多个词条；

例如，可通过调用jieba算法可以将文章分解成一个一个的词条。

又例如，在一篇文章中会出现大量的词语，其中有一些停用词，例如文章中出现的助词：‘的’，‘呢’，‘吧’，代词：‘它’，‘你’，‘她’还有量词‘只’，‘个’，次以及一些感叹词及副词等，这些词语基本上对于文章没有什么意义，在处理文章时，一般会建立一个停用词表，并把这些词语在处理文章的过程中丢弃掉。国内有很多公开的停用词表，如哈工大的停用词表。当文本经过结巴分词处理后，对照哈工大的停用词表，将文本词条中停用词全部删掉。

103、确定所述多个词条所属的类别总数，根据所述类别总数和每个词条在所述训练文本中出现的概率分别计算每个词条的词条特征向量；

可选的，在本申请的一些实施例中，所述根据所述类别总数和每个词条在所述训练文本中出现的概率分别计算每个词条的词条特征向量，包括：

根据下述计算公式计算每个词条的词条特征向量：

Pi＝Ci/Max(i＝1,2,3,...,n)

N1+N2+...+Nn＝Max

104、根据每个词条的词条特征向量分别计算各词条的信息熵；

其中，词条的信息熵表示词条类别之间的关系。

105、将信息熵小于预设信息熵的词条删除，得到结构化文本；

106、计算所述结构化文本中的文本词条特征总数，将所述文本词条特征总数作为神经网络模型的输入神经元个数，根据所述输入神经元个数确定所述神经网络模型的输出神经元个数和隐藏神经元个数；

举例来说，由于最终分析得到的情感类型是用于区分文本是积极舆情还是消极舆情，所以，设置神经网络的输出神经元个数为1，相应的，隐藏神经元个数根据

则可以设置为4。

107、根据所述输入神经元个数、所述输出神经元个数和所述隐藏神经元个数随机生成所述神经网络模型的初始权值；

当神经网络结构确认后，通过随机生成的(-1,1)范围内的值，作为神经网络的初始权值。

108、基于所述神经网络模型对所述结构化文本进行情感分析，得到输出值，根据所述输出值确定所述结构化文本的情感类型，所述情感类型包括消极舆情或积极舆情。

可选的，在本申请的一些实施例中，所述方法还包括：

根据当前公众人社建立一个积极词条库和一个消极词条库；

例如，根据当前公众人社建立一个积极词条库jiji和一个消极词条库xiaoji，计算每个词条Ci是否属于积极词条库jiji和一个消极词条库xiaoji得到jiCi和xiaoCi。

首先选取jiCi和xiaoCi中非空的词条特征向量，再选取jiCi和xiaoCi这些词条里面概率Pi在Top20的词条特征向量作为最终的特种向量。若jiCi和xiaoCi中非空的词条特征向量值少于20，缺少的项选择Pi里面概率值最高的特种向量进行补充。从而获得最终的特征向量(20这个值可以根据实际情况进行调整)。

可见，通过将不重要的词条特征向量删除，能够为提高本文的识别率。

可选的，在本申请的一些实施例中，如图2所示的神经网络模型，以及如图3所示的神经元模型。所述神经网络模型包括一组神经元突触、求和单元和非线性激活函数；其中，神经元突触的连接强度由各连接上的权值；所述非线性激活函数用于对输入所述神经网络模型的电子政务服务数据进行非线性映射，以及并将神经元的输出幅度限制在预设范围内；

v_k＝net_k＝u_k-θ_k

为非线性激活函数，y_k为神经元k的实际输出值：

为便于理解，下面以训练文本是京东购物平台的某个商品的评论为例对本申请中的基于神经网络监控网络舆情的方法进行举例说明。如图5所示，

分别选取京东购物评论里面的1000个好评和差评的评价作为神经网络学习的文本。当上述文本经过结巴分词、停用词删除、生成词条特征向量和精简特征向量获取最终的神经网络的学习的特征向量。分别将1000个好评和差评特征向量依次输入神经网络，其中好评的期望输出值为大于等于0，差评的期望输出值为小于0，通过神经网络学习2000代或者正确识别率得到99％即停止学习，最终的学习后的神经网络，即可用于识别的神经网络。基于该神经网络对1000个好评和差评特征向量分别进行情感分析，得出每个评论对应的输出值，当最终输出值为大于等于0则为积极评论，当输出值小于0时，则为消极评论。

上述图1至图4中任一所对应的实施例或实施方式中所提及的技术特征也同样适用于本申请中的图5所对应的实施例，后续类似之处不再赘述。

以上对本申请中一种基于神经网络监控网络舆情的方法进行说明，以下对执行上述基于神经网络监控网络舆情的装置进行描述。

如图5所示的一种基于神经网络监控网络舆情的装置50的结构示意图，其可应用于分析网络舆情。本申请实施例中的装置50能够实现对应于上述图1所对应的实施例中所执行的基于神经网络监控网络舆情的方法的步骤。装置50实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述装置50可包括输入输出模块和处理模块，所述处理模块和所述输入输出模块的功能实现可参考图1至图4中任一项所对应的实施例中所执行的操作，此处不作赘述。所述处理模块可用于控制所述输入输出模块的获取、输入输出操作。

一些实施方式中，所述装置包括：

一些实施方式中，所述处理模块具体用于：

根据下述计算公式计算每个词条的词条特征向量：

Pi＝Ci/Max(i＝1,2,3,...,n)

N1+N2+...+Nn＝Max

一些实施方式中，所述处理模块还用于：

根据当前公众人社建立一个积极词条库和一个消极词条库；

一些实施方式中，所述处理模块具体用于：

一些实施方式中，所述神经网络模型包括一组神经元突触、求和单元和非线性激活函数；其中，神经元突触的连接强度由各连接上的权值；所述非线性激活函数用于对输入所述神经网络模型的电子政务服务数据进行非线性映射，以及并将神经元的输出幅度限制在预设范围内；

所述处理模块具体用于：

v_k＝net_k＝u_k-θ_k

为非线性激活函数，y_k为神经元k的实际输出值：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本申请的保护之内。

Claims

1.一种基于神经网络监控网络舆情的方法，其特征在于，所述方法包括：

将信息熵小于预设信息熵的词条删除，得到结构化文本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述类别总数和每个词条在所述训练文本中出现的概率分别计算每个词条的词条特征向量，包括：

根据下述计算公式计算每个词条的词条特征向量：

Pi＝Ci/Max(i＝1,2,3,...,n)

N1+N2+...+Nn＝Max

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据当前公众人社建立一个积极词条库和一个消极词条库；

4.根据权利要求3所述的方法，其特征在于，所述根据所述类别总数和每个词条在所述训练文本中出现的概率分别计算每个词条的词条特征向量，包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述神经网络模型包括一组神经元突触、求和单元和非线性激活函数；其中，神经元突触的连接强度由各连接上的权值；所述非线性激活函数用于对输入所述神经网络模型的电子政务服务数据进行非线性映射，以及并将神经元的输出幅度限制在预设范围内；

v_k＝net_k＝u_k-θ_k

其中，x₁，x₂，…，x_n为输入信号，w_k1，w_k2，…，w_kp为神经元k的权值，u_k为线性组合权值，θ_k为阈值，为非线性激活函数，y_k为神经元k的实际输出值：

6.一种基于神经网络监控网络舆情的装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述处理模块具体用于：

根据下述计算公式计算每个词条的词条特征向量：

Pi＝Ci/Max(i＝1,2,3,...,n)

N1+N2+...+Nn＝Max

8.根据权利要求7所述的装置，其特征在于，所述处理模块还用于：

根据当前公众人社建立一个积极词条库和一个消极词条库；

9.根据权利要求8所述的装置，其特征在于，所述处理模块具体用于：

10.一种计算机存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5中任一项所述的方法。