CN108959479B

CN108959479B - 一种基于文本相似度的事件情感分类方法

Info

Publication number: CN108959479B
Application number: CN201810642911.2A
Authority: CN
Inventors: 辛如意
Original assignee: Hangzhou Shufeng Technology Co ltd; Chengdu Ruima Technology Co ltd
Current assignee: Hangzhou Shufeng Technology Co ltd; Chengdu Ruima Technology Co ltd
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2022-03-25
Anticipated expiration: 2038-06-21
Also published as: CN108959479A

Abstract

本发明公开一种基于文本相似度的事件情感分类方法，包括以下操作步骤：S000、设整个待处理事件的情感值为S；S001、选取并生成单文本情感分类模型；S002、根据余弦相似度将文本聚类；S003、设置事件的分割参数；S004、针对每一个事件类event，按照声量值分类选择文本判断分析；S005、将事件类中所有文本向量进行均值运算，生成该类的均值向量，将均值向量输入到应用模型model中，输出均值向量情感值p_avg；S006、事件内部存在情感倾向的文本，计算其情感值；S007、利用情感分类模型对事件情感值进行计算；S008、判断事件情感分类。本技术方案可针对大量文本进行监测分析，且减少人工参数，快速判断出事件的情感分类，从而达到对舆情进行监测的目的。

Description

一种基于文本相似度的事件情感分类方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于文本相似度的事件情感分类方法。

背景技术

伴随着计算机的日益普及和互联网的迅速发展，网络已成为许多领域的用户发表和反馈个人观点、评论的主要途径。这些共享的评论信息不仅为用户提供了产品使用体验交流的平台，也可以作为其他用户使用产品前的借鉴。但是，网络中的这些评论信息量非常大，如果对每一条评论信息都人工阅读分析评论好坏，会浪费用户大量的时间。因此，如何让用户在短时间内就能够客观的了解某个产品的评论信息所反映出的总体评价好坏情况，即对网络中的评论文本进行情感分析分类，是非常必要的。

文本情感分析，就是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分类是利用底层情绪信息抽取的结果将情感文本分为了若干类别，例如分为褒贬两类。而目前针对情感分析的技术是基于单个文本的，所有模型都是预测单个文本的情感倾向，如正向、负向或中性。面对海量的数据，人工是很难保证所有的热点都被监测到，且人工监测时监测工作量大，很难开展对单独的某部分文本进行监测。

基于此，提供一种基于文本相似度的事件情感分类方法。

发明内容

本发明所要解决上述技术问题之一：人工在处理海量数据时，处理量大，很难保证将所有热点都监测到，存在监测量大的问题，本技术方案提供一种基于文本相似度的事件情感分析方法，本方法首先计算出事件event情感值，获得单个文本情感分类模型，然后根据余弦相似度、文本情感倾向等判断事件情感分类，从而分析出情感的种类。

本发明通过下述技术方案实现：

一种基于文本相似度的事件情感分析方法，包括以下操作步骤，

S000、设整个待处理事件的情感值为S，设情感分界值分别为S1、S2；

S001、选取并生成单文本情感分类模型model，情感类别为正面、中立、负面；

S002、根据余弦相似度将文本聚类，聚合成不同的事件类；

S003、设置事件的分割参数limit-num，用来控制事件中的文本切割参数；

S004、针对每一个事件类event，按照声量值选择文本，然后判断分析；

S005、将事件类中所有文本向量进行均值运算，生成该类的均值向量，将均值向量输入到应用模型model中，输出均值向量情感值p_avg；

S006、事件内部存在情感倾向的文本，计算情感值；

S007、利用情感分类模型对事件情感值进行计算(综合w1,w2)，其中，w1+w2＝1；

S008、判断事件情感分类s＝p(event)，若s≥s2，则事件为正向；若s1<s<s2，则事件为中立；若s≤s1，则事件为负向。

这里用S表示事件event情感分类，s1、S2表示情感分界值，通过比较S与s1、S2的差值大小来确定该事件情感属于正面、负面、中性中的哪一种。

进一步地，为了更好的实现本发明，所述步骤S004中进行判断分析所针对的文本为根据声量筛选出的文本，筛选事件声量的具体方法为，设置事件为A，事件中的文本数量表示为L(A)，当L(A)＞limit_num，取声量大于top-θ的文本作为本事件的分类依据；若L(A)＜limit_num，取事件中全部数据作为分类依据，其中，θ可取值为80％，另外这里的θ取值，主要依据事件文本中按照何种方式进行分类而进行取值。

进一步地，为了更好的实现本发明，所述步骤S006)中，计算情感值的方法为归一化法。

进一步地，为了更好的实现本发明，采用归一化法计算情感值的具体操作方法为：

S006.1)计算出事件的总声量

其中，n为事件类的文档实例数目，vol_k代表第k个文档的声量；

S006.2)将每篇文章的情感值p_k根据其声量比例做加权求和运算，公式如下：

关于步骤s006.1)中，n表示事件类中的文档实例数目，如这里的n＝length(A)＝1000。

进一步地，为了更好的实现本发明，所述步骤s007中用情感分类模型对事件情感值进行计算的方法为：采用分类准确率训练得到，其中W1+W2＝1，

p(event)＝w1*p(α)+w2*p(β)，其中p(β)＝p_avg。

进一步地，为了更好的实现本发明，所述步骤s008中，判断事件情感分类方法，若s>＝s2，则事件为正向；若s1<s<s2，则事件为中立；若s<＝s1，则事件为负向。

本技术方案所述方法中，假设事件event单文本的情感值生成模型F，事件的文本向量集为X，每个文本的向量表示为X_k，k＝1，2，…,n。事件event的情感值可分两部分求得，分别是p(α)和p(β)，其中，α部分由声量计算得到，β部分由事件event中所有文本的情感值的均值向量计算得到，则：

事件的总声量为：

通过单文本情感值生成模型F，计算每篇文章的情感值p_k，p_k＝F(X_k)

事件event的情感值由_p(α)和_p(β)两部分构成，分别计算由_p(α)和_p(β)：

根据上述计算出的_p(α)、_p(β)，进一步计算P(event)：

p(eVent)＝M*p(α)+W2*p(β)

注：

w1，w2：w1+w2＝1，分别代表是两个权重因子；

vol_k：代表event中第k个文本的声量；

total_vol：代表event的总声量；

针对w1，w2，我们可以合理地改变两部分情感值的配比，w1，w2的变化综合考虑了事件情感的声量和它所包含的文本向量本身，监测者可根据是否看中声量的影响，抑或是文本向量本身的情感值来做决策，这样根据不同的需求，配置更加灵活以适应具体的文本内容。

本技术方案所述的基于文本相似度的事件情感分类方法，主要适用于网络舆情监测的事件情感倾向分析。

本发明具有如下的优点和有益效果：

本技术方案提供了一种基于文本相似度的事件情感分类方法，可对大量的数据进行筛选，筛选出其中某个事件的倾向及其蔓延趋势，相对于现有技术中对单个文本进行情感分析的方法，本技术方案可针对大量文本进行监测分析，且减少人工参数，快速判断出事件的情感分类，从而达到对舆情进行监测的目的。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例中涉及到的符号说明，R表示文本，vol表示音量，M表示向量化模型，F表示情感生成模型，设置计算事件event中计算两个权重因子的数值为，W1＝0.6，W1＝0.4。

实施例1：

一种基于文本相似度的事件情感分类方法，包括以下操作步骤，

S001，用文本相似度聚类算法将文本集聚类成事件A，对事件A中所有文本进行分析，即θ为100％；这里关于θ的取值还可以为其他值，主要针对进行分析的文本进行确定；

事件A中存在三条记录，分别是：

R1：中华儿女的民族复兴梦vol1：10000；

R2:中华名族的伟大复兴vol2：2000；

R3：作为有梦想的中华儿女，我们义无反顾前行vol3：1000；

S002，利用训练后的向量模型M将事件A中文本生成各自300维的向量v1，V2，V3，

v1＝M(r1)＝[0.11,0.04,-0.12,…,-0.11,-0.03]

v2＝M(r2)＝[-0.05,-0.18,-0.15,…,-0.05,0.21]

v3＝M(r3)＝[-0.18,0.22,-0.18,…,-0.08,0.02]

S003，根据v1，v2，v3，求出平均向量：

v_avg＝(v1+v2+v3)/3

＝[-0.04,0.03,-0.15,…,-0.10,0.07]

S004，利用单文本情感模型F，分别计算单个文本的情感值：

p_r1＝F(v1)＝0.87

p_r2＝F(v2)＝0.97

p_r3＝F(v3)＝0.99

将均值向量输入到应用模型mdel中，输出均值向量情感p_avg，p_avg＝F(v_avg)＝0.94；

计算出事件总声量total_vol＝vol1+vol2+vol3；

005：计算事件情感值：

p(A)＝p(α)+p(β)

＝w1*(p_r1*vol1+p_r2*vol2+p_r3*vol3)/total_vol+w2*p_avg

＝0.6*(0.87*10000+0.97*2000+0.99*1000)/(10000+2000+1000)+0.4*0.94＝0.92

006：做出情感效果判别：

if p(A)<＝0.33，则负向；

elif p(A)<＝0.66，则中性；

else p(A)<＝1，则正向；

因为p(A)＝0.92，所以判断整个事件A的情感倾向为正向。

本实施例处理过程中，是基于大量文本进行处理，而现有技术中是针对单个文本，所有的模型也是预测单个文本进行预测情感倾向，而本实施例中针对13000条的数据记录进行分析，人工是很难保证所有热点都被观测到，更多情况下，我们在处理过程中，不仅仅关注单个文本的热度，还需要从海量数据中，筛选出某个事件的倾向及其蔓延趋势，而采取上述方式，只需要提取出当前事件的舆论倾向即可，然后继续沿着所关注的事件进一步监测单个文本。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本相似度的事件情感分类方法，其特征在于，包括以下操作步骤：

S000、设整个待处理事件的情感值为s ，设情感分界值分别为s1 、s2 ；

S002、根据余弦相似度将文本聚类，聚合成不同的事件类；

S005、将事件类中所有文本向量进行均值运算，生成该类的均值向量，将均值向量输入到单文本情感分类模型model中，输出均值向量情感值p_avg；

S006、事件内部存在情感倾向的文本，计算情感值；

S007、利用单文本情感分类模型对事件情感值进行计算；

S008、判断事件情感分类s＝p(event)，若s≥s2，则事件为正向；若s1<s<s2，则事件为中立；若s≤s1，则事件为负向；

所述步骤S006中，计算情感值的方法为归一化法；

采用归一化法计算情感值的具体操作方法为：

S006.1)计算出事件的总声量

公式中，n为事件类的文档数目，vol_k代表第k个文档的声量；

S006.2)将每篇文章的情感值p_k与根据声量比例做加权求和运算，公式如下：

所述步骤s007中用单文本情感分类模型对事件情感值进行计算的方法为：采用分类准确率训练得到，其中w1+w2＝1，

p(event)＝w1*p(α)+w2*p(β)，其中，p(β)＝p_avg，w1为p(α)的权重因子，w2为p(β)的权重因子。

2.根据权利要求1所述的一种基于文本相似度的事件情感分类方法，其特征在于，所述步骤S004中判断分析所针对的文本为根据声量筛选出的文本，筛选声量的具体方法为，设置事件为A，事件中的文本数量表示为L(A)，当L (A)＞limit_num，取声量大于top-θ的文本作为本事件的分类依据；若L(A)＜limit_num，取事件中全部数据作为分类依据。