CN104965822A

CN104965822A - 一种基于计算机信息处理技术的中文文本情感分析方法

Info

Publication number: CN104965822A
Application number: CN201510452024.5A
Authority: CN
Inventors: 高琰; 晁绪耀
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2015-07-29
Filing date: 2015-07-29
Publication date: 2015-10-07
Anticipated expiration: 2035-07-29
Also published as: CN104965822B

Abstract

本发明公开了一种基于计算机信息处理技术的中文文本情感分析方法，将中文产品评论进行分词，利用词袋模型,产生产品评论的向量表示。每个评论的向量输入到深度学习中的受限玻尔兹曼机(RBM)的可视单元。通过这种RBM提取中文文本的情感特征，并将提取出来的情感特征输入到SVM进行文本情感分类。本发明可以提高特征的情感语义关联性，同时SVM可以提高中文产品评论情感分类的准确度。

Description

一种基于计算机信息处理技术的中文文本情感分析方法

技术领域

本发明涉及自然语言处理技术，特别是一种基于计算机信息处理技术的中文文本情感分析方法。

背景技术

随着互联网和电子商务的飞速发展，人们越来越喜欢在网上购物并在网上发表自己对某产品的意见和看法。情感分析是人工智能方面的一个热门的研究领域，它的目标是使计算机从用户产生的主观性文本中提取出作者对评价对象的情感倾向性，即正向或负向。正向是指用户对这一产品的喜爱，他们对这个产品持有褒扬和肯定的态度；负向是指由于某一产品存在某种缺陷或者不满的地方，用户对该产品持有消极的态度。

目前，对于网络商品评论情感分析的主要方法有基于情感知识的方法和基于机器学习的方法上。

基于情感知识的方法主要依靠一些已有的情感词典和语言知识，来对文本的情感倾向进行分类。如:Polanyi等人专注于对极性单词和相关的非元件内容词构建几个情感词典和情感规则；Velikovich等人展示了如何用一个种子词典和生成图框架学习一个大的情感词典进而对文本进行情感分析等。Lee等人通过比较正向词汇与负向词汇的个数判别文本的情感倾向性，即个数较多的哪一方作为整个文本的情感倾向。情感词典主要依赖于专家的制定,不能反映其的全面性。

基于机器学习的方法包括有监督和无监督学习。Turney等人提出了一种运用无监督学习对文档级文本进行情感分析的方法；唐慧丰等人运用n-gram模型，提取名词、动词、副词、形容词等作为文本的特征，又分别运用KNN、贝叶斯和SVM分类器对文本进行分类，同时在不同的规模以及不同的特征数量上进行训练，从而识别出文本的情感倾向性分析；孙艳等人提出了一种无监督的主题情感混合模型，此模型在不对文本进行标注的基础上，采集每个句子的情感标签和主题标签，从而得到此文本的情感词，进而实现对文档级的情感进行分类。但中文文本的产品评论，面向多语义、多规则的中文，用机器学习对它们进行情感自动分析时由于选择或提取的特征不恰当，往往导致准确性不高。

在基于机器学习的情感分析中，特征提取是决定分析效果的重要因素。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。RBM做为深度学习的一种算法，具有深度学习逐层学习，获得数据结构信息的特性，因此可以用于抽取表示情感极性的特征。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种基于计算机信息处理技术的中文文本情感分析方法。

为解决上述技术问题，本发明所采用的技术方案是：一种基于计算机信息处理技术的中文文本情感分析方法，包括以下步骤：

1)输入中文产品评论文本集，用结巴分词中的精确模式进行中文分词，并确定词性，根据词性进行过滤，保留词性为名词、形容词、副词和连词的词汇，通过中文分词获得已分词后的语料集，对通过中文分词切分成词语的文本进行计算，得到每个词语在每条评论的权值，产生评论向量；

2)采用受限玻尔兹曼机对上述评论向量进行特征选择；所述受限玻尔兹曼机由可见层V和隐藏层H构成，层中节点神经元是二元随机数，可见层的节点相互独立，隐藏层节点间相互独立；可见层节点与隐藏层节点之间的连接权值为W；上述步骤1)产生的评论向量输入可见单元层；

3)受限玻尔兹曼机通过对比散度方法进行训练，初始化受限玻尔兹曼机的相关参数，迭代100次后，得到隐藏层节点h_i＝1在可视层v下的条件概率p(h_i＝1/v)和可视层节点v_i＝1在隐藏层h下的条件概率p(v_i＝1/h)；其中，

p (h_{j} = 1 | v) = σ (b_{j} + \underset{i}{Σ} v_{i} w_{i j}); p (v_{i} = 1 | h) = σ (a_{i} + \underset{i}{Σ} h_{j} w_{i j});

函数偏置量a_i和b_j初始值均为0；w_ij为可见层的节点i与隐藏层的节点j间的连接权重值，w_ij服从均值为0，标准差为1的正态分布；

4)根据隐藏层对可视层节点v_i进行重构；如果v_i的重构值小于或等于0.01,则认为可见节点v_i不能表示高层结构，舍弃v_i对应的词语；如果v_i的重构值大于0.01，则将v_i的重构值与和输入值相减得到差异值；将每篇评论的最大情感特征数设为30，将差异值进行从小到大排列，前30个词v_i的差异值比后面的词小，说明v_i经过重构后没有发生变化，然后找出v_i对应的中文词，并把这个词作为特征词；后面的词相对前面30个词对应的差值大，说明v_i经过重构后结果发生很大的变化，则将v_i对应作为非特征词；如果在某评论中，重构值大于0.01的可视节点的数量小于30，则这些可见节点对应的词都全部保留做为特征词；保留的特征词共同构成每个评论的向量空间；

5)将经步骤4)处理后新产生的评论向量输入到支持向量机中进行分类，获得每个评论向量的情感类别；所述情感类别为正向或负向。

所述步骤1)中，评论向量的产生过程为：采用自然语言处理中的词袋模型，如果某个词语在某条评论中出现的话，该词在评论向量中对应权重值就设为1，否则值设为0，评论向量的长度为提取词的词典的大小。

可见层的节点数为476，隐藏层的节点数为50。

与现有技术相比，本发明所具有的有益效果为：本发明采用深度学习算法RBM对中文产品评论的原始特征信息进行高层抽象，根据高层信息重构原始特征信息，并根据重构值进行特征选择，获得更能表达高层结构信息的特征词。这种方法能够提取更能表现产品评论情感本质的特点；RBM进行特征提取能够得到的新特征是原特征的组合，而采用RBM进行特征选择是根据重构的评论与原评论进行比较，选择该评论的特证词。与特征提取相比，选择出来的特征具有更直观性；在中文产品评论原始特征通过RBM进行特征选择，然后将由特征词产生的评论向量输入到SVM中，进行情感分类。实验结果表明，该方法具有很高的精度。

附图说明

图1为RBM-SVM算法流程图；

图2为bag-of-words文本向量表示图；

图3为RBM重构后的词空间；

图4为某条评论信息特征选择降维前后对比。

具体实施方式

本发明的具体实现过程如下：

步骤1：从数据堂中提取电子产品相关的中文评论语料库中的1706篇评论文本，其中有853条正向评论，853条负向评论。

步骤2：对这1706篇评论文本用结巴分词中的精确模式进行中文分词，判断词性。去除停用词，同时定义词性过滤规则。定义词性过滤规则就是：

a.建立表现情感的倾向性的词性集合：{名词、形容词、副词和连词}，

b.判断评论中的每个词的词性，某词的该词性不在词性集合，则删除该词，否则保留该词。

步骤3：采用自然语言处理中的词袋模型，如果这个词在这条评论中出现的话，就设为 1，否则设为0，以此作为文本的词向量表示。向量的长度为提取的词的词典的大小。如：有两条评论d1，d2，经过对这两条评论进行处理，提取它们中的名词、形容词、副词、连词等，分别标记为w1,w2,w3,w4,w5。则用词袋法模型表示的词向量如下：

步骤4：建立二层受限玻尔兹曼机(RBM)，可见层的节点数为476，隐藏层的节点数为50。可见层内的各个可见单元相互独立。可见层的节点i与隐藏层的节点j间存在连接，连接权重值为W_ji。受限波尔兹曼机在可视层与隐藏层之间有一个联合组态的能量，可表示为：

E (v, h; θ) = - \underset{i j}{Σ} w_{j i} v_{i} h_{j} - \underset{i}{Σ} b_{i} v_{i} - \underset{j}{Σ} a_{j} h_{j}

其中i为可视层单元的节点的个数，j为隐藏层单元节点的个数，θ＝{w_ij,a_i,b_j}为模型参数，w_ij为可见层的节点i与隐藏层的节点j间的连接权重值，a_i和b_i分别为可见层和隐藏层的偏置量。他们的联合概率分布为：

\begin{matrix} p_{θ} (v, h) = \frac{1}{z (θ)} \exp (- E (v, h; θ)) \\ = \frac{1}{z (θ)} \underset{i j}{Π} e^{w_{i j} v_{i} h_{j}} \underset{i}{Π} e^{b_{i} v_{i}} \underset{j}{Π} e^{a_{j} h_{j}} \end{matrix}

其中联合概率是为了求得隐藏层和可视层的样本概率。

由于在RBM中，隐藏层单元间没有直接的连接，即隐藏层节点之间是条件独立的，即则很容易得到一个数据分布的无偏样本的数据期望。给定一个随机选定的可视层v，隐藏层单元h_j的二进制状态为1的概率为：

p (h_{j} = 1 | v) = σ (b_{j} + \underset{i}{Σ} v_{i} w_{i j}) - - - (3 - 3)

其中函数

σ (x) = \frac{1}{1 + \exp (- x)} - - - (3 - 4)

此时v_i,h_j是一个无偏样本，这个函数和神经网络中的函数一样，是一个条件贝努利分布。由于可见层单元间也没有直接的连接，则很容易得到可见单元的样本，在给定可视层单元的二进制状态为1的概率为：

p (v_{i} = 1 | h) = σ (a_{i} + \underset{i}{Σ} h_{j} w_{i j})

步骤5：将切分的中文评论输入到RBM中，词典中的每个词对应可见层的一个节点。采用RBM进行无监督学习。

步骤6：RBM通过一种叫做对比散度(Contrastive Divergence,CD)的方法快速地无监督的训练.RBM中的对比散度(Contrastive Divergence,CD)进行了k步Gibbs抽样，即采用k-CDgibbs进行学习。k-CDgibbs算法中都是用一个训练样本或可视节点的一个随机初始状态，初始化可视节点的状态v⁰，交替进行下面的抽样，其中P(h|v₀)为h₀的采样概率，其中P(v|h₀)为v₁的采样概率，其余类似。

h₀～p(h|v₀),v₁～p(v|h₀) (3-13)

h₁～p(h|v₁),v₂～p(v|h₁) (3-14)

......,v_k+1～p(v|h_k) (3-15)

假设S为训练集，(v₁，……,v_m,h₁,……h_n)分别为RBM的可视节点和隐藏节点。K-CD Gibbs具体实现流程如下，流程中的参数说明如下：Δw_ij为W_ij权重的增量，Δa_j＝为偏置量a_j的增量，Δb_i为偏置量b_i的增量

步骤7：初始化受限玻尔兹曼机(RBM)的参数：针对步骤4，RBM中的权值W是服从均值为0，标准差为1的正态分布；偏置量a_j和b_j初始值分别都为0。学习率为0.01

步骤8:迭代次数设为100,CD-k gibbs算法最后得到可见节点i与隐藏节点j间的权值W_ij,，偏置量a_j和b_i的最终值。并且参照步骤4中列出的公式计算p(v_i＝1|h)

步骤9：对每个评论的词空间根据p(v_i＝1|h)进行重构。如果将v_i的重构值小于等于0.01,则认为可见节点v_i不能表示高层结构，舍弃v_i对应的词语。如果v_i的重构值大于0.01，则将v_i的重构值与和输入值相减得到差异值。如果对应的差值较小，说明这个词经过重构后没有发生变化，然后找出它所对应的中文词是什么，然后就可以把这个词作为特征表示；相反，如果对应的差值较大，说明这个词经过重构后结果发生很大的变化，这样这个词就不能作为该评论的特征表示。因此，我们根据这个原理，将差异值进行从小到大排列，选择前30个做为特征词。如果在某评论中，重构值大于0.01的可视节点的数量小于30，则这些可见节点对应的词都全部保留做为特征词。通过特征选择对评论的词向量空间进行了降维。

步骤10:对Gibbs抽样次数K我们通过实验进行选择。实验中，将1706篇评论文本按训练集和测试集按3:1随机挑选。我们将RBM的隐藏层的节点设为2,用0,1表示，其中0表示此时判断的产品评论情感为负向即表示用户对该产品持消极的态度，1表示此时判断的产品评论情感为正向即表示用户对该产品持积极的态度，将RBM做为聚类,输出评论的情感类别.分别设置K＝5,10,15,20,25。随着K的改变，RBM对产品评论的不同识别结果，用准确率、召回率和F均值3个指标衡量。

表1 RBM对产品评论的不同识别结果

实验结果表明K＝10时，F均值最高，表明综合性能最好，因此K设为10。

步骤11：我们将经过降维的评论输入到支持向量机(SVM)中，进行情感分类。SVM特征空间上的间隔最大的线性分类器，其学习策略是使间隔最大化，最终转化为一个凸二次规划问题的求解。下面是SVM的目标函数:

\max W (α) = Σ_{i = 1}^{N} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{N} α_{i} α_{j} y_{i} y_{j} K (x_{i}, x_{j})

s . t . Σ_{i = 1}^{N} α_{i} y_{i} = 0; C &GreaterEqual; α > > 0, i = 1, ... .

求该目标函数,得到:

根据

α^{*} = (α_{1}^{*}, ... ... α_{1}^{*}),

计算

w^{*} = Σ_{i = 1}^{l} y_{i} α_{i}^{*} x_{i},

选择α^*的一个分量满足

0 < α_{j}^{*} < C,

并据此计算出

b^{*} = y_{j} - Σ_{i = 1}^{l} y_{i} α_{i}^{*} K (x_{i}, x_{j})

其中，α＝{α₁……α_N}；K(x_i,x_j)为中文评论x_i和x_j的核函数，y_i为中文评论x_i的情感类别，C为惩罚因子，在实验中我们选C值为0.0001。

在SVM中，中文评论x₁和x₂的核函数我们采用的是径向基函数RBF，见下式。通过核函数将特征空间由低维向高维空间映射。

K (x_{1}, x_{2}) = \exp (- \frac{| | x_{1} - x_{2} | |^{2}}{2 σ^{2}})

步骤12：将RBM与SVM结合的情感分析方法，和单独使用SVM或RBM的方法比较，根据将输出的结果与人工标注的结果计算准确率、召回率和F均值3个指标。实验结果见下表：

表2 不同方法的识别结果

从表2看出，RBM与SVM结合大大提高情感分析准确性。与单独使用SVM相比，RBM与SVM结合不仅准确率提高，召回率也提高了。与单独使用RBM相比，RBM与SVM结合准确率大大提高，虽然召回率降低点点，但F均值比单独使用RBM高得多，表明综合性能还是RBM与SVM结合的情感分析方法好。

Claims

1.一种基于计算机信息处理技术的中文文本情感分析方法，其特征在于，包括以下步骤：

3)受限玻尔兹曼机通过对比散度方法进行训练，初始化受限玻尔兹曼机的相关参数，迭代100次后，得到隐藏层节点h_i＝1在可视层v下的条件概率p(h_j＝1/v)和可视层节点v_i＝1在隐藏层h下的条件概率p(v_i＝1/h)；其中，

p (h_{j} = 1 | v) = σ (b_{j} + \underset{i}{Σ} v_{r} w_{i j});

p (v_{i} = 1 | h) = σ (a_{i} + \underset{i}{Σ} h_{j} w_{i j});

4)根据可视层节点v_i＝1在隐藏层h下的条件概率p(v_i＝1/h)对可视层节点v_i进行重构；如果v_i的重构值小于或等于0.01,则认为可见节点v_i不能表示高层结构，舍弃v_i对应的词语；如果v_i的重构值大于0.01，则将v_i的重构值与和输入值相减得到差异值；将每篇评论的最大情感特征数设为30，将差异值进行从小到大排列，前30个词v_i的差异值比后面的词小，说明v_i经过重构后没有发生变化，然后找出v_i对应的中文词，并把这个词作为特征词；后面的词相对前面30个词对应的差值大，说明v_i经过重构后结果发生很大的变化，则将v_i对应作为非特征词；如果在某评论中，重构值大于0.01的可视节点的数量小于30，则这些可见节点对应的词都全部保留做为特征词；保留的特征词共同构成每个评论的向量空间；

2.根据权利要求1所述的基于计算机信息处理技术的中文文本情感分析方法，其特征在于，所述步骤1)中，评论向量的产生过程为：采用自然语言处理中的词袋模型，如果某个词语在某条评论中出现的话，该词在评论向量中对应权重值就设为1，否则值设为0，评论向量的长度为提取词的词典的大小。

3.根据权利要求2所述的基于计算机信息处理技术的中文文本情感分析方法，其特征在于，可见层的节点数为476，隐藏层的节点数为50。