CN107066446A

CN107066446A - 一种嵌入逻辑规则的循环神经网络文本情感分析方法

Info

Publication number: CN107066446A
Application number: CN201710239556.XA
Authority: CN
Inventors: 郝志峰; 蔡晓凤; 蔡瑞初; 温雯; 王丽娟; 陈炳丰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-04-13
Filing date: 2017-04-13
Publication date: 2017-08-18
Anticipated expiration: 2037-04-13
Also published as: CN107066446B

Abstract

本发明提供一种嵌入逻辑规则的循环神经网络文本情感分析方法，通过抓取用于训练的文本语料，进行情感类别标记，然后将情感标记的文本语料分为训练集语料、测试集语料，并对其进行分词处理，以及去停用词处理，然后采用word2vec算法对做分词处理、去掉停用词后的训练集语料和测试集语料进行训练，得到相应的词向量，将训练集语料和测试集语料输入现有的知识库结合概率图模型进行分析处理，通过逻辑循环神经网络结构(Logic‑RNN与Logic‑LSTM)，将一阶逻辑规则嵌入到循环神经网络中，本发明一方面可以达到控制循环神经网络的训练方向，更倾向人的直觉，另一方面提高了文本情感分析的精度，该方法也可以用于自然语言处理、机器学习的其他领域。

Description

一种嵌入逻辑规则的循环神经网络文本情感分析方法

技术领域

本发明涉及一种数据处理技术领域，尤其是一种在循环神经网络(RecurrentNeural Networks,RNNs)中嵌入逻辑规则的文本情感分析方法。

背景技术

随着互联网技术的发展以及web2.0的兴起，互联网逐步由静态的信息载体转变为人们获取信息，发表观点，感情交流的平台，人们通过在网上分享、评论、表达自身对于各种事物的意见、看法，比如对电影、新闻、股票等的评论，这些评论对于政府、企业、消费者等的重要性不言而喻，然而随着在线评论数据***式地增长，依靠人工对海量文本数据进行采集、处理、分析、预测是不切实际的，因此利用自动化工具，快速从大量文本中获取有价值的信息已经成为人们的迫切需求，文本情感分析的任务也应运而生。

文本情感分析在实际生活中有着广泛的应用：在推荐***中，对购买相关产品的用户的在线评论信息进行自动整理，情感分类，分析和挑选出值得推荐的产品和服务，推荐给其他的用户；在过滤***中，自动过滤一些对政府和商业机构不利的文字信息，并且鉴别出撰稿者的情感倾向、政治倾向及态度、观点和看法，例如，根据文本中反映出的作者情感进行分类，对攻击政府及个人的微博、E-mail可以实现自动屏蔽的功能；在问答***中，对询问者问题中透露的感情色彩进行分析和文本分类，采用尽量合适的语气回复，防止答案情感色彩出错而适得其反，例如，心里咨询平台，错误的感情色彩可能使咨询者失去生命；在舆情***中，互联网具有开放性、虚拟性、发散性等特点，它逐渐成为舆情话题产生和传播的主要场所，网络信息对社会的直接影响越来越大，有时关系到国家信息安全，因此人们需要使用舆情分析技术对舆情信息进行监控，此外，文本情感分析还可以用于有害信息过滤，产品在线跟踪和质量评价、电影书籍评论、行文报道评论、事件分析、股票评论、敌对信息检测、企业情报分析等方面。

文本情感分析(倾向性分析、意见抽取、意见挖掘、情感挖掘、主观分析)是对带有感情色彩的主观性文本进行分析、处理、归纳、和推理的过程，如从评论文本中分析用户对“笔记本电脑”的“屏幕、处理器、重量、内存、电源”等属性的情感倾向。从不同立场、出发点、个人态度和喜好出发，人们在看待不同的对象和事件时所表达的态度、意见和情感的倾向性是存在差异的。一般地，按照处理文本的粒度不同，文本情感分析分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次。

word2vec是Google于2013年提出的基于深度神经网络语言模型训练词向量的开源工具。它可以从大量文本中进行无监督学习，将词表征为实数值向量，相比之前的词袋(bag-of-words)表示法，它通过把词映射到k维的向量空间，可以更好的捕捉上下文语义信息，实验证明将学习到的词向量作为应用于自然语言处理任务中，对于提高自然语言任务的效率又很大的帮助。

文本情感分析的研究方法主要有两种：一种是情感词典和规则相结合；另一种是基于机器学习方法，传统的机器学习方法主要采用贝叶斯、支持向量机或最大熵，这些方法都伴随着大量的手动特征工程且具有任务特殊性，特征选择的好坏直接影响到了文本情感分析的正确与否，不同的任务选择的特征又各不相同，很多学者开始思考，更加适合的方法。后来循环神经网络作为一个序列模型，在机器识别、语音翻译、问答等都取得了突破性的成果，让越来越多的人相信循环神经网络可以是一个很好的语言模型。但由于循环神经网络有着梯度消失的问题，通俗点就是后面的时间节点对前面的时间节点的信息感知力弱，为了解决这个问题，后来在循环神经网络中引入了“门”的概念就有了长短时记忆网络(LSTM)。

循环神经网络作为序列模型已经在众多自然语言处理任务中取得了巨大的成功以及广泛应用，例如，语言识别、机器翻译、情感分析、实体识别等，这让越来越多的人相信循环神经网络可以是一个很好的语言模型，然而循环神经网络仍存在着很多缺点，例如，循环神经网络的训练需要消耗大量的时间，高精度的模型依赖于大量的数据，单纯的数据学习常常导致不可解释性以及反直觉性。

发明内容

针对现有技术的不足，本发明提供一种训练精度高的嵌入逻辑规则的循环神经网络文本情感分析方法。

本发明的技术方案为：一种嵌入逻辑规则的循环神经网络文本情感分析方法，其特征在于，包括以下步骤：

S1)、运用数据采集工具抓取用于训练的文本语料，将文本语料进行情感类别标记，然后将情感标记的文本语料分为训练集语料、测试集语料两个集合，

S2)、结合文本语料相关的词典和Ansj分词工具对步骤S1)中的训练集语料和测试集语料进行分词处理，以及去停用词处理；

S3)、采用word2vec算法对步骤S2)中做分词处理、去掉停用词后的训练集语料和测试集语料进行训练，得到相应的词向量；

S4)、将步骤S2)中做分词、去掉停用词处理后的训练集语料和测试集语料输入现有的知识库进行分析处理，输出得到由元素(ε_k,x_i,x_j)组成的三元组集合triple，并结合概率图模型得到节点x_i与x_j之间的概率关系p(x_j|x_i)，其中，x_i与x_j表示由一条有向边x_i→x_j连接的节点对，每个词表示为一个节点，p(x_j|x_i)表示节点x_i到节点x_j且x_j发生的概率，并且记该逻辑规则为ε_k；

例如，输入词为x₁→x₂→x₃→x₄→x₅，则p(x₁)＝1，该边逻辑规则记为ε₁，该边逻辑规则记为ε₂，该边逻辑规则记为ε₃；

S5)、在t时刻，将三元组集合triple的元素(ε_k,x_i,x_j)向量化后得到将x^t输入Logic-LSTM网络与Logic-RNN网络构建得到嵌入一阶逻辑规则的循环神经网络中训练出情感分析模型，Logic-LSTM网络具体如下：

其中，δ为sigmoid激活函数，操作符⊙表示乘积操作，i^t、i_c ^t表示输入门，f^t、f_c ^t表示忘记门，o^t、o_c ^t表示输出门，表示更新门，

隐含层的输出向量h^t∈R^H，传递到下一个时刻的隐含层向量为h_c ^t∈R^H，W_i(W_i′)、W_f(W_f′)、W_o(W_o′)、W_c(W_c′)∈R^H×d，U_i(U_i′)、U_f(U′_f)、U_o(U_o′)、U_c(U_c′)∈R^H×H为模型的训练参数，其中H、d分别表示隐含层的维度以及输入的维度；

Logic-RNN网络具体如下：

其中，f为非线性激活函数，U(U′)、W(W′)∈R^H×d为模型的训练参数，s^t、s^t表示隐含层的输出，表示传递到下一个时刻的隐含层输出，Mask为屏蔽矩阵，通过屏蔽矩阵Mask防止冗余信息传递到下一个时刻，CEM(x^t,Mask)表示两个相同维度矩阵x^t,Mask对应元素相乘；

S6)、将步骤S4)生成的训练集语料的逻辑规则结合步骤S3)训练好的词向量输入到步骤S5)构建的嵌入一阶逻辑规则的循环神经网络中，通过将Logic-LSTM网络和Logic-RNN网络的输出连接到softmax函数，从而训练出情感分析模型，通过softmax函数输出概率值向量作为模型输出结果；

S7)、将步骤S4)生成的测试集语料的逻辑规则结合步骤S3)训练好的词向量输入到步骤S6)训练好的情感分析模型中，对测试集语料进行情感分类。

所述的知识库为知识图谱或者句法依存树，句法依存树可以采用StanfordParser或者LTP-Cloud生成。

本发明的有益效果为：运用概率图模型描述一阶逻辑规则，更好的利用现有的知识库，提出了一种在循环神经网络(Recurrent Neural Networks)中嵌入逻辑规则的方法，并通过修改传统的循环神经网络结构，去除循环神经网络的反馈环中的冗余信息；通过将一阶逻辑规则嵌入到循环神经网络中，一方面可以达到控制循环神经网络的训练方向，更倾向人的直觉，另一方面提高了文本情感分析的精度，而且训练时间短，训练简单；此外，可以在一定程度上缓解RNN的梯度消失问题，当训练样本较小时，该方法的效果会更加显著；

另外，该方法应用广泛，可以用于自然语言处理、机器学习的其他领域，例如实体识别、机器翻译、问答、语音识别、人群异常点检测等。

附图说明

图1为本发明的流程示意图；

图2为本发明的情感分析模型图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

如图1、图2所示，一种嵌入逻辑规则的循环神经网络文本情感分析方法，其特征在于，包括以下步骤：

S4)、将步骤S2)中做分词、去掉停用词处理后的训练集语料和测试集语料输入现有的知识库进行分析处理，输出得到由元素(ε_k,x_i,x_j)组成的三元组集合triple，并结合概率图模型得到节点x_i与x_j之间的概率关系p(x_j|x_i)，其中，x_i与x_j表示由一条有向边x_i→x_j连接的节点对，每个词表示为一个节点，p(x_j|x_i)表示节点x_i到节点x_j且x_j发生的概率，该边逻辑规则记为ε_k；

S5)、在t时刻，将三元组集合triple元素(ε_k,x_i,x_j)向量化后得到将x^t输入Logic-LSTM网络与Logic-RNN网络构建得到嵌入一阶逻辑规则的循环神经网络中训练出情感分析模型，Logic-LSTM网络具体如下：

Logic-RNN网络具体如下：

其中，f为非线性激活函数，U(U′)、W(W′)∈R^H×d为模型的训练参数，s^t、s^t表示隐含层的输出，表示传递到下一个时刻的隐含层输出，Mask为屏蔽矩阵，通过屏蔽矩阵防止冗余信息传递到下一个时刻，CEM(x^t,Mask)表示两个相同维度矩阵x^t,Mask对应元素相乘；

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种嵌入逻辑规则的循环神经网络文本情感分析方法，其特征在于，包括以下步骤：

S2)、结合文本语料相关的词典和Ansj分词工具对步骤S1)中的训练集语料和测试集语料做分词处理，以及去停用词处理；

S4)、将步骤S2)中做分词处理、去掉停用词后的训练集语料和测试集语料输入到现有的知识库进行分析处理，输出得到由元素(ε_k,x_i,x_j)组成的三元组集合triple，并结合概率图模型得到节点x_i与x_j之间的概率关系p(x_j|x_i)，其中，x_i与x_j表示由一条有向边x_i→x_j连接的节点对，每个词表示为一个节点，p(x_j|x_i)表示节点x_i到节点x_j且x_j发生的概率，并且记该逻辑规则为ε_k；

S5)、在t时刻，将三元组集合triple的元素(ε_k,x_i,x_j)向量化后得到将x^t输入Logic-LSTM网络与Logic-RNN网络构建得到嵌入一阶逻辑规则的循环神经网络中训练出情感分析模型，所述的Logic-LSTM网络具体如下：

<mrow> <msup> <mi>i</mi> <mi>t</mi> </msup> <mo>=</mo> <mi>&delta;</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <msup> <mi>x</mi> <mi>t</mi> </msup> <mo>+</mo> <msub> <mi>U</mi> <mi>i</mi> </msub> <msubsup> <mi>h</mi> <mi>c</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msup> <mi>f</mi> <mi>t</mi> </msup> <mo>=</mo> <mi>&delta;</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>f</mi> </msub> <msup> <mi>x</mi> <mi>t</mi> </msup> <mo>+</mo> <msub> <mi>U</mi> <mi>f</mi> </msub> <msubsup> <mi>h</mi> <mi>c</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>f</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msup> <mi>o</mi> <mi>t</mi> </msup> <mo>=</mo> <mi>&delta;</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>o</mi> </msub> <msup> <mi>x</mi> <mi>t</mi> </msup> <mo>+</mo> <msub> <mi>U</mi> <mi>o</mi> </msub> <msubsup> <mi>h</mi> <mi>c</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>o</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

h^(t)＝o^(t)⊙tanh(c^(t))；

<mrow> <msup> <msub> <mi>i</mi> <mi>c</mi> </msub> <mi>t</mi> </msup> <mo>=</mo> <mi>&delta;</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> <mi>C</mi> <mi>E</mi> <mi>M</mi> <mo>(</mo> <mrow> <msup> <mi>x</mi> <mi>t</mi> </msup> <mo>,</mo> <mi>M</mi> <mi>a</mi> <mi>s</mi> <mi>k</mi> </mrow> <mo>)</mo> <mo>+</mo> <msubsup> <mi>U</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <msubsup> <mi>h</mi> <mi>c</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

<mrow> <msup> <msub> <mi>f</mi> <mi>c</mi> </msub> <mi>t</mi> </msup> <mo>=</mo> <mi>&delta;</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>W</mi> <mi>f</mi> </msub> <mo>&prime;</mo> </msup> <mi>C</mi> <mi>E</mi> <mi>M</mi> <mo>(</mo> <mrow> <msup> <mi>x</mi> <mi>t</mi> </msup> <mo>,</mo> <mi>M</mi> <mi>a</mi> <mi>s</mi> <mi>k</mi> </mrow> <mo>)</mo> <mo>+</mo> <msubsup> <mi>U</mi> <mi>f</mi> <mo>&prime;</mo> </msubsup> <msubsup> <mi>h</mi> <mi>c</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>f</mi> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msup> <msub> <mi>o</mi> <mi>c</mi> </msub> <mi>t</mi> </msup> <mo>=</mo> <mi>&delta;</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>W</mi> <mi>o</mi> </msub> <mo>&prime;</mo> </msup> <mi>C</mi> <mi>E</mi> <mi>M</mi> <mo>(</mo> <mrow> <msup> <mi>x</mi> <mi>t</mi> </msup> <mo>,</mo> <mi>M</mi> <mi>a</mi> <mi>s</mi> <mi>k</mi> </mrow> <mo>)</mo> <mo>+</mo> <msubsup> <mi>U</mi> <mi>o</mi> <mo>&prime;</mo> </msubsup> <msubsup> <mi>h</mi> <mi>c</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>o</mi> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msup> <msub> <mover> <mi>c</mi> <mo>~</mo> </mover> <mi>c</mi> </msub> <mi>t</mi> </msup> <mo>=</mo> <mi>&delta;</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>W</mi> <mi>c</mi> </msub> <mo>&prime;</mo> </msup> <mi>C</mi> <mi>E</mi> <mi>M</mi> <mo>(</mo> <mrow> <msup> <mi>x</mi> <mi>t</mi> </msup> <mo>,</mo> <mi>M</mi> <mi>a</mi> <mi>s</mi> <mi>k</mi> </mrow> <mo>)</mo> <mo>+</mo> <msubsup> <mi>U</mi> <mi>c</mi> <mo>&prime;</mo> </msubsup> <msubsup> <mi>h</mi> <mi>c</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>c</mi> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中，δ为sigmoid激活函数，操作符⊙表示乘积操作，i^t、i_c ^t表示输入门，f^t、f_c ^t表示忘记门，o^t、o_c ^t表示输出门，表示更新门；

隐含层的输出向量h^t∈R^H，传递到下一个时刻的隐含层向量为h_c ^t∈R^H，W_i(W_i′)、W_f(W′_f)、W_o(W′_o)、W_c(W_c′)∈R^H×d，U_i(+′_i)、U_f(U′_f)、U_o(U′_o)、U_c(U′_c)∈R^H×H为模型的训练参数，其中H、d分别表示隐含层的维度以及输入的维度；

所述的Logic-RNN网络具体如下：

<mrow> <msup> <mi>s</mi> <mi>t</mi> </msup> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>Ux</mi> <mi>t</mi> </msup> <mo>+</mo> <msubsup> <mi>Ws</mi> <mi>c</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow> 1

<mrow> <msup> <msub> <mi>s</mi> <mi>c</mi> </msub> <mi>t</mi> </msup> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>U</mi> <mo>&prime;</mo> </msup> <mi>C</mi> <mi>E</mi> <mi>M</mi> <mo>(</mo> <mrow> <msup> <mi>x</mi> <mi>t</mi> </msup> <mo>,</mo> <mi>M</mi> <mi>a</mi> <mi>s</mi> <mi>k</mi> </mrow> <mo>)</mo> <mo>+</mo> <msup> <mi>W</mi> <mo>&prime;</mo> </msup> <msubsup> <mi>s</mi> <mi>c</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中，f为非线性激活函数，U(U′)、W(W′)∈R^H×d为模型的训练参数，s^t、s^t表示隐含层的输出，表示传递到下一个时刻的隐含层输出，Mask为1*d的屏蔽矩阵，CEM(x^t,Mask)表示两个相同维度矩阵x^t,Mask对应元素相乘；

2.根据权利要求1所述的一种嵌入逻辑规则的循环神经网络文本情感分析方法，其特征在于：所述的知识库为知识图谱或者句法依存树，所述的句法依存树可以采用StanfordParser或者LTP-Cloud生成。