CN107944014A

CN107944014A - 一种基于深度学习的中文文本情感分析方法

Info

Publication number: CN107944014A
Application number: CN201711307041.5A
Authority: CN
Inventors: 严勤; 丁聪; 陈葛恒; 肖丽莎
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-04-20

Abstract

本发明公开了一种基于深度学习的中文文本情感分析方法，对网络文本进行获取，合理设计中文句子到数学向量的转换逻辑，首先用中文分词技术结合词向量学习工具构造词向量词典，然后用LSTM‑MP模型进行句向量转化，最终通过Softmax分类器将代表句向量进行正负面情感分类，达到情感分析的目的，该算法分类准确率高、效率高、灵活度高且避免了有监督学习方法的大量人工作业，有效地提高了文本情感倾向分类的效率和正确率，自动化集成度高节省大量人力。

Description

一种基于深度学习的中文文本情感分析方法

技术领域

本发明涉及一种基于深度学习的中文文本情感分析方法，属于自然语言处理和深度学习技术领域。

背景技术

互联网的迅速发展使微博和社交网络成为流行的沟通交流形式。数以亿计反映人们观点和态度的信息每天通过Twitter、Facebook等平台发布并和所有人分享，这就给监控和分析私人企业或社会公共领域观点、情绪提供了机会。

文本情感分析是对人们的观点、情绪、态度以及对诸如产品、服务、组织、事件等实体情感倾向做出有效分析然后进一步做信息归纳推理的一类技术。针对网络媒介产生的海量数据，提取出有价值的情绪和观点，并对其做出准确的文本情感分析，在诸多领域都有应用价值，例如：企业可以依据与其产品相关的反馈情绪进行售后服务调整及市场策略制定；政府可以根据社交平台的大量文本情绪分析制定出更加符合群众需求的政策制度；金融方面也可以根据各种金融消息的情绪观点提取挖掘进行某一金融市场的趋势预测等。

文本(英文)情感分析方面的研究在国外进行的比较早，成果也比较成熟，比如：Turney和Pang分别用不同的方法实现产品和电影评论的极性分类，随后Pang和Snyder又将多种方法结合再次进行了尝试。除此之外，Pang和Lee还将电影评论的极性分类基础任务扩展到了星级评定预测，同时Snyder将饭店评论做深层分析后用来预测饭店各方面的等级评定例如食物、环境等(共5个等级)。Gruhl等人通过对在线网络聊天信息的情感分析预测图书销售趋势，Mishne等人从博客中抓取具有情绪的信息来预测电影票房。然而由于英文与中文文本结构的差异性，中文文本的情感分析研究难度要大得多，再加上起步晚、标注文本预料有限、技术方法落后等因素，中文文本情感分析的研究仍有很大的提升空间。

目前中文文本情感分析方法目前大部分基于规则和有监督基于机器学***限制；(2)一些方法在句子特征提取时，凭经验人为进行特征选取，因此情感分析效果受人为因素影响比较大等。

发明内容

为了解决上述技术问题，本发明提供了一种基于深度学习的中文文本情感分析方法。

为了达到上述目的，本发明所采用的技术方案是：

一种基于深度学习的中文文本情感分析方法，包括以下步骤，

步骤1，训练LSTM-MP模型和Softmax分类器；

具体过程如下：

获取网络文本；

对获得的网络文本进行预处理，得到网络文本中的中文句子；

对中文句子进行中文分词并构建词向量词典；

将若干中文句子进行人工标注，作为LSTM-MP模型实验数据，其余中文句子作为LSTM-MP模型训练数据；

用LSTM-MP模型训练数据训练LSTM-MP模型；

用训练好的LSTM-MP模型将LSTM-MP模型实验数据全部转换为句向量；

将若干句向量作为Softmax分类器训练数据，其余句向量作为Softmax分类器测试数据；

用Softmax分类器训练数据训练Softmax分类器，用Softmax分类器测试数据测试训练好的Softmax分类器；

步骤2，用训练好的LSTM-MP模型和Softmax分类器进行情感分析。

设计多线程爬虫进行网络文本获取的过程为，

选取适当的网站首页URL初始化爬虫的URL列表；

获取各网站首页的HTML文档，解析出HTML文档中消息对应的URL，对消息对应的URL去重后添加至URL列表；

若有新发布的消息，则将新消息对应的URL添加至URL列表；

根据URL获取对应的HTML文档；

将获取到的HTML文档，利用信息抽取技术进行信息抽取，抽取出页面的信息正文部分后，按照制定格式存入本地数据库。

网络文本进行预处理的过程为，对网络文本中的转义符进行替换，对网络文本中的不规范标点符号进行替换。

对中文句子进行中文分词并构建词向量词典，具体过程为，

对中文句子进行中文分词；

词向量学习工具调试；

将中文分词得到的中文词语输入词向量学习工具，进行词向量词典构建。

选用最佳匹配法进行中文分词。

将LSTM-MP模型训练数据转换为词向量序列，然后训练LSTM-MP模型；

将LSTM-MP模型实验数据转换为词向量序列，然后用训练好的LSTM-MP模型将其转换为句向量。

用训练好的LSTM-MP模型和Softmax分类器进行情感分析的过程为，

获取需分析的网络文本；

对需分析的网络文本进行预处理，得到需分析的中文句子；

对需分析的中文句子进行中文分词并构建词向量词典；

将需分析的中文句子转换为词向量序列；

用训练好的LSTM-MP模型将词向量序列转换为句向量；

用训练好的Softmax分类器将句向量进行情绪分类。

本发明所达到的有益效果：本发明对网络文本进行获取，合理设计中文句子到数学向量的转换逻辑，首先用中文分词技术结合词向量学习工具构造词向量词典，然后用LSTM-MP模型进行句向量转化，最终通过Softmax分类器将代表句向量进行正负面情感分类，达到情感分析的目的，该算法分类准确率高、效率高、灵活度高且避免了有监督学习方法的大量人工作业，有效地提高了文本情感倾向分类的效率和正确率，自动化集成度高节省大量人力。

附图说明

图1为本发明的流程图；

图2为多线程爬虫结构图；

图3为递归神经网络结构图；

图4为LSTM结构图；

图5为LSTM-MP结构图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，1、一种基于深度学习的中文文本情感分析方法，包括以下步骤：

步骤1，训练LSTM-MP模型和Softmax分类器；

具体过程如下：

A)设计多线程爬虫(如图2所示)进行网络文本获取，具体步骤如下：

A1)选取适当的网站首页URL初始化爬虫的URL列表；

经过收集调查，选取具有情感观点的文本内容来源——百度新闻、新浪财经、京东等商城评论，用网站首页URL初始化爬虫的URL列表。

A2)获取各网站首页的HTML文档，解析出HTML文档中消息对应的URL，为防止数据重复影响分析结果，对消息对应的URL进行去重后添加至URL列表，若有新发布的消息，则将新消息对应的URL添加至URL列表。

A3)根据URL获取对应的HTML文档，队列管理调度根据线程的空闲情况给下载队列URL分配线程。

A4)将获取到的HTML文档，利用信息抽取技术进行信息抽取，抽取出页面的信息正文部分后，按照制定格式存入本地数据库。

B)对获得的网络文本(HTML文本)进行预处理，得到网络文本中的中文句子。

一些特殊符号为了与HTML文本中的关键符号进行区分会被转义，因此获取到的HTML文本需要对转义符号进行替换，具体如表1所示。

表1转义符号替换

由于词语之间没有分隔符，再加上网络文本不够规范，中英文标点符号混用，全角半角混搭等，分词是有难度的，为了提高分词的正确率，将网络文本的不规范标点符号进行替换，具体如表2所示。

表2标点符号替换

替换前标点	替换后标点
		【】	[]
,	，
		.	。

C)对中文句子进行中文分词并构建词向量词典，具体步骤如下：

C1)选用最佳匹配法进行中文分词。所谓最佳匹配法就是在正向最大匹配的基础上进行效率优化的一种方法，正向最大匹配的基本步骤是：首先定义词语最大长度为4，然后从左到右开始进行4字匹配，如果词典匹配成功则继续，不成功则从后边减掉一个字继续匹配直到匹配成功或只剩一个单字，最佳匹配就是在此基础上将词典的词序按照出现概率大小进行排序，出现概率大的排在前面，这样在词语匹配时效率更高。

C2)词向量学习工具调试。

在词向量学习之前需要对学习工具word2vec进行调试，选取不同参数(采样率、线程数、窗口大小等)反复测试，调试过程中确定的最优参数为：窗口大小5，采样阈值500，线程数12，词向量维度50。

C3)将中文分词得到的中文词语输入词向量学习工具word2vec，进行词向量词典构建，具体命令为：./word2vec–train/home/exer/gold.txt–output/home/exer/golddic.txt–cbow 0–size 50–window 5–negative 0–hs 1–sample 500–thread 12–binary 0。

D)将若干中文句子进行人工标注，作为LSTM-MP模型实验数据，其余中文句子作为LSTM-MP模型训练数据。

假设有48786条中文句子，那么34150条作为LSTM-MP模型训练数据，14636条作为LSTM-MP模型实验数据，LSTM-MP模型实验数据大概占30％。

E)用LSTM-MP模型训练数据训练LSTM-MP模型，具体步骤如下：

E1)LSTM-MP模型设计。

LSTM模型改进自递归神经网络。每个句子都是有不同数量的词语构成，假设词语数量为n，而每个词向量的维度是固定为m，那每个句子的向量维度为n×m，因为n是变化的，所以n×m就不能固定，不能用普通的前馈神经网络进行训练，而递归神经网络的出现很好的解决了这个问题，它允许句子词语递归循环输入。

但是递归神经网络也存在问题，当句子过长，递归的层数过多会造成整个网络的梯度消失或***，而LSTM就成了这个问题的解决者，它继承了递归网络模型的结构模式弥补了其缺点，引入了记忆单元作为计算节点，避免了梯度消失问题，一个记忆单元由4部分组成：一个输入门，一个带自连接的神经单元，一个输出门和一个遗忘门。输入门可以决定输入信号是否可以影响并改变记忆单元的当前状态，而输出门则可以决定当前记忆单元的状态是否要对其他与其相连的单元状态产生影响，遗忘门可以通过调节当前自连接来决定是否忘记(清除)此记忆单元的前一状态。

递归子编码是具体结构如图3所示，将一个句子表示为一个向量列表A(x₁,x₂,x₃,...,x_n)，其中x₁,x₂,x₃,...,x_n为构成句子的词向量，先把x_n与x_n-1拼接为2m维向量(x_n-1,x_n)，作为2m个节点的输入层，然后定义隐藏层节点数为m(与词向量维度相同)，输出层当然也是2m节点，计算后得到隐藏层输出h₁，再用第一层得到的h₁与x_n-2拼接为新的2m维向量(x_n-2,h₁)作为第二层隐藏层的输入，重复步骤n-1次，直到n个词向量全部计算完毕得到一个与词向量维度相同的整个句子的向量s，其维度与词向量相同。

这个过程中，一个句子被分解为了一个二叉树结构，每一次递归是一个三元组，由两个子节点和一个父节点组成(P,C₁C₂)，其中C₁,C₂是两个词向量x₁,x₂对应的词，P是由x₁,x₂计算得到的隐藏层输出对应的词。三元组中子节点对应的可能是词向量x_i，i∈[1,n]，也可能是非终端位置的节点。首先第一个节点h₁向量是由(C₁.C₂)＝(x₄.x₅)((.)代表两个词向量的组合)计算得到的：

p＝f(W⁽¹⁾[C₁；C₂]+b⁽¹⁾)

其中W⁽¹⁾是m×2m的系数矩阵，b⁽¹⁾为偏置量，函数f为激活函数双曲正切tanh函数，p是隐藏层输出，[C′₁；C′₂]表示重构后的词向量组对应的词组，如果将[C′₁；C′₂]的重构可以表示为：

[C′₁；C′₂]＝W⁽²⁾p+b⁽²⁾

其中，C′₁,C′₂是重构后的词向量对应的词，W⁽²⁾是2m×m的系数矩阵，b⁽²⁾为重构偏置量。

在训练过程中要将重构误差降到最小，用输入和重构之间的欧氏距离衡量它们之间的误差为：

其中，E_rec()是用来衡量输入和重构之间误差的标准。

这就是一次递归的计算过程现在我们得到了h₁，那么(C₁.C₂)＝(x₃.h₁)就是下一个输入，重复上述计算步骤直到得到句子的向量表示s。

LSTM是在递归自编码基础上引入记忆单元进行改进，以应对其梯度消失的缺陷，按照与递归子编码相同的输入逻辑当最后一个词w_n输入完成后，h_n为LSMT的输出如图4所示，一般认为将最后一个词向量作为输出后得到的最终的输出可以作为整个句子的向量表示进行分类训练，但经过试验证明这样得到的结果并不如人意，在LSTM的基础上添加平均池化层进行改进如图5所示。LSTM-MP不以最终的输出h_n为句向量表示，而是将LSTM所有记忆单元的输出输入平均池化层，从而得到最终的句向量

E2)将中文句子转换为词向量序列。中文句子分词后保持原顺序不变，构成中文词语序列，然后按照构建好的词向量词典一一对应找到每个词的词向量，将中文词语序列转换为词向量序列。

E3)用LSTM-MP模型训练数据转换后的词向量序列训练LSTM-MP模型。

F)将LSTM-MP模型实验数据转换为词向量序列，然后用训练好的LSTM-MP模型将其转换为句向量。

G)将若干句向量作为Softmax分类器训练数据，其余句向量作为Softmax分类器测试数据。这里70％作为Softmax分类器训练数据，30％作为Softmax分类器测试数据。

H)用Softmax分类器训练数据训练Softmax分类器；用Softmax分类器测试数据测试训练好的Softmax分类器，即将Softmax分类器测试数据输入Softmax分类器，将分类结果与人工标注进行比对，如果准确率不低于设定的阈值，则认为Softmax分类器训练完成。

步骤2，用训练好的LSTM-MP模型和Softmax分类器进行情感分析，具体步骤为：

21)获取需分析的网络文本；

22)对需分析的网络文本进行预处理，得到需分析的中文句子；

23)对需分析的中文句子进行中文分词并构建词向量词典；

24)将需分析的中文句子转换为词向量序列，

25)用训练好的LSTM-MP模型将词向量序列转换为句向量；

26)用训练好的Softmax分类器将句向量进行情绪分类。

上述方法对网络文本进行获取，合理设计中文句子到数学向量的转换逻辑，首先用中文分词技术结合词向量学习工具构造词向量词典，然后用LSTM-MP模型进行句向量转化，最终通过Softmax分类器将代表句向量进行正负面情感分类，达到情感分析的目的，该算法分类准确率高、效率高、灵活度且避免了有监督学习方法的大量人工作业，有效的提高文本情感倾向分类的效率和正确率，自动化集成度高节省大量人力；该方法整体准确率为78.02％，其中积极情绪的分类准确率达到77.58％，召回率为81.19％，F-measure为79.10％；看跌情绪的分类准确率达到78.55％，召回率为74.59％，F-measure为74.55％。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于深度学习的中文文本情感分析方法，其特征在于：包括以下步骤，

步骤1，训练LSTM-MP模型和Softmax分类器；

具体过程如下：

获取网络文本；

对中文句子进行中文分词并构建词向量词典；

用LSTM-MP模型训练数据训练LSTM-MP模型；

步骤2，用训练好的LSTM-MP模型和Softmax分类器进行情感分析。

2.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法，其特征在于：设计多线程爬虫进行网络文本获取的过程为，

选取适当的网站首页URL初始化爬虫的URL列表；

若有新发布的消息，则将新消息对应的URL添加至URL列表；

根据 URL获取对应的HTML文档；

3.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法，其特征在于：网络文本进行预处理的过程为，对网络文本中的转义符进行替换，对网络文本中的不规范标点符号进行替换。

4.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法，其特征在于：对中文句子进行中文分词并构建词向量词典，具体过程为，

对中文句子进行中文分词；

词向量学习工具调试；

5.根据权利要求4所述的一种基于深度学习的中文文本情感分析方法，其特征在于：选用最佳匹配法进行中文分词。

6.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法，其特征在于：将LSTM-MP模型训练数据转换为词向量序列，然后训练LSTM-MP模型；

7.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法，其特征在于：用训练好的LSTM-MP模型和Softmax分类器进行情感分析的过程为，

获取需分析的网络文本；

对需分析的网络文本进行预处理，得到需分析的中文句子；

对需分析的中文句子进行中文分词并构建词向量词典；

将需分析的中文句子转换为词向量序列；

用训练好的LSTM-MP模型将词向量序列转换为句向量；

用训练好的Softmax分类器将句向量进行情绪分类。