CN110427458A - 基于双门lstm的社交网络双语的五分类情感分析方法 - Google Patents
基于双门lstm的社交网络双语的五分类情感分析方法 Download PDFInfo
- Publication number
- CN110427458A CN110427458A CN201910596187.9A CN201910596187A CN110427458A CN 110427458 A CN110427458 A CN 110427458A CN 201910596187 A CN201910596187 A CN 201910596187A CN 110427458 A CN110427458 A CN 110427458A
- Authority
- CN
- China
- Prior art keywords
- door
- data
- training
- classification
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 92
- 238000012360 testing method Methods 0.000 claims abstract description 50
- 230000008451 emotion Effects 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 20
- 230000002996 emotional effect Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 15
- 239000012141 concentrate Substances 0.000 claims description 12
- 238000002360 preparation method Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims 1
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 238000011524 similarity measure Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于双门LSTM的社交网络双语的五分类情感分析方法。该方法为:使用人工标注好的数据集作为初始训练数据集,对测试数据集进行数据清洗以及分词处理;构建双门LSTM网络模型,训练已标注好的五分类训练数据集,并构建英汉双语情感词词典,对数据集进行向量化处理,进而训练双门LSTM网络模型,对分词处理过的测试数据集进行情感特征分类,使用分类器选出情感置信度高的数据加入已标注的测试数据集中,作为新的训练数据集用于训练分类器,循环迭代,直至对所有未标注的测试数据集完成文本情感分类;使用训练好的网络模型,对输入文本进行感情特征分析。本发明能够对社交网络上用户的中英文评论信息进行准确的情感信息抽取和分析。
Description
技术领域
本发明涉及文本情感分类技术领域,特别是一种基于双门LSTM的社交网络双语的五分类情感分析方法。
背景技术
情感分析又称倾向性分析,是一种基于深度学习的分类方法。文本情感分析作为NLP的常见任务,具有很高的实际应用价值。一般的文本情感分析采用LSTM模型,对社交网络的用户评论训练一个二分类情感的分类器,来识别文本是积极的还是消极的。LSTM即Long Short Term Memory网络,是一种特殊的RNN类型,可以学习长期依赖信息。神经网络包含输入层、隐层和输出层,通过激活函数控制输出,层与层之间通过权值连接。激活函数是提前确定好的,神经网络模型通过训练“学”到的东西就蕴含在“权值”中。基础的神经网络只在层与层之间建立了权连接,RNN最大的不同之处就是在层之间的神经元之间也建立的权连接。
在社交网络上,现有的二分类方法只对文本的情感进行积极或者消极的判断,显而易见,这样的二分类方法对文本的感情分析不够全面,许多种类的情感难以得到剖析。虽然LSTM有很好的利用长距离历史信息的能力,但是它只能够利用一类数据,不能对多类数据进行很好的利用。
发明内容
本发明的目的在于提供一种能够准确、全面地对文本文档进行五种情感分析的基于双门LSTM的社交网络双语的五分类情感分析方法。
实现本发明目的的技术解决方案为:一种基于双门LSTM的社交网络双语的五分类情感分析方法,包括以下步骤:
步骤1、数据集的准备和预处理:准备一个训练数据集和一个测试数据集,对训练数据集进行五种情感happiness、sad、anger、fear、surprise的人工标注得到已标注的训练数据集,再对训练数据集进行数据清洗以及分词处理,并对分词处理后的数据进行去停用词处理,得到五分类训练数据集;
步骤2、网络模型构建:构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,能够同时接收处理两种数据,对中文文本和英文文本进行同时分析;
步骤3、网络模型训练:根据构建的双门LSTM网络模型,训练由步骤1得到的已做好人工标注的五分类训练数据集,用作训练初始的分类器,然后通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,得到训练好的双门LSTM网络模型;
步骤4、网络模型测试:根据训练好的双门LSTM网络模型,对测试数据集进行分词处理,再对预处理过的测试数据集进行情感特征分析,将测试数据集中已分类的数据做好标记;首先利用半监督学习的self-training方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标记的测试数据集中,作为新的训练数据集,重新用新的训练数据集训练分类器,循环迭代,直至所有未标注过的测试数据集完成文本情感分类;
步骤5、情感特征分析:使用训练好的双门LSTM网络模型,对新的输入文本进行感情特征分析,判断该输入文本所属的类别,并输出分类结果。
进一步地,步骤1所述的数据集的准备和预处理,具体如下:
步骤1.1、将原始数据集人工标注成代表happiness、sad、anger、fear、surprise五种情感的初始训练数据集;
步骤1.2、根据人工标注好的初始训练数据集,对待训练数据集进行分词处理,中文数据使用jieba进行分词,英文数据根据空格进行词汇识别;
步骤1.3、对每一条分词处理后的数据进行去停用词处理,然后得到已经被正确切分的,能够用作模型训练的数据。
进一步地,步骤2所述的网络模型构建,具体如下:
构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,包含输入层、隐层和输出层,其中输入门的计算如式(1)(2),遗忘门的计算如式(3)(4),输出门的计算如式(5):
itx=σ(Wxixt+Uhi xht-1 x+Vci xct-1 x+bi x) (1)
ity=σ(Wyiyt+Uhi yht-1 y+Vci yct-1 y+bi y) (2)
ftx=σ(Wxfxt+Uhf xot-1 x+Vcf xct-1 x+bf x) (3)
fty=σ(Wyfyt+Uhf yot-1 y+Vcf yct-1 y+bf y) (4)
ot=σ(Wxoxt++Wyoyt+Uho xot-1 x+Uho yot-1 y+Vcoct-1+bo) (5)
其中,t表示当前时刻,t-1为上一时刻,itx、ity分别代表两个输入门的计算方法,ftx、fty分别代表两个遗忘门的计算方法,ot表示输出门的计算方法;σ()为sigmoid函数,xt、yt分别对应这一时刻x、y方向上的输入,ot-1 x为上一时刻x方向的输出门计算,ot-1 y为上一时刻y方向的输出门计算,ht-1 x、ht-1 y分别为上一时刻输出在x、y方向的分量,ct-1 x、ct-1 y分别为记忆单元上一时刻在x、y方向分量的值;为x方向输入门的偏置向量、为y方向输入门的偏置向量、为x方向遗忘门的偏置向量,为y 方向遗忘门的偏置向量,bo为输出门的偏置向量,Wxi为x方向连接输入门的权重、 Wyi为x方向连接输入门的权重、Wxf为x方向连接遗忘门的权重、Wyf为y方向连接遗忘门的权重、Wxo为x方向连接输出门的权重、Wyo为y方向连接输出门的权重;输入门计算后在x方向上的权重、为输入门计算后在y方向上的权重、为遗忘门计算后在x方向上的权重、为遗忘门计算后在y方向上的权重、Uho x为输出门计算后在x方向上的权重、为输出门计算后在y方向上的权重;输入门x方向连接记忆单元的权重、输入门y方向连接记忆单元的权重、遗忘门x方向连接记忆单元的权重、遗忘门y方向连接记忆单元的权重、Vco输出门连接记忆单元的权重;ct-1表示t-1时刻记忆单元的计算方法。
进一步地,步骤3所述通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,所用工具为gensim里的Word2vec以及Dictionary,具体如下:
设D={d1,d2,...,dn}是做过预处理操作的全部训练数据集数据的集合,其中di是训练数据集中的第i条数据的向量表示,则对于训练数据集中的任一条文本数据 di={w1,w2,w3,w4,w5},其中w1,w2,w3,w4,w5表示该条文本数据中对应的 happiness、sad、anger、fear、surprise五类情感词的个数,因此每条数据均以5维向量表示。
进一步地,步骤4所述的网络模型测试,具体如下:
步骤4.1、根据训练好的双门LSTM网络模型,对步骤1中分词处理后的测试数据集进行情感特征分析,判断出每条数据所属的类别,将数据分为已标注五分类测试集的数据和未标注的测试集数据;
步骤4.2、使用半监督学习的self-trainning方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标注的测试数据集中,作为新的训练数据集;
步骤4.3、用新的训练数据集继续训练分类器,然后进行循环迭代,直至未标注的测试数据集完成文本情感分类。
进一步地,步骤5所述的情感特征分析,具体如下:
步骤5.1、根据训练好的双门LSTM网络模型,对输入文本进行情感特征分析,首先提取出输入文本的内容,并将输入文本的每条内容转换为列表;
步骤5.2、每行对应列表里的一个元素,对列表的每个元素都判断该元素所属的类别,情感分类评价标准使用准确率precision、召回率recall、和F值F-measure来评价分类结果,计算公式如下:
precision=TP/(TP+FP) (6)
recall=TP/(TP+FN) (7)
F=2*recall*precision/(recall+precision) (8)
其中,TP为将正类预测为正类数目,FN为将正类预测为负类的数目,FP为将负类预测位正类的数目;
步骤5.3、输出分类结果。
本发明与现有技术相比,其显著优点在于:(1)构建双门LSTM网络模型,并构建英汉双语情感词词典,进而训练双门LSTM网络模型,对分词处理过的测试数据集进行情感特征分类,能够对社交网络上用户的中英文评论信息进行情感信息的全面、准确的抽取和分析;(2)将情感分析的文本分为happiness、sad、anger、fear、surprise五类,实现了多分类,且方法简单、实用性强。
附图说明
图1是本发明基于双门LSTM的社交网络双语的五分类情感分析方法的流程图。
图2是本发明中双门LSTM网络模型的结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
结合图1,本发明基于双门LSTM的社交网络双语的五分类情感分析方法,步骤为:
步骤1、数据集的准备和预处理,准备一个训练数据集和一个测试数据集,对训练数据集进行五种情感happiness、sad、anger、fear、surprise的人工标注得到已标注的训练数据集,再对训练数据集进行数据清洗以及分词处理,并对分词处理后的数据进行去停用词处理,得到五分类训练数据集,具体如下:
步骤1.1、将原始数据集划分成代表happiness、sad、anger、fear、surprise五种情感的训练数据集;
进一步地,针对目前社交网络中存在大量的中英文混合的文本数据,原始数据集为包含中文和英文双语的情感词文本;
步骤1.2、根据人工标注好的代表五种情感的训练数据集,对测试数据集进行分词处理,中文数据使用jieba进行分词,英文数据根据空格进行词汇识别;
步骤1.3、对每一条分词处理后的数据进行去停用词处理,如:“的”、“a”、“t he”等,然后得到已经被正确切分的,可用作模型训练的数据。
步骤2、网络模型构建:构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,能够同时接收处理两种数据,对中文文本和英文文本进行同时分析,具体如下:
构建双门LSTM网络模型,如图2所示,双门LSTM网络模型包括2个输入门、2 个遗忘门和1个输出门,包含输入层、隐层和输出层,其中输入门的计算如式(1)(2),遗忘门的计算如式(3)(4),输出门的计算如式(5):
itx=σ(Wxixt+Uhi xht-1 x+Vci xct-1 x+bi x) (1)
ity=σ(Wyiyt+Uhi yht-1 y+Vci yct-1 y+bi y) (2)
ftx=σ(Wxfxt+Uhf xot-1 x+Vcf xct-1 x+bf x) (3)
fty=σ(Wyfyt+Uhf yot-1 y+Vcf yct-1 y+bf y) (4)
ot=σ(Wxoxt++Wyoyt+Uho xot-1 x+Uho yot-1 y+Vcoct-1+bo) (5)
其中,t表示当前时刻,t-1为上一时刻,itx、ity分别代表两个输入门的计算方法,ftx、fty分别代表两个遗忘门的计算方法,ot表示输出门的计算方法;σ()为sigmoid函数,xt、yt分别对应这一时刻x、y方向上的输入,ot-1 x为上一时刻x方向的输出门计算,ot-1 y为上一时刻y方向的输出门计算,ht-1 x、ht-1 y分别为上一时刻输出在x、y方向的分量,ct-1 x、ct-1 y分别为记忆单元上一时刻在x、y方向分量的值;为x方向输入门的偏置向量、为y方向输入门的偏置向量、为x方向遗忘门的偏置向量,为y 方向遗忘门的偏置向量,bo为输出门的偏置向量,Wxi为x方向连接输入门的权重、 Wyi为x方向连接输入门的权重、Wxf为x方向连接遗忘门的权重、Wyf为y方向连接遗忘门的权重、Wxo为x方向连接输出门的权重、Wyo为y方向连接输出门的权重;输入门计算后在x方向上的权重、为输入门计算后在y方向上的权重、为遗忘门计算后在x方向上的权重、为遗忘门计算后在y方向上的权重、Uho x为输出门计算后在x方向上的权重、为输出门计算后在y方向上的权重;输入门x方向连接记忆单元的权重、输入门y方向连接记忆单元的权重、遗忘门x方向连接记忆单元的权重、遗忘门y方向连接记忆单元的权重、Vco输出门连接记忆单元的权重;ct-1表示t-1时刻记忆单元的计算方法。
构建的双门LSTM网络模型包含两个输入门和两个遗忘门可以同时接收处理两种数据,可以同时对中文文本和英文文本进行分析,提升了社交网络中存在的大量中英文混合文本的情感分析的准确性。
步骤3、网络模型训练,根据构建的双门LSTM网络模型,训练由步骤1得到的已做好人工标注的五分类训练数据集,用作训练初始的分类器,然后通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,得到训练好的双门LSTM网络模型,具体如下:
步骤3.1、使用构建的双门LSTM网络模型,训练已标注好的五分类训练数据集,作为初始的训练分类器;
为了防止模型过度拟合,训练的样本不能太小;
步骤3.2、通过利用大量语料、已有知识库、词汇相似性计算模型,构建英汉双语情感词词典,进而对训练数据集进行向量化处理,得到训练好的双门LSTM网络模型;进一步地,向量化处理用到的工具为gensim里的Word2vec以及Dictionary,具体如下:设D={d1,d2,...,dn}是做过预处理操作的训练数据集的集合,其中di是训练数据集中的第i条数据的向量表示,则对于训练数据集中的任一条文本数据di={w1,w2,w3, w4,w5},其中w1,w2,w3,w4,w5表示该条文本数据中对应的happiness、sad、anger、fear、surprise五类情感词的个数,因此每条数据均以5维向量表示。。
步骤4、网络模型测试:根据训练好的双门LSTM网络模型,对测试数据集进行分词处理,再对预处理过的测试数据集进行情感特征分析,将测试数据集中已分类的数据做好标记;首先利用半监督学习的self-training方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标记的测试数据集中,作为新的训练数据集,重新用新的训练数据集训练分类器,循环迭代,直至所有未标注过的测试数据集完成文本情感分类;
步骤4.1、根据训练好的双门LSTM网络模型,对步骤1中分词处理后的测试数据集进行情感特征分析,判断出每条数据所属的类别,将数据分为已标注五分类测试集的数据和未标注的测试集数据;
步骤4.2、使用半监督学习的self-trainning方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标注的测试数据集中,作为新的训练数据集;
步骤4.3、用新的训练数据集继续训练分类器,然后进行循环迭代,直至未标注的测试数据集完成文本情感分类。
步骤5、情感特征分析:使用训练好的双门LSTM网络模型,对新的输入文本进行感情特征分析,判断该输入文本所属的类别,并输出分类结果,具体如下:
步骤5.1、根据训练好的双门LSTM网络模型,对输入文本进行情感特征分析,首先提取出输入文本的内容,并将输入文本的每条内容转换为列表;
步骤5.2、每行对应列表里的一个元素,对列表的每个元素都判断该元素所属的类别,情感分类评价标准使用准确率precision、召回率recall、和F值F-measure来评价分类结果,计算公式如下:
precision=TP/(TP+FP) (6)
recall=TP/(TP+FN) (7)
F=2*recall*precision/(recall+precision) (8)
其中,TP为将正类预测为正类数目,FN为将正类预测为负类的数目,FP为将负类预测位正类的数目。
步骤5.3、输出分类结果。
本发明通过构建双门LSTM网络模型,并构建英汉双语情感词词典,进而训练双门LSTM网络模型,对分词处理过的测试数据集进行情感特征分类,能够对社交网络上用户的中英文评论信息进行情感信息的全面、准确的抽取和分析。
Claims (6)
1.一种基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,包括以下步骤:
步骤1、数据集的准备和预处理:准备一个训练数据集和一个测试数据集,对训练数据集进行五种情感happiness、sad、anger、fear、surprise的人工标注得到已标注的训练数据集,再对训练数据集进行数据清洗以及分词处理,并对分词处理后的数据进行去停用词处理,得到五分类训练数据集;
步骤2、网络模型构建:构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,能够同时接收处理两种数据,对中文文本和英文文本进行同时分析;
步骤3、网络模型训练:根据构建的双门LSTM网络模型,训练由步骤1得到的已做好人工标注的五分类训练数据集,用作训练初始的分类器,然后通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,得到训练好的双门LSTM网络模型;
步骤4、网络模型测试:根据训练好的双门LSTM网络模型,对测试数据集进行分词处理,再对预处理过的测试数据集进行情感特征分析,将测试数据集中已分类的数据做好标记;首先利用半监督学习的self-training方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标记的测试数据集中,作为新的训练数据集,重新用新的训练数据集训练分类器,循环迭代,直至所有未标注过的测试数据集完成文本情感分类;
步骤5、情感特征分析:使用训练好的双门LSTM网络模型,对新的输入文本进行感情特征分析,判断该输入文本所属的类别,并输出分类结果。
2.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤1所述的数据集的准备和预处理,具体如下:
步骤1.1、将原始数据集人工标注成代表happiness、sad、anger、fear、surprise五种情感的初始训练数据集;
步骤1.2、根据人工标注好的初始训练数据集,对待训练数据集进行分词处理,中文数据使用jieba进行分词,英文数据根据空格进行词汇识别;
步骤1.3、对每一条分词处理后的数据进行去停用词处理,然后得到已经被正确切分的,能够用作模型训练的数据。
3.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤2所述的网络模型构建,具体如下:
构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,包含输入层、隐层和输出层,其中输入门的计算如式(1)(2),遗忘门的计算如式(3)(4),输出门的计算如式(5):
itx=σ(Wxixt+Uhi xht-1 x+Vci xct-1 x+bi x) (1)
ity=σ(Wyiyt+Uhi yht-1 y+Vci yct-1 y+bi y) (2)
ftx=σ(Wxfxt+Uhf xot-1 x+Vcf xct-1 x+bf x) (3)
fty=σ(Wyfyt+Uhf yot-1 y+Vcf yct-1 y+bf y) (4)
ot=σ(Wxoxt++Wyoyt+Uho xot-1 x+Uho yot-1 y+Vcoct-1+bo) (5)
其中,t表示当前时刻,t-1为上一时刻,itx、ity分别代表两个输入门的计算方法,ftx、fty分别代表两个遗忘门的计算方法,ot表示输出门的计算方法;σ()为sigmoid函数,xt、yt分别对应这一时刻x、y方向上的输入,ot-1 x为上一时刻x方向的输出门计算,ot-1 y为上一时刻y方向的输出门计算,ht-1 x、ht-1 y分别为上一时刻输出在x、y方向的分量,ct-1 x、ct-1 y分别为记忆单元上一时刻在x、y方向分量的值;为x方向输入门的偏置向量、为y方向输入门的偏置向量、为x方向遗忘门的偏置向量,为y方向遗忘门的偏置向量,bo为输出门的偏置向量,Wxi为x方向连接输入门的权重、Wyi为x方向连接输入门的权重、Wxf为x方向连接遗忘门的权重、Wyf为y方向连接遗忘门的权重、Wxo为x方向连接输出门的权重、Wyo为y方向连接输出门的权重;输入门计算后在x方向上的权重、为输入门计算后在y方向上的权重、为遗忘门计算后在x方向上的权重、为遗忘门计算后在y方向上的权重、Uho x为输出门计算后在x方向上的权重、为输出门计算后在y方向上的权重;输入门在x方向连接记忆单元的权重、输入门在y方向连接记忆单元的权重、遗忘门在x方向连接记忆单元的权重、遗忘门在y方向连接记忆单元的权重、Vco输出门连接记忆单元的权重;ct-1表示t-1时刻记忆单元的计算方法。
4.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤3所述通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,所用工具为gensim里的Word2vec以及Dictionary,具体如下:
设D={d1,d2,...,dn}是做过预处理操作的全部训练数据集数据的集合,其中di是训练数据集中的第i条数据的向量表示,则对于训练数据集中的任一条文本数据di={w1,w2,w3,w4,w5},其中w1,w2,w3,w4,w5表示该条文本数据中对应的happiness、sad、anger、fear、surprise五类情感词的个数,因此每条数据均以5维向量表示。
5.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤4所述的网络模型测试,具体如下:
步骤4.1、根据训练好的双门LSTM网络模型,对步骤1中分词处理后的测试数据集进行情感特征分析,判断出每条数据所属的类别,将数据分为已标注五分类测试集的数据和未标注的测试集数据;
步骤4.2、使用半监督学习的self-trainning方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标注的测试数据集中,作为新的训练数据集;
步骤4.3、用新的训练数据集继续训练分类器,然后进行循环迭代,直至未标注的测试数据集完成文本情感分类。
6.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤5所述的情感特征分析,具体如下:
步骤5.1、根据训练好的双门LSTM网络模型,对输入文本进行情感特征分析,首先提取出输入文本的内容,并将输入文本的每条内容转换为列表;
步骤5.2、每行对应列表里的一个元素,对列表的每个元素都判断该元素所属的类别,情感分类评价标准使用准确率precision、召回率recall、和F值F-measure来评价分类结果,计算公式如下:
precision=TP/(TP+FP) (6)
recall=TP/(TP+FN) (7)
F=2*recall*precision/(recall+precision) (8)
其中,TP为将正类预测为正类数目,FN为将正类预测为负类的数目,FP为将负类预测位正类的数目;
步骤5.3、输出分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910596187.9A CN110427458B (zh) | 2019-07-03 | 2019-07-03 | 基于双门lstm的社交网络双语的五分类情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910596187.9A CN110427458B (zh) | 2019-07-03 | 2019-07-03 | 基于双门lstm的社交网络双语的五分类情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427458A true CN110427458A (zh) | 2019-11-08 |
CN110427458B CN110427458B (zh) | 2022-10-14 |
Family
ID=68410257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910596187.9A Active CN110427458B (zh) | 2019-07-03 | 2019-07-03 | 基于双门lstm的社交网络双语的五分类情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427458B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532380A (zh) * | 2019-07-12 | 2019-12-03 | 杭州电子科技大学 | 一种基于记忆网络的文本情感分类方法 |
CN111241286A (zh) * | 2020-01-16 | 2020-06-05 | 东方红卫星移动通信有限公司 | 一种基于混合分类器的短文本情感细分类方法 |
CN111966944A (zh) * | 2020-08-17 | 2020-11-20 | 中电科大数据研究院有限公司 | 一种多层级用户评论安全审核的模型构建方法 |
CN112115331A (zh) * | 2020-09-21 | 2020-12-22 | 朱彤 | 基于分布式网络爬虫与nlp的资本市场舆情监测方法 |
CN112183088A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 词语层级确定的方法、模型构建方法、装置及设备 |
CN112862021A (zh) * | 2021-04-25 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 一种内容标注方法和相关装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107544957A (zh) * | 2017-07-05 | 2018-01-05 | 华北电力大学 | 一种面向商品目标词的情感倾向分析方法 |
CN109902177A (zh) * | 2019-02-28 | 2019-06-18 | 上海理工大学 | 基于双通道卷积记忆神经网络的文本情感分析方法 |
-
2019
- 2019-07-03 CN CN201910596187.9A patent/CN110427458B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107544957A (zh) * | 2017-07-05 | 2018-01-05 | 华北电力大学 | 一种面向商品目标词的情感倾向分析方法 |
CN109902177A (zh) * | 2019-02-28 | 2019-06-18 | 上海理工大学 | 基于双通道卷积记忆神经网络的文本情感分析方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532380A (zh) * | 2019-07-12 | 2019-12-03 | 杭州电子科技大学 | 一种基于记忆网络的文本情感分类方法 |
CN110532380B (zh) * | 2019-07-12 | 2020-06-23 | 杭州电子科技大学 | 一种基于记忆网络的文本情感分类方法 |
CN111241286A (zh) * | 2020-01-16 | 2020-06-05 | 东方红卫星移动通信有限公司 | 一种基于混合分类器的短文本情感细分类方法 |
CN111966944A (zh) * | 2020-08-17 | 2020-11-20 | 中电科大数据研究院有限公司 | 一种多层级用户评论安全审核的模型构建方法 |
CN111966944B (zh) * | 2020-08-17 | 2024-04-09 | 中电科大数据研究院有限公司 | 一种多层级用户评论安全审核的模型构建方法 |
CN112115331A (zh) * | 2020-09-21 | 2020-12-22 | 朱彤 | 基于分布式网络爬虫与nlp的资本市场舆情监测方法 |
CN112115331B (zh) * | 2020-09-21 | 2021-05-04 | 朱彤 | 基于分布式网络爬虫与nlp的资本市场舆情监测方法 |
CN112183088A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 词语层级确定的方法、模型构建方法、装置及设备 |
CN112183088B (zh) * | 2020-09-28 | 2023-11-21 | 云知声智能科技股份有限公司 | 词语层级确定的方法、模型构建方法、装置及设备 |
CN112862021A (zh) * | 2021-04-25 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 一种内容标注方法和相关装置 |
CN112862021B (zh) * | 2021-04-25 | 2021-08-31 | 腾讯科技(深圳)有限公司 | 一种内容标注方法和相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110427458B (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427458A (zh) | 基于双门lstm的社交网络双语的五分类情感分析方法 | |
CN108399158B (zh) | 基于依存树和注意力机制的属性情感分类方法 | |
CN108021616B (zh) | 一种基于循环神经网络的社区问答专家推荐方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN109710919A (zh) | 一种融合注意力机制的神经网络事件抽取方法 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN107861951A (zh) | 智能客服中的会话主题识别方法 | |
CN107967318A (zh) | 一种采用lstm神经网络的中文短文本主观题自动评分方法和*** | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN111160037A (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN110414009B (zh) | 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 | |
CN104239554A (zh) | 跨领域跨类别的新闻评论情绪预测方法 | |
Wahid et al. | Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model | |
CN108536756A (zh) | 基于双语信息的情绪分类方法及*** | |
CN106777957B (zh) | 不平衡数据集上生物医学多参事件抽取的新方法 | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN105205124A (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN109409433B (zh) | 一种社交网络用户的人格识别***和方法 | |
CN105975455A (zh) | 基于双向递归神经网络的信息分析*** | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN108228569A (zh) | 一种基于松散条件下协同学习的中文微博情感分析方法 | |
Cai et al. | Multi-Domain Sentiment Classification Based on Domain-Aware Embedding and Attention. | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |