CN108108351B - 一种基于深度学习组合模型的文本情感分类方法 - Google Patents
一种基于深度学习组合模型的文本情感分类方法 Download PDFInfo
- Publication number
- CN108108351B CN108108351B CN201711268380.7A CN201711268380A CN108108351B CN 108108351 B CN108108351 B CN 108108351B CN 201711268380 A CN201711268380 A CN 201711268380A CN 108108351 B CN108108351 B CN 108108351B
- Authority
- CN
- China
- Prior art keywords
- training
- model
- words
- loss
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000008451 emotion Effects 0.000 title claims abstract description 44
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 101
- 239000013598 vector Substances 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 claims abstract description 22
- 230000000750 progressive effect Effects 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 9
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 claims description 4
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 1
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习组合模型的文本情感分类方法,包括步骤:1)训练词向量和字向量;2)将标注文本的每个句子进行分词并填充到固定长度得到训练数据集一,将标注文本的每个句子进行字切分并填充到固定长度得到训练数据集二;3)将两个训练数据集的字和词赋予相应的词向量和字向量;4)将两个训练数据集再用textCNN和改进的DynamicCNN模型训练得到四个基分类器,训练方法采用递进学习方法,损失函数采用焦点损失函数;5)将四个基分类器线性组合得到组合模型的文本情感分类方法。本发明实现的文本情感分类方法,不需依赖于特定的情感词典,不限于特定的领域,具有较强的通用性和可扩展性。
Description
技术领域
本发明涉及深度学习、自然语言处理领域,尤其是指一种基于深度学习组合模型的文本情感分类方法。
背景技术
文本情感分类技术,其形式化表达为:对于特定的文本x,模型预测得到属于各个情感类别的概率向量为P,其所属类别为:
传统的文本情感分类研究主要的比较主流的方法是基于情感词典的分类方法,通常先建立一个包含各种情感色彩情感词词典,然后基于所建立的情感词典给文本语义信息进行加权,然后采用传统的机器学习方法来进行情感分类。比较常用的情感词典包括HowNet、NTUSD和大连理工大学整理的中文情感词汇本体库。基于情感词典的情感分类方法比较简单,分类速度快,但准确率不高。这些情感词典基本上缺少带有明显情感色彩的网络新词,因此,很多基于情感词典的情感分类方法都选择了扩展情感词典的方法。分词工具往往很难识别网络新词,文献提出了一种基于统计信息的新词发现方法,以提高分词准确率。此外,上下文关系也对句子级情感分析提供有价值的信息。Zhao等人考虑上下文之间的情感影响,使用CRF模型来处理句子级的情感分类任务。
在文本情感分析任务中使用的比较常见的机器学习方法包括支持向量机、最大熵模型和朴素贝叶斯等,这些都归类于浅层学习,计算方法也都比较简单,容易实现而且计算量较小,在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制,同时对于复杂的分类问题这些方法的泛化能力也在一定程度上受到制约。目前,情感分类算法中效果比较好的是基于情感词典的分类方法,这种方法构建起来比较简单,速度快,但有时准确率比较低。社交网络中存在大量网络新词,很多网络新词具有明显的情感色彩,基于情感词典的分类方法就需要将添加这些新词,动态更新情感词典,情感词典的建立和更新费时费力。传统的机器学习方法无法准确获取文本语义方面的信息,并且人为设计特征需要一定的语言学的背景知识,这成为文本情感分析研究的一道门槛。深度学习是一种深层次的非线性网络结构,它可以逼近十分复杂的函数,自动总结归纳特征,省去了人为设计特征的麻烦。
深度学习过程中模型训练往往很容易陷入局部最优或者遇到鞍点难题,并且层数越多,神经网络存在越多的局部最优值和鞍点,目前大部分方案是从改变权重初始化着手,提出用Xavier、MSRA等方法来初始化权重,但是作用仍然十分有限,并且训练时间较长。
发明内容
本发明针对现有技术存在的上述问题,提出了一种基于深度学习组合模型的文本情感分类方法,可以减少人工设计特征的麻烦,并加快网络训练的速度,提升模型性能,并且实现端到端的训练方式,模型更具有通用性和可移植性。
为实现上述目的,本发明所提供的技术方案为:一种基于深度学习组合模型的文本情感分类方法,该方法以实现准确识别文本情感为第一目标,快速建立特定应用的文本情感分类器为第二目标,通过改进网络结构、模型损失函数、模型训练方法和模型组合,以确保加快训练速度的同时,并训练得到高准确率分类器;其包括以下步骤:
1)训练词向量和字向量;
2)将标注文本的每个句子进行分词并填充到固定长度得到训练数据集一,将标注文本的每个句子进行字切分并填充到固定长度得到训练数据集二;
3)将两个训练数据集的字和词赋予相应的词向量和字向量;
4)将两个训练数据集再用textCNN和改进的DynamicCNN模型训练得到四个基分类器,训练方法采用递进学习方法,损失函数采用焦点损失函数;其中,改进的DynamicCNN模型是利用三组并行卷积方式,每组卷积有两层卷积,textCNN和改进的DynamicCNN都采用一维卷积;
5)将四个基分类器线性组合。
在步骤1)中,确定词向量的长度,对特定文本数据进行分词,得到相应的训练语料库,利用词向量训练工具训练得到词语的词向量;另外对该文本数据的中文进行按字划分,训练得到字的字向量;所定义的分词是对文本按词语进行切分,所定义的字切分是指对中文句子按字切分,英语单词和数字保持独立不切分为字符。
在步骤2)中,分词是对文本按词语进行切分,字切分是指对中文句子按字切分,英语单词和数字保持独立不切分为字符。
在步骤3)中,训练数据集一的词和训练数据集二的字赋予相应的词向量和字向量,词向量和字向量在模型训练中根据反向传播进行更新。
所述步骤4)包括以下步骤:
4.1)利用焦点损失函数替换原有的softmax分类器的交叉熵损失函数,对于样本真实标签y∈{1,-1},和模型预测的概率p,焦点损失函数公式定义如下:
FL(pt,y)=-(1-pt)γlog(pt)
其中γ为大于零的常数,定义pt如下:
4.2)根据递进学习方法,先用容易分类的样本进行训练,也就是在模型前期训练过程中,对于每批量数据X,数据放入深度学习模型,计算得到每个样本xi的损失loss(xi),此时不进行反向传播更新模型参数,然后对训练数据X按损失从小到大排序,选取前k个样本X'={xi|xi∈X,rank1(loss(xi))≤k}用于训练模型;后期用难分类的样本进行训练,也就是在模型后期训练过程中,对于每批量数据X,数据放入深度学习模型,计算得到每个样本xi的损失loss(xi),此时不进行反向传播更新模型参数,然后对训练数据X按损失从大到小排序,选取前k个样本X'={xi|xi∈X,rank2(loss(xi))≤k}用于训练模型,其中rank1(s)和rank2(s)分别为返回数据按从小到大排序和从大到小排序的下标;模型训练方法描述如下:
a)获取一批量的数据X;
b)数据输入模型,预先计算每个样本xi的损失loss(xi),此时不进行反向传播;
c)训练次数小于设定阈值,则进入步骤d),否则进入步骤e);
d)对训练数据X按损失从小到大进行排序,筛选得到前k个样本X'={xi|xi∈X,rank1(loss(xi))≤k},并进入步骤f);
e)对训练数据X按损失从大到小进行排序,筛选得到前k个样本X'={xi|xi∈X,rank2(loss(xi))≤k},并进入步骤f);
f)利用筛选得到的训练数据X'进行训练模型,反向传播更新模型参数,若训练未结束,则返回步骤a),否则进入步骤g);
g)退出。
在步骤5)中,将四个基分类器线性组合得到组合模型的文本情感分类方法,各基分类器的权重以该基分类器自身的训练测试得到的准确率为权重,对特定样本x,四个基分类器自身的准确率为acci(i=1,2,3,4),对样本预测的结果为pi(i=1,2,3,4),则模型组合预测的结果为:
其中,αi为第i个基分类器的权重:
本发明与现有技术相比,具有如下优点与有益效果:
1、基于深度学习的方法可以减少人工设计特征的麻烦,该模型实现端到端的训练方式,简化了特征工程和模型训练的难度。
2、利用预先训练的词向量和字向量分别初始化训练数据的词向量和字向量,提高模型的准确率,同时也可以加快模型收敛速度。
3、焦点损失函数改变不容易分类样本对模型训练的影响,利用焦点损失函数替换原有的softmax分类器的交叉熵损失函数,提高模型的准确率。
4、改进的DynamicCNN模型采用三组并行卷积方式,提升了原先DynamicCNN的性能。
5、递进学习方法加快模型收敛,避免陷入局部最优或者鞍点,同时提高模型的准确率。
6、组合4个基分类器,利用基于字的分类模型弥补分词错误给模型造成的影响,这种组合模型的效果更稳定,效果更好。
附图说明
图1为本发明方法的TextCNN网络结构图。
图2为本发明方法改进的DynamicCNN网络结构图。
图3为本发明方法的组合模型结构图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的基于深度学习组合模型的文本情感分类方法,包括以下步骤:
1)对一定量的微博数据进行分词或字切分,英文单词和数字不进行划分,借助词向量训练工具Word2Vec训练得到词语或字对应的词向量;
2)将标注文本的每个句子进行分词并填充到固定长度得到训练数据集一,将标注文本的每个句子进行字切分并填充到固定长度得到训练数据集二;
3)将两个训练数据集的字和词赋予相应的词向量和字向量;
4)两个模型用tensorflow实现,将两个训练数据集再用TextCNN(如图1所示)模型训练得到两个基分类器,同时将该两个训练数据集再用改进的DynamicCNN(如图2所示)模型训练得到两个基分类器,由此得到4个基分类器;改进的DynamicCNN三组并行卷积方式,每组卷积有两层卷积,卷积采用一维卷积方式,padding方式为SAME,卷积不会改变特征图大小,第一组卷积的两层卷积尺寸分别为7和5,第一组卷积的两层卷积尺寸分别为5和3,第一组卷积的两层卷积尺寸分别为3和2;损失函数采用焦点损失函数,焦点损失函数公式定义如下:
FL(pt,y)=-(1-pt)γlog(pt)
其中γ取值为1,定义pt如下:
训练方法采用递进学习方法,每批有120个样本,对于每批量数据X,数据放入深度学习模型,计算得到每个样本xi的损失loss(xi),此时不进行反向传播更新模型参数,然后对训练数据X按损失从小到大排序,选取前k个样本X'={xi|xi∈X,rank1(loss(xi))≤k}用于训练模型;后期用难分类的样本进行训练,也就是在模型前期训练过程中,对于每批量数据X,数据输入模型,计算得到每个样本xi的损失loss(xi),此时不进行反向传播更新模型参数,然后对训练数据X按损失从大到小排序,选取前k个样本X'={xi|xi∈X,rank2(loss(xi))≤k}用于训练模型。其中rank1(s)和rank2(s)分别为返回数据按从小到大排序和从大到小排序的下标,k=80,阈值s=3000,训练35代。模型训练方法大致描述如下:
a)获取一批量的数据X;
b)数据输入模型,预先计算每个样本xi的损失loss(xi),此时不进行反向传播;
c)训练次数小于设定阈值,则进入步骤d),否则进入步骤e)
d)对训练数据X按损失从小到大进行排序,筛选得到前k个样本X'={xi|xi∈X,rank1(loss(xi))≤k},并进入步骤f);
e)对训练数据X按损失从大到小进行排序,筛选得到前k个样本X'={xi|xi∈X,rank2(loss(xi))≤k},并进入步骤f);
f)利用筛选得到的训练数据X'进行训练模型,反向传播更新模型参数,若训练未结束,则返回步骤a),否则进入步骤g);
g)退出。
5)如图3所示,以各个分类器的准确率为权重,线性组合这四个基分类器得到文本情感分类器,各基分类器的权重以该基分类器自身的准确率为权重,对特定样本x,四个基分类器自身的准确率为acci(i=1,2,3,4),对样本预测的结果为pi(i=1,2,3,4),则模型组合预测的结果为:
其中αi为第i个基分类器的权重:
6)对于待分类的文本,分别进行分词和字切分,得到两个子句,输入组合模型识别出该文本的情感。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (6)
1.一种基于深度学习组合模型的文本情感分类方法,其特征在于:该方法以实现准确识别文本情感为第一目标,快速建立特定应用的文本情感分类器为第二目标,通过改进网络结构、模型损失函数、模型训练方法和模型组合,以确保加快训练速度的同时,并训练得到高准确率分类器;其包括以下步骤:
1)训练词向量和字向量;
2)将标注文本的每个句子进行分词并填充到固定长度得到训练数据集一,将标注文本的每个句子进行字切分并填充到固定长度得到训练数据集二;
3)将两个训练数据集的字和词赋予相应的词向量和字向量;
4)将两个训练数据集再用textCNN和改进的DynamicCNN模型训练得到四个基分类器,训练方法采用递进学习方法,损失函数采用焦点损失函数;其中,改进的DynamicCNN模型是利用三组并行卷积方式,每组卷积有两层卷积,textCNN和改进的DynamicCNN都采用一维卷积;
5)将四个基分类器线性组合。
2.根据权利要求1所述的一种基于深度学习组合模型的文本情感分类方法,其特征在于:在步骤1)中,确定词向量的长度,对特定文本数据进行分词,得到相应的训练语料库,利用词向量训练工具训练得到词语的词向量;另外对该文本数据的中文进行按字划分,训练得到字的字向量;所定义的分词是对文本按词语进行切分,所定义的字切分是指对中文句子按字切分,英语单词和数字保持独立不切分为字符。
3.根据权利要求1所述的一种基于深度学习组合模型的文本情感分类方法,其特征在于:在步骤2)中,分词是对文本按词语进行切分,字切分是指对中文句子按字切分,英语单词和数字保持独立不切分为字符。
4.根据权利要求1所述的一种基于深度学习组合模型的文本情感分类方法,其特征在于:在步骤3)中,训练数据集一的词和训练数据集二的字赋予相应的词向量和字向量,词向量和字向量在模型训练中根据反向传播进行更新。
5.根据权利要求1所述的一种基于深度学习组合模型的文本情感分类方法,其特征在于,所述步骤4)包括以下步骤:
4.1)利用焦点损失函数替换原有的softmax分类器的交叉熵损失函数,对于样本真实标签y∈{1,-1},和模型预测的概率p,焦点损失函数公式定义如下:
FL(pt,y)=-(1-pt)γlog(pt)
其中γ为大于零的常数,定义pt如下:
4.2)根据递进学习方法,先用容易分类的样本进行训练,也就是在模型前期训练过程中,对于每批量数据X,数据放入深度学习模型,计算得到每个样本xi的损失loss(xi),此时不进行反向传播更新模型参数,然后对训练数据X按损失从小到大排序,选取前k个样本X'={xi|xi∈X,rank1(loss(xi))≤k}用于训练模型;后期用难分类的样本进行训练,也就是在模型后期训练过程中,对于每批量数据X,数据放入深度学习模型,计算得到每个样本xi的损失loss(xi),此时不进行反向传播更新模型参数,然后对训练数据X按损失从大到小排序,选取前k个样本X'={xi|xi∈X,rank2(loss(xi))≤k}用于训练模型,其中rank1(s)和rank2(s)分别为返回数据按从小到大排序和从大到小排序的下标;模型训练方法描述如下:
a)获取一批量的数据X;
b)数据输入模型,预先计算每个样本xi的损失loss(xi),此时不进行反向传播;
c)训练次数小于设定阈值,则进入步骤d),否则进入步骤e);
d)对训练数据X按损失从小到大进行排序,筛选得到前k个样本X'={xi|xi∈X,rank1(loss(xi))≤k},并进入步骤f);
e)对训练数据X按损失从大到小进行排序,筛选得到前k个样本X'={xi|xi∈X,rank2(loss(xi))≤k},并进入步骤f);
f)利用筛选得到的训练数据X'进行训练模型,反向传播更新模型参数,若训练未结束,则返回步骤a),否则进入步骤g);
g)退出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711268380.7A CN108108351B (zh) | 2017-12-05 | 2017-12-05 | 一种基于深度学习组合模型的文本情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711268380.7A CN108108351B (zh) | 2017-12-05 | 2017-12-05 | 一种基于深度学习组合模型的文本情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108108351A CN108108351A (zh) | 2018-06-01 |
CN108108351B true CN108108351B (zh) | 2020-05-22 |
Family
ID=62208913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711268380.7A Expired - Fee Related CN108108351B (zh) | 2017-12-05 | 2017-12-05 | 一种基于深度学习组合模型的文本情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108108351B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829818B (zh) * | 2018-06-12 | 2021-05-25 | 中国科学院计算技术研究所 | 一种文本分类方法 |
JPWO2020021845A1 (ja) * | 2018-07-24 | 2021-02-15 | 株式会社Nttドコモ | 文書分類装置及び学習済みモデル |
CN110852111A (zh) * | 2018-08-03 | 2020-02-28 | 天津大学 | 能同时过滤无关评论和对相关评论进行情感分类的方法 |
CN108959655B (zh) * | 2018-08-07 | 2020-04-03 | 南京大学 | 一种面向动态环境的自适应在线推荐方法 |
CN109063155B (zh) * | 2018-08-10 | 2020-08-04 | 广州锋网信息科技有限公司 | 语言模型参数确定方法、装置和计算机设备 |
CN109376240A (zh) * | 2018-10-11 | 2019-02-22 | 平安科技(深圳)有限公司 | 一种文本分析方法及终端 |
CN109471944B (zh) * | 2018-11-12 | 2021-07-16 | 中山大学 | 文本分类模型的训练方法、装置及可读存储介质 |
CN109271521B (zh) * | 2018-11-16 | 2021-03-30 | 北京九狐时代智能科技有限公司 | 一种文本分类方法及装置 |
CN109471946B (zh) * | 2018-11-16 | 2021-10-01 | 中国科学技术大学 | 一种中文文本的分类方法及*** |
CN109697459A (zh) * | 2018-12-04 | 2019-04-30 | 云南大学 | 一种面向光学相干断层图像斑块形态检测方法 |
CN109620152B (zh) * | 2018-12-16 | 2021-09-14 | 北京工业大学 | 一种基于MutiFacolLoss-Densenet的心电信号分类方法 |
CN109918497A (zh) * | 2018-12-21 | 2019-06-21 | 厦门市美亚柏科信息股份有限公司 | 一种基于改进textCNN模型的文本分类方法、装置及存储介质 |
CN109815339B (zh) * | 2019-01-02 | 2022-02-08 | 平安科技(深圳)有限公司 | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 |
CN109918499A (zh) * | 2019-01-14 | 2019-06-21 | 平安科技(深圳)有限公司 | 一种文本分类方法、装置、计算机设备及存储介质 |
CN109599096B (zh) * | 2019-01-25 | 2021-12-07 | 科大讯飞股份有限公司 | 一种数据筛选方法及装置 |
CN110008332B (zh) * | 2019-02-13 | 2020-11-10 | 创新先进技术有限公司 | 通过强化学习提取主干词的方法及装置 |
US11328221B2 (en) | 2019-04-09 | 2022-05-10 | International Business Machines Corporation | Hybrid model for short text classification with imbalanced data |
CN110298391B (zh) * | 2019-06-12 | 2023-05-02 | 同济大学 | 一种基于小样本的迭代式增量对话意图类别识别方法 |
CN110502633A (zh) * | 2019-07-19 | 2019-11-26 | 中山大学 | 基于机器学习的网络评论管理方法 |
CN110532549A (zh) * | 2019-08-13 | 2019-12-03 | 青岛理工大学 | 一种基于双通道深度学习模型的文本情感分析方法 |
CN111046171B (zh) * | 2019-08-29 | 2022-08-16 | 成都信息工程大学 | 一种基于细粒度标注数据的情感判别方法 |
CN110556129B (zh) * | 2019-09-09 | 2022-04-19 | 北京大学深圳研究生院 | 双模态情感识别模型训练方法及双模态情感识别方法 |
CN112949313A (zh) * | 2019-12-11 | 2021-06-11 | 中移(苏州)软件技术有限公司 | 信息处理模型训练方法、装置、设备及存储介质 |
CN111125317A (zh) * | 2019-12-27 | 2020-05-08 | 携程计算机技术(上海)有限公司 | 对话型文本分类的模型训练、分类、***、设备和介质 |
CN111339305B (zh) * | 2020-03-20 | 2023-04-14 | 北京中科模识科技有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN111126606B (zh) * | 2020-03-30 | 2020-07-28 | 同盾控股有限公司 | 基于平台的深度学习模型自主训练方法、装置、设备及介质 |
CN111553277B (zh) * | 2020-04-28 | 2022-04-26 | 电子科技大学 | 一种引入一致性约束的中文签名鉴定方法及终端 |
CN111881983B (zh) * | 2020-07-30 | 2024-05-28 | 平安科技(深圳)有限公司 | 基于分类模型的数据处理方法、装置、电子设备及介质 |
CN116257623B (zh) * | 2022-09-07 | 2023-11-28 | 中债金科信息技术有限公司 | 文本情感分类模型训练方法、文本情感分类方法及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN106874410A (zh) * | 2017-01-22 | 2017-06-20 | 清华大学 | 基于卷积神经网络的中文微博文本情绪分类方法及其*** |
DE102016013372A1 (de) * | 2016-01-13 | 2017-07-13 | Adobe Systems Incorporated | Bildbeschriften mit schwacher Überwachung |
CN107025284A (zh) * | 2017-04-06 | 2017-08-08 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
CN107066553A (zh) * | 2017-03-24 | 2017-08-18 | 北京工业大学 | 一种基于卷积神经网络与随机森林的短文本分类方法 |
CN107229610A (zh) * | 2017-03-17 | 2017-10-03 | 咪咕数字传媒有限公司 | 一种情感数据的分析方法及装置 |
CN107291795A (zh) * | 2017-05-03 | 2017-10-24 | 华南理工大学 | 一种结合动态词嵌入和词性标注的文本分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9053391B2 (en) * | 2011-04-12 | 2015-06-09 | Sharp Laboratories Of America, Inc. | Supervised and semi-supervised online boosting algorithm in machine learning framework |
CN105224984B (zh) * | 2014-05-31 | 2018-03-13 | 华为技术有限公司 | 一种基于深度神经网络的数据类别识别方法及装置 |
-
2017
- 2017-12-05 CN CN201711268380.7A patent/CN108108351B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016013372A1 (de) * | 2016-01-13 | 2017-07-13 | Adobe Systems Incorporated | Bildbeschriften mit schwacher Überwachung |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN106874410A (zh) * | 2017-01-22 | 2017-06-20 | 清华大学 | 基于卷积神经网络的中文微博文本情绪分类方法及其*** |
CN107229610A (zh) * | 2017-03-17 | 2017-10-03 | 咪咕数字传媒有限公司 | 一种情感数据的分析方法及装置 |
CN107066553A (zh) * | 2017-03-24 | 2017-08-18 | 北京工业大学 | 一种基于卷积神经网络与随机森林的短文本分类方法 |
CN107025284A (zh) * | 2017-04-06 | 2017-08-08 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
CN107291795A (zh) * | 2017-05-03 | 2017-10-24 | 华南理工大学 | 一种结合动态词嵌入和词性标注的文本分类方法 |
Non-Patent Citations (4)
Title |
---|
Convolutional neural networks for multimedia sentiment analysis;Cai Guoyong等;《Natural Language Processing and Chinese Computing》;20151220;第160-167页 * |
Lexicon integrated cnn models with attention for sentiment analysis;Shin Bonggun等;《arXiv》;20170822;第1-10页 * |
中文短文本的情感分析;袁丁;《中国优秀硕士学位论文全文数据库信息科技辑》;20150815(第08期);第I138-1602页 * |
基于深度学习的文本情感分类研究;朱少杰;《中国优秀硕士学位论文全文数据库信息科技辑》;20150215(第02期);第I138-1554页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108108351A (zh) | 2018-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108351B (zh) | 一种基于深度学习组合模型的文本情感分类方法 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN109960799B (zh) | 一种面向短文本的优化分类方法 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和*** | |
CN108446271B (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
CN110532554A (zh) | 一种中文摘要生成方法、***及存储介质 | |
CN109002473B (zh) | 一种基于词向量与词性的情感分析方法 | |
CN106776713A (zh) | 一种基于词向量语义分析的海量短文本聚类方法 | |
CN109858028A (zh) | 一种基于概率模型的短文本相似度计算方法 | |
CN107273352B (zh) | 一种基于Zolu函数的词嵌入学习模型及训练方法 | |
CN110472244B (zh) | 一种基于Tree-LSTM和情感信息的短文本情感分类方法 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及*** | |
CN107180084A (zh) | 词库更新方法及装置 | |
CN115495555A (zh) | 一种基于深度学习的文献检索方法和*** | |
CN110532568A (zh) | 基于树特征选择和迁移学习的汉语词义消歧方法 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及*** | |
CN111353040A (zh) | 基于gru的属性级别情感分析方法 | |
CN110069632B (zh) | 一种集成浅层语义表示向量的深度学习文本分类方法 | |
Niyozmatova et al. | Classification based on decision trees and neural networks | |
CN112925904A (zh) | 一种基于Tucker分解的轻量级文本分类方法 | |
CN114491062A (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN113806543A (zh) | 一种基于残差跳跃连接的门控循环单元的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200522 |