CN110245229B - 一种基于数据增强的深度学习主题情感分类方法 - Google Patents

一种基于数据增强的深度学习主题情感分类方法 Download PDF

Info

Publication number
CN110245229B
CN110245229B CN201910365005.7A CN201910365005A CN110245229B CN 110245229 B CN110245229 B CN 110245229B CN 201910365005 A CN201910365005 A CN 201910365005A CN 110245229 B CN110245229 B CN 110245229B
Authority
CN
China
Prior art keywords
sentence
word
training
emotion
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910365005.7A
Other languages
English (en)
Other versions
CN110245229A (zh
Inventor
周晨星
赖韩江
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910365005.7A priority Critical patent/CN110245229B/zh
Publication of CN110245229A publication Critical patent/CN110245229A/zh
Application granted granted Critical
Publication of CN110245229B publication Critical patent/CN110245229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于数据增强的深度学习主题情感分类方法,该方法通过bert预训练语言模型能够让词先获取到一个初步的语义信息,然后经过双向GRU网络学习词与词之间的上下文语义特征,同时提出一种增强数据的方法,通过剔除每个句子中影响情感极性最大的词,迫使模型去学习更难句子的情感极性的判定,同时扩充数据集又使得模型能够从更多的数据集捕获特征。通过在相应数据集上的实验表明,本发明对比之前的情感分类方法,有较大提升。

Description

一种基于数据增强的深度学习主题情感分类方法
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种基于数据增强的深度学习主题情感分类方法。
背景技术
近些年来,互联网技术愈发成熟,人们习惯在网上相互交流和表达自己的想法。在此期间,互联网上保留了很多的文本信息,而情感分析技术旨在于从这些文本信息中挖掘出客户在针对某样事物表达情感的观点和倾向,为后续的具体应用场景比如商铺革新等提供了技术支持,所以情感分析技术在学术界和工业界都具有很高的应用价值。
而主题级别的情感分析就是判断一句话关于某个主题的情感倾向性,这在情感分析中具有举足轻重的作用。目前来说常用的分析方法主要包括基于情感词典和基于机器学习的方法。基于情感词典的方法是通过寻找句子中关于某个主题的情感词汇出现数量以及它们的情感极性来综合评价这个句子关于这个主题的情感倾向,这一步的重点是需要确定与给定主题相关的情感词汇有哪一些然后再进行统计分析。此方法操作简便,容易上手。不过缺点也显而易见:1.对所构建的情感词典的质量要求很高,有一些隐式地表达情感的词很容易被所忽略而造成情感分析准确率下降。2.需要精准定位到当前句子关于某个主题的情感词,如果定位不准确的话会造成错误分类同样降低分类性能。因此,基于情感词典的方法逐渐地被其他方法所替代。目前很多研究都采用机器学习的情感分析方法,首先将其看成是一个分类问题,从已标注的训练样本中选取有利于关于主题的情感分析判定的特征,然后训练一个分类器模型(如最近邻KNN,贝叶斯与支持向量机SVM等)去预测未知句子关于某个主题的情感极性。这种方法比基于情感词典的方法分类效果更好,但是依旧没有达到人们的期望。
分析目前出现的造成分类效果不好的一个原因---数据集规模小。考虑,通过在原数据集的基础上扩充新数据集使得深度网络具有一个更强大的分类能力。由于在一句话中影响某个主题的情感极性的词不是唯一的,想着通过挖去一句话中影响情感极性判定最大的那一个词,将其作为新的训练集放入深度网络中再次训练,一方面可以达到扩充数据集的目的,以便增强深度网络对数据集特征的提取和学习;另一方面增强深度网络对情感极性不明显的句子的分析能力。通过这样一种方式可以使分类器分类效果更好,准确率也会更高。
发明内容
本发明提供一种准确率较高的基于数据增强的深度学习主题情感分类方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于数据增强的深度学习主题情感分类方法,包括以下步骤:
S1:建立用于生成句子的语义信息,特征表示以及分类器的深度学习网络模型G;
S2:根据深度学习网络模型G挑选出训练集中影响情感分析最重要的词构成新的训练集;
S3:根据原始训练集和新训练集对深度学习网络模型G再次进行训练,然后进行测试。
进一步地,所述步骤S1的具体过程是:
S11:利用bert预训练语言模型,将预训练处理后的句子中的每个单词用一个低维,稠密的实数向量进行表示,并且由于bert预训练语言模型本身已经包含了对每个单词的语义建模,因此,经过bert输出的每个词都具有语义信息,于是将整个句子表示成X=[x1,…,xt,…,xn],其中n是句子的长度,向量矩阵X的维度为768维;
S12:根据经过bert层的词向量表示已经具备一定的语义信息,还需要让模型学习句子的每个词的上下文信息,用一个双向GRU网络去学习句子的上下文信息;设每一个词代表一个时间步t,每个GRU细胞单元的输入为当前t时刻的词向量xt以及t-1时刻的GRU细胞隐层输出hft-1,得到前向GRU的表示为Hf=[hf1,…,hft,…hfn],同理,后向GRU的表示为Hb=[hb1,…,hbt,…hbn]
S13:为了学习句子的每个词与主题词的关系,构建一层Attention层,用来计算每个词关于主题词的权重,权重越大代表该词在影响句子关于当前主题的情感极性越大,首先每个词由S12表示为H=Hf+Hb,当前主题词的词向量表示为eN,然后将两个向量进行拼接并使用tanh激活函数,得到的向量表示为M=tanh([H;eN]),然后学习一个参数W去计算每个词关于主题词的权重大小再乘上对应位置每个词的GRU输出得到句子关于主题词的整体表示r,其中r=H·softmax(WTM);
S14:建立最后一层输出层,将S13得到的句子表示r通过两层全连接层以及一层softmax映射到三个分类类别上,分别对应当前句子的情感极性是积极,消极和中性的概率,然后根据概率大小情况输出最大概率的情感极性,输出结果;
S15:将数据集中的训练数据按照上述流程进行一遍训练,训练过程中采用交叉熵作为损失函数,使用ADAM优化器进行优化,采用L2正则化防止出现过拟合,最后将网络的参数保存下来。
进一步地,所述步骤S2的具体过程是:
S21:将训练数据的每一个句子的每一个词都分别用[MASK]进行一次替换,设当前句子为s=[w1,…,wt,…,wn],n表示当前句子包含的词的个数,则每个句子经过逐个替换后的句子集合s′一共有n句话,其中s′为{[[MASK],…,wt,…,wn],…,[w1,…,[MASK],…,wn],…,[w1,…,wt,…,[MASK]]}.
S22:重新加载S15中保存的网络参数,得到之前已经训练过的网络G,然后将s′的每一条语句分别输入到网络G中可以得到一个预测情感极性的概率分布,然后选择离真实情感分布相距最远的那一条语句,放入到新的训练集中,获取到多一倍的新训练集,并且每一条语句都挖去了影响该语句情感极性最大的一个词,增强了模型的分类能力。
进一步地,所述步骤S3的具体过程是:
S31:将S22中生成的训练集与原训练数据一起作为训练集放入S15中已经训练好的网络中,然后按照S1的流程再进行一次训练,训练的时候依旧采用交叉熵作为损失函数,用ADAM作为优化器,采用L2正则化,学习率设为0.01,训练5个epochs之后模型收敛。
S32:将测试数据放入S31中训练好的网络中进行测试,测试指标采用准确率进行衡量。
进一步地,所述步骤S22中离真实情感分布相距最远的那一条语句的判定规则是:
假设真实情感分布为y1,y2,y3···,yn,真实标签为yt,所有预测的概率分布集合为{(x11,x12,x13,···,x1n),(x21,x22,x23,···,x2n),…,(xm1,xm2,xm3,···,xmn)},找出最小的xit,其所对应的分布(xi1,xi2,xi3,···,xin)即为离真实情感分布相距最远的语句。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过bert预训练语言模型能够让词先获取到一个初步的语义信息,然后经过双向GRU网络学习词与词之间的上下文语义特征,同时提出一种增强数据的方法,通过剔除每个句子中影响情感极性最大的词,迫使模型去学习更难句子的情感极性的判定,同时扩充数据集又使得模型能够从更多的数据集捕获特征。通过在相应数据集上的实验表明,本发明对比之前的情感分类方法,有较大提升。
附图说明
图1为本发明的数据增强的网络流程示意图;
图2为本发明完整的模型示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于数据增强的深度学习主题情感分类方法,包括以下步骤:
S1:建立用于生成句子的语义信息,特征表示以及分类器的深度学习网络模型G;
S2:根据深度学习网络模型G挑选出训练集中影响情感分析最重要的词构成新的训练集;
S3:根据原始训练集和新训练集对深度学习网络模型G再次进行训练,然后进行测试。
步骤S1的具体过程是:
S11:利用bert预训练语言模型,将预训练处理后的句子中的每个单词用一个低维,稠密的实数向量进行表示,并且由于bert预训练语言模型本身已经包含了对每个单词的语义建模,因此,经过bert输出的每个词都具有语义信息,于是将整个句子表示成X=[x1,…,xt,…,xn],其中n是句子的长度,向量矩阵X的维度为768维;
S12:根据经过bert层的词向量表示已经具备一定的语义信息,还需要让模型学习句子的每个词的上下文信息,用一个双向GRU网络去学习句子的上下文信息;设每一个词代表一个时间步t,每个GRU细胞单元的输入为当前t时刻的词向量xt以及t-1时刻的GRU细胞隐层输出hft-1,得到前向GRU的表示为Hf=[hf1,…,hft,…hfn],同理,后向GRU的表示为Hb=[hb1,…,hbt,…hbn]
S13:为了学习句子的每个词与主题词的关系,构建一层Attention层,用来计算每个词关于主题词的权重,权重越大代表该词在影响句子关于当前主题的情感极性越大,首先每个词由S12表示为H=Hf+Hb,当前主题词的词向量表示为eN,然后将两个向量进行拼接并使用tanh激活函数,得到的向量表示为M=tanh([H;eN]),然后学习一个参数W去计算每个词关于主题词的权重大小再乘上对应位置每个词的GRU输出得到句子关于主题词的整体表示r,其中r=H·softmax(WTM);
S14:建立最后一层输出层,将S13得到的句子表示r通过两层全连接层以及一层softmax映射到三个分类类别上,分别对应当前句子的情感极性是积极,消极和中性的概率,然后根据概率大小情况输出最大概率的情感极性,输出结果;
S15:将数据集中的训练数据按照上述流程进行一遍训练,训练过程中采用交叉熵作为损失函数,使用ADAM优化器进行优化,采用L2正则化防止出现过拟合,最后将网络的参数保存下来。
步骤S2的具体过程是:
S21:将训练数据的每一个句子的每一个词都分别用[MASK]进行一次替换,设当前句子为s=[w1,…,wt,…,wn],n表示当前句子包含的词的个数,则每个句子经过逐个替换后的句子集合s′一共有n句话,其中s′为{[[MASK],…,wt,…,wn],…,[w1,…,[MASK],…,wn],…,[w1,…,wt,…,[MASK]]}.
S22:重新加载S15中保存的网络参数,得到之前已经训练过的网络G,然后将s′的每一条语句分别输入到网络G中可以得到一个预测情感极性的概率分布,然后选择离真实情感分布相距最远的那一条语句,放入到新的训练集中,获取到多一倍的新训练集,并且每一条语句都挖去了影响该语句情感极性最大的一个词,增强了模型的分类能力。
步骤S3的具体过程是:
S31:将S22中生成的训练集与原训练数据一起作为训练集放入S15中已经训练好的网络中,然后按照S1的流程再进行一次训练,训练的时候依旧采用交叉熵作为损失函数,用ADAM作为优化器,采用L2正则化,学习率设为0.01,训练5个epochs之后模型收敛。
S32:将测试数据放入S31中训练好的网络中进行测试,测试指标采用准确率进行衡量。
步骤S22中离真实情感分布相距最远的那一条语句的判定规则是:
假设真实情感分布为y1,y2,y3···,yn,真实标签为yt,所有预测的概率分布集合为{(x11,x12,x13,···,x1n),(x21,x22,x23,···,x2n),…,(xm1,xm2,xm3,···,xmn)},找出最小的xit,其所对应的分布(xi1,xi2,xi3,···,xin)即为离真实情感分布相距最远的语句。
实施例2
本方法采用的数据集是2015年计算语言学协会词汇特别兴趣小组SIGLEX旗下设计的一系列计算语义分析***评估的任务,采用的数据集来自Task12.这个任务包含了两部分的数据,一部分是来自一些客户的餐馆评论,另一些来自客户对手提电脑的评论。关于餐馆评论的主题词有13个,关于手提电脑评论的主题词有87个,并且两个评论都只包含三种情感标签:积极,中性和消极的。本发明所使用的数据集基本情况如下表所示:
Dataset Train Test Topics
Restaurant 1478 775 13
Laptop 1972 948 87
网络N的构建如图2左边部分所示。
以这句话为例子:The food is so good and delicious,but the staff isterrible.Topic:service(标签为消极的)将这个原始句子输入到模型中去,经过bert之后会得到一个768×14的矩阵。然后将这个矩阵输入到双向GRU中学习词与词之间的上下文信息,分别可以得到前向的GRU输出:Hf=[hf1,…,hft,…hfn]以及后向的GRU输出:Hf=[hf1,…,hft,…hfn]。然后将二者的输出对应维度相加,即可得到最后每个词的整体表示:H=[h1,h2,…,hn]。接下来,将该矩阵的每个词与主题词的词向量拼接在一起,目的是为了计算每个词关主题词的相关性。主题词使用Glove进行词表示,维度为300.拼接之后的矩阵M的维度为1068×14.然后学习一个参数W去计算每一个词的权值,计算的方法是softmax(WTM),最后得到的权值矩阵为α=[α12,…,αn],其中所有元素的和为1,然后将权值矩阵乘上对应每个词的表示H并相加得到整个句子的表示r,其中r是一个1×768的向量。然后将其通过两个全连接层最后通过softmax层映射到三个分类类别上,对应的情感分类分别为积极,消极和中性。
先用现有的训练集对刚刚搭建的模型进行训练,训练过程中采用交叉熵作为损失函数,使用ADAM优化器进行优化,并采用L2正则化防止出现过拟合。当训练好模型后将参数保存下来,接下来利用该模型对数据集进行扩充。扩充的想法来源于比如要判断下面这句话The food is so good and delicious,but the staff is terrible.Topic:service,可以通过两个方面判断出关于service这个topic情感极性为负,一个是通过terrible这个词,另一个是通过good和but,but后面是转折,由于good是积极的,因此but后面所描述的对象就是消极的。所以即使把terrible这个词盖住,还是可以通过good和but来推测service的情感极性为负。并且使用这种判断方法迫使模型去学习句子内在的语义信息,从而增强模型的分类能力。
那么盖住怎么样的词可以加大模型预测当前句子情感极性的难度并且同时增加数据集的规模呢?如图2,采用的步骤如下:以上面那句话为The food is so good anddelicious,but the staff is terrible.从盖住第一个词一直到盖住最后一个词,盖住的词用[MASK]替代,这样就生成了14句话(因为有14个词),然后将这些句子分别放入刚刚已经训练好的模型中可以得到每个句子的一个预测概率分布,然后选择概率分布与真实情感分布相距最远的那一条语句(若两个概率分布分别为0.1 0.8 0.1以及0.3 0.5 0.2,而真实分布为0 1 0,则认为0.3 0.5 0.2这一分布距离真实分布最远)放入新的训练中,对于当前句子而言,会选择The food is so good and delicious,but the staff is[MASK]将其放入到新的训练集当中去。通过对训练集的每一条语句执行上述操作,可以获得和训练集大小一样多的新训练集。
当获得了新的数据集后,将其和原有的数据集合并在一起组成一个更大的数据集,然后在之前的模型基础之上再训练一遍该网络,依旧采用交叉熵作为损失函数,用ADAM作为优化器,采用L2正则化,学习率设为0.01,训练了5个epochs之后模型开始收敛。随后将测试数据放入训练好的模型中进行测试。
为了表现本实验的良好效果,本实验和当前已有的效果很好的主题情感分类模型(Word&clause level)进行了比较验证,评估指标为准确率(accuracy),准确率定义为模型正确预测的样本数目占整个测试数据集样本总数的百分比。实验结果如下:
Figure BDA0002047896100000081
从结果可以看出的发明相较于以前的方法有较大的提升,本发明从数据增强的角度出发,提升模型在分类较难句子的主题情感分析中的分类能力,并且合理利用bert这样一种预训练语言模型。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于数据增强的深度学习主题情感分类方法,其特征在于,包括以下步骤:
S1:建立用于生成句子的语义信息,特征表示以及分类器的深度学习网络模型G;具体过程为:
S11:利用bert预训练语言模型,将预训练处理后的句子中的每个单词用一个低维,稠密的实数向量进行表示,并且由于bert预训练语言模型本身已经包含了对每个单词的语义建模,因此,经过bert输出的每个词都具有语义信息,于是将整个句子表示成X=[x1,…,xt,…,xn],其中n是句子的长度,向量矩阵X的维度为768维;
S12:根据经过bert层的词向量表示已经具备一定的语义信息,还需要让模型学习句子的每个词的上下文信息,用一个双向GRU网络去学习句子的上下文信息;设每一个词代表一个时间步t,每个GRU细胞单元的输入为当前t时刻的词向量xt以及t-1时刻的GRU细胞隐层输出hft-1,得到前向GRU的表示为Hf=[hf1,…,hft,…hfn],同理,后向GRU的表示为Hb=[hb1,…,hbt,…hbn]
S13:为了学习句子的每个词与主题词的关系,构建一层Attention层,用来计算每个词关于主题词的权重,权重越大代表该词在影响句子关于当前主题的情感极性越大,首先每个词由S12表示为H=Hf+Hb,当前主题词的词向量表示为eN,然后将两个向量进行拼接并使用tanh激活函数,得到的向量表示为M=tanh([H;eN]),然后学习一个参数W去计算每个词关于主题词的权重大小再乘上对应位置每个词的GRU输出得到句子关于主题词的整体表示r,其中r=H·softmax(WTM);
S14:建立最后一层输出层,将S13得到的句子表示r通过两层全连接层以及一层softmax映射到三个分类类别上,分别对应当前句子的情感极性是积极,消极和中性的概率,然后根据概率大小情况输出最大概率的情感极性,输出结果;
S15:将数据集中的训练数据按照上述步骤S1-S14进行一遍训练,训练过程中采用交叉熵作为损失函数,使用ADAM优化器进行优化,采用L2正则化防止出现过拟合,最后将网络的参数保存下来;
S2:根据深度学习网络模型G挑选出训练集中影响情感分析最重要的词构成新的训练集;
S3:根据原始训练集和新训练集对深度学习网络模型G再次进行训练,然后进行测试。
2.根据权利要求1所述的基于数据增强的深度学习主题情感分类方法,其特征在于,步骤S2的具体过程是:
S21:将训练数据的每一个句子的每一个词都分别用[MASK]进行一次替换,设当前句子为s=[w1,…,wt,…,wn],n表示当前句子包含的词的个数,则每个句子经过逐个替换后的句子集合s'一共有n句话,其中s'为{[[MASK],…,wt,…,wn],…,[w1,…,[MASK],…,wn],…,[w1,…,wt,…,[MASK]]}.
S22:重新加载S15中保存的网络参数,得到之前已经训练过的网络G,然后将s'的每一条语句分别输入到网络G中可以得到一个预测情感极性的概率分布,然后选择离真实情感分布相距最远的那一条语句,放入到新的训练集中,获取到多一倍的新训练集,并且每一条语句都挖去了影响该语句情感极性最大的一个词,增强了模型的分类能力。
3.根据权利要求2所述的基于数据增强的深度学习主题情感分类 方法,其特征在于,步骤S3的具体过程是:
S31:将S22中生成的训练集与原训练数据一起作为训练集放入S15中已经训练好的网络中,然后按照S1的流程再进行一次训练,训练的时候依旧采用交叉熵作为损失函数,用ADAM作为优化器,采用L2正则化,学习率设为0.01,训练5个epochs之后模型收敛;
S32:将测试数据放入S31中训练好的网络中进行测试,测试指标采用准确率进行衡量。
4.根据权利要求3所述的基于数据增强的深度学习主题情感分类 方法,其特征在于,步骤S22中离真实情感分布相距最远的那一条语句的判定规则是:
假设真实情感分布为y1,y2,y3···,yn,真实标签为yt,所有预测的概率分布集合为{(x11,x12,x13,···,x1n),(x21,x22,x23,···,x2n),…,(xm1,xm2,xm3,···,xmn)},找出最小的xit,其所对应的分布(xi1,xi2,xi3,···,xin)即为离真实情感分布相距最远的语句。
CN201910365005.7A 2019-04-30 2019-04-30 一种基于数据增强的深度学习主题情感分类方法 Active CN110245229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910365005.7A CN110245229B (zh) 2019-04-30 2019-04-30 一种基于数据增强的深度学习主题情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910365005.7A CN110245229B (zh) 2019-04-30 2019-04-30 一种基于数据增强的深度学习主题情感分类方法

Publications (2)

Publication Number Publication Date
CN110245229A CN110245229A (zh) 2019-09-17
CN110245229B true CN110245229B (zh) 2023-03-28

Family

ID=67883613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910365005.7A Active CN110245229B (zh) 2019-04-30 2019-04-30 一种基于数据增强的深度学习主题情感分类方法

Country Status (1)

Country Link
CN (1) CN110245229B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826336B (zh) * 2019-09-18 2020-11-06 华南师范大学 一种情感分类方法、***、存储介质及设备
CN110728153A (zh) * 2019-10-15 2020-01-24 天津理工大学 基于模型融合的多类别情感分类方法
CN112685558B (zh) * 2019-10-18 2024-05-17 普天信息技术有限公司 一种情感分类模型的训练方法及装置
CN111104512B (zh) * 2019-11-21 2020-12-22 腾讯科技(深圳)有限公司 游戏评论的处理方法及相关设备
CN110956579B (zh) * 2019-11-27 2023-05-23 中山大学 一种基于生成语义分割图的文本改写图片方法
CN111079406B (zh) * 2019-12-13 2022-01-11 华中科技大学 自然语言处理模型训练方法、任务执行方法、设备及***
CN111309871B (zh) * 2020-03-26 2024-01-30 普华讯光(北京)科技有限公司 一种基于文本语义分析需求与输出成果之间匹配度的方法
US11468239B2 (en) 2020-05-22 2022-10-11 Capital One Services, Llc Joint intent and entity recognition using transformer models
CN111597328B (zh) * 2020-05-27 2022-10-18 青岛大学 一种新事件主题提取方法
CN111859908B (zh) * 2020-06-30 2024-01-19 北京百度网讯科技有限公司 情感学习的预训练方法、装置、电子设备和可读存储介质
CN112069320B (zh) * 2020-09-10 2022-06-28 东北大学秦皇岛分校 一种基于跨度的细粒度情感分析方法
CN112765993A (zh) * 2021-01-20 2021-05-07 上海德拓信息技术股份有限公司 语义解析方法、***、设备及可读存储介质
CN113297842A (zh) * 2021-05-25 2021-08-24 湖北师范大学 文本数据增强方法
CN113255365A (zh) * 2021-05-28 2021-08-13 湖北师范大学 文本数据增强方法、装置、设备及计算机可读存储介质
CN113723075B (zh) * 2021-08-28 2023-04-07 重庆理工大学 融合词屏蔽数据增强与对抗学习的特定目标情感分析方法
CN114580430B (zh) * 2022-02-24 2024-04-05 大连海洋大学 一种基于神经网络的鱼病描述情感词的提取方法
CN115662435B (zh) * 2022-10-24 2023-04-28 福建网龙计算机网络信息技术有限公司 一种虚拟教师拟真化语音的生成方法及终端
CN116821333A (zh) * 2023-05-30 2023-09-29 重庆邮电大学 一种基于大数据的互联网视频剧本角色情感识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN109670169A (zh) * 2018-11-16 2019-04-23 中山大学 一种基于特征提取的深度学习情感分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457801B2 (en) * 2005-11-14 2008-11-25 Microsoft Corporation Augmenting a training set for document categorization
CN109034092A (zh) * 2018-08-09 2018-12-18 燕山大学 用于监控***的异常事件检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN109670169A (zh) * 2018-11-16 2019-04-23 中山大学 一种基于特征提取的深度学习情感分类方法

Also Published As

Publication number Publication date
CN110245229A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110263325B (zh) 中文分词***
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、***及介质
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
Dastgheib et al. The application of deep learning in persian documents sentiment analysis
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN109271636B (zh) 词嵌入模型的训练方法及装置
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
Thattinaphanich et al. Thai named entity recognition using Bi-LSTM-CRF with word and character representation
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN109670169B (zh) 一种基于特征提取的深度学习情感分类方法
Seilsepour et al. Self-supervised sentiment classification based on semantic similarity measures and contextual embedding using metaheuristic optimizer
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
Nazarizadeh et al. Sentiment analysis of Persian language: review of algorithms, approaches and datasets
Sawant et al. Analytical and Sentiment based text generative chatbot
CN116562286A (zh) 一种基于混合图注意力的智能配置事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant