CN111858933A - 基于字符的层次化文本情感分析方法及*** - Google Patents
基于字符的层次化文本情感分析方法及*** Download PDFInfo
- Publication number
- CN111858933A CN111858933A CN202010659957.2A CN202010659957A CN111858933A CN 111858933 A CN111858933 A CN 111858933A CN 202010659957 A CN202010659957 A CN 202010659957A CN 111858933 A CN111858933 A CN 111858933A
- Authority
- CN
- China
- Prior art keywords
- text
- character
- neural network
- sentence
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 46
- 238000004458 analytical method Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 57
- 238000003062 neural network model Methods 0.000 claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 230000000306 recurrent effect Effects 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 claims abstract description 5
- 239000010410 layer Substances 0.000 claims description 72
- 230000007246 mechanism Effects 0.000 claims description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 13
- 239000002356 single layer Substances 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于字符的层次化文本情感分析方法及***,该方法步骤包括:对给定的文本数据进行预处理,包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示;建立字符级别的神经网络模型:将预处理后的文本数据输入字符级别的神经网络模型,依次经过模型嵌入层、卷积神经网络层和解码层,提取并输出文本中每个句子的特征向量;建立句子级别的神经网络模型:以字符级别网络的输出作为输入,依次经过循环神经网络层、注意力层和解码层,输出文本的情感分类的概率分布。本发明从字符级别对文本提取初始特征,句子级别网络既包含了时序信息,又能让网络倾向于对情感分析结果有利的句子,提高了模型的准确度和健壮性。
Description
技术领域
本发明涉及自然语言处理的情感分析技术领域,具体涉及一种基于字符的层次化文本情感分析方法及***。
背景技术
随着近年来互联网信息量的巨大增长,人们可以通过手机、电脑等终端接触到大量的文本信息,如新闻、博客、评论等。从大量的文本中提取重要的信息,如文本摘要、情感倾向等已成为信息***的时代下快速理解信息的迫切需求。其中,情感倾向作为对文本信息更高层次的抽象,具有重要的应用价值。基于字符的含注意力机制的层次化文本情感分析方法为从大量的文本中提取情感倾向提供了一个高效的解决方案,可以帮助把握人们对于热点事件、候选人、商品和电影等事物的主要态度,对于消费者、管理者、竞争者等角色具有巨大的应用潜力。
以往基于深度学习的文本情感分析方法大多是以词语为基础来分析文本的,这类方法的痛点在于:1、在世界上各种各样的语言中,词语的数量十分庞大,如英语中常用词就高达三至四万个,且随时代发展而灵活变化,如果要为每个词语设计一个唯一的数字化表示方法,词典占据的内存也会非常大,同时,在庞大的词典中查找某一词语的表示,亦需要消耗一定的计算资源。2、为了能够表示词语之间的关系,如近义词,词根等,还需要对大量的词语向量化表示进行预训练,该训练需要海量的文本作为训练样本,消耗的计算资源更加不可计量。3、存在低频词和oov(out of vocabulary)问题,即一些生僻的词,可能只出现在某些特定主题的文章内,导致预训练的词向量中不包括该词语的向量化表示(oov问题)或是该词语的表示训练不充分(低频词问题)。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于字符的层次化文本情感分析方法及***,针对基于单词的文本情感分析方法面临的词语数量庞大且具备灵活性问题、词语间关系问题、低频词和oov问题,以及基于字符的模型容易出现过拟合和模型健壮性较差的问题设计了基于字符的网络,并在字符级别网络上添加了句子级别的网络,提出了一种以字符为基础的神经网络,不同于已有的同类方法,本发明考虑到多元组思想在自然语言处理中通常能起到较好的效果,对字符级别的神经网络作了较大改善,使得网络对文本的特征提取效果更好。
然而,基于字符的模型由于字符间组合的多样性以及卷积网络的特性,导致这类模型较容易出现过拟合和模型健壮性较差的问题。考虑到该问题,本发明从层次化思想出发,在字符级别的网络上添加了句子级别的网络,句子的向量化表示通过字符级别网络对句子的字符序列提取得到。此添加明显地缓解了字符级别网络中容易出现的过拟合问题,提高了模型健壮性,使得模型表现更加稳定。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于字符的层次化文本情感分析方法,包括下述步骤:
文本预处理:对给定的文本数据进行预处理,包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示;
建立字符级别的神经网络模型:将预处理后的文本数据输入字符级别的神经网络模型,依次经过模型嵌入层、卷积神经网络层和解码层,提取并输出文本中每个句子的特征向量;
建立句子级别的神经网络模型:以字符级别网络的输出作为输入,依次经过循环神经网络层、注意力层和解码层,输出文本的情感分类的概率分布。
作为优选的技术方案,所述文本预处理的具体步骤包括:
设计字符集合,包括给定文本的语言下的基本字符,将该字符集合包装成字典,所述字典用于通过字符查找到对应下标,通过下标查找对应的字符;
划分文本中的句子:以给定文本的语言的句子结束符作为分割符,将单个文本分割成多个句子的集合;
基于字符集得到数字形式的文本表示:基于所述字典,将每个文本中的每个句子从字符序列转化为对应的下标序列,完成文本从字符形式向数字形式的转化。
作为优选的技术方案,所述基于字符集得到数字形式的文本表示,具体步骤包括:
字符分割:将文本的每个句子分割为多个字符,存储在字符类型数组中;
大小写转化:将原文本中组成词语的字符全部替换为小写形式;
文本数字化:对照所述字典,将文本中所有字符转化成在字典中对应的下标,使文本由字符形式转化为数字形式;
统一句子长度:如果句子长度超过了设定的阈值,则进行裁剪,舍弃超出长度的句子部分;如果句子长度达不到设定的阈值,则用下标0进行填充至句子长度达到阈值;
统一文本长度:如果文本中句子的数目超过了设定的阈值,则进行裁剪,舍弃超出数目的部分句子;如果文本中句子的数目达不到设定的阈值,则用下标均为0的统一长度的句子填充文本至句子数目达到阈值。
作为优选的技术方案,所述建立字符级别的神经网络模型,具体步骤包括:
所述模型嵌入层以预处理后的文本的每个句子作为输入单位,将句子的每个字符的下标转化成对应的唯一向量化表示,每个句子的表示形式由一维的下标序列转化为二维的字符向量序列;
所述卷积神经网络层采用多个不同大小的一维卷积核,同时对所述二维的字符向量序列进行卷积运算和全局最大池化运算,将运算结果进行拼接,得到多卷积核运算的输出结果;
所述解码层以所述多卷积核运算的输出结果作为输入,通过全连接层提取句子的特征向量,所述句子的特征向量作为句子级别的神经网络模型的输入。
作为优选的技术方案,所述将句子的每个字符的下标转化成对应的唯一向量化表示,具体采用方式为:对句子中的字符下标进行one-hot编码。
作为优选的技术方案,所述对所述二维的字符向量序列进行卷积运算和全局最大池化运算,具体步骤包括:对所述二维的字符向量序列进行单层的卷积运算并连接非线性激活函数ReLU,卷积运算的步长设置为1。
作为优选的技术方案,所述建立句子级别的神经网络模型,具体步骤包括:
所述循环神经网络层以字符级别的神经网络模型的输出作为输入,通过双向循环神经网络得到每个时间步的输出和上下文向量;
所述注意力层采用注意力机制,以双向循环神经网络的输出作为值项、以其连接一个全连接层后的输出作为键项,以上下文向量作为查询项,得到循环神经网络各时间步输出的权重分布,将输出和权重相乘后再相加得到整个文本的向量表示;
以所述整个文本的向量表示通过全连接层输出情感分类的数值分布,再对结果采用softmax运算将其转化为情感分类的概率分布,概率较大者即为情感分析预测结果。
作为优选的技术方案,所述以双向循环神经网络的输出作为值项、以其连接一个全连接层后的输出作为键项,以上下文向量作为查询项,得到循环神经网络各时间步输出的权重分布,将输出和权重相乘后再相加得到整个文本的向量表示,具体步骤包括:
将每个时间步的输出通过一个单层的多层感知机并以Tanh作为激活函数得到输出的隐藏表示,作为注意力机制中的键项;
以上下文向量作为注意力机制的查询项,将键项依次和查询项进行向量相乘,得到针对每个时间步输出的注意力分布,然后对所述注意力分布执行softmax运算,转化为概率分布,使得所有时间步所占注意力的比例之和为1;
以每个时间步的输出作为注意力机制的值项,将每个时间步所占的注意力比例与对应的值相乘,再将得到的所有时间步的结果相加,得到基于权重的文本中所有句子向量的和,即该文本的特征向量。
本发明还提供一种基于字符的层次化文本情感分析***,包括:文本预处理模块、字符级别的神经网络模型建立模块和句子级别的神经网络模型建立模块;
所述文本预处理模块用于对给定的文本数据进行预处理,包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示;
所述字符级别的神经网络模型建立模块用于将预处理后的文本数据输入字符级别的神经网络模型,依次经过模型嵌入层、卷积神经网络层和解码层,提取并输出文本中每个句子的特征向量;
所述句子级别的神经网络模型建立模块用于以字符级别网络的输出作为输入,依次经过循环神经网络层、注意力层和解码层,输出文本的情感分类的概率分布。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明有效解决基于单词的文本情感分析方法面临的词语数量庞大且具备灵活性问题、词语间关系问题、低频词和oov问题,以及基于字符的模型容易出现过拟合和模型健壮性较差的问题,显著降低文本情感分析所需的存储开销和计算资源开销,并提高模型的准确率和健壮性。
(2)本发明首先基于设计好的字符集合对给定文本进行特征提取;然后采用含多个卷积核的单层卷积神经网络(CNN)提取给定文本的句子级别的特征向量;通过基于注意力机制的双向循环神经网络(RNN)提取整个文本的特征向量;最后连接全连接层并对结果进行softmax运算得到文本情感分类的概率分布,从字符级别对文本进行初始特征提取,不需要预训练的词向量,也不存在低频词问题,且语言通用性好;句子级别的网络既包含了时序信息,又能让网络倾向于对情感分析结果有利的句子,提高了模型的准确度和健壮性。
附图说明
图1为本实施例基于字符的层次化文本情感分析方法的总体框架示意图;
图2为本实施例数据预处理的框架示意图;
图3为本实施例字符级别神经网络模型的框架示意图;
图4为本实施例句子级别神经网络模型的框架示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,本实施例提供一种基于字符的层次化文本情感分析方法,该方法包括下述步骤:
S1:文本预处理:如图2所示,对给定的文本数据进行预处理,包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示;
步骤S1输入数据预处理,具体包括以下子步骤:
S11:设计字符集合
设计一个字符集合,包括给定文本的语言下的基本字符,将该字符集合包装成一部字典,既可以通过字符查找到其下标,又可以通过下标查找到对应的字符;
一般情况下,一门语言的基本字符主要包括组成词语的字符(例如英语中的字母)、***数字(0-9)、标点符号(,.!?等)以及一些特殊符号(例如百分号、美元符号、数学运算符号等),将该字符集合包装成一部字典,利用该字典,既可以通过某个字符查找到其下标,又可以通过下标查找到对应的字符;
S12:划分文本中的句子
以给定文本的语言的句子结束符作为分割符,将单个文本分割成多个句子的集合,一般情况下,句子结束符主要为句号、感叹号和问号等;
S13:基于字符集得到数字形式的文本表示
利用步骤S11中形成的字典,将每个文本中的每个句子从字符序列转化为对应的下标序列,完成文本从字符形式向数字形式的转化。
其中包括如下几个更详细的步骤:
·字符分割。文本的每个句子相当于一个字符串,将字符串分割为多个字符,存储在字符类型数组中。这样,一个文本就变成了二维数组,第一个维度存储文本的多个句子,第二个维度存储每个句子下的多个字符。
·大小写转化。对于部分语言来说,组成词语的字符是区分大小写的,例如英语。大小写字符的存在会影响模型的表现,原因是字符的大小写并不改变其组成的词语的含义,且大写字符在文本中的出现频率相对小写字符较少,如果字符集合中包含了大写字符,会加剧模型的过拟合现象。基于以上原因,将原文本中组成词语的字符全部替换为小写形式。
·文本数字化。对照步骤S11中形成的字典,将文本中所有字符转化成其在字典中对应的下标,使文本由字符形式转化为数字形式。
·统一句子长度。为了批量处理文本数据,提高模型处理文本效率,需要统一文本中所有句子的长度。如果句子长度超过了设定的阈值,则进行裁剪,舍弃超出长度的句子部分;如果句子长度达不到设定的阈值,则用下标0进行填充至句子长度达到阈值。
·统一文本长度。为了批量处理文本数据,提高模型处理文本效率,需要统一文本长度。由于上一步已经统一了句子长度,所以本步骤只需要统一文本中句子的数量。如果文本中句子的数目超过了设定的阈值,则进行裁剪,舍弃超出数目的部分句子;如果文本中句子的数目达不到设定的阈值,则用下标均为0的统一长度的句子填充文本至句子数目达到阈值。
S2:建立字符级别的神经网络模型:如图3所示,将预处理后的文本数据输入字符级别的神经网络模型,依次经过模型嵌入层、卷积神经网络层和解码层,提取并输出文本中每个句子的特征向量;
步骤S2建立字符级别的神经网络模型,具体包括以下子步骤:
S21:模型嵌入层
以预处理后的文本的每个句子作为输入单位,将句子的每个字符的下标转化成对应的唯一向量化表示,具体步骤为:
以预处理后的文本的每个句子作为输入单位,对句子中的字符下标进行one-hot编码,将句子中每个字符的下标转化成对应的唯一向量化表示,每个句子的表示形式由一维的下标序列转化为二维的字符向量序列;
S22:卷积神经网络层
使用若干个不同大小的一维卷积核同时对步骤S21输出的句子序列做卷积运算和全局最大池化运算,将运算结果拼接在一起,具体步骤为:
使用若干个不同大小的一维卷积核同时对步骤S21输出的句子序列做单层的卷积运算并连接非线性激活函数ReLU,卷积运算的步长为1,卷积核个数、卷积核大小和输出通道数为模型超参数,需根据具体的数据集和训练过程调整,然后将各卷积核的运算结果通过全局最大池化层得到各通道的最大值,再将输出沿通道维连接,得到该句子基于多元组思想提取出的特征;
S23:解码层
以步骤S22多卷积核运算的输出结果作为输入,通过全连接层提取句子的特征向量,该句子的特征向量将作为句子级别的模型的输入,其维度为模型超参数,需根据具体的数据集和训练过程调整。
S3:建立句子级别的神经网络模型:如图4所示,以字符级别网络的输出作为输入,依次经过循环神经网络层、注意力层和解码层,输出文本的情感分类的概率分布。
所述步骤S3建立句子级别的神经网络模型,具体包括以下子步骤:
S31:循环神经网络层
以字符级别的网络的输出,即文本的每个句子的向量表示,作为输入,通过双向循环神经网络得到每个时间步的输出和上下文向量(即最终隐藏状态),其隐藏层维度为模型超参数,需根据具体的数据集和训练过程调整;
S32:注意力层
采用注意力机制,以步骤S31循环神经网络的输出作为值项、以其连接一个全连接层后的输出作为键项、以上下文向量作为查询项,得到循环神经网络各时间步输出的权重分布,再将输出和权重相乘后再相加得到整个文本的向量表示,其中包括如下几个更详细的步骤:
·将步骤S31中每个时间步的输出通过一个单层的多层感知机并以Tanh作为激活函数得到输出的隐藏表示,转换前后保持其维度不变,该项为即为注意力机制中的键项;
·以步骤S31中的上下文向量作为注意力机制的查询项,将上一步得到的键项依次和本步中的查询项进行向量相乘,得到针对每个时间步输出的注意力分布。然后对该注意力分布执行softmax运算,将该分布转化为概率分布,使得所有时间步所占注意力的比例之和为1;
·以步骤S31中每个时间步的输出作为注意力机制的值项,将每个时间步所占的注意力比例(参考上一步中注意力的概率分布)与对应的值相乘。再将得到的所有时间步的结果相加,得到基于权重的文本中所有句子向量的和,即该文本的特征向量;
S33:解码层
以步骤S32输出的文本的向量表示通过全连接层输出情感分类的数值分布,再对结果使用softmax运算将其转化为情感分类的概率分布,概率较大者即为情感分析预测结果。
本实施例还提供一种基于字符的层次化文本情感分析***,包括:文本预处理模块、字符级别的神经网络模型建立模块和句子级别的神经网络模型建立模块;
在本实施例中,文本预处理模块用于对给定的文本数据进行预处理,包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示;
在本实施例中,字符级别的神经网络模型建立模块用于将预处理后的文本数据输入字符级别的神经网络模型,依次经过模型嵌入层、卷积神经网络层和解码层,提取并输出文本中每个句子的特征向量;
在本实施例中,句子级别的神经网络模型建立模块用于以字符级别网络的输出作为输入,依次经过循环神经网络层、注意力层和解码层,输出文本的情感分类的概率分布。
本实施例建立了一种由字符级别到句子级别,再由句子级别到文本级别的层次化神经网络模型,可以对评论、博客等一般文本进行情感分类。该模型:1、首先基于设计好的字符集合对给定文本进行特征提取;2、然后采用含多个卷积核的单层卷积神经网络(CNN)提取给定文本的句子级别的特征向量;3、通过基于注意力机制的双向循环神经网络(RNN)提取整个文本的特征向量;4、最后连接全连接层并对结果进行softmax运算得到文本情感分类的概率分布。
本实施例从字符级别对文本进行初始特征提取,不需要预训练的词向量,也不存在低频词问题,且语言通用性好;句子级别的网络既包含了时序信息,又能让网络倾向于对情感分析结果有利的句子,提高了模型的准确度和健壮性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于字符的层次化文本情感分析方法,其特征在于,包括下述步骤:
文本预处理:对给定的文本数据进行预处理,包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示;
建立字符级别的神经网络模型:将预处理后的文本数据输入字符级别的神经网络模型,依次经过模型嵌入层、卷积神经网络层和解码层,提取并输出文本中每个句子的特征向量;
建立句子级别的神经网络模型:以字符级别网络的输出作为输入,依次经过循环神经网络层、注意力层和解码层,输出文本的情感分类的概率分布。
2.根据权利要求1所述的基于字符的层次化文本情感分析方法,其特征在于,所述文本预处理的具体步骤包括:
设计字符集合,包括给定文本的语言下的基本字符,将该字符集合包装成字典,所述字典用于通过字符查找到对应下标,通过下标查找对应的字符;
划分文本中的句子:以给定文本的语言的句子结束符作为分割符,将单个文本分割成多个句子的集合;
基于字符集得到数字形式的文本表示:基于所述字典,将每个文本中的每个句子从字符序列转化为对应的下标序列,完成文本从字符形式向数字形式的转化。
3.根据权利要求2所述的基于字符的层次化文本情感分析方法,其特征在于,所述基于字符集得到数字形式的文本表示,具体步骤包括:
字符分割:将文本的每个句子分割为多个字符,存储在字符类型数组中;
大小写转化:将原文本中组成词语的字符全部替换为小写形式;
文本数字化:对照所述字典,将文本中所有字符转化成在字典中对应的下标,使文本由字符形式转化为数字形式;
统一句子长度:如果句子长度超过了设定的阈值,则进行裁剪,舍弃超出长度的句子部分;如果句子长度达不到设定的阈值,则用下标0进行填充至句子长度达到阈值;
统一文本长度:如果文本中句子的数目超过了设定的阈值,则进行裁剪,舍弃超出数目的部分句子;如果文本中句子的数目达不到设定的阈值,则用下标均为0的统一长度的句子填充文本至句子数目达到阈值。
4.根据权利要求1所述的基于字符的层次化文本情感分析方法,其特征在于,所述建立字符级别的神经网络模型,具体步骤包括:
所述模型嵌入层以预处理后的文本的每个句子作为输入单位,将句子的每个字符的下标转化成对应的唯一向量化表示,每个句子的表示形式由一维的下标序列转化为二维的字符向量序列;
所述卷积神经网络层采用多个不同大小的一维卷积核,同时对所述二维的字符向量序列进行卷积运算和全局最大池化运算,将运算结果进行拼接,得到多卷积核运算的输出结果;
所述解码层以所述多卷积核运算的输出结果作为输入,通过全连接层提取句子的特征向量,所述句子的特征向量作为句子级别的神经网络模型的输入。
5.根据权利要求4所述的基于字符的层次化文本情感分析方法,其特征在于,所述将句子的每个字符的下标转化成对应的唯一向量化表示,具体采用方式为:对句子中的字符下标进行one-hot编码。
6.根据权利要求4所述的基于字符的层次化文本情感分析方法,其特征在于,所述对所述二维的字符向量序列进行卷积运算和全局最大池化运算,具体步骤包括:对所述二维的字符向量序列进行单层的卷积运算并连接非线性激活函数ReLU,卷积运算的步长设置为1。
7.根据权利要求1所述的基于字符的层次化文本情感分析方法,其特征在于,所述建立句子级别的神经网络模型,具体步骤包括:
所述循环神经网络层以字符级别的神经网络模型的输出作为输入,通过双向循环神经网络得到每个时间步的输出和上下文向量;
所述注意力层采用注意力机制,以双向循环神经网络的输出作为值项、以其连接一个全连接层后的输出作为键项,以上下文向量作为查询项,得到循环神经网络各时间步输出的权重分布,将输出和权重相乘后再相加得到整个文本的向量表示;
以所述整个文本的向量表示通过全连接层输出情感分类的数值分布,再对结果采用softmax运算将其转化为情感分类的概率分布,概率较大者即为情感分析预测结果。
8.根据权利要求7所述的基于字符的层次化文本情感分析方法,其特征在于,所述以双向循环神经网络的输出作为值项、以其连接一个全连接层后的输出作为键项,以上下文向量作为查询项,得到循环神经网络各时间步输出的权重分布,将输出和权重相乘后再相加得到整个文本的向量表示,具体步骤包括:
将每个时间步的输出通过一个单层的多层感知机并以Tanh作为激活函数得到输出的隐藏表示,作为注意力机制中的键项;
以上下文向量作为注意力机制的查询项,将键项依次和查询项进行向量相乘,得到针对每个时间步输出的注意力分布,然后对所述注意力分布执行softmax运算,转化为概率分布,使得所有时间步所占注意力的比例之和为1;
以每个时间步的输出作为注意力机制的值项,将每个时间步所占的注意力比例与对应的值相乘,再将得到的所有时间步的结果相加,得到基于权重的文本中所有句子向量的和,即该文本的特征向量。
9.一种基于字符的层次化文本情感分析***,其特征在于,包括:文本预处理模块、字符级别的神经网络模型建立模块和句子级别的神经网络模型建立模块;
所述文本预处理模块用于对给定的文本数据进行预处理,包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示;
所述字符级别的神经网络模型建立模块用于将预处理后的文本数据输入字符级别的神经网络模型,依次经过模型嵌入层、卷积神经网络层和解码层,提取并输出文本中每个句子的特征向量;
所述句子级别的神经网络模型建立模块用于以字符级别网络的输出作为输入,依次经过循环神经网络层、注意力层和解码层,输出文本的情感分类的概率分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010659957.2A CN111858933A (zh) | 2020-07-10 | 2020-07-10 | 基于字符的层次化文本情感分析方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010659957.2A CN111858933A (zh) | 2020-07-10 | 2020-07-10 | 基于字符的层次化文本情感分析方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858933A true CN111858933A (zh) | 2020-10-30 |
Family
ID=73153005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010659957.2A Pending CN111858933A (zh) | 2020-07-10 | 2020-07-10 | 基于字符的层次化文本情感分析方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858933A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686898A (zh) * | 2021-03-15 | 2021-04-20 | 四川大学 | 一种基于自监督学习的放疗靶区自动分割方法 |
CN112699679A (zh) * | 2021-03-25 | 2021-04-23 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置、电子设备及存储介质 |
CN114297379A (zh) * | 2021-12-16 | 2022-04-08 | ***数智科技有限公司 | 一种基于Transformer的文本二分类方法 |
US11966702B1 (en) * | 2020-08-17 | 2024-04-23 | Alphavu, Llc | System and method for sentiment and misinformation analysis of digital conversations |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
US20180329886A1 (en) * | 2017-05-15 | 2018-11-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for generating information |
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
CN109543722A (zh) * | 2018-11-05 | 2019-03-29 | 中山大学 | 一种基于情感分析模型的情感趋势预测方法 |
US20190188257A1 (en) * | 2016-09-05 | 2019-06-20 | National Institute Of Information And Communications Technology | Context analysis apparatus and computer program therefor |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答***的实现方法 |
CN110147452A (zh) * | 2019-05-17 | 2019-08-20 | 北京理工大学 | 一种基于层级bert神经网络的粗粒度情感分析方法 |
CN110210037A (zh) * | 2019-06-12 | 2019-09-06 | 四川大学 | 面向循证医学领域的类别检测方法 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN110825845A (zh) * | 2019-10-23 | 2020-02-21 | 中南大学 | 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法 |
US20200065384A1 (en) * | 2018-08-26 | 2020-02-27 | CloudMinds Technology, Inc. | Method and System for Intent Classification |
CN110866117A (zh) * | 2019-10-25 | 2020-03-06 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
-
2020
- 2020-07-10 CN CN202010659957.2A patent/CN111858933A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190188257A1 (en) * | 2016-09-05 | 2019-06-20 | National Institute Of Information And Communications Technology | Context analysis apparatus and computer program therefor |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
US20180329886A1 (en) * | 2017-05-15 | 2018-11-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for generating information |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
US20200065384A1 (en) * | 2018-08-26 | 2020-02-27 | CloudMinds Technology, Inc. | Method and System for Intent Classification |
CN109543722A (zh) * | 2018-11-05 | 2019-03-29 | 中山大学 | 一种基于情感分析模型的情感趋势预测方法 |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答***的实现方法 |
CN110147452A (zh) * | 2019-05-17 | 2019-08-20 | 北京理工大学 | 一种基于层级bert神经网络的粗粒度情感分析方法 |
CN110210037A (zh) * | 2019-06-12 | 2019-09-06 | 四川大学 | 面向循证医学领域的类别检测方法 |
CN110825845A (zh) * | 2019-10-23 | 2020-02-21 | 中南大学 | 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法 |
CN110866117A (zh) * | 2019-10-25 | 2020-03-06 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
Non-Patent Citations (4)
Title |
---|
C´ ICERO NOGUEIRA DOS SANTOS ET AL: "Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts", PROCEEDINGS OF COLING 2014, THE 25TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS: TECHNICAL PAPERS, 29 August 2014 (2014-08-29), pages 69 - 78, XP055676919 * |
FEIRAN HUANG ET AL: "Character-level Convolutional Networks for Text Classification", ACM TRANS. MULTIMEDIA COMPUT. COMMUN. APPL., vol. 16, no. 03, 5 July 2020 (2020-07-05), pages 1 - 19 * |
宋岩 等: "基于层次特征提取的文本分类研究", 计算机应用与软件, vol. 37, no. 02, 29 February 2020 (2020-02-29), pages 68 - 72 * |
王丽亚 等: "CNN-BiGRU网络中引入注意力机制的中文文本情感分析", 计算机应用, vol. 39, no. 10, 10 October 2019 (2019-10-10), pages 2841 - 2846 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11966702B1 (en) * | 2020-08-17 | 2024-04-23 | Alphavu, Llc | System and method for sentiment and misinformation analysis of digital conversations |
CN112686898A (zh) * | 2021-03-15 | 2021-04-20 | 四川大学 | 一种基于自监督学习的放疗靶区自动分割方法 |
CN112686898B (zh) * | 2021-03-15 | 2021-08-13 | 四川大学 | 一种基于自监督学习的放疗靶区自动分割方法 |
CN112699679A (zh) * | 2021-03-25 | 2021-04-23 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置、电子设备及存储介质 |
CN112699679B (zh) * | 2021-03-25 | 2021-06-29 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置、电子设备及存储介质 |
CN114297379A (zh) * | 2021-12-16 | 2022-04-08 | ***数智科技有限公司 | 一种基于Transformer的文本二分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及*** | |
CN110825845A (zh) | 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法 | |
KR102155768B1 (ko) | 학습을 통하여 진화하는 질의응답 데이터 셋을 이용한 쇼핑몰 질의응답 추천 서비스 제공 방법 | |
CN111259153B (zh) | 一种完全注意力机制的属性级情感分析方法 | |
Aras et al. | An evaluation of recent neural sequence tagging models in Turkish named entity recognition | |
CN112434535A (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
US20230073602A1 (en) | System of and method for automatically detecting sarcasm of a batch of text | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN113704416A (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、***、介质和设备 | |
CN116258137A (zh) | 文本纠错方法、装置、设备和存储介质 | |
Niam et al. | Hate speech detection using latent semantic analysis (lsa) method based on image | |
CN113051887A (zh) | 一种公告信息元素抽取方法、***及装置 | |
CN115269834A (zh) | 一种基于bert的高精度文本分类方法及装置 | |
CN111597807A (zh) | 分词数据集生成方法、装置、设备及其存储介质 | |
Shahade et al. | Multi-lingual opinion mining for social media discourses: An approach using deep learning based hybrid fine-tuned smith algorithm with adam optimizer | |
CN111241273A (zh) | 文本数据分类方法、装置、电子设备及计算机可读介质 | |
CN113377953A (zh) | 一种基于palc-dca模型的实体融合及分类方法 | |
CN113761186A (zh) | 文本情感分类方法和装置 | |
CN115292495A (zh) | 情绪分析方法、装置、电子设备及存储介质 | |
Kang et al. | Sentiment analysis on Malaysian airlines with BERT | |
CN110347813B (zh) | 一种语料处理方法、装置、存储介质及电子设备 | |
CN113806536A (zh) | 文本分类方法及其装置、设备、介质、产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |