CN111858933A

CN111858933A - 基于字符的层次化文本情感分析方法及***

Info

Publication number: CN111858933A
Application number: CN202010659957.2A
Authority: CN
Inventors: 黄斐然; 王泽钒; 高博宇; 刘志全
Original assignee: Jinan University
Current assignee: Jinan University; University of Jinan
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-30

Abstract

本发明公开了一种基于字符的层次化文本情感分析方法及***，该方法步骤包括：对给定的文本数据进行预处理，包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示；建立字符级别的神经网络模型：将预处理后的文本数据输入字符级别的神经网络模型，依次经过模型嵌入层、卷积神经网络层和解码层，提取并输出文本中每个句子的特征向量；建立句子级别的神经网络模型：以字符级别网络的输出作为输入，依次经过循环神经网络层、注意力层和解码层，输出文本的情感分类的概率分布。本发明从字符级别对文本提取初始特征，句子级别网络既包含了时序信息，又能让网络倾向于对情感分析结果有利的句子，提高了模型的准确度和健壮性。

Description

基于字符的层次化文本情感分析方法及***

技术领域

本发明涉及自然语言处理的情感分析技术领域，具体涉及一种基于字符的层次化文本情感分析方法及***。

背景技术

随着近年来互联网信息量的巨大增长，人们可以通过手机、电脑等终端接触到大量的文本信息，如新闻、博客、评论等。从大量的文本中提取重要的信息，如文本摘要、情感倾向等已成为信息***的时代下快速理解信息的迫切需求。其中，情感倾向作为对文本信息更高层次的抽象，具有重要的应用价值。基于字符的含注意力机制的层次化文本情感分析方法为从大量的文本中提取情感倾向提供了一个高效的解决方案，可以帮助把握人们对于热点事件、候选人、商品和电影等事物的主要态度，对于消费者、管理者、竞争者等角色具有巨大的应用潜力。

以往基于深度学习的文本情感分析方法大多是以词语为基础来分析文本的，这类方法的痛点在于：1、在世界上各种各样的语言中，词语的数量十分庞大，如英语中常用词就高达三至四万个，且随时代发展而灵活变化，如果要为每个词语设计一个唯一的数字化表示方法，词典占据的内存也会非常大，同时，在庞大的词典中查找某一词语的表示，亦需要消耗一定的计算资源。2、为了能够表示词语之间的关系，如近义词，词根等，还需要对大量的词语向量化表示进行预训练，该训练需要海量的文本作为训练样本，消耗的计算资源更加不可计量。3、存在低频词和oov(out of vocabulary)问题，即一些生僻的词，可能只出现在某些特定主题的文章内，导致预训练的词向量中不包括该词语的向量化表示(oov问题)或是该词语的表示训练不充分(低频词问题)。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于字符的层次化文本情感分析方法及***，针对基于单词的文本情感分析方法面临的词语数量庞大且具备灵活性问题、词语间关系问题、低频词和oov问题，以及基于字符的模型容易出现过拟合和模型健壮性较差的问题设计了基于字符的网络，并在字符级别网络上添加了句子级别的网络，提出了一种以字符为基础的神经网络，不同于已有的同类方法，本发明考虑到多元组思想在自然语言处理中通常能起到较好的效果，对字符级别的神经网络作了较大改善，使得网络对文本的特征提取效果更好。

然而，基于字符的模型由于字符间组合的多样性以及卷积网络的特性，导致这类模型较容易出现过拟合和模型健壮性较差的问题。考虑到该问题，本发明从层次化思想出发，在字符级别的网络上添加了句子级别的网络，句子的向量化表示通过字符级别网络对句子的字符序列提取得到。此添加明显地缓解了字符级别网络中容易出现的过拟合问题，提高了模型健壮性，使得模型表现更加稳定。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于字符的层次化文本情感分析方法，包括下述步骤：

文本预处理：对给定的文本数据进行预处理，包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示；

建立字符级别的神经网络模型：将预处理后的文本数据输入字符级别的神经网络模型，依次经过模型嵌入层、卷积神经网络层和解码层，提取并输出文本中每个句子的特征向量；

建立句子级别的神经网络模型：以字符级别网络的输出作为输入，依次经过循环神经网络层、注意力层和解码层，输出文本的情感分类的概率分布。

作为优选的技术方案，所述文本预处理的具体步骤包括：

设计字符集合，包括给定文本的语言下的基本字符，将该字符集合包装成字典，所述字典用于通过字符查找到对应下标，通过下标查找对应的字符；

划分文本中的句子：以给定文本的语言的句子结束符作为分割符，将单个文本分割成多个句子的集合；

基于字符集得到数字形式的文本表示：基于所述字典，将每个文本中的每个句子从字符序列转化为对应的下标序列，完成文本从字符形式向数字形式的转化。

作为优选的技术方案，所述基于字符集得到数字形式的文本表示，具体步骤包括：

字符分割：将文本的每个句子分割为多个字符，存储在字符类型数组中；

大小写转化：将原文本中组成词语的字符全部替换为小写形式；

文本数字化：对照所述字典，将文本中所有字符转化成在字典中对应的下标，使文本由字符形式转化为数字形式；

统一句子长度：如果句子长度超过了设定的阈值，则进行裁剪，舍弃超出长度的句子部分；如果句子长度达不到设定的阈值，则用下标0进行填充至句子长度达到阈值；

统一文本长度：如果文本中句子的数目超过了设定的阈值，则进行裁剪，舍弃超出数目的部分句子；如果文本中句子的数目达不到设定的阈值，则用下标均为0的统一长度的句子填充文本至句子数目达到阈值。

作为优选的技术方案，所述建立字符级别的神经网络模型，具体步骤包括：

所述模型嵌入层以预处理后的文本的每个句子作为输入单位，将句子的每个字符的下标转化成对应的唯一向量化表示，每个句子的表示形式由一维的下标序列转化为二维的字符向量序列；

所述卷积神经网络层采用多个不同大小的一维卷积核，同时对所述二维的字符向量序列进行卷积运算和全局最大池化运算，将运算结果进行拼接，得到多卷积核运算的输出结果；

所述解码层以所述多卷积核运算的输出结果作为输入，通过全连接层提取句子的特征向量，所述句子的特征向量作为句子级别的神经网络模型的输入。

作为优选的技术方案，所述将句子的每个字符的下标转化成对应的唯一向量化表示，具体采用方式为：对句子中的字符下标进行one-hot编码。

作为优选的技术方案，所述对所述二维的字符向量序列进行卷积运算和全局最大池化运算，具体步骤包括：对所述二维的字符向量序列进行单层的卷积运算并连接非线性激活函数ReLU，卷积运算的步长设置为1。

作为优选的技术方案，所述建立句子级别的神经网络模型，具体步骤包括：

所述循环神经网络层以字符级别的神经网络模型的输出作为输入，通过双向循环神经网络得到每个时间步的输出和上下文向量；

所述注意力层采用注意力机制，以双向循环神经网络的输出作为值项、以其连接一个全连接层后的输出作为键项，以上下文向量作为查询项，得到循环神经网络各时间步输出的权重分布，将输出和权重相乘后再相加得到整个文本的向量表示；

以所述整个文本的向量表示通过全连接层输出情感分类的数值分布，再对结果采用softmax运算将其转化为情感分类的概率分布，概率较大者即为情感分析预测结果。

作为优选的技术方案，所述以双向循环神经网络的输出作为值项、以其连接一个全连接层后的输出作为键项，以上下文向量作为查询项，得到循环神经网络各时间步输出的权重分布，将输出和权重相乘后再相加得到整个文本的向量表示，具体步骤包括：

将每个时间步的输出通过一个单层的多层感知机并以Tanh作为激活函数得到输出的隐藏表示，作为注意力机制中的键项；

以上下文向量作为注意力机制的查询项，将键项依次和查询项进行向量相乘，得到针对每个时间步输出的注意力分布，然后对所述注意力分布执行softmax运算，转化为概率分布，使得所有时间步所占注意力的比例之和为1；

以每个时间步的输出作为注意力机制的值项，将每个时间步所占的注意力比例与对应的值相乘，再将得到的所有时间步的结果相加，得到基于权重的文本中所有句子向量的和，即该文本的特征向量。

本发明还提供一种基于字符的层次化文本情感分析***，包括：文本预处理模块、字符级别的神经网络模型建立模块和句子级别的神经网络模型建立模块；

所述文本预处理模块用于对给定的文本数据进行预处理，包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示；

所述字符级别的神经网络模型建立模块用于将预处理后的文本数据输入字符级别的神经网络模型，依次经过模型嵌入层、卷积神经网络层和解码层，提取并输出文本中每个句子的特征向量；

所述句子级别的神经网络模型建立模块用于以字符级别网络的输出作为输入，依次经过循环神经网络层、注意力层和解码层，输出文本的情感分类的概率分布。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明有效解决基于单词的文本情感分析方法面临的词语数量庞大且具备灵活性问题、词语间关系问题、低频词和oov问题，以及基于字符的模型容易出现过拟合和模型健壮性较差的问题，显著降低文本情感分析所需的存储开销和计算资源开销，并提高模型的准确率和健壮性。

(2)本发明首先基于设计好的字符集合对给定文本进行特征提取；然后采用含多个卷积核的单层卷积神经网络(CNN)提取给定文本的句子级别的特征向量；通过基于注意力机制的双向循环神经网络(RNN)提取整个文本的特征向量；最后连接全连接层并对结果进行softmax运算得到文本情感分类的概率分布，从字符级别对文本进行初始特征提取，不需要预训练的词向量，也不存在低频词问题，且语言通用性好；句子级别的网络既包含了时序信息，又能让网络倾向于对情感分析结果有利的句子，提高了模型的准确度和健壮性。

附图说明

图1为本实施例基于字符的层次化文本情感分析方法的总体框架示意图；

图2为本实施例数据预处理的框架示意图；

图3为本实施例字符级别神经网络模型的框架示意图；

图4为本实施例句子级别神经网络模型的框架示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例提供一种基于字符的层次化文本情感分析方法，该方法包括下述步骤：

S1：文本预处理：如图2所示，对给定的文本数据进行预处理，包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示；

步骤S1输入数据预处理，具体包括以下子步骤：

S11：设计字符集合

设计一个字符集合，包括给定文本的语言下的基本字符，将该字符集合包装成一部字典，既可以通过字符查找到其下标，又可以通过下标查找到对应的字符；

一般情况下，一门语言的基本字符主要包括组成词语的字符(例如英语中的字母)、***数字(0-9)、标点符号(,.！？等)以及一些特殊符号(例如百分号、美元符号、数学运算符号等)，将该字符集合包装成一部字典，利用该字典，既可以通过某个字符查找到其下标，又可以通过下标查找到对应的字符；

S12：划分文本中的句子

以给定文本的语言的句子结束符作为分割符，将单个文本分割成多个句子的集合，一般情况下，句子结束符主要为句号、感叹号和问号等；

S13：基于字符集得到数字形式的文本表示

利用步骤S11中形成的字典，将每个文本中的每个句子从字符序列转化为对应的下标序列，完成文本从字符形式向数字形式的转化。

其中包括如下几个更详细的步骤：

·字符分割。文本的每个句子相当于一个字符串，将字符串分割为多个字符，存储在字符类型数组中。这样，一个文本就变成了二维数组，第一个维度存储文本的多个句子，第二个维度存储每个句子下的多个字符。

·大小写转化。对于部分语言来说，组成词语的字符是区分大小写的，例如英语。大小写字符的存在会影响模型的表现，原因是字符的大小写并不改变其组成的词语的含义，且大写字符在文本中的出现频率相对小写字符较少，如果字符集合中包含了大写字符，会加剧模型的过拟合现象。基于以上原因，将原文本中组成词语的字符全部替换为小写形式。

·文本数字化。对照步骤S11中形成的字典，将文本中所有字符转化成其在字典中对应的下标，使文本由字符形式转化为数字形式。

·统一句子长度。为了批量处理文本数据，提高模型处理文本效率，需要统一文本中所有句子的长度。如果句子长度超过了设定的阈值，则进行裁剪，舍弃超出长度的句子部分；如果句子长度达不到设定的阈值，则用下标0进行填充至句子长度达到阈值。

·统一文本长度。为了批量处理文本数据，提高模型处理文本效率，需要统一文本长度。由于上一步已经统一了句子长度，所以本步骤只需要统一文本中句子的数量。如果文本中句子的数目超过了设定的阈值，则进行裁剪，舍弃超出数目的部分句子；如果文本中句子的数目达不到设定的阈值，则用下标均为0的统一长度的句子填充文本至句子数目达到阈值。

S2：建立字符级别的神经网络模型：如图3所示，将预处理后的文本数据输入字符级别的神经网络模型，依次经过模型嵌入层、卷积神经网络层和解码层，提取并输出文本中每个句子的特征向量；

步骤S2建立字符级别的神经网络模型，具体包括以下子步骤：

S21：模型嵌入层

以预处理后的文本的每个句子作为输入单位，将句子的每个字符的下标转化成对应的唯一向量化表示，具体步骤为：

以预处理后的文本的每个句子作为输入单位，对句子中的字符下标进行one-hot编码，将句子中每个字符的下标转化成对应的唯一向量化表示，每个句子的表示形式由一维的下标序列转化为二维的字符向量序列；

S22：卷积神经网络层

使用若干个不同大小的一维卷积核同时对步骤S21输出的句子序列做卷积运算和全局最大池化运算，将运算结果拼接在一起，具体步骤为：

使用若干个不同大小的一维卷积核同时对步骤S21输出的句子序列做单层的卷积运算并连接非线性激活函数ReLU，卷积运算的步长为1，卷积核个数、卷积核大小和输出通道数为模型超参数，需根据具体的数据集和训练过程调整，然后将各卷积核的运算结果通过全局最大池化层得到各通道的最大值，再将输出沿通道维连接，得到该句子基于多元组思想提取出的特征；

S23：解码层

以步骤S22多卷积核运算的输出结果作为输入，通过全连接层提取句子的特征向量，该句子的特征向量将作为句子级别的模型的输入，其维度为模型超参数，需根据具体的数据集和训练过程调整。

S3：建立句子级别的神经网络模型：如图4所示，以字符级别网络的输出作为输入，依次经过循环神经网络层、注意力层和解码层，输出文本的情感分类的概率分布。

所述步骤S3建立句子级别的神经网络模型，具体包括以下子步骤：

S31：循环神经网络层

以字符级别的网络的输出，即文本的每个句子的向量表示，作为输入，通过双向循环神经网络得到每个时间步的输出和上下文向量(即最终隐藏状态)，其隐藏层维度为模型超参数，需根据具体的数据集和训练过程调整；

S32：注意力层

采用注意力机制，以步骤S31循环神经网络的输出作为值项、以其连接一个全连接层后的输出作为键项、以上下文向量作为查询项，得到循环神经网络各时间步输出的权重分布，再将输出和权重相乘后再相加得到整个文本的向量表示，其中包括如下几个更详细的步骤：

·将步骤S31中每个时间步的输出通过一个单层的多层感知机并以Tanh作为激活函数得到输出的隐藏表示，转换前后保持其维度不变，该项为即为注意力机制中的键项；

·以步骤S31中的上下文向量作为注意力机制的查询项，将上一步得到的键项依次和本步中的查询项进行向量相乘，得到针对每个时间步输出的注意力分布。然后对该注意力分布执行softmax运算，将该分布转化为概率分布，使得所有时间步所占注意力的比例之和为1；

·以步骤S31中每个时间步的输出作为注意力机制的值项，将每个时间步所占的注意力比例(参考上一步中注意力的概率分布)与对应的值相乘。再将得到的所有时间步的结果相加，得到基于权重的文本中所有句子向量的和，即该文本的特征向量；

S33：解码层

以步骤S32输出的文本的向量表示通过全连接层输出情感分类的数值分布，再对结果使用softmax运算将其转化为情感分类的概率分布，概率较大者即为情感分析预测结果。

本实施例还提供一种基于字符的层次化文本情感分析***，包括：文本预处理模块、字符级别的神经网络模型建立模块和句子级别的神经网络模型建立模块；

在本实施例中，文本预处理模块用于对给定的文本数据进行预处理，包括设计字符集、划分文本中的句子、基于字符集得到数字形式的文本表示；

在本实施例中，字符级别的神经网络模型建立模块用于将预处理后的文本数据输入字符级别的神经网络模型，依次经过模型嵌入层、卷积神经网络层和解码层，提取并输出文本中每个句子的特征向量；

在本实施例中，句子级别的神经网络模型建立模块用于以字符级别网络的输出作为输入，依次经过循环神经网络层、注意力层和解码层，输出文本的情感分类的概率分布。

本实施例建立了一种由字符级别到句子级别，再由句子级别到文本级别的层次化神经网络模型，可以对评论、博客等一般文本进行情感分类。该模型：1、首先基于设计好的字符集合对给定文本进行特征提取；2、然后采用含多个卷积核的单层卷积神经网络(CNN)提取给定文本的句子级别的特征向量；3、通过基于注意力机制的双向循环神经网络(RNN)提取整个文本的特征向量；4、最后连接全连接层并对结果进行softmax运算得到文本情感分类的概率分布。

本实施例从字符级别对文本进行初始特征提取，不需要预训练的词向量，也不存在低频词问题，且语言通用性好；句子级别的网络既包含了时序信息，又能让网络倾向于对情感分析结果有利的句子，提高了模型的准确度和健壮性。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于字符的层次化文本情感分析方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于字符的层次化文本情感分析方法，其特征在于，所述文本预处理的具体步骤包括：

3.根据权利要求2所述的基于字符的层次化文本情感分析方法，其特征在于，所述基于字符集得到数字形式的文本表示，具体步骤包括：

4.根据权利要求1所述的基于字符的层次化文本情感分析方法，其特征在于，所述建立字符级别的神经网络模型，具体步骤包括：

5.根据权利要求4所述的基于字符的层次化文本情感分析方法，其特征在于，所述将句子的每个字符的下标转化成对应的唯一向量化表示，具体采用方式为：对句子中的字符下标进行one-hot编码。

6.根据权利要求4所述的基于字符的层次化文本情感分析方法，其特征在于，所述对所述二维的字符向量序列进行卷积运算和全局最大池化运算，具体步骤包括：对所述二维的字符向量序列进行单层的卷积运算并连接非线性激活函数ReLU，卷积运算的步长设置为1。

7.根据权利要求1所述的基于字符的层次化文本情感分析方法，其特征在于，所述建立句子级别的神经网络模型，具体步骤包括：

8.根据权利要求7所述的基于字符的层次化文本情感分析方法，其特征在于，所述以双向循环神经网络的输出作为值项、以其连接一个全连接层后的输出作为键项，以上下文向量作为查询项，得到循环神经网络各时间步输出的权重分布，将输出和权重相乘后再相加得到整个文本的向量表示，具体步骤包括：

9.一种基于字符的层次化文本情感分析***，其特征在于，包括：文本预处理模块、字符级别的神经网络模型建立模块和句子级别的神经网络模型建立模块；