CN114443845A

CN114443845A - 一种基于bert的多特征细粒度中文短文本情感分类方法

Info

Publication number: CN114443845A
Application number: CN202210066218.1A
Authority: CN
Inventors: 丁晓静; 卓胜祥; 范华俊; 左宁
Original assignee: Xuxu Network Technology Shanghai Co ltd
Current assignee: Xuxu Network Technology Shanghai Co ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-06

Abstract

本发明公开了一种基于BERT的多特征细粒度中文短文本情感分类方法，包含以下步骤：步骤A、多维度特征综合表达：模型的输入有效特征包括4种：独热编码特征、位置编码特征、字形特征、拼音特征；四种特征均有相同的维度大小，进一步求平均后得到一个综合性的特征表达，该特征经过BERT模型后得到最终的特征表达；BERT Transformer叠加了多个多头自注意与前向神经网络模块，本发明加入的字形与拼音特征一定程度上可兼容输入文本中的字形相似或者同音字的错误，即使发生了这类错误也可正确提取相关语义，使模型可自适应于真实世界中的错误文本，提高模型预测的准确度。

Description

一种基于BERT的多特征细粒度中文短文本情感分类方法

技术领域

本发明涉及网络技术领域，具体是一种基于BERT的多特征细粒度中文短文本情感分类方法。

背景技术

情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向，这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。随着微博等社交媒体以及电商平台的发展而产生大量带有情感倾向的内容，给情感分析提供了所需的数据基础。时至今日，情感分析已经在多个领域被广泛的应用。例如：在商品零售领域，用户的评价对于零售商和生产商都是非常重要的反馈信息，通过对海量用户的评价进行情感分析，可以量化用户对产品及其竞品的褒贬程度，从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣；在社会舆情领域，通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向；在企业舆情方面，利用情感分析可以快速了解社会对企业的评价，为企业的战略规划提供决策依据，提升企业在市场中的竞争力；在金融交易领域，分析交易者对于股票及其他金融衍生品的态度，为行情交易提供辅助依据。

现有流行的情感分析模型可大致分为两个部分：

1、对文本进行特征提取，即进行编码表示。编码的方式分为两种，自回归与自编码。自回归是单向模型，基于Transformer模型中的解码部分；自编码是双向模型，基于Transformer模型中的编码部分。

Transformer是 Google 团队在2017年6月提出的 NLP 经典之作, 由AshishVaswani 等人在 2017 年发表的论文Attention Is All You Need中提出。它的模型结构如图1所示：

实现特征到情感类别的映射，一般是外接一个全连接层与softmax层，将特征转变为情感类别数维度的特征后将其归一化得到各类别的概率。

现有技术大多是直接在原始的BERT预训练模型基础上加入分类层进行微调。将在大量通用语料上预训练得到的BERT模型再使用某特定领域语料以及特定任务标注语料进行微调训练，充分抽取出特定语料在特征任务下的token的内在含义。

现有技术一的缺点如下：

a)原始BERT模型特征过于单一，输入encode部分的特征仅独热编码向量、位置编码向量以及token类型向量，其中因为情感分析场景中输入仅单句，因此token类型向量固定，不具备有效信息。

b)在标注数据稀少的情况下采用现有技术直接进行微调，容易陷入过拟合，无法保证模型的鲁棒性。

c)模型会受到分类层初始化以及学习率，batch大小，权重衰减率等其他超参数影响陷入不同的极值点，而各个极值点在不同测试集上的表现优劣不同，如果最终只采用单一模型结果可能在效果上会有所偏颇。

d)业界大多的情感分类标注为2-3个类别，如正向、负向、中性等。在实际应用中这样的分类过于简陋，人类的情感表现与倾向会更细致复杂，因此这样粗粒度的情感分类信息量过少，不利于后续的深度分析。

发明内容

本发明的目的在于提供一种基于BERT的多特征细粒度中文短文本情感分类方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于BERT的多特征细粒度中文短文本情感分类方法，包含以下步骤：

步骤A、多维度特征综合表达：模型的输入有效特征包括4种：独热编码特征、位置编码特征、字形特征、拼音特征；四种特征均有相同的维度大小，进一步求平均后得到一个综合性的特征表达，该特征经过BERT模型后得到最终的特征表达；BERT Transformer 叠加了多个多头自注意与前向神经网络模块，其中自注意模块使用双向注意机制，即每个token同时关注到其左右侧的上下文，多头自注意模块公式为MultiHead (Q ,K ,V)＝Concat(head1 ,...,headh )W0，headi＝Attention(QWi^Q,KWi^K,VWi^V)，W0为head拼接后还原维度的权重矩阵，Wi^Q，Wi^K，Wi^V分别为Q，K，V的权重矩阵，其中中Attention的计算公式为

，Q，K，V分别为输入query、key、value向量，dk为向量度，多头自注意模块通过减少维度来降低计算所消耗的资源；

步骤B、文本向量特征到情感分类概率化特征的映射：通过一个分类层实现上一步得到的文本向量特征到情感分类特征的映射，此时得到一个class_size的特征表示，经过softmax层将该表示概率化，即实现每一维度值处于0-1之间且所有维度值加和等于1，分类层公式为 S＝(WT X+b)，W为n×j的全连接权重矩阵，b为偏置项，X是特征提取层输出的向量，得到的S进入softmax层，公式为

，其中Pi为文本类别i的概率，Si为分类层输出的第i个神经元内的数值，j为预测类别数；

步骤C、模型融合：将通过不通超参数设置得到的前3个模型预测结果进行加权平均。

作为本发明的进一步技术方案：所述独热编码特征是生成了一个vocab_size*embedding_size的编码矩阵，由token的字典id在编码矩阵中进行查询得到。

作为本发明的进一步技术方案：所述位置编码特征继承自BERT预训练模型中的512*embedding_size的编码矩阵，最多可对512长度的文本进行编码。

作为本发明的进一步技术方案：所述字形特征采用了三种字体：仿宋、行楷和隶书，图形化表达进行卷积与池化操作得到。

作为本发明的进一步技术方案：所述拼音特征是将汉字的全拼字母进行embedding映射后求平均得到。

作为本发明的进一步技术方案：所述BERT模型结构是一系列Transformer编码器的叠加，旨在通过联合调节所有层中的上下文来预先训练深度双向表示。

作为本发明的进一步技术方案：所述分类层为embedding_size*class_size的前向网络。

作为本发明的进一步技术方案：模型的训练过程分为两步：

1）Mask ML无监督训练，对于特定领域未标注文本，通过Mask ML策略构造训练数据，对模型进行预训练，即对于每一个句子中的token：

85%的概率，保留原词不变；

15%的概率，使用以下方式替换：

80%的概率，使用字符[MASK]，替换当前token；

10%的概率，使用词表随机抽取的token，替换当前token；

10%的概率，保留原词不变；

2）文本分类的有监督训练：根据标注标签计算在[CLS]位置输出的概率结果与真实标注结果的交叉熵损失，再通过梯度的反向传播计算各个参数的梯度，进行参数更新。

与现有技术相比，本发明的有益效果是：本发明加入的字形与拼音特征一定程度上可兼容输入文本中的字形相似或者同音字的错误，即使发生了这类错误也可正确提取相关语义，使模型可自适应于真实世界中的错误文本，提高模型预测的准确度；模型训练过程中充分利用了无监督的文本预训练作为有监督训练的基础，从无监督文本中学***均化模型结果使得模型效果更加稳定。

附图说明

图1为现有流行的情感分析模型图。

图2为直接在原始的BERT预训练模型基础上加入分类层进行微调示意图。

图3为Transformer编码器的叠加示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1，实施例1：一种基于BERT的多特征细粒度中文短文本情感分类方法，分为3步：

步骤A：多维度特征综合表达：模型的输入有效特征包括4种：独热编码特征、位置编码特征、字形特征、拼音特征。其中，独热编码特征是生成了一个vocab_size*embedding_size的编码矩阵，由token的字典id在编码矩阵中进行查询得到；位置编码特征继承自BERT预训练模型中的512*embedding_size的编码矩阵，最多可对512长度的文本进行编码；字形特征采用了三种字体：仿宋、行楷和隶书，的图形化表达进行卷积与池化操作得到；拼音特征则是将汉字的全拼字母进行embedding映射后求平均得到。四种特征均有相同的维度大小，进一步求平均后得到一个综合性的特征表达。该特征经过BERT模型后得到最终的特征表达。BERT模型结构是一系列Transformer编码器的叠加（如下图所示），旨在通过联合调节所有层中的上下文来预先训练深度双向表示。

BERT Transformer 叠加了多个多头自注意与前向神经网络模块，其中自注意模块使用双向注意机制，即每个token同时关注到其左右侧的上下文，多头自注意模块公式为MultiHead (Q ,K ,V)＝Concat(head1 ,...,headh )W0，headi＝Attention(QWi^Q,KWi^K,VWi^V)，W0为head拼接后还原维度的权重矩阵，Wi^Q，Wi^K，Wi^V分别为Q，K，V的权重矩阵，其中中Attention的计算公式为

，Q，K，V分别为输入query、key、value向量，dk为向量度，多头自注意模块通过减少维度来降低计算所消耗的资源。

步骤B、文本向量特征到情感分类概率化特征的映射：

通过一个分类层（embedding_size*class_size的前向网络）实现上一步得到的文本向量特征到情感分类特征的映射，此时得到一个class_size的特征表示，经过softmax层将该表示概率化，即实现每一维度值处于0-1之间且所有维度值加和等于1。分类层公式为S＝(WT X+b)，W为n×j的全连接权重矩阵，b为偏置项，X是特征提取层输出的向量。得到的S进入softmax层，公式为

，其中Pi为文本类别i的概率，Si为分类层输出的第i个神经元内的数值，j为预测类别数。

模型输出的[CLS]位置增加一层所有情感类别的softmax，预测其输出是否为：喜悦。

实施例2，在实施例1的基础上，模型的训练过程分为两步：

1）Mask ML无监督训练：对于特定领域未标注文本，通过Mask ML策略构造训练数据，对模型进行预训练，即对于每一个句子中的token：

85%的概率，保留原词不变；

15%的概率，使用以下方式替换：

80%的概率，使用字符[MASK]，替换当前token。

10%的概率，使用词表随机抽取的token，替换当前token。

10%的概率，保留原词不变；

如：

原始句子：我喜欢它。

模型输入：[CLS] 我喜欢 [MASK] 。

模型输出的[MASK]位置增加一层所有词的softmax，预测其输出是否为：它；

如：

原始句子：我喜欢它。

模型输入：[CLS] 我喜欢它。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于BERT的多特征细粒度中文短文本情感分类方法，其特征在于，包含以下步骤：

步骤A、多维度特征综合表达：模型的输入有效特征包括4种：独热编码特征、位置编码特征、字形特征、拼音特征；四种特征均有相同的维度大小，进一步求平均后得到一个综合性的特征表达，该特征经过BERT模型后得到最终的特征表达；BERT Transformer 叠加了多个多头自注意与前向神经网络模块，其中自注意模块使用双向注意机制，即每个token同时关注到其左右侧的上下文，多头自注意模块公式为MultiHead (Q ,K ,V)＝Concat(head1,...,headh )W0，headi＝Attention(QWi^Q,KWi^K,VWi^V)，W0为head拼接后还原维度的权重矩阵，Wi^Q，Wi^K，Wi^V分别为Q，K，V的权重矩阵，其中中Attention的计算公式为

2.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法，其特征在于，所述独热编码特征是生成了一个vocab_size*embedding_size的编码矩阵，由token的字典id在编码矩阵中进行查询得到。

3.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法，其特征在于，所述位置编码特征继承自BERT预训练模型中的512*embedding_size的编码矩阵，最多可对512长度的文本进行编码。

4.根据权利要求3所述的一种基于BERT的多特征细粒度中文短文本情感分类方法，其特征在于，所述字形特征采用了三种字体：仿宋、行楷和隶书，图形化表达进行卷积与池化操作得到。

5.根据权利要求4所述的一种基于BERT的多特征细粒度中文短文本情感分类方法，其特征在于，所述拼音特征是将汉字的全拼字母进行embedding映射后求平均得到。

6.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法，其特征在于，所述BERT模型结构是一系列Transformer编码器的叠加，旨在通过联合调节所有层中的上下文来预先训练深度双向表示。

7.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法，其特征在于，所述分类层为embedding_size*class_size的前向网络。

8.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法，其特征在于，模型的训练过程分为两步：

Mask ML无监督训练，对于特定领域未标注文本，通过Mask ML策略构造训练数据，对模型进行预训练，即对于每一个句子中的token：

85%的概率，保留原词不变；

15%的概率，使用以下方式替换：

80%的概率，使用字符[MASK]，替换当前token；

10%的概率，使用词表随机抽取的token，替换当前token；

10%的概率，保留原词不变；