CN111177376A

CN111177376A - 一种基于bert与cnn层级连接的中文文本分类方法

Info

Publication number: CN111177376A
Application number: CN201911302047.2A
Authority: CN
Inventors: 马强; 赵鸣博; 孔维健; 王晓峰; 孙嘉瞳; 邓开连
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-05-19
Anticipated expiration: 2039-12-17
Also published as: CN111177376B

Abstract

本发明涉及一种基于BERT与CNN层级连接的中文文本分类的方法，主要用于解决中文文本的情感分析、核心句子识别、关系识别等文本分类问题。本发明中使用CNN模型与BERT模型进行层级连接，得到新的模型BERT‑CNN。BERT‑CNN模型由于加入CNN模型，可以对BERT模型提取到的句子特征进一步提取，获得更加有效的句子语义表示。因此，在文本分类任务中，可以获得更好的分类效果。

Description

一种基于BERT与CNN层级连接的中文文本分类方法

技术领域

本发明属于自然语言处理技术领域，特别涉及一种基于深度学习模型BERT与CNN层级连接的中文文本分类方法。

背景技术

随着经济和互联网的高速发展，越来越多的人会选择在网上发表各种言论。面对网络上大量的文本数据，如何高效的从这些数据中获得有使用价值的数据成为研究热点。问答机器人、搜索、机器翻译以及情感分析这些都是自然语言处理的关键应用领域，而这些技术都离不开文本分类技术，文本分类技术是这些技术的基础。正是因为文本分类技术是一项基础，对它的精确度要求也就较高。因此，这些年来，文本分类技术一直是一项研究热点也是一个难点。

随着机器学习、深度学习等领域的高速发展，文本分类再也不用依赖于耗时耗力的人工，从而转向自动文本分类技术。并且随着正确率的不断提升，在情感分析、垃圾文本识别上已经得到了广泛的应用。但是，还存在一些领域效果不佳，比如违法广告识别等以及情感分析和垃圾文本识别领域还迫切需要更高的准确率。

目前，文本分类技术中深度学习技术取得的效果较好，但是深度学习技术的效果依赖于对句子的语义特征提取。传统的深度学习模型依赖于对句子中的词或者字进行量化作为模型输入，但是这种方法有时候会受量化结果影响，因此，对不同的领域的文本都需要单独做量化，这样相对来说还是会费时费力。而本文引入的模型不但在效果上更加好，而且不需要再针对各个领域对词或者字进行量化。

发明内容

本发明的目的是：进一步提高中文文本分类的效果。

为了达到上述目的，本发明的技术方案是提供了一种基于BERT与CNN层级连接的中文文本分类方法，其特征在于，包括以下步骤：

步骤1、通过大量公开的中文文本数据集对BERT模型进行预训练，得到BERT模型中的所有的参数并保存，BERT模型由12层transformer编码器构成；

步骤2、使用CNN模型与BERT模型进行层级连接，进行层级连接时，将BERT模型12层结构中每一层的第一个位置的输出作为CNN模型的输入，输入的宽度为12，得到BERT-CNN模型，在BERT-CNN模型中，宽度为12的输入矩阵经过CNN模型进行卷积和最大池化操作得到新的更加有效的句子语义特征向量，然后将这个句子语义特征向量输入一个全连接层，最后再经过分类器；

步骤3、对BERT模型部分的参数进行初始化，初始化的参数值即之前预训练得到的参数，而CNN模型部分的参数初始化采用满足正态分布随机产生；

步骤4、对分类训练集进行数据预处理；

步骤5、通过预处理过的数据集再训练BERT-CNN模型。

优选地，步骤1中，对BERT模型进行预训练的中文文本数据集包括句子内部预测训练集以及句子对是否连续训练集，其中：

句子内部预测训练集的构造过程包括以下步骤：

将数据按句子切分后，随机将句子中的15％的词遮住。这15％的词中80％用[mask]代替，10％的词仍用原来的词，剩余的10％的词用随机一个词代替，并在句子的起始位置拼接[CLS]字符，通过这种方式构成的新句子作为BERT模型输入去预测被遮住的15％的词；

句子对是否连续训练集的过程包括以下步骤：

将数据按句子切分后，将任意两个句子通过[sep]连接成一个句子，并在句子的起始位置拼接[CLS]字符，使用构成的新句子作为BERT模型的输入预测这两个句子在文章中是否连续，BERT模型的输出是一个概率值，概率值表示的是这两个句子连续的概率。

优选地，步骤2中，所述transformer编码器中核心部件为一个多头注意力机制，多头注意力机制由8个self-attention机制构成，transformer编码器的输出是8个self-attention机制的输出拼接而成。

优选地，步骤4中，所述数据预处理包括将句子中的部分无效字符串去除，然后将句子按字符切分。

本发明提出了一种基于Bidirectional Encoder Representations fromTransformers(简称BERT)与Convolutional Neural Networks(简称CNN)层级连接的中文文本分类方法，使用BERT模型与CNN模型进行层级连接进一步提升模型提取句子语义特征的能力。

本发明提供了一种基于BERT-CNN的中文文本分类方法，该发明由于在获取句子的语义特征的时候加入CNN模型，会得到更加有效的句子的语义特征，相比较于现在以后的一些中文文本分类模型，在做文本分类的时候取得更好的效果。

附图说明

图1是本发明的一种基于BERT与CNN层级连接的中文文本分类方法的流程示意图；

图2是本发明的BERT-CNN模型的内部结构图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的具体实施方式涉及一种基于BERT与CNN层级连接的中文文本分类方法，所述中文文本分类方法包括通过wiki百科的中文文本数据集对BERT模型进行预训练，得到BERT模型中的所有的参数并保存；使用CNN模型与BERT模型进行层级连接，得到新的模型BERT-CNN；对BERT模型部分的参数进行初始化，初始化的参数值即之前预训练得到的参数，而CNN模型部分的参数初始化采用满足正态分布随机产生；对分类训练集进行数据预处理；最后，通过预处理过的数据集再训练BERT-CNN模型；

图1展示的是本发明的一种基于BERT与CNN层级连接的中文文本分类方法的流程示意图。

如图1所示，流程开始之后，首先执行的步骤是预训练BERT模型。预训练BERT模型主要包含两个部分，一是构造训练集；二是使用构造好的训练集训练BERT模型。

构造的训练集有两种，一是句子内部预测训练集；而是句子对是否连续训练集。具体实施步骤如下：

句子内部预测训练集的构造具体实施方式是随机将句子中的15％的词遮住。这15％的词中80％用[mask]代替，10％的词仍用原来的词，剩余的10％的词用随机一个词代替。并在句子的起始位置拼接[CLS]字符，通过这种方式构成的新句子作为模型输入去预测被遮住的15％的词。

句子对是否连续训练集的构造具体实施方式是将文章中的任意两个句子通过[sep]连接成一个句子，并在句子的起始位置拼接[CLS]字符，使用构成的新句子作为模型的输入预测这两个句子在文章中是否连续。模型的输出是一个概率值，概率值表示的是这两个句子连续的概率。

通过以上以上两个训练集对BERT模型进行预训练，并将训练好的模型权重参数保存下来，用于BERT-CNN模型的BERT模型部分的权重参数初始化值。

如图1所示，第二步是构造BERT-CNN模型。BERT-CNN模型内部结构如图2所示。将BERT模型12层结构中每一层的第一个位置的输出，作为CNN模型的输入，输入的宽度为12，将这宽度为12的输入矩阵经过CNN模型进行卷积和最大池化操作得到新的更加有效的句子语义特征向量。

上述采用的BERT模型是由12层transformer编码器构成。tansformer编码器中核心部件是一个多头注意力机制，多头注意力机制是由8个self-attention机制构成，而输出便是这8个self-attention机制的输出拼接而成。这样做的目的是为了使得模型在不同的表示子空间里学习到相关的信息。

其中，self-attention的计算公式如下：

在self-attention中，Q＝V＝K，均是attention机制的输入矩阵，WQ、WK、WV是对应于Q、K、V的三个权重矩阵，是需要模型学习的权重参数。d_k指的是输入矩阵行向量的维度，目的是为了控制分母的内积结果不要太大。

其中，多头attention的计算公式如下：

multihead(Q,K,V)＝concat(head₁,head₂,...,head_h)W^o

concat()目的是实现矩阵进行行向量的拼接；head_i指的多头attention中的第i个self-attention的计算结果；W^O指的是多头attention的输出与下一层连接的权重参数。

上述采用的CNN模型是一种一维卷积神经网络。这种一维卷积神经网络体现在其卷积过程中，卷积的运算只向下不断移动而没有左右移动运算，所以与输入矩阵做完一次卷积运算以后得到的是一个一维向量。CNN模型分为卷积层和池化层，卷积层是由一个个卷积核组成，此次实施案例中采用的是窗口大小为2、3、4三种类型的卷积核，而池化层采用的是最大池化。

这样便可以将得到的句子的语义特征向量作为全连接层的输入，并经过softmax层，最终得到句子的类别概率。

如图1所示，第三步是BERT-CNN模型权重参数初始化。具体初始化步骤为：首先对BERT模型的权重参数初始化，初始化值为第一步中预训练保存下来的权重值。然后对CNN模型的权重参数初始化，这一次的初始化值是通过随机产生的一组满足正态分布的数据。

如图1所示，第四步是训练BERT-CNN模型分类器。具体的训练步骤为通过输入一个句子，比如”这家产品质量不行”，显然这是一个差评，本发明希望模型输出是一个小于0.5的概率值。这个值越接近0说明预测的越准确。而对于一个好评示例，本发明希望它的预测概率大于0.5，且概率值越接近1越好。因此，本发明采用交叉熵作为损失函数，adam作为优化器，不断地更新权重，使得模型可以在训练数据地作用下得到一组权重参数最优解。并且，参数更新不仅仅针对于CNN模型，对BERT模型部分地权重参数也会继续更新即针对自己任务对这部分参数进行微调。

本发明采用BERT和CNN联合模型对句子进行有效特征提取，经过预训练过的BERT模型不但有着及其强大的字和句子的语义表示功能，而且还可以直接运用于任何领域的任务，而不需要重新采用数据进行预训练，相对WORD2VEC模型具有一定的优势。并且BERT模型中采用的是attention机制来解决长距离依赖问题，这样同时也克服了使用穿透RNN模型不能并行计算的问题。而在此基础上，本发明又引入了CNN模型，来对BERT模型的结果进行进一步特征融合，使之可以得到更加有效的句子语义特征。

Claims

1.一种基于BERT与CNN层级连接的中文文本分类方法，其特征在于，包括以下步骤：

步骤4、对分类训练集进行数据预处理；

步骤5、通过预处理过的数据集再训练BERT-CNN模型。

2.如权利要求1所述的一种基于BERT与CNN层级连接的中文文本分类方法，其特征在于，步骤1中，对BERT模型进行预训练的中文文本数据集包括句子内部预测训练集以及句子对是否连续训练集，其中：

句子内部预测训练集的构造过程包括以下步骤：

句子对是否连续训练集的过程包括以下步骤：

3.如权利要求1所述的一种基于BERT与CNN层级连接的中文文本分类方法，其特征在于，步骤2中，所述transformer编码器中核心部件为一个多头注意力机制，多头注意力机制由8个self-attention机制构成，transformer编码器的输出是8个self-attention机制的输出拼接而成。

4.如权利要求1所述的一种基于BERT与CNN层级连接的中文文本分类方法，其特征在于，步骤4中，所述数据预处理包括将句子中的部分无效字符串去除，然后将句子按字符切分。