CN113239700A

CN113239700A - 改进bert的文本语义匹配设备、***、方法及存储介质

Info

Publication number: CN113239700A
Application number: CN202110459186.7A
Authority: CN
Inventors: 王庆岩; 顾金铭; 殷楠楠; 谢金宝; 梁欣涛; 沈涛
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-08-10

Abstract

改进BERT的文本语义匹配设备、***、方法及存储介质，尤其涉及文本语义匹配、BER、词粒度、相对位置编码和注意力池化的匹配设备、***、方法及存储介质，属于自然语言处理领域；目的是解决BERT模型训练时间较长、绝对位置编码未能表明句子中词与词间的相对位置和输出文本表示不能完全利用BERT模型输出的文本表示序列的问题；本发明通过建立所述传输层中的词嵌入机制、所述编码层的相对位置编码机制以及通过所述输出层对池化后的注意力机制处理文本，完成后续文本语义匹配；本发明不仅提高了文本匹配的准确率，更加准确体现句子的不同位置和不同位置间的信息，并采用注意力池化方式，得到降维后的文本表示包含更多的语义信息。

Description

改进BERT的文本语义匹配设备、***、方法及存储介质

技术领域

本发明改进BERT的文本语义匹配方法，尤其涉及文本语义匹配、BER、词粒度、相对位置编码和注意力池化的匹配设备、***、方法及存储介质，属于自然语言处理领域。

背景技术

文本语义匹配是自然语言处理领域(NLP)的基本任务之一，旨在对两个文本的语义进行建模，并对它们之间的关系进行分类。文本语义匹配的研究可应用在自动问答、机器翻译、对话***和复述等自然语言处理任务中，这些任务在一定程度上都可以抽象为文本匹配任务。

文本语义匹配任务面临的首要问题是文本表示问题，文本表示是指将文本中的字词映射为词向量表示，使得计算机能够对文本进行处理。近年来，随着大规模预训练模型的发展，文本表示技术得到了巨大的发展，多种基于大规模文本预料的预训练模型如雨后春笋般涌现，如ELMo、OpenAI GPT、BERT、XLNet等。自从BERT预训练模型取得巨大成功之后，基于BERT预训练模型的改进也被不断提出，如RoBERTa、ALBERT等。

尽管上述模型已经取得了不错的成绩，但是仍存在很多不足之处，以往的降维的三种方法为提取[CLS]向量、平均池化和最大池化；上述三种方法过于片面的应用输出的三维文本表示序列，因此提出的方法融合了[CLS]向量与其余向量之间的关系，得到更加准确体现文本语义的文本表示。

对预训练模型从文本中所提取到的输出文本序列进行池化操作生成文本表示是文本语义匹配模型的重要一步。Collobert等提出一种全局最大池化方法，通过文本表示序列中各向量对应元素的最大值生成语义匹配的文本表示。Conneau等将双向长短时记忆(Bi-LSTM)网络分别与全局最大池化和全局平均池化相结合来编码句子级语义信息，通过对比得出Bi-LSTM结合全局最大池化的结构在句子级语义编码上具有最优效果。Kim基于word2vec嵌入模型生成文本表示序列，并将卷积神经网络(CNN)与全局最大池化相结合进行文本分类任务。Hu等结合CNN和全局最大池化，提出一种无需先验知识的文本语义匹配模型。BERT提出是所采用的池化方法为提取特殊字符[CLS]的向量作为语义匹配文本表示。上述方法均只用到了输出文本序列的一部分，并没有将BERT中的特殊字符[CLS]向量与其余的序列向量进行结合，采用注意力池化得以解决上述问题。

发明内容

在文本匹配任务中，BERT模型取得很好的表现，但仍存在训练时间较长、绝对位置编码未能表明句子中词与词间的相对位置和输出文本表示不能完全利用BERT模型输出的文本表示序列的问题，本发明提出了一种基于词嵌入、注意力池化(Average Pooling，AP)和相对位置编码(Relative Position Embedding，PRE)的改进BERT的文本匹配模型AP_REP_WordBERT；本发明的技术方案如下：

方案一：改进BERT的文本语义匹配***，该***包括数据预处理子***、BERT子***；数据预处理子***负责将获取的文本进行整理后传输到BERT模型子***，由BERT模型子***进行模型建立以及模型输出，最终由输出层子***将模型进行改进后输出匹配结果。

具体地，所述的数据预处理子***包括文本获取模块、拼接模块和分词模块；所述BERT模型子***包括输入表示层、编码层和输出层；所述输出层包括注意力池化模块和分类器。

方案二：区别于现有BERT的文本语义匹配，改进BERT的文本语义匹配方法是以所述的***为基础实现的，该方法通过建立所述传输层中的词嵌入机制、所述编码层的相对位置编码机制以及通过所述输出层对池化后的注意力机制处理文本，完成后续文本语义匹配；该方法具体步骤如下：

步骤一，通过将所述文本获取模块输入文本并***特殊元素向量，完成文本匹配任务的初始化操作；

步骤二，所述拼接模块利用自注意力机制拼接主要向量；

步骤三，所述分词模块利用词嵌入机制根据词粒度对切分文本向量，作为最后的分词结果；

步骤四，利用相对位置编码机制对文本进行编码输出模型学习到的相对位置；

步骤五，利用步骤一***的特殊元素向量，与输出文本序列中其余输出向量序列进行注意力的池化方式计算；

步骤六，利用分类器所包含的函数计算，完成文本语义匹配。

进一步地，在步骤一中，文本匹配任务具体包含两部分：

第一部分，将文本对进行拼接，对文本对中的第一个句子前加入特殊符号[CLS]，在第一句话结尾加入特殊符号[SEP]，再接入第二个句子，在第二句话结尾加入特殊符号[SEP]，将拼接好的句子以字粒度对句子进行切分；

第二部分，将每一个字的词向量、分段向量和位置向量进行作和作为最终输入BERT模型的向量表示。

进一步地，步骤二中，所述自注意力机制，具体步骤如下：

步骤二一，将当前字词的查询集合Q和每个键K进行相似度计算得到权重；

步骤二二，使用Softmax函数对这些权重进行归一化处理；

步骤二三，将权重和相应的值V进行加权求和得到最后的注意力结果。

进一步地，步骤三中，所述自注意力机制，具体步骤如下：在步骤三中，所述的词嵌入机制具体步骤如下：

步骤三一，将文本中的中文词添加到原来的词表中；

步骤三二，输入一个句子先采用jieba分词工具进行分割一次，得到词序列w_i，w_i∈[w₁，w₂，...，w_l]；

步骤三三，遍历w_i，如果w_i在词表中则保留，否则用BERT自带的分词函数再分一次；

步骤三四，将每个w_i的分词结果有序拼接起来作为最后的分词结果。

进一步地，在步骤四中，所述的相对位置编码，指在自注意力机制中加入两组表示词与词之间关系的向量，并作为参数参与训练，具体步骤为：

步骤四一，两组表示词与词之间关系的向量进行交互：

步骤四二，计算注意力得分；

步骤四三，进行加权，输出向量。

进一步地，在步骤五中，所述相对位置编码依赖于二维坐标表示位置的编码方式，通过将多维向量转化为二维向量的相对位置，使相对位置编码在各层的自注意力机制中是共享的，无论在任何层的相对位置编码中表示都是位置与位置之间的相对信息。

进一步地，在步骤六中，所述的分类器为多层感知器作文本语义匹配模型，该分类器由前向传播神经网络、Softmax归一化函数和Argmax最大索引函数三部分组成：

所述前向传播神经网络共有两个隐藏层，第一隐藏层所有神经元与语义匹配表征向量v进行全连接，将v映射到高维语义空间中对其中包含的语义匹配信息进行分析；第二隐藏层中神经元与第一隐藏层所有神经元进行全连接，并分别输出代表语义不同的标签0和代表语义相同的标签1对应的激活值，得到一个二维激活向量；

Softmax归一化函数对前向传播网络所得二维激活向量进行归一化处理，使向量中所有元素之和为1，得到一个二维预测向量；该向量即文本语义匹配模型对两个输入待匹配语句间同义关系所做的预测，向量中两个元素分别对应标签0和标签1的预测概率，并用于模型损失函数计算；

Argmax最大索引函数对二维概率向量中两个元素的概率值进行比较，返回向量中概率值最大元素对应的索引，该索引为文本语义匹配模型，得到最终的预测标签。

方案三：改进BERT的文本语义匹配设备，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现所述的改进BERT的文本语义匹配***及方法。

本发明有益效果体现在：

本发明所提出模型AP_REP_WordBERT主要做了如下改进：首先在预训练模型选择方面采用以词作为切分粒度的预训练模型，不仅提高了文本匹配的准确率，而且加快了模型的训练速度；其次删除BERT模型的绝对位置编码采用相对位置编码，更加准确体现句子的不同位置和不同位置间的信息，更加明确的体现文本间的位置信息；最后在文本输出阶段，采用注意力池化方式，得到降维后的文本表示包含更多的语义信息。

附图说明

图1为AP_REP_WordBERT模型框图；

图2为BERT模型框图；

图3为Transformer模型的编码示意图；

图4为注意力机制框图；

图5为BERT输入产生方式示意图；

图6为相对位置编码向量编码方式图；

图7为注意力池化框图；

图8为分类器结构图；

图9为数据集各部分占比示意图；

图10为BERT模型的准确率对比图；

图11为与BERT模型的运行时间对比图；

图12为不同池化方式的对比图；

图13为与BERT的衍生模型的准确率对比图；

图14为不同学习率的对比图。

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

具体实施方式

具体实施方式一：

本实施例提出的模型主要基于BERT模型进行了改进，首先，AP_REP_WordBERT模型在BERT预训练模型的基础上，通过jieba分词工具扩充词表，在分词阶段以字作为分词的基本单位改为以词作为分词的基本单位。这种改进不仅提升了文本表示的准确性，而且节省内存，提升模型的训练速度；其次改进了位置编码的方式，上述所有的预训练模型大多数采用同一种位置编码方式——绝对位置编码方式，这种位置编码方式只是显性地表达了整个句子不同位置的信息，并没有体现句子间词与词之间的位置信息，如绝对位置编码方式只能体现位置1与位置2是不同的位置，而体现不出位置1与位置2之间的距离是要短于位置1与位置4之间的距离，而相对位置编码解决了这个问题，相对位置编码使得最后生成的文本表示更加贴近于文本语义；最后，采用注意力池化的方法对BERT模型输出的文本表示序列进行降维。由于预训练模型输出的文本表示序列是三维向量，需要将文本表示序列降为二维向量，送入分类器进行分类判断。

本实施方式提出的文本语义匹配模型整体结构如图1所示，模型的输入为两个待匹配的文本，为了在编码过程中利用两个文本之间的交互信息，将两个待匹配的文本拼接成为一个文本序列后作为AP_REP_WordBERT模型的输入。

本模型对BERT模型进行三处进行改进：一、分词部分将按字切分改进为按词进行切分；二、加入相对位置编码，删除绝对位置编码；三、采用注意力池化得到文本表示。然后，从以下三个方面进行展开论述：

1.1 BERT模型：

BERT模型主要有三部分组成：数据预处理的输入表示层、编码层和输出层。BERT模型框图如图2所示。

1.1.1数据预处理的输入表示层：

在文本匹配任务中，BERT的输入表示层主要完成两部分内容，第一部分为：将文本对进行拼接，对文本对中的第一个句子前加入特殊符号[CLS]，在第一句话结尾加入特殊符号[SEP]，再接入第二个句子，在第二句话结尾加入特殊符号[SEP]，将拼接好的句子以字粒度对句子进行切分；第二部分为：将每一个字的词向量、分段向量和位置向量进行作和作为最终输入BERT模型的向量表示。

1.1.2编码层：

Transformer模型是BERT模型编码层的主要组成部分，在图1和图2中表示为Trm。Transformer模型分为编码部分和解码部分，由于本模型的本质是分类模型，故只应用Transformer的编码部分，编码部分内部结构如图3所示：

由图3可以看出，除了输入和输出外，Transformer主要由三部分组成，多头注意力机制，前向反馈网络和应用了残差网络结构的层归一化，其中Nx代表框内部分重复的次数。多头注意力机制为提取文本信息的主要部分。所谓多头注意力机制即将注意力机制分多次实现，最终将每一次的注意力机制得到的结果进行拼接，作为多头注意力机制的最终结果。Transformer模型所使用的注意力机制计算过程如图4所示：

该注意力机制的计算主要分为三个阶段，第一步是将查询集合Q(Query)和每个键K(Key)进行相似度计算得到权重，常用的函数为点积，如式(1)所示：

F(Q，K_i)＝Q^TK_i (1)

第二步是使用Softmax函数对这些权重进行归一化处理，如式(2)所示：

最终将归一化后的权重值a_i权重和相应的值V(Value)进行加权求和得到最后的注意力结果(Attention Value)，可以理解为Q为当前字词的查询，K为除当前字词外的键，V为当前字词外的值

如式(3)所示：

Attention(Q，K，V)＝∑_ia_iV_i (3)

而在Transformer模型中采用的Q、K和V的计算全部采用相同的输入序列，故这种注意力机制在Transformer中被称为自注意力机制。

1.1.3输出层：

将输入向量进行Transformer编码后，再根据要处理的具体任务对文本输出序列进行处理。针对文本匹配任务主要采用提取句中最能表达文本含义的[CLS]向量作为句子对的最终文本表示，将该向量输入到Softmax层进行分类。

本实施例将模型首先改进了输入表示层的句子切分方式，将以字粒度进行切分改为以词粒度进行切分；其次删除绝对位置编码，在编码层引入相对位置编码；最后在输出层引入注意力池化对输出文本表示进行处理，最终得到更加贴合文本语义的文本表示。

2.1以词粒度切分文本：

现在几乎所有的预训练模型分词方式都是基于字进行切分的。因为基于字进行分词有如下优点：参数更少、不依赖于分词算法和基本上不会出现未登录词。故现在绝大多数的模型采用以字为粒度对句子进行切分。虽然以字粒度对句子进行切分有如上优点，但是这种方式也有许多缺点，首先虽然这种方式参数量要是比以词粒度进行切分的要少，但是由于切分粒度过小会导致每次更新的参数要比按照以词粒度进行切分更新的参数要多。例如：句子“猫和老鼠里的老鼠每次都能成功逃脱。”以字粒度进行切分为“猫/和/老/鼠/里/的/老/鼠/每/次/都/能/成/功/逃/脱/。”以词粒度进行切分(以jieba分词工具为例)为“猫和老鼠/里/的/老鼠/每次/都/能/成功/逃脱/。”以字粒度进行切分要更新15个词向量，而以词为粒度只需更新10个词向量。这样即加快了更新的速度，也减少了每次更新所占的内存。其次这种方法不依赖于分词算法，但是也带来产生歧义的可能性。以上例中的中的“鼠”字为例，它在“猫和老鼠”中是作为片名的一部分，在“老鼠”中是和其他字结合作为动物名存在。若以字作为切分粒度，在输入计算机进行处理时只会做统一处理，而以词作为切分粒度就不会存在上述问题。

以词作为切分粒度虽不存在上述以字粒度进行切分的自身优点，但是通过一定的方法是完全可以解决。第一，以词为粒度进行分割参数变多，必然会产生过拟合的现象，但是完全可以通过预训练来缓解过拟合，所以这个问题不会体现的十分严重；第二，依赖分词算法问题，本模型只保留最常见的一部分词，达到不管那种分词工具分出来的结果都是差不多的，差异性不大；第三，边界切分错误，这个问题在所难免，但是相对于文本语义匹配不同于序列标注类问题需要那么严格的边界切分问题；第四：本模型将大部分字也加入到词表中，也不会出现过多未登录词。

由于本模型是基于BERT模型的基础上进行改进，必然会对原来的分词方式进行改进，本模型的分词方式如下：

将中文词添加到原来的词表中；

输入一个句子先采用jieba分词工具进行分割一次，得到w_i，w_i∈[w₁，w₂，...，w_l]；

遍历w_i，如果w_i在词表中则保留，否则用BERT自带的分词函数再分一次；

将每个w_i的分词结果有序拼接起来作为最后的分词结果。

3.1编码：

3.1.1相对位置编码：

所有BERT及其衍生模型几乎全部采用图5这种方式对字词进行编码，这种编码方式表明每一个字词都是由词向量、分段向量和位置向量作和得到的。位置向量主要采用绝对位置编码产生的，但是这种编码方式只能表明句子内每一个词不同位置的关系，不能表明不同位置之间的相对关系，故本模型引入相对位置编码对BERT模型进行改进。

本模型删除了BERT中的绝对位置编码如图5橘黄色部分所示，通过在自注意力机制计算方式上进行改进，向自注意力机制中加入两组表示词与词之间关系的向量，并作为参数参与训练过程。

设输入序列为x＝(x₁，K，x_n)，其中每一个

通过自注意力机制会生成与输入序列长度相同的z＝(z₁，K，z_n)，其中每一个

由于BERT模型采用自注意力机制，将公式(1)～(3)进行细化，自注意力机制计算完成需要以下三步：

首先通过式(4)，将x_i与x_j进行交互：

其次通过式(5)计算注意力得分：

最后通过式(6)进行加权得到输出：

为参数矩阵，这些参数矩阵在每一层的自注意力机制上都是不共享的。其中xW^Q，xW^K和xW^V的结果分别为上述的Q、K和V，eij为xi与xj的相似度，α_ij为注意力机制得分。

为了表达同一句子内不同位置之间的关系，在计算注意力得分和最终输出时各加了一组可以可训练表示相对位置的参数，并且在各层的自注意力机制中是共享的，具体步骤如下：

首先，不同位置词进行交互时，仍采用点积的方式进行交互，但是要在交互时加入第一个表示相对位置的参数

如式(7)所示：

其次，在计算注意力得分时，与原自注意力机制计算公式一样同样采用Softmax公式进行计算。

最后，在计算输出是加入第二个表示相对位置的参数

如公式(8)所示：

3.1.2相对位置编码的可行性分析：

假设输入的词向量为[x₁，x₂，K，x_i]，使用绝对位置编码的向量为[p₁，p₂，K，p_i]，将绝对位置编码与词向量输入到自注意力机制中会进行如下运算，如式(9)～(13)所示：

q_i＝(x_i+p_i)W_Q (9)

k_j＝(x_j+p_j)W_K (10)

v_j＝(x_j+p_j)W_V (11)

q_i为位置i处的查询k_j为位置j出的键v_j为j位置的值a_ij为i处与j处字词的相似度o_i为i处的向量输出；

将式(12)展开得到式(14)：

引入相对位置编码后，可以看出将第一个括号中的p_i项去掉，将第二个括号中的

用二元位置向量

代替，如式(15)所示：

同理，相对于式(13)进行展开得到式(16)：

将式中的p_jW_V换作

得到式(17)：

可以看出相对位置编码将依赖于二维坐标(i，j)表示位置的编码方式，通过向量

和

转化为依赖于i-j的相对位置。也正是由于这个原因，相对位置编码在各层的自注意力机制中是共享的，无论在任何层的相对位置编码中表示都是位置与位置之间的相对信息。

虽然相对于文本序列可以通过两个相对位置参数

和

捕获输入元素之间的相对位置信息，如图6所示；将最大相对位置限制在|k|范围内，因为精确的相对位置在一定距离之外是没有用的。故本模型采用裁剪的方式，这种方法既减少了训练的参数量又可以使模型推广至训练期间看不到的序列长度。因此，相对位置的选择，是以当前词为中心的前k个词和后k个词，本模型中k＝4。

裁剪方式如公式(18)～(20)所示。

clip(x，k)＝max(-k，min(k，x)) (20)

最后本模型学习到相对位置表示为

和

其中

4.1注意力池化：

注意力池化结构如图7所示，

注意力池化方法是通过预处理文本时就***的特殊元素[CLS]向量和输出文本序列中其余输出向量序列进行注意力计算，所得语义匹配文本表示v_Att作为文本表示序列E对应语义匹配的文本表示。

注意力池化计算公式如式(21)所示：

v_Att＝Attention(e_[CLS]，K_E，V_E) (21)

其中：e_[CLS]为特殊元素[CLS]对应的向量，K_E、V_E为除e_[CLS]外其余的文本表示序列。

注意力(Attention)机制计算公式如式(22)所示：

v_att为注意力池化后的结果其中：

n为输入序列长度。从上述描述可以看出与上文提到的注意力机制计算方法如出一辙，目前对于该注意力机制的应用主要集中于形成自注意力机制，即Q矩阵、K矩阵和V矩阵都是产生于相同的输入序列X，而该部分则是将Q矩阵产生于向量[CLS]，而K矩阵和V矩阵产生于除[CLS]向量外的文本表示序列。在BERT模型中表明，[CLS]向量是作为最能表达文本的整体含义，但是其余向量也具有在特定位置上所包含的句子信息，最后的处理方法达到了整体与部分的融合，使得输出的文本表示更加符合真实的文本语义。

5.1分类器：

采用多层感知器作文本语义匹配模型的分类器，该分类器由前向传播神经网络、Softmax归一化函数和Argmax最大索引函数三部分组成。分类器结构图如图8所示。

其中前向传播神经网络共有两个隐藏层。第一隐藏层所有神经元与语义匹配表征向量v进行全连接，将v映射到高维语义空间中对其中包含的语义匹配信息进行分析。第二隐藏层中神经元与第一隐藏层所有神经元进行全连接，并分别输出标签0(语义不同)和标签1(语义相同)对应的激活值，得到一个二维激活向量。

Softmax归一化函数对前向传播网络所得二维激活向量进行归一化处理，使向量中所有元素之和为1，得到一个二维预测向量。该向量即文本语义匹配模型对两个输入待匹配语句间同义关系所做的预测，向量中两个元素分别对应标签0和标签1的预测概率，并用于模型损失函数计算。

Argmax最大索引函数对二维概率向量中两个元素的概率值进行比较，返回向量中概率值最大元素对应的索引(索引从0开始，如第一个元素的值大于第二个元素则返回索引0，否则返回索引1)。该索引即文本语义匹配模型最终的预测标签y。

分类器所用激活函数均采用高斯误差线性单元(GELU)，GELU计算公式为：

分类器计算公式为：

y＝A rg max(p) (27)

其中：

为前向传播网络第一隐藏层的输出；

为前向传播网络第一隐藏层的权重和偏置；f₂∈i²为前向传播网络第二层的输出；

b₂∈R²为前向传播网络第二层的权重和偏置；p为Softmax归一化函数所得的概率向量。

6.1数据集与预训练模型：

所采用的数据集为大规模中文问题匹配数据集(LCQMC)，该数据集用于判断两个中文问题语句间的语义关系。LCQMC数据集分为训练集、验证集和测试集，共包含260068个样本，其中训练集238766个，验证集8802个，测试集12500个如图9所示。

每个样本由一对中文问题语句及对应的标签组成。其中标签分为0和1两类，标签0代表两个中文问题语句的语义不同，标签1代表两个中文问题语句的语义相同，0、1标签的样本个数比为1∶1.34。数据集展示如表1所示：

表1数据集中句子对

采用的预训练模型是追一科技预训练模型，该模型的预训练方法是在哈工大开源的BERT-Chinese基础上进行继续预训练，预训练任务为MLM。初始化阶段，将每个词用BERT自带的Tokenizer文件切分为字，然后用字嵌入的平均作为词嵌入的初始化。模型使用单张24G的RTX训练了100万步(大概训练了10天)，序列长度为512，学习率为5e-6，batch size为16，累积梯度16步，相当于batch size＝256训练了6万步左右；训练语料大概是30多G的通用型语料。

所有实验采用的GPU均为NVIDIA GTX1080Ti(11G)。

6.2评价指标

采用准确率作为评价指标来验证方面情感分类的性能，因此通过将模型在验证集和测试集上的预测结果与真实标签对比，定义True(T)表示模型预测正确的个数；False(F)表示模型预测错误的个数；Number(N)表示模型预测总样本数，则准确率(Accuracy)的计算公式分如式(28)所示：：

总的来说，Accuracy越大，准确性越大，模型的性能具有更优的精度。

6.3目标函数：

文本匹配是分类问题，使用稀疏最小化交叉熵损失函数作为目标函数来优化模型，公式如式(29)所示：

其中，D为训练集数据量的大小，C为数据集的类别数，其中C大小为2，

为预测类别，y为数据的实际类别，λ||θ||²为交叉正则项.

6.4参数设置：

模型训练采用Adam优化器进行优化更新所有参数，本模型延用BERT的嵌入尺寸维度为768，偏置初始化为0，学习率设置为2e-5，Dropout设置0.1，Batch size为32，序列长度为512，L2正则项系数a为10，激励函数为ReLU。

6.5对比实验：

6.5.1与BERT模型对比：

如下图8和图9所示，是围绕实施例所提出三点改进与BERT模型从准确率和运行时时间两方面进行比较。进行比较的模型有四个分别为：BERT模型、WordBERT模型(以词粒度进行分词的模型)、REP_WordBERT模型(在WordBERT模型基础上加入相对位置编码)、AP_REP_WordBERT模型(在REP_WordBERT模型基础上加入注意力池化)。

从图10中可以看出，在准确率方面最终模型的准确率相对于BERT模型提高了2.04％；在运行时间方面，在实验中BERT模型在当前实验室条件下，当batch size＝32时，会导致服务器内存溢出，故采用batch size＝16进行训练，而其他三个模型不存在上述问题，故说明本实施例提出的模型更加节省内存。BERT模型运行时间是以batch size＝16进行训练的运行时间乘2作为以batch size＝32的运行时间与其他模型进行比较。从图11中可以看出运行时间也有很大的提升。

6.5.2池化方式对比：

目前主流模型对于处理BERT模型输出序列降维的方法主要有全局最大池化(MaxPooling)、平均池化(Average Pooling)和提取[CLS]向量，本课题提出了注意力池化(Attention Pooling)，本部分将基于REP_WordBERT模型将上述四种池化方式进行对比。实验结果如图12所示：

由图可以看出实施例所述的池化方法其相较于其他的池化方法存在一定的优越性。

6.5.3与BERT的衍生预训练模型对比：

本部分对比的模型均以BERT模型作为主体结构，在某些方面对BERT模型进行了改进。

ERNIE模型通过对训练数据中的词法结构，语法结构，语义信息进行统一建模，极大地增强了通用语义表示能力；

BRET-wwm模型在中文预训练阶段用[MASK]遮蔽的是一个词，而BERT遮蔽的是一个字；

RoBERTa模型预训练训练时间更长，batch size更大，训练数据更多，在预训练阶段采用动态调整Masking机制；

ALBERT-xlarge模型提出了两种能够大幅减少模型参数量的方法，以使得ALBERT的模型结构可以扩大至xlarge版本。

除BERT模型和AP_REP_WordBERT是在实验室的服务器上运行外，其他模型的准确率均来自官方网站提供的。图12可以看出，在同样是改进BERT模型的基础上，提出的模型在LCQMC数据集上的准确率均高于其他BERT的衍生模型的准确率。

6.5.4超参数调优：

本课题采用控制变量法，通过多次实验对比选取关于模型AP_REP_WordBERT的最优学习率，实验结果如图14所示：

由上图可以看出，当学习率为2×10^-5时，准确率最高。从实验结果可以分析得到，当学习率过低时，会造成训练过慢，当采用相同的训练代数时，会导致网络没有收敛到最优值；当学习率过大时，会导致网络不收敛，导致准确率降低。

基于LCQMC数据集进行文本语义匹配实验结果表明，AP_REP_WordBERT模型相比于BERT模型准确率提升了2.04％，速度是BERT模型的1.4倍；相比于其他BERT的衍生模型均有一定程度的提升。

实施例可以根据上述方法示例可根据说明书附图1所示框图进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中；上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

具体地，***包括处理器、存储器、总线和通信设备；所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，所述处理器执行所述存储器存储的所述计算机执行指令，所述的通信设备负责与外界网络连接，进行数据的收发过程；所述处理器与存储器相连，所述的存储器包括数据库软件；

具体地，所述数据库软件为SQL Server2005以上版本的数据库，并存储在计算机可读存储介质中；所述处理器与存储器包含的若干指令用以使得个人计算机或服务器或网络设备执行本方法全部或部分步骤；所述处理器所用类型包括中央处理器、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合；所述存储介质包括U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘。

具体地，上述软件***承载于中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(Field Programmable GateArray，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。相关人员及用户通信的通信设备则可以利用收发器、收发电路或通信接口等。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.改进BERT的文本语义匹配***，其特征在于：该***包括数据预处理子***、BERT子***；数据预处理子***负责将获取的文本进行整理后传输到BERT模型子***，由BERT模型子***进行模型建立以及模型输出，最终由输出层子***将模型进行改进后输出匹配结果。

2.根据权利要求1所述的改进BERT的文本语义匹配***，其特征在于：所述的数据预处理子***包括文本获取模块、拼接模块和分词模块；所述BERT模型子***包括输入表示层、编码层和输出层；所述输出层包括注意力池化模块和分类器。

3.改进BERT的文本语义匹配方法，区别于现有BERT的文本语义匹配，是根据权利要求1-2中任一一项所述的***为基础实现的，其特征在于：该方法通过建立所述传输层中的词嵌入机制、所述编码层的相对位置编码机制以及通过所述输出层对池化后的注意力机制处理文本，完成后续文本语义匹配；该方法具体步骤如下：

步骤二，所述拼接模块利用自注意力机制拼接主要向量；

4.根据权利要求3所述的改进BERT的文本语义匹配方法，其特征在于：在步骤一中，文本匹配任务具体包含两部分：

5.根据权利要求3所述的改进BERT的文本语义匹配方法，其特征在于：步骤二中，所述自注意力机制，具体步骤如下：

步骤二二，使用Softmax函数对这些权重进行归一化处理；

6.根据权利要求3所述的改进BERT的文本语义匹配方法，其特征在于：步骤三中，所述自注意力机制，具体步骤如下：在步骤三中，所述的词嵌入机制具体步骤如下：

步骤三一，将文本中的中文词添加到原来的词表中；

步骤三二，输入一个句子先采用jieba分词工具进行分割一次，得到词序列w_i，w_i∈[w₁,w₂,...,w_l]；

7.根据权利要求3所述的改进BERT的文本语义匹配方法，其特征在于：在步骤四中，所述的相对位置编码，指在自注意力机制中加入两组表示词与词之间关系的向量，并作为参数参与训练，具体步骤为：

步骤四一，两组表示词与词之间关系的向量进行交互：

步骤四二，计算注意力得分；

步骤四三，进行加权，输出向量。

8.根据权利要求7所述的改进BERT的文本语义匹配方法，其特征在于：在步骤五中，所述相对位置编码依赖于二维坐标表示位置的编码方式，通过将多维向量转化为二维向量的相对位置，使相对位置编码在各层的自注意力机制中是共享的，无论在任何层的相对位置编码中表示都是位置与位置之间的相对信息。

9.根据权利要求3所述的改进BERT的文本语义匹配方法，其特征在于：在步骤六中，所述的分类器为多层感知器作文本语义匹配模型，该分类器由前向传播神经网络、Softmax归一化函数和Argmax最大索引函数三部分组成：

10.改进BERT的文本语义匹配设备，其特征在于：包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求1至9任一种改进BERT的文本语义匹配***及方法。