CN115687939A

CN115687939A - 一种基于多任务学习的Mask文本匹配方法及介质

Info

Publication number: CN115687939A
Application number: CN202211071421.4A
Authority: CN
Inventors: 张美伟; 崔秋实; 余娟; 吕洋; 余维华; 李文沅; 祝陈哲; 王香霖
Original assignee: Chongqing University; Chongqing Medical University
Current assignee: Chongqing University; Chongqing Medical University
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2023-02-03

Abstract

本发明公开一种基于多任务学习的Mask文本匹配方法及介质。方法步骤包括：1)获取至少两个待匹配文本；2)对所述待匹配文本进行特征提取，得到每个待匹配文本的文本字词特征；3)建立基于BERT的文本匹配模型；4)将所有待匹配文本的文本字词特征输入到文本匹配模型，获得不同待匹配文本的匹配结果。介质包括计算机程序。本发明提出了结合数据特点构建Mask矩阵简化模型的思路，在简化模型的同时也能放大待匹配文本之间的差异，使最终模型训练的泛化能力增强。

Description

一种基于多任务学习的Mask文本匹配方法及介质

技术领域

本发明涉及自然语言处理领域，具体是一种基于多任务学习的Mask文本匹配方法及介质。

背景技术

文本匹配方法旨在判断两个自然句之间的语义是否等价，是自然语言处理领域一个重要研究方向。文本匹配研究同时也具有很高的商业价值，在信息检索、智能客服等领域发挥重要作用。

近年来，神经网络模型虽然在一些标准的问题匹配评上已经取得与人类相仿甚至超越人类的准确性，但是在处理真实应用场景问题时，这些模型鲁棒性较差，在非常简单(人类很容易判断)的问题上无法做出正确判断，造成了极差的产品体验和经济损失。

当前大多数文本匹配任务在与训练集同分布的测试集上进行测试，效果不错，但实际却夸大了模型能力，缺乏对模型细粒度优势和劣势的真实测评，因为从工业实际的一些信息检索、智能客服场景看，很难保证应用场景与模型开发同分布。因此，本发明关注文本匹配模型在真实应用场景中的鲁棒性，从词汇、句法、语用等多个维度出发,发现当前文本匹配算法模型的不足之处，推动语义匹配技术在智能交互等工业领域的发展。

传统文本匹配方法有BoW、VSM、TF-IDF、BM25、Jaccord、SimHash等算法，如BM25算法通过网络字段对查询字段的覆盖程度来计算两者间的匹配得分，得分越高的文本与查询的匹配度更好，主要解决词汇层面的匹配问题，或者说词汇层面的相似度问题，而实际上，基于词汇重合度的匹配算法有很大的局限性，原因包括：词义局限，“的士”和“出租车”虽然字面上不相似，但实际为同一种交通工具；“苹果”在不同的语境下表示不同的东西，或为水果或为公司；结构局限，“机器学习”和“学习机器”虽然词汇完全重合，但表达的意思不同；知识局限，“秦始皇打Dota”，这句话虽从词法和句法上看均没问题，但结合知识看这句话是不对的，以上表明，对于文本匹配任务，不能只停留在字面匹配层面，更需要语义层面的匹配。

深度语义匹配方法，随着深度学习在计算机视觉、语音识别和推荐***领域中的成功运用，近年来有很多研究致力于将深度神经网络模型应用于自然语言处理任务，以降低特征工程的成本。基于神经网络训练出的Word Embedding进行文本匹配计算，训练方式简洁，所得的词向量表示的语义可计算性进一步加强，但是只利用无标注数据训练得到的Word Embedding在文本匹配度计算的实用效果上和主题模型技术相差不大，他们本质都是基于共现信息的训练，除此另外，Word Embedding本身没有解决短语、句子的语义表示问题，也没有解决匹配的非对称性问题。

当前文本匹配算法主要还是基于BERT的预训练语言模型，尽可能的提高文本向量语义信息。但经过预训练模型得到的文本向量，在某些场景里面并不能很好的识别文本的差异，比如：“人民币怎么换港币”与“港币怎么换人民币”两个句子在内容上差异比较小，但意思却大相径庭，因此如果单单依靠预训练模型得到文本向量，很难将从词汇、句法、语用等维度捕捉文本的差异。

可见，当前文本匹配算法存在以下缺陷：

1)基于统计的语言模型无法表达丰富的语义信息，在一些差异比较小的短文本匹配场景很难捕捉文本之间的差异。

2)基于词向量和attention等算法模型需要较多的标注数据，且模型结构复杂，也没有进一步挖掘及利用文本本身的结构特征，例如句法结构、词性等。

3)基于预训练的文本匹配模型比较关注预训练的输出结果，并根据预训练模型的输出结果设计更复杂的网络结构做分类，没有将文本本身的结构特征与预训练模型相结合，这样其实损失了一些比较有用的先验信息。

发明内容

本发明的目的是提供一种基于多任务学习的Mask文本匹配方法，包括以下步骤：

1)获取至少两个待匹配文本；

2)对所述待匹配文本进行特征提取，得到每个待匹配文本的文本字词特征；

3)建立基于BERT的文本匹配模型；

4)将所有待匹配文本的文本字词特征输入到文本匹配模型，获得不同待匹配文本的匹配结果。

进一步，对所述待匹配目标文本进行特征提取的步骤包括：分词处理、词性标注、命名实体识别、语义角色标注、依存句法分析。

进一步，所述目标文本字词特征包括词性特征、命名实体特征、语义角色特征和依存句法关系特征中的一个或多个。

进一步，所述基于BERT的文本匹配模型包括embedding输入层、多头注意力层、前向传播层和输出层。

进一步，获得不同待匹配文本的匹配结果的步骤包括：

a)利用embedding输入层对文本字词特征进行转换，得到embedding输入X，并将embedding输入X转换为特征分量Q＝XW^Q、特征分量K＝XW^K、特征分量V＝XW^V；W^Q、W^K、W^V为不同特征分量对应的权重；

b)利用多头注意力层对embedding输入X的特征分量进行处理，得到多头注意力层处理结果MultiHead(Q，K，V)，即：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O (1)

式中，W^O为权重；

其中，参数head_i如下所示：

head_i＝Attention(QW_i ^Q，KW_i ^k，VW_i ^v)，i＝1，2，...，h (2)

Attention(QW_i ^Q，KW_i ^k，VW_i ^v)＝Mask*Attention(Q，K，V) (3)

式中，softmax为激活函数；d_k表示词向量的维度，为了防止softmax的输入值太大，导致导数为接近0。Mask表示掩码；Attention(QW_i ^Q，KW_i ^k，VW_i ^v)、Attention(Q，K，V)为中间参量；h为大于0的整数；

c)利用前向传播层对多头注意力层处理结果MultiHead(Q，K，V)进行处理，得到前向传播层处理结果x，即：

x＝norm(X+MultiHead(Q，K，V)) (5)

d)利用输出层对前向传播层处理结果x进行处理，得到基于BERT的文本匹配模型输出，作为不同待匹配文本的匹配结果；

基于BERT的文本匹配模型输出如下所示：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂ (6)

式中，W₁、W₂为权重；b₁、b₂为偏置；FFN(x)为输出。

进一步，所述embedding输入X＝x₁+x₂；

其中，输入分量x₁和输入分量x₂分别如下所示：

X₁＝E_tok+E_seg+E_pos (7)

x₂＝embedding1(pos)+embedding2(ner)+embedding3(seg) (8)

式中，E_tok、E_seg、E_pos分别表示文本字词特征的Token Embedding编码、PositionEmbeddings编码和SegmentEmbeddings编码；embedding1、embedding2、embedding3表示词性、命名实体、语义角色的embedding层；pos、ner、seg表示输入文本的词性、命名体、语义角色编码。

进一步，所述掩码Mask为0-1变量，不同待匹配文本的词相同位置的掩码Mask＝1，不同待匹配文本的词不同位置Mask＝0。

进一步，所述基于BERT的文本匹配模型的输出包括序列输出和向量输出；所述向量输出为分类向量，所述序列输出为词性标注向量。所述分类向量包括语义相同和语义不同。

进一步，所述基于BERT的文本匹配模型经过了预训练；

预训练结束的标准为损失函数Loss收敛；

损失函数Loss如下所示：

Loss＝Loss_nll+Loss_pos-tag (9)

式中，Loss_nll为分类向量损失函数；Loss_pos-tag为词性标注的损失函数；

其中，分类向量损失函数Loss_nll如下所示：

式中，n为训练样本数；j表示第j个样本；Z表示分类的类别数；c表示第c个类别；h_j，c表示第j个样本属于第c个类别的概率；y_j，c表示第j个样本是否属于第c个类别；y_j，c＝1表示第j个样本属于第c个类别；y_j，c＝0表示第j个样本不属于第c个类别；

词性标注损失函数Loss_pos-tag如下所示：

式中，P₁、P₂、P₃、P_n为一个样本对应的第1种、第2种、第n种可能词性标注序列的得分；P_real-path为一个样本对应的真实词性标注序列的得分。

一种计算机可读存储介质，所述计算机可读介质存储有计算机程序；

所述计算机程序被处理器执行时，实现权利要求1至9任一项所述方法的步骤。

本发明的技术效果是毋庸置疑的，本发明解决了在智能交互、自然语言理解，相似句抽取等场景中难以捕捉文本之间的差异的问题。

本发明针对短文本匹配模型复杂，参数大的问题，提出了结合数据特点构建Mask矩阵简化模型的思路，在简化模型的同时也能放大待匹配文本之间的差异，使最终模型训练的泛化能力增强。

考虑到文本匹配之前的差异比较小，这个差异能体现在词性、句法结构的语言特征上，本发明在输入端，通过句法、实体等特征做embedding，增加了模型输入的语义信息。

一般的文本匹配主要利用句向量做匹配，本发明引入多任务学习，从词粒度学习待匹配文本词性之间的差异，从而增强了模型的泛化能力。

附图说明

图1为文本匹配流程图；

图2为文本特征挖掘流程图；

图3为Mask掩码原理图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

参见图1至图3，一种基于多任务学习的Mask文本匹配方法，包括以下步骤：

1)获取至少两个待匹配文本；

3)建立基于BERT的文本匹配模型；

4)将所有待匹配文本的文本字词特征输入到文本匹配模型，获得不同待匹配文本的匹配结果，匹配结果包括语义相似、语义不相似。

对所述待匹配目标文本进行特征提取的步骤包括：分词处理、词性标注、命名实体识别、语义角色标注、依存句法分析等一系列自然语言处理操作,本发明所提出的方法借助哈工大社会计算与信息检索研究中心研发的“语言技术平台(LTP)”所提供的自然语言处理技术进行上述操作。

本方法采用哈工大语言技术平台提供的命名实体识别技术和迭代的启发式方法进行命名实体识别。后者是通过合并相连名词获取最大化名词短语，其中名词的词性只能是{ni，nh，ns，nz，j}，分别代表机构名、人名、地理名、其他专有名词和缩略词。

所述目标文本字词特征包括词性特征、命名实体特征、语义角色特征和依存句法关系特征中的一个或多个。

所述基于BERT的文本匹配模型包括embedding输入层、多头注意力层、前向传播层和输出层。

获得不同待匹配文本的匹配结果的步骤包括：

1)利用embedding输入层对文本字词特征进行转换，得到embedding输入X，并将embedding输入X转换为特征分量Q＝XW^Q、特征分量K＝XW^K、特征分量V＝XW^V；W^Q、W^K、W^V为不同特征分量对应的权重；

2)利用多头注意力层对embedding输入X的特征分量进行处理，得到多头注意力层处理结果MultiHead(Q，K，V)，即：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O (1)

式中，W^O为权重；

其中，参数head_i如下所示：

head_i＝Attention(QW_i ^Q，KW_i ^k，VW_i ^v)，i＝1，2，...，h (2)

Attention(QW_i ^Q，KW_i ^k，VW_i ^v)＝Mask*Attention(Q，K，V) (3)

3)利用前向传播层对多头注意力层处理结果MultiHead(Q，K，V)进行处理，得到前向传播层处理结果x，即：

x＝norm(X+MultiHead(Q，K，V)) (5)

4)利用输出层对前向传播层处理结果x进行处理，得到基于BERT的文本匹配模型输出，作为不同待匹配文本的匹配结果；

基于BERT的文本匹配模型输出如下所示：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂ (6)

式中，W₁、W₂为权重；b₁、b₂为偏置。FFN(x)为输出。

所述embedding输入输入X＝x₁+x₂；

其中，输入分量x₁和输入分量x₂分别如下所示：

X₁＝E_tok+E_seg+E_pos (7)

x₂＝embedding1(pos)+embedding2(ner)+embedding3(seg) (8)

所述掩码Mask为0-1变量，不同待匹配文本的词相同位置的掩码Mask＝1，不同待匹配文本的词不同位置Mask＝0。

所述基于BERT的文本匹配模型的输出包括序列输出和向量输出；所述向量输出为分类向量，所述序列输出为词性标注向量。所述分类向量包括语义相同和语义不同。

所述基于BERT的文本匹配模型经过了预训练；

预训练结束的标准为损失函数Loss收敛；

损失函数Loss如下所示：

Loss＝Loss_nll+Loss_pos-tag (9)

其中，分类向量损失函数Loss_nll如下所示：

词性标注损失函数Loss_pos-tag计算原理如下：

对于任何样本，词性标注的类别序列可能是：

词性标注序列1：START N-B N-I N-E O O

词性标注序列2：START N-B N-E O O O

词性标注序列3：START O N-B N-E O O

词性标注序列4：START V-B V-I V-E O O

…

词性标注序列n：START N-B N-E V-B V-E O

每种可能的路径都有分数为P_i，共有N个路径，则总的得分为：

P_total＝P₁+P₂+P₃+...+P_n

在训练过程中，模型的参数值将随着训练过程的迭代不断更新，使得真实路径所占的比值越来越大。

实施例2：

参见图1至图3，一种基于多任务学习的Mask文本匹配方法，包括以下内容：

1)文本通过语言分析工具处理，可以得到词性、命名实体、语义角色、依存句法关系等特征。

2)根据输入的待匹配文本，比较文本对之间的差异，标记出词位置相同的位置和词不同的位置，词相同位置在Mask矩阵中设为0，否则设为1。

BERT的embedding输入可以表示为Token Embedding、Segmentation Embedding和Position Embedding合成x₁：

X₁＝E_word＝E_tok+E_seg+E_pos

其他语言特征通过embedding层可以表示为x₂：

x₂＝embedding1(pos)+embedding2(ner)+embedding3(seg)

最终的输入x＝x₁+x₂

将输入X转化为Q，K，V：

Q＝XW^Q，K＝XW^K，V＝XW^V

注意力计算公式：

这里为了让模型关注待匹配文本不一致的地方，我们在数据处理阶段通过简单处理即可得到Mask矩阵，所以模型不需要关注全量的attention，只需要关注文本不一致的字符的attention即可：

Attention＝Mask*Attention(Q，K，V)

多头注意力层：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中：

head_i＝Attention(QW_i ^Q，KW_i ^k，VW_i ^v)，i＝1，2，...，h

前向传播层：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

然后输出为：

x＝norm(X+MultiHead(Q，K，V))

最终encoder的输出：

Y＝FFN(x)

该输出包含序列输出和向量输出，本实施例将向量输出作为分类向量，序列输出作为第二个任务词性标注向量，针对分类向量，我们可以得到第一个损失函数Loss_KL为：

词性标注的损失函数为：Loss_pos-tag，最终损失函数将是：

Loss＝Loss_nll+Loss_pos-tag

实施例3：

一种基于多任务学习的Mask文本匹配方法，包括以下步骤：

1)获取至少两个待匹配文本；

3)建立基于BERT的文本匹配模型；

实施例4：

一种基于多任务学习的Mask文本匹配方法，主要内容见实施例3，其中，对所述待匹配目标文本进行特征提取的步骤包括：分词处理、词性标注、命名实体识别、语义角色标注、依存句法分析。

实施例5：

一种基于多任务学习的Mask文本匹配方法，主要内容见实施例3，其中，所述目标文本字词特征包括词性特征、命名实体特征、语义角色特征和依存句法关系特征中的一个或多个。

实施例6：

一种基于多任务学习的Mask文本匹配方法，主要内容见实施例3，其中，所述基于BERT的文本匹配模型包括embedding输入层、多头注意力层、前向传播层和输出层。

实施例7：

一种基于多任务学习的Mask文本匹配方法，主要内容见实施例3，其中，获得不同待匹配文本的匹配结果的步骤包括：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O (1)

式中，W^O为权重；

其中，参数head_i如下所示：

head_i＝Attention(QW_i ^Q，KW_i ^k，VW_i ^v)，i＝1，2，...，h (2)

Attention(QW_i ^Q，KW_i ^k，VW_i ^v)＝Mask*Attention(Q，K，V) (3)

式中，softmax为激活函数；d_k表示词向量的维度；Mask表示掩码；Attention(QW_i ^Q，KW_i ^k，VW_i ^v)、Attention(Q，K，V)为中间参量；h为大于0的整数；

x＝norm(X+MultiHead(Q，K，V)) (5)

基于BERT的文本匹配模型输出如下所示：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂ (6)

式中，W₁、W₂为权重；b₁、b₂为偏置；FFN(x)为输出。

实施例8：

一种基于多任务学习的Mask文本匹配方法，主要内容见实施例3，其中，所述embedding输入X＝x₁+x₂；

其中，输入分量x₁和输入分量x₂分别如下所示：

X₁＝E_tok+E_seg+E_pos (7)

x₂＝embedding1(pos)+embedding2(ner)+embedding3(seg) (8)

实施例9：

一种基于多任务学习的Mask文本匹配方法，主要内容见实施例3，其中，所述掩码Mask为0-1变量，不同待匹配文本的词相同位置的掩码Mask＝1，不同待匹配文本的词不同位置Mask＝0。

实施例10：

一种基于多任务学习的Mask文本匹配方法，主要内容见实施例3，其中，所述基于BERT的文本匹配模型的输出包括序列输出和向量输出；所述向量输出为分类向量，所述序列输出为词性标注向量；所述分类向量包括语义相同和语义不同。

实施例11：

一种基于多任务学习的Mask文本匹配方法，主要内容见实施例3，其中，所述基于BERT的文本匹配模型经过了预训练；

预训练结束的标准为损失函数Loss收敛；

损失函数Loss如下所示：

Loss＝Loss_nll+Loss_pos-tag (9)

其中，分类向量损失函数Loss_nll如下所示：

词性标注损失函数Loss_pos-tag如下所示：

实施例12：

一种计算机可读存储介质，所述计算机可读介质存储有计算机程序；所述计算机程序被处理器执行时，实现实施例1-11所述方法的步骤。

Claims

1.一种基于多任务学习的Mask文本匹配方法，其特征在于，包括以下步骤：

1)获取至少两个所述待匹配文本。

2)对所述待匹配文本进行特征提取，得到每个待匹配文本的文本字词特征。

3)建立基于BERT的文本匹配模型；

2.根据权利要求1所述的一种基于多任务学习的Mask文本匹配方法，其特征在于，对所述待匹配目标文本进行特征提取的步骤包括：分词处理、词性标注、命名实体识别、语义角色标注、依存句法分析。

3.根据权利要求1所述的一种基于多任务学习的Mask文本匹配方法，其特征在于，所述目标文本字词特征包括词性特征、命名实体特征、语义角色特征和依存句法关系特征中的一个或多个。

4.根据权利要求1所述的一种基于多任务学习的Mask文本匹配方法，其特征在于，所述基于BERT的文本匹配模型包括embedding输入层、多头注意力层、前向传播层和输出层。

5.根据权利要求1所述的一种基于多任务学习的Mask文本匹配方法，其特征在于，获得不同待匹配文本的匹配结果的步骤包括：

2)利用多头注意力层对embedding输入X的特征分量进行处理，得到多头注意力层处理结果MultiHead(Q,K,V)，即：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (1)

式中，W^O为权重；

其中，参数head_i如下所示：

head_i＝Attention(QW_i ^Q,KW_i ^k,VW_i ^v),i＝1,2,...,h (2)

Attention(QW_i ^Q,KW_i ^k,VW_i ^v)＝Mask*Attention(Q,K,V) (3)

式中，softmax为激活函数；d_k表示词向量的维度；Mask表示掩码；Attention(QW_i ^Q,KW_i ^k,VW_i ^v)、Attention(Q,K,V)为中间参量；h为大于0的整数；

3)利用前向传播层对多头注意力层处理结果MultiHead(Q,K,V)进行处理，得到前向传播层处理结果x，即：

x＝norm(X+MultiHead(Q,K,V)) (5)

基于BERT的文本匹配模型输出如下所示：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (6)

式中，W₁、W₂为权重；b₁、b₂为偏置；FFN(x)为输出。

6.根据权利要求5所述的一种基于多任务学习的Mask文本匹配方法，其特征在于，所述embedding输入X＝x₁+x₂；

其中，输入分量x₁和输入分量x₂分别如下所示：

X₁＝E_tok+E_seg+E_pos (7)

x₂＝embedding1(pos)+embedding2(ner)+embedding3(seg) (8)

7.根据权利要求5所述的一种基于多任务学习的Mask文本匹配方法，其特征在于，所述掩码Mask为0-1变量，不同待匹配文本的词相同位置的掩码Mask＝1，不同待匹配文本的词不同位置Mask＝0。

8.根据权利要求1所述的一种基于多任务学习的Mask文本匹配方法，其特征在于，所述基于BERT的文本匹配模型的输出包括序列输出和向量输出；所述向量输出为分类向量，所述序列输出为词性标注向量；所述分类向量包括语义相同和语义不同。

9.根据权利要求1所述的一种基于多任务学习的Mask文本匹配方法，其特征在于，所述基于BERT的文本匹配模型经过了预训练；

预训练结束的标准为损失函数Loss收敛；

损失函数Loss如下所示：

Loss＝Loss_nll+Loss_pos-tag (9)

其中，分类向量损失函数Loss_nll如下所示：

式中，n为训练样本数；j表示第j个样本；Z表示分类的类别数；c表示第c个类别；h_j,c表示第j个样本属于第c个类别的概率；y_j,c表示第j个样本是否属于第c个类别；y_j,c＝1表示第j个样本属于第c个类别；y_j,c＝0表示第j个样本不属于第c个类别；

词性标注损失函数Loss_pos-tag如下所示：

10.一种计算机可读存储介质，其特征在于，所述计算机可读介质存储有计算机程序；