WO2021164199A1

WO2021164199A1 - 基于多粒度融合模型的中文句子语义智能匹配方法及装置

Info

Publication number: WO2021164199A1
Application number: PCT/CN2020/104723
Authority: WO
Inventors: 鹿文鹏; 王荣耀; 张旭; 贾瑞祥; 郭韦钰; 张维玉
Original assignee: 齐鲁工业大学
Priority date: 2020-02-20
Filing date: 2020-07-27
Publication date: 2021-08-26
Also published as: CN111310438B; CN111310438A

Abstract

本发明公开了一种基于多粒度融合模型的中文句子语义智能匹配方法及装置，属于人工智能领域和自然语言处理领域，本发明要解决的技术问题为单粒度模型语义分析不全面和句子匹配不精确，采用的技术方案为：该方法具体如下：S1、构建文本匹配知识库；S2、构建文本匹配模型的训练数据集；S3、构建多粒度融合模型；具体如下：S301、构建字符词语映射转换表；S302、构建输入层；S303、构建多粒度嵌入层；S304、构建多粒度融合编码层；S305、构建交互匹配层；S306、构建预测层；S4、训练多粒度融合模型。该装置包括文本匹配知识库构建单元、文本匹配模型的训练数据集构建单元、多粒度融合模型构建单元和多粒度融合模型训练单元。

Description

基于多粒度融合模型的中文句子语义智能匹配方法及装置

技术领域

本发明涉及人工智能领域和自然语言处理领域，具体地说是一种基于多粒度融合模型的中文句子语义智能匹配方法及装置。

背景技术

句子语义匹配在许多自然语言处理任务中扮演着关键角色，例如问答(QA)、自然语言推理(NLI)、机器翻译(MT)等。句子语义匹配的关键是计算给定句子对的语义之间的匹配程度。句子可以从不同的粒度上进行分割，例如字符、词语和短语等。当前，常用的文本分割粒度是词语，特别是在中文领域中更为普遍。

目前，中文句子语义匹配模型多数是面向词语粒度的，而忽略了其它分割粒度。这些模型无法完全捕获嵌入在句子中的语义特征，有时甚至会产生噪音，这会影响句子匹配的准确性。目前，该领域的研究人员逐渐倾向于从句子的多种不同角度或粒度考虑语义匹配，比较成功的模型方法有MultiGranCNN、MV-LSTM、MPCM、BiMPM、DIIN等。尽管这些模型在一定程度上缓解了词语粒度上建模的局限性，但仍无法彻底解决句子语义的精准匹配问题，这在具有丰富语义特征的中文上表现更为突出。

专利号为CN106569999A的专利文献公开了一种多粒度短文本语义相似度比较方法，其包括如下步骤：S1、对短文本进行预处理；所述预处理包括中文分词以及词性标注；S2、对经过预处理的短文本进行特征选择；S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。但是该技术方案无法彻底解决句子语义的精准匹配问题。

发明内容

本发明的技术任务是提供一种基于多粒度融合模型的中文句子语义智能匹配方法及装置，来解决单粒度模型语义分析不全面和句子匹配不精确的问题。

本发明的技术任务是按以下方式实现的，基于多粒度融合模型的中文句子语义智能匹配方法，该方法具体如下：

S1、构建文本匹配知识库；

S2、构建文本匹配模型的训练数据集：对于每一个句子，在文本匹配知识库中都会有一个与之对应的标准的语义匹配的句子，此句子可与其组合用来构建训练正例；其他不匹配的句子可自由组合用来构建训练负例；用户可根据文本匹配知识库大小来设定负例的数量，从而构建训练数据集；

S3、构建多粒度融合模型；具体如下：

S301、构建字符词语映射转换表；

S302、构建输入层；

S303、构建多粒度嵌入层：对句子中的词语和字符进行向量映射，得到词语级句子向量和字符级句子向量；

S304、构建多粒度融合编码层：对词语级句子向量和字符级句子向量进行编码处理，得到句子语义特征向量；

S305、构建交互匹配层：对句子语义特征向量进行分层比较，得到句子对的匹配表征向量；

S306、构建预测层：经预测层的Sigmoid函数处理，判断句子对的语义匹配程度；

S4、训练多粒度融合模型。

作为优选，所述步骤S1中构建文本匹配知识库具体如下：

S101、使用爬虫获取原始数据：在互联网公共问答平台爬取问题集，得到原始相似句子知识库；或者使用网上公开的句子匹配数据集，作为原始相似句子知识库；

S102、预处理原始数据：预处理原始相似句子知识库中的相似文本，对每个句子进行分词和断字处理，得到文本匹配知识库；其中，分词处理是以中文里的每个词语作为基本单位，对每条数据进行分词操作；断字处理是以中文里的每个字作为基本单位，对每条数据进行断字操作；每个汉字和词语之间用空格进行切分，并保留每条数据中包括的数字、标点以及特殊字符在内的所有内容；

所述步骤S2中构建文本匹配模型的训练数据集具体如下：

S201、构建训练正例：将句子与其对应的语义匹配的句子进行组合，构建训练正例，形式化为：(Q1-char,Q1-word,Q2-char,Q2-word,1)；

其中，Q1-char表示字符级粒度的句子1；Q1-word表示词语级粒度的句子1；Q2-char表示字符级粒度的句子2；Q2-word表示词语级粒度的句子2；1表示句子1和句子2这两个文本相匹配，是正例；

S202、构建训练负例：选中一个句子Q1，再从文本匹配知识库中随机选择一个与句子Q1不匹配的句子Q2，将Q1与Q2进行组合，构建负例，形式化为：(Q1-char,Q1-word,Q2-char,Q2-word,0)；

其中，Q1-char表示字符级粒度的句子1；Q1-word表示词语级粒度的句子1；Q2-char表示字符级粒度的句子2；Q2-word表示词语级粒度的句子2；0表示句子Q1和句子Q2这两个文本不匹配，是负例；

S203、构建训练数据集：将经过步骤S201和步骤S202操作后所获得的全部的正例样本和负例样本进行组合，并打乱其顺序，构建最终的训练数据集；其中，无论是正例数据还是负例数据均包含五个维度，即Q1-char、Q1-word、Q2-char、Q2-word、0或1。

更优地，所述步骤S301中构建字符词语映射转换表具体如下：

S30101、字符词语表通过预处理后得到的文本匹配知识库来构建；

S30102、字符词语表构建完成后，表中每个字符和词语均被映射为唯一的数字标识，映射规则为：以数字1为起始，随后按照每个字符、词语被录入字符词语表的顺序依次递增排序，从而形成字符词语映射转换表；

S30103、使用Word2Vec训练字符词语向量模型，得到字符词语向量矩阵权重embedding_matrix；

所述步骤S302中构建输入层具体如下：

S30201、输入层包括四个输入，对两个待匹配的句子进行预处理分别获取Q1-char、Q1-word、Q2-char、Q2-word，将其形式化为：(Q1-char,Q1-word,Q2-char,Q2-word)；

S30202、对于输入句子中的每个字符和词语均按照步骤S301中构建完成的字符词语映射转换表将其转化为相应的数字标识。

更优地，所述步骤S303中构建多粒度嵌入层具体如下：

S30301、通过加载步骤S301中训练所得的字符词语向量矩阵权重来初始化当前层的权重参数；

S30302、针对输入句子Q1和Q2，经过多粒度嵌入层处理后得到其词语级句子向量和字符级句子向量Q1-word Emd、Q1-char Emd、Q2-word Emd、Q2-char Emd；其中，文本匹配知识库中每一个句子均能通过字符词语向量映射的方式，将文本信息转化为向量形式；

所述步骤S304中构建多粒度融合编码层是将步骤S303中多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入，从两个角度获取文本语义特征，即字符级别语义特征提取和词语级别语义特征提取；再通过按位相加的形式，对两个角度的文本语义特征进行整合，得到最终的句子语义特征向量；对于句子Q1求取最终的句子语义特征向量具体如下：

S30401、针对字符级别语义特征提取，具体如下：

S3040101、使用LSTM进行特征提取，得到特征向量

公式如下：

S3040102、针对

进一步采用两种不同的方法进行编码，具体如下：

①、对

继续使用LSTM进行二次特征提取，得到相应特征向量

公式如下：

②、对

使用注意力机制Attention提取特征，得到相应特征向量

公式如下：

S3040103、针对

使用Attention再次进行编码提取关键特征，得到特征向量

公式如下：

S3040104、将

与

按位相加得到字符级别的语义特征

公式如下：

其中，i表示相应字符向量在句子中的相对位置，Q _i为句子Q1中每个字符的相应向量表示；Q′ _i为经过初次LSTM编码后每个字符的相应向量表示；Q″ _i为经过第二次LSTM编码后每个字符的相应向量表示；

S30402、针对词语级别语义特征提取，具体如下：

S3040201、使用LSTM进行特征提取，得到特征向量

公式如下：

S3040202、针对

进一步采用LSTM进行二次特征提取，得到相应特征向量

公式如下：

S3040203、针对

使用Attention再次进行编码提取关键特征，得到词语级别特征向量

公式如下：

其中，i'表示相应词语向量在句子中的相对位置；Q _i′为句子Q1中每个词语的相应向量表示；Q′ _i′为经过初次LSTM编码后每个词语的相应向量表示；Q″ _i′为经过第二次LSTM编码后每个词语的相应向量表示；

S30403、经过步骤S30401和步骤S30402得到相应字符级别的特征向量

以及词语级别的特征向量

将

和

按位相加，得到针对文本Q1的最终句子语义特征向量

公式如下：

对于句子Q2求取最终的句子语义特征向量

的方法，同步骤S30401到步骤S30403。

更优地，所述步骤S305构建交互匹配层具体如下：

S30501、经过步骤S304处理得到Q1、Q2的句子语义特征向量

和

针对

和

进行减法、叉乘以及点乘三种操作，得到

公式如下：

其中，点乘：也叫数量积，结果是一个向量在另一个向量方向上投影的长度，是一个标量；叉乘：也叫向量积，结果是一个和已有两个向量都垂直的向量；

同时，使用一个全连接层Dense进一步编码得到

和

公式如下：

其中，i表示相应语义特征在句子中的相对位置；Q1 _i为文本Q1经过步骤S304特征提取得到的

中每个语义特征的相应向量表示；Q2 _i为文本Q2经过步骤S304特征提取得到的

中每个语义特征的相应向量表示；

为针对句子语义特征向量

和

使用Dense进一步提取，得到的特征向量；

表示编码维度为300；

S30502、将

和

联接起来得到

公式如下：

同时，

和

同样进行减法、叉乘操作，公式如下：

再将二者结果联接得到

公式如下：

S30503、将

使用两层全连接层进行特征提取得到

并将

与

进行求和，得到

公式如下：

S30504、将

经过一层全连接层编码后的结果与步骤S30501中

求和，得到句子对的匹配表征向量

公式如下：

所述步骤S306中构建预测层具体如下：

S30601、预测层接收步骤S305输出的匹配表征向量，使用Sigmoid函数进行计算，得到处于[0,1]之间的匹配度表示y _pred；

S30602、将y _pred与设立的阈值进行比较来判别句子对的匹配程度，具体如下：

①、当y _pred≥0.5时，表示句子Q1以及句子Q2相匹配；

②、当y _pred<0.5时，表示句子Q1以及句子Q2不匹配。

作为优选，所述步骤S4中训练多粒度融合模型具体如下：

S401、构建损失函数：通过将均方误差(MSE)设置为交叉熵的平衡因子，设计出平衡交叉熵，其中，均方误差的公式如下：

其中，y _true表示真实标签，即每条训练样例中表示匹配与否的0、1标志；y _pred表示预测结果；

当分类边界模糊时，平衡交叉熵的使用能够自动平衡正负样本，并提高分类的准确性；其将交叉熵与均方误差融合，公式如下：

S402、优化训练模型：选择使用RMSprop优化函数作为本模型的优化函数，超参数均选择Keras中的默认值设置。

一种基于多粒度融合模型的中文句子语义智能匹配装置，该装置包括，

文本匹配知识库构建单元，用于使用爬虫程序，在互联网公共问答平台爬取问题集，或者使用网上公开的文本匹配数据集，作为原始相似句子知识库，再对原始相似句子知识库进行预处理，主要操作为对原始相似句子知识库中的每个句子进行断字处理和分词处理，从而构建用于模型训练的文本匹配知识库；

训练数据集生成单元，用于根据文本匹配知识库中的句子来构建训练正例数据和训练负例数据，并且基于正例数据与负例数据来构建最终的训练数据集；

多粒度融合模型构建单元，用于构建字符词语映射转换表，并同时构建输入层、多粒度嵌入层、多粒度融合编码层、交互匹配层、预测层；其中，多粒度融合模型构建单元包括，

字符词语映射转换表构建子单元，用于对文本匹配知识库中的每个句子按字符和词语进行切分，并将每个字符和词语依次存入一个列表中，从而得到一个字符词语表，随后以数字1为起始，按照每个字符和词语被录入字符词语表的顺序依次递增排序，从而形成本发明所需的字符词语映射转换表；字符词语映射转换表构建完成后，表中每个字符和词语均被映射为唯一的数字标识；其后，使用Word2Vec训练字符词语向量模型，得到字符词语向量矩阵权重；

输入层构建子单元，用于根据字符词语映射转换表，将输入句子中的每个字符和词语转化为相应的数字标识，从而完成数据的输入，具体来说就是分别获取q1与q2，将其形式化为：(q1-char,q1-word,q2-char,q2-word)；

多粒度嵌入层构建子单元，用于加载预训练好的字符词语向量权重，将输入句子中的字符词语转换为字符词语向量形式，进而构成完整的句子向量表示；该操作根据字符词语的数字标识查找字符词语向量矩阵而完成；

多粒度融合编码层构建子单元，用于将多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入；先从两个角度来获取文本语义特征，即字符级别语义特征提取和词语级别语义特征提取；再通过按位相加的形式，对两个角度的文本语义特征进行整合，得到最终的句子语义特征向量；

交互匹配层构建子单元，用于将输入的两个句子语义特征向量，经过分层匹配计算，得到句子对的匹配表征向量；

预测层构建子单元，用于接收交互匹配层输出的匹配表征向量，使用Sigmoid函数进行计算，得到处于[0,1]之间的匹配度，最终通过与设立的阈值进行比较来判别句子对的匹配程度；

多粒度融合模型训练单元，用于构建模型训练过程中所需要的损失函数，并完成模型的优化训练。

作为优选，所述文本匹配知识库构建单元包括，

爬取原始数据子单元，用于在互联网公共问答平台爬取问题集，或者使用网上公开的文本匹配数据集，构建原始相似句子知识库；

原始数据处理子单元，用于将原始相似句子知识库中的句子进行断字处理和分词处理，从而构建用于模型训练的文本匹配知识库；

所述训练数据集生成单元包括，

训练正例数据构建子单元，用于将文本匹配知识库中语义匹配的句子进行组合，并对其添加匹配标签1，构建为训练正例数据；

训练负例数据构建子单元，用于先从文本匹配知识库中选取一个句子q ₁，再从文本匹配知识库中随机选择一个与句子q ₁语义不匹配的句子q ₂，将q ₁与q ₂进行组合，并对其添加匹配标签0，构建为训练负例数据；

训练数据集构建子单元，用于将所有的训练正例数据与训练负例数据组合在一起，并打乱其顺序，从而构建最终的训练数据集；

所述多粒度融合模型训练单元包括，

损失函数构建子单元，用于构建损失函数，计算句子1和句子2间文本匹配度的误差；

模型优化训练子单元，用于训练并调整模型训练中的参数，从而减小模型训练过程中预测的句子1与句子2间匹配度与真实匹配度之间的误差。

一种存储介质，其中存储有多条指令，所述指令由处理器加载，执行上述的基于多粒度融合模型的中文句子语义智能匹配方法的步骤。

一种电子设备，所述电子设备包括：

上述的存储介质；以及

处理器，用于执行所述存储介质中的指令。

本发明的基于多粒度融合模型的中文句子语义智能匹配方法及装置具有以下优点：

(一)本发明将词语向量和字符向量整合在一起，从字符和词语两个粒度上，有效地提取中文句子的语义信息，进而提升中文句子编码的准确性；

(二)对于中文句子从字符和词语两个粒度建模，句子的语义特征分别从字符和词语的粒度获得，句子中关键的语义信息可以从两个粒度上分别提取并强化，可极大地改善句子关键语义信息的表征；

(三)在工程实践任务中，本发明能够精确地实现中文语句匹配的任务；

(四)本发明使用均方误差(MSE)作为平衡因子来改善交叉熵损失函数，从而设计出平衡交叉熵损失函数；该损失函数可解决过度拟合问题，并且在训练过程中将分类边界进行模糊化处理；同时，它能够缓解正负样本之间的类别不平衡问题；

(五)对于输入句子，多粒度融合模型使用不同的编码方法来生成字符级句子向量和词语级句子向量；针对词语级句子向量，用两个LSTM网络进行顺序编码，然后使用注意力机制进行深度特征提取；对于字符级句子向量，除了使用与词语级句子向量相同的处理方法以外，补充了一层LSTM网络和注意力机制进行编码；词语级句子向量和字符级句子向量的编码最终均被叠加在一起，作为句子的多粒度融合编码表示，可以使句子的编码表示更加精确和全面；

(六)本发明使用均方误差(MSE)作为平衡因子来改善交叉熵损失函数，在公开数据集(LCQMC)上所做的大量实验，可以证明本发明优于现有方法；

(七)本发明实现了多粒度融合模型，该模型同时考虑中文词语级粒度和字符级粒度，通过集成多粒度编码以更好地捕获语义特征。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于多粒度融合模型的中文句子语义智能匹配方法的流程框图；

附图2为构建文本匹配知识库的流程框图；

附图3为构建文本匹配模型的训练数据集的流程框图；

附图4为构建多粒度融合模型的流程框图；

附图5为训练多粒度融合模型的流程框图；

附图6为多粒度融合模型的示意图；

附图7为多粒度嵌入层的示意图；

附图8为多粒度融合编码层的示意图；

附图9为交互匹配层的示意图；

附图10为基于多粒度融合模型的中文句子语义智能匹配的装置的结构框图。

具体实施方式

参照说明书附图和具体实施例对本发明的基于多粒度融合模型的中文句子语义智能匹配方法及装置作以下详细地说明。

实施例1：

如附图1所示，本发明的基于多粒度融合模型的中文句子语义智能匹配方法,该方法具体如下：

S1、构建文本匹配知识库；如附图2所示，具体如下：

互联网上的公共问答平台中有着大量的问答数据及相似问题的推荐，这些都是面向大众开放的。因此，可以根据问答平台的特点，设计相应的爬虫程序，以此来获取语义相似的文本句子集合，从而构建原始相似句子知识库。

举例：银行问答平台中的相似文本示例，如下表所示：

句子1	还款期限可以延后一天吗？
句子2	是否可以申请延期一天还款？

或者，使用网上公开的文本匹配数据集，作为原始知识库。比如LCQMC数据集【Liu,X.,Chen,Q.,Deng,C.,Zeng,H.,Chen,J.,Li,D.,Tang,B.:LCQMC:A large-scale Chinese question matching corpus.In:Proceedings of the 27th International Conference on Computational Linguistics.pp.1952-1962(2018)】，该数据集一共有260068对标注结果，分为三部分：238766训练集、8802验证集和12500测试集，是一种专门用于文本匹配任务的中文数据集。

S102、预处理原始数据：预处理原始相似句子知识库中的相似文本，对每个句子进行分词和断字处理，得到文本匹配知识库；

对步骤S101中获得的相似文本进行预处理，得到文本匹配知识库。在步骤S102中，为了避免语义信息的丢失，本发明保留了句子中的所有停用词。

其中，分词处理是以中文里的每个词语作为基本单位，对每条数据进行分词操作；举例，以步骤S101中展示的句子2“是否可以申请延期一天还款？”为例，对其进行分词处理后得到“是否可以申请延期一天还款？”。本发明将分词处理后的句子，记为词语级粒度的句子。

断字处理是以中文里的每个字作为基本单位，对每条数据进行断字操作；每个汉字之间用空格进行切分，并保留每条数据中包括的数字、标点以及特殊字符在内的所有内容；举例：以步骤S101中展示的句子2“是否可以申请延期一天还款？”为例，对其进行断字处理后得到“是否可以申请延期一天还款？”。本发明将断字处理后的句子，记为字符级粒度的句子。

S2、构建文本匹配模型的训练数据集：对于每一个句子，在文本匹配知识库中都会有一个与之对应的标准的语义匹配的句子，此句子可与其组合用来构建训练正例；其他不匹配的句子可自由组合用来构建训练负例；用户可根据文本匹配知识库大小来设定负例的数量，从而构建训练数据集；如附图3所示，具体如下：

其中，Q1-char表示字符级粒度的句子1；Q1-word表示词语级粒度的句子 1；Q2-char表示字符级粒度的句子2；Q2-word表示词语级粒度的句子2；1表示句子1和句子2这两个文本相匹配，是正例；

举例：对步骤S101中展示的句子1和句子2，经过步骤S102的预处理后，构建的正例为：

(“还款期限可以延后一天吗？”,“还款期限可以延后一天吗？”,“是否可以申请延期一天还款？”,“是否可以申请延期一天还款？”,1)。

举例：根据步骤S201中的所展示的示例数据，本发明仍然使用原问句作为Q1，再从文本匹配知识库中随机选择一个与句子Q1语义不匹配的句子Q2，将Q1与Q2进行组合，经过步骤S102的预处理后，构建的负例为：

(“还款期限可以延后一天吗？”,“还款期限可以延后一天吗？”,“为什么银行客户端登陆出现网络错误？”,“为什么银行客户端登陆出现网络错误？”,0)。

S3、构建多粒度融合模型：如附图6所示，本发明的核心为多粒度融合模型，主要可分为四个部分：多粒度嵌入层、多粒度融合编码层、交互匹配层、预测层；首先构建多粒度嵌入层，对句子中的词语和字符进行向量映射，得到词语级句子向量和字符级句子向量；再构建多粒度融合编码层，对词语级句子向量和字符级句子向量进行编码处理，得到句子语义特征向量；再构建交互匹配层，对句子语义特征向量进行分层比较，得到句子对的匹配表征向量；最后，经预测层的Sigmoid函数处理，判断句子对的语义匹配程度。如附图4所示，具体如下：

S301、构建字符词语映射转换表；具体如下：

S30102、字符词语表构建完成后，表中每个字符、词语均被映射为唯一的数字标识，映射规则为：以数字1为起始，随后按照每个字符、词语被录入字符词语表的顺序依次递增排序，从而形成字符词语映射转换表；

举例：以步骤S102处理后的内容，“还款期限可以延后一天吗？”、“还款期限可以延后一天吗？”为例，对其构建字符词语表及字符词语映射转换表如下：

S30103、其后，使用Word2Vec训练字符词语向量模型，得到字符词语向量矩阵权重embedding_matrix；

举例说明：在Keras中，对于上面描述的代码实现如下所示：

w2v_model＝genism.models.Word2Vec(w2v_corpus,size＝embedding_dim,

window＝5,min_count＝1,sg＝1,

workers＝4,seed＝1234,iter＝25)

embedding_matrix＝numpy.zeros([len(tokenizer.word_index)+1,embedding_dim])

tokenizer＝keras.preprocessing.text.Tokenizer(num_words＝len(word_set))

for word,idx in tokenizer.word_index.items():

embedding_matrix[idx,:]＝w2v_model.wv[word]

其中，w2v_corpus为训练语料，即文本匹配知识库中的所有数据；embedding_dim为字符词语向量维度，在本发明中embedding_dim设置为300，word_set为字词表。

S302、构建输入层；具体如下：

举例说明：本发明使用步骤S201中展示的正例文本作为样例，以此组成一条输入数据。其结果如下所示：

(“还款期限可以延后一天吗？”，“还款期限可以延后一天吗？”，“是否可以申请延期一天还款？”，“是否可以申请延期一天还款？”)

根据字符词语表中的映射将上述的输入数据转换为数值表示(假定出现在句子2中但没有出现在句子1中的字符和词语的映射分别为“是”：18，“否”：19，“申”：20，“请”：21，“是否”：22，“申请”：23，“延期”：24)，结果如下：

(“1，2，3，4，5，6，7，8，9，10，11，12”,“13，14，15，16，17，11，12”,“18，19，5，6，20，21，7，3，9，10，1，2，12”,“22，15，23，24，17，13，12”)；

S303、构建多粒度嵌入层：对句子中的词语和字符进行向量映射，得到词语级句子向量和字符级句子向量；如附图7所示，具体如下：

S30302、针对输入句子Q1和Q2，经过多粒度嵌入层处理后得到其词语级句子向量和字符级句子向量Q1-word Emd、Q1-char Emd、Q2-word Emd、Q2-char Emd；其中，文本匹配知识库中每一个句子均能通过字符词语向量映射的方式，将文本信息转化为向量形式；本发明中设置embedding_dim为300。

举例说明：在Keras中，对于上面描述的代码实现如下所示：

其中，embedding_matrix是步骤S301中训练所得的字符词语向量矩阵权重，embedding_matrix.shape[0]是字符词语向量矩阵的字词表(词典)的大小，embedding_dim是输出的字符词语向量的维度，input_length是输入序列的长度。

相应的文本Q1和Q2，经过多粒度嵌入层处理后得到词语级句子向量和字符级句子向量Q1-word Emd、Q1-char Emd、Q2-word Emd、Q2-char Emd。

S304、构建多粒度融合编码层：如附图8所示，对词语级句子向量和字符级句子向量进行编码处理，得到句子语义特征向量；步骤S304中构建多粒度融合编码层是将步骤S303中多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入，从两个角度获取文本语义特征，即字符级别语义特征提取和词语级别语义特征提取；再通过按位相加的形式，对两个角度的文本语义特征进行整合，得到最终的句子语义特征向量；对于句子Q1求取最终的句子语义特征向量具体如下：

S30401、针对字符级别语义特征提取，具体如下：

S3040101、使用LSTM进行特征提取，得到特征向量

公式如下：

S3040102、针对

进一步采用两种不同的方法进行编码，具体如下：

①、对

继续使用LSTM进行二次特征提取，得到相应特征向量

公式如下：

②、对

使用注意力机制Attention提取特征，得到相应特征向量

公式如下：

S3040103、针对

使用Attention再次进行编码提取关键特征，得到特征向量

公式如下：

S3040104、将

与

按位相加得到字符级别的语义特征

公式如下：

S30402、针对词语级别语义特征提取，具体如下：

S3040201、使用LSTM进行特征提取，得到特征向量

公式如下：

S3040202、针对

进一步采用LSTM进行二次特征提取，得到相应特征向量

公式如下：

S3040203、针对

公式如下：

以及词语级别的特征向量

在多粒度融合编码层中，本发明的编码维度统一设置为300，本发明将

和

按位相加，得到针对文本Q1的最终句子语义特征向量

公式如下：

对于句子Q2求取最终的句子语义特征向量

的方法，同步骤S30401到步骤S30403。

S305、构建交互匹配层：对句子语义特征向量进行分层比较，得到句子对的匹配表征向量；如附图9所示，具体如下：

S30501、经过步骤S304处理得到Q1、Q2的句子语义特征向量

和

针对

和

进行减法、叉乘以及点乘三种操作，得到

公式如下：

同时，使用一个全连接层Dense进一步编码得到

和

公式如下：

中每个语义特征的相应向量表示；

为针对句子语义特征向量

和

使用Dense进一步提取，得到的特征向量；

表示编码维度为300；

S30502、将

和

联接起来得到

公式如下：

同时，

和

同样进行减法、叉乘操作，公式如下：

再将二者结果联接得到

公式如下：

S30503、将

使用两层全连接层进行特征提取得到

并将

与

进行求和，得到

公式如下：

S30504、将

经过一层全连接层编码后的结果与步骤S30501中

求和，得到句子对的匹配表征向量

公式如下：

S306、构建预测层：经预测层的Sigmoid函数处理，判断句子对的语义匹配程度；具体如下：

①、当y _pred≥0.5时，表示句子Q1以及句子Q2相匹配；

②、当y _pred<0.5时，表示句子Q1以及句子Q2不匹配。

S4、训练多粒度融合模型；如附图5所示，具体如下：

本发明设计了交叉熵损失函数来防止过拟合问题。在大多数现有的深度学***衡参数，以平衡正样本和负样本，从而大大提高了模型的性能。

在大多数分类任务中，交叉熵损失函数如下所示，并且这种形式通常是第一选择。

S402、优化训练模型：选择使用RMSprop优化函数作为本模型的优化函数，超参数均选择Keras中的默认值设置。本模型在训练数据集上进行优化训练。

举例说明：上面描述的优化函数及其设置在Keras中使用代码表示为：

optim＝keras.optimizers.RMSprop()

model＝keras.models.Model([Q1-char,Q1-word,Q2-char,Q2-word],[y _pred])

model.compile(loss＝L _loss,optimizer＝optim,metrics＝['accuracy',precision,recall,f1_score])；

其中，损失函数loss选择本步骤S401中自定义Loss；优化算法optimizer选择前文定义好的optim；Q1-char,Q1-word,Q2-char,Q2-word作为模型输入，y _pred为模型输出；评价指标metrics，本发明选取准确率accuracy,精确率precision,召回率recall,基于召回率和精确率计算的F ₁-score。

本发明的模型在LCQMC公开数据集上取得了优于当前模型的结果，实验结果的对比具体见下表：

其中，前十四行是现有技术的模型的实验结果【Liu,X.,Chen,Q.,Deng,C.,Zeng,H.,Chen,J.,Li,D.,Tang,B.,2018.Lcqmc:A large-scale chinese question matching corpus,in:Proceedings of the 27th International Conference on Computational Linguistics,pp.1952–1962】。本发明模型和现有模型进行了比较，可见本发明方法较其他方法其性能最优。

实施例2：

如附图10所示，本发明的基于多粒度融合模型的中文句子语义智能匹配装置，该装置包括，

文本匹配知识库构建单元，用于使用爬虫程序，在互联网公共问答平台爬取问题集，或者使用网上公开的文本匹配数据集，作为原始相似句子知识库，再对原始相似句子知识库进行预处理，主要操作为对原始相似句子知识库中的每个句子进行断字处理和分词处理，从而构建用于模型训练的文本匹配知识库；文本匹配知识库构建单元包括，

训练数据集生成单元，用于根据文本匹配知识库中的句子来构建训练正例数据和训练负例数据，并且基于正例数据与负例数据来构建最终的训练数据集；训练数据集生成单元包括，

多粒度融合模型训练单元，用于构建模型训练过程中所需要的损失函数，并完成模型的优化训练；多粒度融合模型训练单元包括，

可以将附图10所示的基于多粒度融合模型的中文句子语义智能匹配的装置集成部署到各种硬件设备中，例如：个人电脑、工作站、智能移动设备等。

实施例3：

基于实施例1的存储介质，其中存储有多条指令，指令由处理器加载，执行实施例1的基于多粒度融合模型的中文句子语义智能匹配方法的步骤。

实施例4：

基于实施例3的电子设备，电子设备包括：

实施例3的存储介质；以及

处理器，用于执行存储介质中的指令。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

基于多粒度融合模型的中文句子语义智能匹配方法，其特征在于，该方法具体如下：

S1、构建文本匹配知识库；

S2、构建文本匹配模型的训练数据集；

S3、构建多粒度融合模型；具体如下：

S301、构建字符词语映射转换表；

S302、构建输入层；

S303、构建多粒度嵌入层：对句子中的词语和字符进行向量映射，得到词语级句子向量和字符级句子向量；

S304、构建多粒度融合编码层：对词语级句子向量和字符级句子向量进行编码处理，得到句子语义特征向量；

S305、构建交互匹配层：对句子语义特征向量进行分层比较，得到句子对的匹配表征向量；

S306、构建预测层：经预测层的Sigmoid函数处理，判断句子对的语义匹配程度；

S4、训练多粒度融合模型。
根据权利要求1所述的基于多粒度融合模型的中文句子语义智能匹配方法，其特征在于，所述步骤S1中构建文本匹配知识库具体如下：

S101、使用爬虫获取原始数据：在互联网公共问答平台爬取问题集，得到原始相似句子知识库；或者使用网上公开的句子匹配数据集，作为原始相似句子知识库；

S102、预处理原始数据：预处理原始相似句子知识库中的相似文本，对每个句子进行分词和断字处理，得到文本匹配知识库；其中，分词处理是以中文里的每个词语作为基本单位，对每条数据进行分词操作；断字处理是以中文里的每个字作为基本单位，对每条数据进行断字操作；每个汉字或词语之间用空格进行切分，并保留每条数据中包括的数字、标点以及特殊字符在内的所有内容；

所述步骤S2中构建文本匹配模型的训练数据集具体如下：

S201、构建训练正例：将句子与其对应的语义匹配的句子进行组合，构建训练正例，形式化为：(Q1-char,Q1-word,Q2-char,Q2-word,1)；

其中，Q1-char表示字符级粒度的句子1；Q1-word表示词语级粒度的句子1；Q2-char表示字符级粒度的句子2；Q2-word表示词语级粒度的句子2；1表示句子1和句子2这两个文本相匹配，是正例；

S202、构建训练负例：选中一个句子Q1，再从文本匹配知识库中随机选择一个与句子Q1不匹配的句子Q2，将Q1与Q2进行组合，构建负例，形式化为：(Q1-char,Q1-word,Q2-char,Q2-word,0)；

其中，Q1-char表示字符级粒度的句子1；Q1-word表示词语级粒度的句子1；Q2-char表示字符级粒度的句子2；Q2-word表示词语级粒度的句子2；0表示句子Q1和句子Q2这两个文本不匹配，是负例；

S203、构建训练数据集：将经过步骤S201和步骤S202操作后所获得的全部的正例样本和负例样本进行组合，并打乱其顺序，构建最终的训练数据集；其中，无论是正例数据还是负例数据均包含五个维度，即Q1-char、Q1-word、Q2-char、Q2-word、0或1。
根据权利要求1或2所述的基于多粒度融合模型的中文句子语义智能匹配方法，其特征在于，所述步骤S301中构建字符词语映射转换表具体如下：

S30101、字符词语表通过预处理后得到的文本匹配知识库来构建；

S30102、字符词语表构建完成后，表中每个字符、词语均被映射为唯一的数字标识，映射规则为：以数字1为起始，随后按照每个字符、词语被录入字符词语表的顺序依次递增排序，从而形成字符词语映射转换表；

S30103、使用Word2Vec训练字符词语向量模型，得到字符词语向量矩阵权重embedding_matrix；

所述步骤S302中构建输入层具体如下：

S30201、输入层包括四个输入，对两个待匹配的句子进行预处理分别获取Q1-char、Q1-word、Q2-char、Q2-word，将其形式化为：(Q1-char,Q1-word,Q2-char,Q2-word)；

S30202、对于输入句子中的每个字符和词语均按照步骤S301中构建完成的字符词语映射转换表将其转化为相应的数字标识。
根据权利要求3所述的基于多粒度融合模型的中文句子语义智能匹配方法，其特征在于，所述步骤S303中构建多粒度嵌入层具体如下：

S30301、通过加载步骤S301中训练所得的字符词语向量矩阵权重来初始化当前层的权重参数；

S30302、针对输入句子Q1和Q2，经过多粒度嵌入层处理后得到其词语级句子向量和字符级句子向量Q1-word Emd、Q1-char Emd、Q2-word Emd、Q2-char Emd；其中，文本匹配知识库中每一个句子均能通过字符词语向量映射的方式，将文本信息转化为向量形式；

所述步骤S304中构建多粒度融合编码层是将步骤S303中多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入，从两个角度获取文本语义特征，即字符级别语义特征提取和词语级别语义特征提取；再通过按位相加的形式，对两个角度的文本语义特征进行整合，得到最终的句子语义特征向量；对于句子Q1求取最终的句子语义特征向量具体如下：

S30401、针对字符级别语义特征提取，具体如下：

S3040101、使用LSTM进行特征提取，得到特征向量
公式如下：

S3040102、针对
进一步采用两种不同的方法进行编码，具体如下：

①、对
继续使用LSTM进行二次特征提取，得到相应特征向量
公式如下：

②、对
使用注意力机制Attention提取特征，得到相应特征向量
公式如下：

S3040103、针对
使用Attention再次进行编码提取关键特征，得到特征向量
公式如下：

S3040104、将
与
按位相加得到字符级别的语义特征
公式如下：

其中，i表示相应字符向量在句子中的相对位置，Q _i为句子Q1中每个字符的相应向量表示；Q′ _i为经过初次LSTM编码后每个字符的相应向量表示；Q″ _i为经过第二次LSTM编码后每个字符的相应向量表示；

S30402、针对词语级别语义特征提取，具体如下：

S3040201、使用LSTM进行特征提取，得到特征向量
公式如下：

S3040202、针对
进一步采用LSTM进行二次特征提取，得到相应特征向量
公式如下：

S3040203、针对
使用Attention再次进行编码提取关键特征，得到词语级别特征向量
公式如下：

其中，i′表示相应词语向量在句子中的相对位置；Q _i′为句子Q1中每个词语的相应向量表示；Q′ _i′为经过初次LSTM编码后每个词语的相应向量表示；Q″ _i′为经过第二次LSTM编码后每个词语的相应向量表示；

S30403、经过步骤S30401和步骤S30402得到相应字符级别的特征向量
以及词语级别的特征向量
将
和
按位相加，得到针对文本Q1的最终句子语义特征向量
公式如下：

对于句子Q2求取最终的句子语义特征向量
的方法，同步骤S30401到步骤S30403。
根据权利要求4所述的基于多粒度融合模型的中文句子语义智能匹配方法，其特征在于，所述步骤S305构建交互匹配层具体如下：

S30501、经过步骤S304处理得到Q1、Q2的句子语义特征向量
和
针对
和
进行减法、叉乘以及点乘三种操作，得到
公式如下：

同时，使用一个全连接层Dense进一步编码得到
和
公式如下：

其中，i表示相应语义特征在句子中的相对位置；Q1 _i为文本Q1经过步骤S304特征提取得到的
中每个语义特征的相应向量表示；Q2 _i为文本Q2经过步骤S304特征提取得到的
中每个语义特征的相应向量表示；
为针对句子语义特征向量
和
使用Dense进一步提取，得到的特征向量；
表示编码维度为300；

S30502、将
和
联接起来得到
公式如下：

同时，
和
同样进行减法、叉乘操作，公式如下：

再将二者结果联接得到
公式如下：

S30503、将
使用两层全连接层进行特征提取得到
并将
与
进行求和，得到
公式如下：

S30504、将
经过一层全连接层编码后的结果与步骤S30501中
求和，得到句子对的匹配表征向量
公式如下：

所述步骤S306中构建预测层具体如下：

S30601、预测层接收步骤S305输出的匹配表征向量，使用Sigmoid函数进行计算，得到处于[0,1]之间的匹配度表示y _pred；

S30602、将y _pred与设立的阈值进行比较来判别句子对的匹配程度，具体如下：

①、当y _pred≥0.5时，表示句子Q1以及句子Q2相匹配；

②、当y _pred<0.5时，表示句子Q1以及句子Q2不匹配。
根据权利要求1所述的基于多粒度融合模型的中文句子语义智能匹配方法，其特征在于，所述步骤S4中训练多粒度融合模型具体如下：

S401、构建损失函数：通过将均方误差设置为交叉熵的平衡因子，设计出平衡交叉熵，其中均方误差的公式如下：

其中，y _true表示真实标签，即每条训练样例中表示匹配与否的0、1标志；y _pred表示预测结果；

当分类边界模糊时，平衡交叉熵的使用能够自动平衡正负样本，并提高分类的准确性；其将交叉熵与均方误差融合，公式如下：

S402、优化训练模型：选择使用RMSprop优化函数作为本模型的优化函数，超参数均选择Keras中的默认值设置。
一种基于多粒度融合模型的中文句子语义智能匹配装置，其特征在于，该装置包括，

文本匹配知识库构建单元，用于使用爬虫程序，在互联网公共问答平台爬取问题集，或者使用网上公开的文本匹配数据集，作为原始相似句子知识库，再对原始相似句子知识库进行预处理，主要操作为对原始相似句子知识库中的每个句子进行断字处理和分词处理，从而构建用于模型训练的文本匹配知识库；

训练数据集生成单元，用于根据文本匹配知识库中的句子来构建训练正例数据和训练负例数据，并且基于正例数据与负例数据来构建最终的训练数据集；

多粒度融合模型构建单元，用于构建字符词语映射转换表，并同时构建输入层、多粒度嵌入层、多粒度融合编码层、交互匹配层、预测层；其中，多粒度融合模型构建单元包括，

字符词语映射转换表构建子单元，用于对文本匹配知识库中的每个句子按字符和词语进行切分，并将每个字符和词语依次存入一个列表中，从而得到一个字符词语表，随后以数字1为起始，按照每个字符和词语被录入字符词语表的顺序依次递增排序，从而形成本发明所需的字符词语映射转换表；字符词语映射转换表构建完成后，表中每个字符和词语均被映射为唯一的数字标识；其后，使用Word2Vec训练字符词语向量模型，得到字符词语向量矩阵权重；

输入层构建子单元，用于根据字符词语映射转换表，将输入句子中的每个字符和词语转化为相应的数字标识，从而完成数据的输入，具体来说就是分别获取q1与q2，将其形式化为：(q1-char,q1-word,q2-char,q2-word)；

多粒度嵌入层构建子单元，用于加载预训练好的字符词语向量权重，将输入句子中的字符词语转换为字符词语向量形式，进而构成完整的句子向量表示；该操作根据字符词语的数字标识查找字符词语向量矩阵而完成；

多粒度融合编码层构建子单元，用于将多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入；先从两个角度来获取文本语义特征，即字符级别语义特征提取和词语级别语义特征提取；再通过按位相加的形式，对两个角度的文本语义特征进行整合，得到最终的句子语义特征向量；

交互匹配层构建子单元，用于将输入的两个句子语义特征向量，经过分层匹配计算，得到句子对的匹配表征向量；

预测层构建子单元，用于接收交互匹配层输出的匹配表征向量，使用Sigmoid函数进行计算，得到处于[0,1]之间的匹配度，最终通过与设立的阈值进行比较来判别句子对的匹配程度；

多粒度融合模型训练单元，用于构建模型训练过程中所需要的损失函数，并完成模型的优化训练。
根据权利要求7所述的基于多粒度融合模型的中文句子语义智能匹配装置，其特征在于，所述文本匹配知识库构建单元包括，

爬取原始数据子单元，用于在互联网公共问答平台爬取问题集，或者使用网上公开的文本匹配数据集，构建原始相似句子知识库；

原始数据处理子单元，用于将原始相似句子知识库中的句子进行断字处理和分词处理，从而构建用于模型训练的文本匹配知识库；

所述训练数据集生成单元包括，

训练正例数据构建子单元，用于将文本匹配知识库中语义匹配的句子进行组合，并对其添加匹配标签1，构建为训练正例数据；

训练负例数据构建子单元，用于先从文本匹配知识库中选取一个句子q ₁，再从文本匹配知识库中随机选择一个与句子q ₁语义不匹配的句子q ₂，将q ₁与q ₂进行组合，并对其添加匹配标签0，构建为训练负例数据；

训练数据集构建子单元，用于将所有的训练正例数据与训练负例数据组合在一起，并打乱其顺序，从而构建最终的训练数据集；

所述多粒度融合模型训练单元包括，

损失函数构建子单元，用于构建损失函数，计算句子1和句子2间文本匹配度的误差；

模型优化训练子单元，用于训练并调整模型训练中的参数，从而减小模型训练过程中预测的句子1与句子2间匹配度与真实匹配度之间的误差。
一种存储介质，其中存储有多条指令，其特征在于，所述指令由处理器加载，执行权利要求1-6中所述的基于多粒度融合模型的中文句子语义智能匹配方法的步骤。
一种电子设备，其特征在于，所述电子设备包括：

权利要求9所述的存储介质；以及

处理器，用于执行所述存储介质中的指令。