CN109214001A

CN109214001A - 一种中文语义匹配***及方法

Info

Publication number: CN109214001A
Application number: CN201810967045.4A
Authority: CN
Inventors: 蔡晓东; 侯珍珍
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2019-01-15

Abstract

本发明涉及一种中文语义匹配***及方法，方法包括以下步骤收集公开Quora英文数据集并从网上爬取所需要的中文数据集，对数据进行处理，将数据转化为网络能够识别的输入数据；构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型，利用语义特征提取模型对输入数据进行处理，获取输入数据的语义特征；将提取的语义特征进行融并进行计算，输出预测的结果。相对现有技术，本发明能够更好的捕获两个句子对间更多的语义信息，从而提高判断问题的准确性。

Description

一种中文语义匹配***及方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种中文语义匹配***及方法。

背景技术

近年来，社区问答服务***因具有简便、快捷性，越来越受到人们的青睐，但是随着被提问题的大幅度增加，问题被回答的比重逐步下降，为了提高问答***中问题被解答的效率、缩减提问者的等待时间，如何准确的判断出被提问题是否曾被提问过是社区问答***必须要解决的问题。

句子对建模在过去几年引起了很多关注，很多任务都可以用匹配模型进行表示，例如：问答、释义识别和语义相似度计算等。定义如果被提问的两个问题能够使用相同答案进行解答，则称两个问题等价。但是，判断两个问题是否等价是一个很大的挑战，主要包含两个因素：(1)相同的问题不同的人可能会用不同的词语或句法结构来表达；(2)两个问题的字面意思不一样但可能隐含着相同的问题答案。因此，像基于词重叠的传统度量算法shingling和词频-逆向文件频率(tf-idf)算法等在很多情况下不能很好的捕获到问题对间的等价语义信息。

发明内容

本发明的目的是提供一种中文语义匹配***及方法，所要解决的技术问题是：像基于词重叠的传统度量算法shingling和词频-逆向文件频率(tf-idf)算法等在很多情况下不能很好的捕获到问题对间的等价语义信息。

本发明解决上述技术问题的技术方案如下：一种中文语义匹配方法，包括以下步骤：

S1、收集公开Quora英文数据集并从网上爬取中文数据集，对数据进行处理，将数据转化为网络能够识别的输入数据；

S2、构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型，利用语义特征提取模型对输入数据进行处理，获取输入数据的语义特征；

S3、将提取的语义特征进行融并进行计算，输出预测的结果。

进一步，所述S1的具体实现包括以下步骤：

S1.1、收集公开Quora英文数据集并从网上爬取中文数据集，将数据转化成三元组格式，即(P,Q,y)；其中P和Q分别表示两个句子，y表示两个句子间的语义关系，语义相同则为1，否则为0；

S1.2、利用jieba对三元组格式的中文数据进行分词，再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化，作为网络的输入数据。

进一步，所述S2的具体实现包括以下步骤：

S2.1、计算P中的每个单词与Q中的每一个单词的匹配程度，形成一个匹配矩阵A∈R^m×n，其中，其次，按照从左到右和从上到下两个方向进行运算,分别得到F₀＝(f_0,1,..f_0,i,f_0,m)和F₁＝(f_1,1,..f_1,j,..f_1,n)；其中，i∈m,j∈n，f_0,i＝max(A_i,1,...,A_i,j)，f_1,j＝max(A_1,j,...,A_i,j)；最后，分别通过p_i'＝F_0,i·p_i和q'_j＝F_1,j·q_j对每个词向量进行重新赋值；

S2.2、采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中，给定一个输入序列x＝{x(1),x(2),.....,x(n)}，其中x(t)是本文中的d维向量，在时间t的隐藏向量h(t)如下更新:

c_t＝f_t*c_t-1+i_t*C_t

h_t＝o_t*tanh(c_t)

在LSTM架构中，主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成；σ是sigmoid函数；其中W_k(k＝i,f,o,c)是网络参数；

采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示，分别用hi和hj表示；采用BiLSTM来编码P的每个时间步长的上下文嵌入：

同时，采用相同的BiLSTM对Q进行编码：

S2.3、定义一个多视角比较度量函数

w＝f_w(v₁,v₂；W)∈R^l

其中，l是透视的数目，v₁,v₂∈R^d，W∈R^l×d是一个可训练的矩阵参数；这样，每个分量w_k∈w表示第k个视角的匹配值，它们是通过两个加权矢量之间的余弦相似度计算的；

其中，是元素乘法，W_k是W的第k行，它控制第k个透视图并为不同维度的空间分配不同的权重；其次，基于上面定义的公式f_w，定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长；

全连接匹配：将每个前向或后向上下文嵌入或与另一个句子或的前向或后向表示的最后时间步进比较；

最大池匹配：将每个前向或后向上下文嵌入或与其他句子的每个前向或后向上下文嵌入进行比较或并且只保留每个维度的最大值；

注意力匹配：首先计算每个前向或后向上下文嵌入或与另一个句子或的每个前向或后向上下文嵌入之间的余弦相似度；然后，将或作为或的权重，并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量；最后，将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配；

最大注意力匹配：选择具有最高余弦相似度的上下文嵌入作为注意向量。然后，将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后，将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配；

将上述四种匹配模型应用于句子P的每个时间步长，并将生成的八个向量连接为针对P的每个时间步长的匹配向量。

进一步，将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络，计算每个时间步的值；在输出层中应用softmax函数对整个通道的值进行归一化；通过采用公式P_r＝(y|P,Q)进行预测，并输出结果。

本发明的有益效果是：使用注意力机制，并采用多种双向匹配模型；在英文数据集和中文数据集上都取得较好的结果，能够更好的捕获两个句子对间更多的语义信息，从而提高判断问题的准确性。

本发明解决上述技术问题的另一技术方案如下：一种中文语义匹配***，包括：

预处理模块，用于收集公开Quora英文数据集并从网上爬取中文数据集，对数据进行处理，将数据转化为网络能够识别的输入数据；

特征提取模块，用于构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型，利用语义特征提取模型对输入数据进行处理，获取输入数据的语义特征；

预测输出模块，用于将提取的语义特征进行融并进行计算，输出预测的结果。

进一步，所述预处理模块收集公开Quora英文数据集并从网上爬取中文数据集，将数据转化成三元组格式，即(P,Q,y)；其中P和Q分别表示两个句子，y表示两个句子间的语义关系，语义相同则为1，否则为0；

利用jieba对三元组格式的中文数据进行分词，再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化，作为网络的输入数据。

进一步，所述特征提取模块计算P中的每个单词与Q中的每一个单词的匹配程度，形成一个匹配矩阵A∈R^m×n，其中，其次，按照从左到右和从上到下两个方向进行运算,分别得到F₀＝(f_0,1,..f_0,i,f_0,m)和F₁＝(f_1,1,..f_1,j,..f_1,n)；其中，i∈m,j∈n，f_0,i＝max(A_i,1,...,A_i,j)，f_1,j＝max(A_1,j,...,A_i,j)；最后，分别通过p_i'＝F_0,i·p_i和q'_j＝F_1,j·q_j对每个词向量进行重新赋值；

采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中，给定一个输入序列x＝{x(1),x(2),.....,x(n)}，其中x(t)是本文中的d维向量，在时间t的隐藏向量h(t)如下更新:

c_t＝f_t*c_t-1+i_t*C_t

h_t＝o_t*tanh(c_t)

同时，采用相同的BiLSTM对Q进行编码：

定义一个多视角比较度量函数

w＝f_w(v₁,v₂；W)∈R^l

进一步，所述预测输出模块将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络，计算每个时间步的值；在输出层中应用softmax函数对整个通道的值进行归一化；通过采用公式P_r＝(y|P,Q)进行预测，并输出结果。

附图说明

图1为本发明一种中文语义匹配方法的流程图；

图2为本发明一种中文语义匹配***的整体框架图；

图3为本发明一种中文语义匹配***的模块框。

附图中，各标号所代表的部件列表如下：

1、预处理模块，2、特征提取模块，3、预测输出模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1：

如图1和图2所示，一种中文语义匹配方法，包括以下步骤：

上述实施例中，所述S1的具体实现包括以下步骤：

上述实施例中，所述S2的具体实现包括以下步骤：

c_t＝f_t*c_t-1+i_t*C_t

h_t＝o_t*tanh(c_t)

同时，采用相同的BiLSTM对Q进行编码：

S2.3、定义一个多视角比较度量函数

w＝f_w(v₁,v₂；W)∈R^l

上述实施例中，将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络，计算每个时间步的值；在输出层中应用softmax函数对整个通道的值进行归一化；通过采用公式P_r＝(y|P,Q)进行预测，并输出结果。

本实施例基于双层注意力机制的中文语义匹配***，在“匹配融合”框架下分别在单词表示层和上下文表示层使用注意力机制，并采用多种双向匹配模型；在英文数据集和中文数据集上都取得较好的结果，能够更好的捕获两个句子对间更多的语义信息，从而提高判断问题的准确性。

实施例2：

如图2和图3所示，一种中文语义匹配***，包括：

预处理模块1，用于收集公开Quora英文数据集并从网上爬取中文数据集，对数据进行处理，将数据转化为网络能够识别的输入数据；

特征提取模块2，用于构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型，利用语义特征提取模型对输入数据进行处理，获取输入数据的语义特征；

预测输出模块3，用于将提取的语义特征进行融并进行计算，输出预测的结果。

上述实施例中，所述预处理模块1收集公开Quora英文数据集并从网上爬取中文数据集，将数据转化成三元组格式，即(P,Q,y)；其中P和Q分别表示两个句子，y表示两个句子间的语义关系，语义相同则为1，否则为0；

上述实施例中，所述特征提取模块2计算P中的每个单词与Q中的每一个单词的匹配程度，形成一个匹配矩阵A∈R^m×n，其中，其次，按照从左到右和从上到下两个方向进行运算,分别得到F₀＝(f_0,1,..f_0,i,f_0,m)和F₁＝(f_1,1,..f_1,j,..f_1,n)；其中，i∈m,j∈n，f_0,i＝max(A_i,1,...,A_i,j)，f_1,j＝max(A_1,j,...,A_i,j)；最后，分别通过p_i'＝F_0,i·p_i和q'_j＝F_1,j·q_j对每个词向量进行重新赋值；

c_t＝f_t*c_t-1+i_t*C_t

h_t＝o_t*tanh(c_t)

同时，采用相同的BiLSTM对Q进行编码：

定义一个多视角比较度量函数

w＝f_w(v₁,v₂；W)∈R^l

上述实施例中，所述预测输出模块3将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络，计算每个时间步的值；在输出层中应用soft max函数对整个通道的值进行归一化；通过采用公式P_r＝(y|P,Q)进行预测，并输出结果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中文语义匹配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种中文语义匹配方法，其特征在于，所述S1的具体实现包括以下步骤：

S1.2、利用jieba对三元组格式的中文数据进行分词，再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化，，作为网络的输入数据。

3.根据权利要求2所述的一种中文语义匹配方法，其特征在于，所述S2的具体实现包括以下步骤：

S2.1、计算P中的每个单词与Q中的每一个单词的匹配程度，形成一个匹配矩阵A∈R^m×n，其中，其次，按照从左到右和从上到下两个方向进行运算,分别得到F₀＝(f_0,1,..f_0,i,f_0,m)和F₁＝(f_1,1,..f_1,j,..f_1,n)；其中，i∈m,j∈n，f_0,i＝max(A_i,1,...,A_i,j)，f_1,j＝max(A_1,j,...,A_i,j)；最后，分别通过p′_i＝F_0,i·p_i和q′_j＝F_1,j·q_j对每个词向量进行重新赋值；

c_t＝f_t*c_t-1+i_t*C_t

h_t＝o_t*tanh(c_t)

同时，采用相同的BiLSTM对Q进行编码：

S2.3、定义一个多视角比较度量函数

w＝f_w(v₁,v₂；W)∈R^l

4.根据权利要求3所述的一种中文语义匹配方法，其特征在于，将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络，计算每个时间步的值；在输出层中应用softmax函数对整个通道的值进行归一化；通过采用公式P_r＝(y|P,Q)进行预测，并输出结果。

5.一种中文语义匹配***，其特征在于，包括：

预处理模块(1)，用于收集公开Quora英文数据集并从网上爬取中文数据集，对数据进行处理，将数据转化为网络能够识别的输入数据；

特征提取模块(2)，用于构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型，利用语义特征提取模型对输入数据进行处理，获取输入数据的语义特征；

预测输出模块(3)，用于将提取的语义特征进行融并进行计算，输出预测的结果。

6.根据权利要求5所述的一种中文语义匹配***，其特征在于，所述预处理模块(1)收集公开Quora英文数据集并从网上爬取中文数据集，将数据转化成三元组格式，即(P,Q,y)；其中P和Q分别表示两个句子，y表示两个句子间的语义关系，语义相同则为1，否则为0；

7.根据权利要求6所述的一种中文语义匹配***，其特征在于，所述特征提取模块(2)计算P中的每个单词与Q中的每一个单词的匹配程度，形成一个匹配矩阵A∈R^m×n，其中，其次，按照从左到右和从上到下两个方向进行运算,分别得到F₀＝(f_0,1,..f_0,i,f_0,m)和F₁＝(f_1,1,..f_1,j,..f_1,n)；其中，i∈m,j∈n，f_0,i＝max(A_i,1,...,A_i,j)，f_1,j＝max(A_1,j,...,A_i,j)；最后，分别通过p′_i＝F_0,i·p_i和q′_j＝F_1,j·q_j对每个词向量进行重新赋值；

c_t＝f_t*c_t-1+i_t*C_t

h_t＝o_t*tanh(c_t)

同时，采用相同的BiLSTM对Q进行编码：

定义一个多视角比较度量函数

w＝f_w(v₁,v₂；W)∈R^l

8.根据权利要求7所述的一种中文语义匹配***，其特征在于，所述预测输出模块(3)将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络，计算每个时间步的值；在输出层中应用softmax函数对整个通道的值进行归一化；通过采用公式P_r＝(y|P,Q)进行预测，并输出结果。