CN109214001A - 一种中文语义匹配***及方法 - Google Patents

一种中文语义匹配***及方法 Download PDF

Info

Publication number
CN109214001A
CN109214001A CN201810967045.4A CN201810967045A CN109214001A CN 109214001 A CN109214001 A CN 109214001A CN 201810967045 A CN201810967045 A CN 201810967045A CN 109214001 A CN109214001 A CN 109214001A
Authority
CN
China
Prior art keywords
matching
vector
semantic
data
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810967045.4A
Other languages
English (en)
Inventor
蔡晓东
侯珍珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201810967045.4A priority Critical patent/CN109214001A/zh
Publication of CN109214001A publication Critical patent/CN109214001A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种中文语义匹配***及方法,方法包括以下步骤收集公开Quora英文数据集并从网上爬取所需要的中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;将提取的语义特征进行融并进行计算,输出预测的结果。相对现有技术,本发明能够更好的捕获两个句子对间更多的语义信息,从而提高判断问题的准确性。

Description

一种中文语义匹配***及方法
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种中文语义匹配***及方法。
背景技术
近年来,社区问答服务***因具有简便、快捷性,越来越受到人们的青睐,但是随着被提问题的大幅度增加,问题被回答的比重逐步下降,为了提高问答***中问题被解答的效率、缩减提问者的等待时间,如何准确的判断出被提问题是否曾被提问过是社区问答***必须要解决的问题。
句子对建模在过去几年引起了很多关注,很多任务都可以用匹配模型进行表示,例如:问答、释义识别和语义相似度计算等。定义如果被提问的两个问题能够使用相同答案进行解答,则称两个问题等价。但是,判断两个问题是否等价是一个很大的挑战,主要包含两个因素:(1)相同的问题不同的人可能会用不同的词语或句法结构来表达;(2)两个问题的字面意思不一样但可能隐含着相同的问题答案。因此,像基于词重叠的传统度量算法shingling和词频-逆向文件频率(tf-idf)算法等在很多情况下不能很好的捕获到问题对间的等价语义信息。
发明内容
本发明的目的是提供一种中文语义匹配***及方法,所要解决的技术问题是:像基于词重叠的传统度量算法shingling和词频-逆向文件频率(tf-idf)算法等在很多情况下不能很好的捕获到问题对间的等价语义信息。
本发明解决上述技术问题的技术方案如下:一种中文语义匹配方法,包括以下步骤:
S1、收集公开Quora英文数据集并从网上爬取中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;
S2、构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;
S3、将提取的语义特征进行融并进行计算,输出预测的结果。
进一步,所述S1的具体实现包括以下步骤:
S1.1、收集公开Quora英文数据集并从网上爬取中文数据集,将数据转化成三元组格式,即(P,Q,y);其中P和Q分别表示两个句子,y表示两个句子间的语义关系,语义相同则为1,否则为0;
S1.2、利用jieba对三元组格式的中文数据进行分词,再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化,作为网络的输入数据。
进一步,所述S2的具体实现包括以下步骤:
S2.1、计算P中的每个单词与Q中的每一个单词的匹配程度,形成一个匹配矩阵A∈Rm×n,其中,其次,按照从左到右和从上到下两个方向进行运算,分别得到F0=(f0,1,..f0,i,f0,m)和F1=(f1,1,..f1,j,..f1,n);其中,i∈m,j∈n,f0,i=max(Ai,1,...,Ai,j),f1,j=max(A1,j,...,Ai,j);最后,分别通过pi'=F0,i·pi和q'j=F1,j·qj对每个词向量进行重新赋值;
S2.2、采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中,给定一个输入序列x={x(1),x(2),.....,x(n)},其中x(t)是本文中的d维向量,在时间t的隐藏向量h(t)如下更新:
ct=ft*ct-1+it*Ct
ht=ot*tanh(ct)
在LSTM架构中,主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成;σ是sigmoid函数;其中Wk(k=i,f,o,c)是网络参数;
采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示,分别用hi和hj表示;采用BiLSTM来编码P的每个时间步长的上下文嵌入:
同时,采用相同的BiLSTM对Q进行编码:
S2.3、定义一个多视角比较度量函数
w=fw(v1,v2;W)∈Rl
其中,l是透视的数目,v1,v2∈Rd,W∈Rl×d是一个可训练的矩阵参数;这样,每个分量wk∈w表示第k个视角的匹配值,它们是通过两个加权矢量之间的余弦相似度计算的;
其中,是元素乘法,Wk是W的第k行,它控制第k个透视图并为不同维度的空间分配不同的权重;其次,基于上面定义的公式fw,定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
全连接匹配:将每个前向或后向上下文嵌入与另一个句子的前向或后向表示的最后时间步进比较;
最大池匹配:将每个前向或后向上下文嵌入与其他句子的每个前向或后向上下文嵌入进行比较并且只保留每个维度的最大值;
注意力匹配:首先计算每个前向或后向上下文嵌入与另一个句子的每个前向或后向上下文嵌入之间的余弦相似度;然后,将作为的权重,并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量;最后,将每个向前或向后的的上下文嵌入与其对应的注意向量进行匹配;
最大注意力匹配:选择具有最高余弦相似度的上下文嵌入作为注意向量。然后,将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后,将每个向前或向后的的上下文嵌入与其对应的注意向量进行匹配;
将上述四种匹配模型应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步长的匹配向量。
进一步,将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络,计算每个时间步的值;在输出层中应用softmax函数对整个通道的值进行归一化;通过采用公式Pr=(y|P,Q)进行预测,并输出结果。
本发明的有益效果是:使用注意力机制,并采用多种双向匹配模型;在英文数据集和中文数据集上都取得较好的结果,能够更好的捕获两个句子对间更多的语义信息,从而提高判断问题的准确性。
本发明解决上述技术问题的另一技术方案如下:一种中文语义匹配***,包括:
预处理模块,用于收集公开Quora英文数据集并从网上爬取中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;
特征提取模块,用于构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;
预测输出模块,用于将提取的语义特征进行融并进行计算,输出预测的结果。
进一步,所述预处理模块收集公开Quora英文数据集并从网上爬取中文数据集,将数据转化成三元组格式,即(P,Q,y);其中P和Q分别表示两个句子,y表示两个句子间的语义关系,语义相同则为1,否则为0;
利用jieba对三元组格式的中文数据进行分词,再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化,作为网络的输入数据。
进一步,所述特征提取模块计算P中的每个单词与Q中的每一个单词的匹配程度,形成一个匹配矩阵A∈Rm×n,其中,其次,按照从左到右和从上到下两个方向进行运算,分别得到F0=(f0,1,..f0,i,f0,m)和F1=(f1,1,..f1,j,..f1,n);其中,i∈m,j∈n,f0,i=max(Ai,1,...,Ai,j),f1,j=max(A1,j,...,Ai,j);最后,分别通过pi'=F0,i·pi和q'j=F1,j·qj对每个词向量进行重新赋值;
采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中,给定一个输入序列x={x(1),x(2),.....,x(n)},其中x(t)是本文中的d维向量,在时间t的隐藏向量h(t)如下更新:
ct=ft*ct-1+it*Ct
ht=ot*tanh(ct)
在LSTM架构中,主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成;σ是sigmoid函数;其中Wk(k=i,f,o,c)是网络参数;
采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示,分别用hi和hj表示;采用BiLSTM来编码P的每个时间步长的上下文嵌入:
同时,采用相同的BiLSTM对Q进行编码:
定义一个多视角比较度量函数
w=fw(v1,v2;W)∈Rl
其中,l是透视的数目,v1,v2∈Rd,W∈Rl×d是一个可训练的矩阵参数;这样,每个分量wk∈w表示第k个视角的匹配值,它们是通过两个加权矢量之间的余弦相似度计算的;
其中,是元素乘法,Wk是W的第k行,它控制第k个透视图并为不同维度的空间分配不同的权重;其次,基于上面定义的公式fw,定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
全连接匹配:将每个前向或后向上下文嵌入与另一个句子的前向或后向表示的最后时间步进比较;
最大池匹配:将每个前向或后向上下文嵌入与其他句子的每个前向或后向上下文嵌入进行比较并且只保留每个维度的最大值;
注意力匹配:首先计算每个前向或后向上下文嵌入与另一个句子的每个前向或后向上下文嵌入之间的余弦相似度;然后,将作为的权重,并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量;最后,将每个向前或向后的的上下文嵌入与其对应的注意向量进行匹配;
最大注意力匹配:选择具有最高余弦相似度的上下文嵌入作为注意向量。然后,将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后,将每个向前或向后的的上下文嵌入与其对应的注意向量进行匹配;
将上述四种匹配模型应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步长的匹配向量。
进一步,所述预测输出模块将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络,计算每个时间步的值;在输出层中应用softmax函数对整个通道的值进行归一化;通过采用公式Pr=(y|P,Q)进行预测,并输出结果。
本发明的有益效果是:使用注意力机制,并采用多种双向匹配模型;在英文数据集和中文数据集上都取得较好的结果,能够更好的捕获两个句子对间更多的语义信息,从而提高判断问题的准确性。
附图说明
图1为本发明一种中文语义匹配方法的流程图;
图2为本发明一种中文语义匹配***的整体框架图;
图3为本发明一种中文语义匹配***的模块框。
附图中,各标号所代表的部件列表如下:
1、预处理模块,2、特征提取模块,3、预测输出模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1:
如图1和图2所示,一种中文语义匹配方法,包括以下步骤:
S1、收集公开Quora英文数据集并从网上爬取中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;
S2、构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;
S3、将提取的语义特征进行融并进行计算,输出预测的结果。
上述实施例中,所述S1的具体实现包括以下步骤:
S1.1、收集公开Quora英文数据集并从网上爬取中文数据集,将数据转化成三元组格式,即(P,Q,y);其中P和Q分别表示两个句子,y表示两个句子间的语义关系,语义相同则为1,否则为0;
S1.2、利用jieba对三元组格式的中文数据进行分词,再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化,作为网络的输入数据。
上述实施例中,所述S2的具体实现包括以下步骤:
S2.1、计算P中的每个单词与Q中的每一个单词的匹配程度,形成一个匹配矩阵A∈Rm×n,其中,其次,按照从左到右和从上到下两个方向进行运算,分别得到F0=(f0,1,..f0,i,f0,m)和F1=(f1,1,..f1,j,..f1,n);其中,i∈m,j∈n,f0,i=max(Ai,1,...,Ai,j),f1,j=max(A1,j,...,Ai,j);最后,分别通过pi'=F0,i·pi和q'j=F1,j·qj对每个词向量进行重新赋值;
S2.2、采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中,给定一个输入序列x={x(1),x(2),.....,x(n)},其中x(t)是本文中的d维向量,在时间t的隐藏向量h(t)如下更新:
ct=ft*ct-1+it*Ct
ht=ot*tanh(ct)
在LSTM架构中,主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成;σ是sigmoid函数;其中Wk(k=i,f,o,c)是网络参数;
采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示,分别用hi和hj表示;采用BiLSTM来编码P的每个时间步长的上下文嵌入:
同时,采用相同的BiLSTM对Q进行编码:
S2.3、定义一个多视角比较度量函数
w=fw(v1,v2;W)∈Rl
其中,l是透视的数目,v1,v2∈Rd,W∈Rl×d是一个可训练的矩阵参数;这样,每个分量wk∈w表示第k个视角的匹配值,它们是通过两个加权矢量之间的余弦相似度计算的;
其中,是元素乘法,Wk是W的第k行,它控制第k个透视图并为不同维度的空间分配不同的权重;其次,基于上面定义的公式fw,定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
全连接匹配:将每个前向或后向上下文嵌入与另一个句子的前向或后向表示的最后时间步进比较;
最大池匹配:将每个前向或后向上下文嵌入与其他句子的每个前向或后向上下文嵌入进行比较并且只保留每个维度的最大值;
注意力匹配:首先计算每个前向或后向上下文嵌入与另一个句子的每个前向或后向上下文嵌入之间的余弦相似度;然后,将作为的权重,并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量;最后,将每个向前或向后的的上下文嵌入与其对应的注意向量进行匹配;
最大注意力匹配:选择具有最高余弦相似度的上下文嵌入作为注意向量。然后,将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后,将每个向前或向后的的上下文嵌入与其对应的注意向量进行匹配;
将上述四种匹配模型应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步长的匹配向量。
上述实施例中,将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络,计算每个时间步的值;在输出层中应用softmax函数对整个通道的值进行归一化;通过采用公式Pr=(y|P,Q)进行预测,并输出结果。
本实施例基于双层注意力机制的中文语义匹配***,在“匹配融合”框架下分别在单词表示层和上下文表示层使用注意力机制,并采用多种双向匹配模型;在英文数据集和中文数据集上都取得较好的结果,能够更好的捕获两个句子对间更多的语义信息,从而提高判断问题的准确性。
实施例2:
如图2和图3所示,一种中文语义匹配***,包括:
预处理模块1,用于收集公开Quora英文数据集并从网上爬取中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;
特征提取模块2,用于构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;
预测输出模块3,用于将提取的语义特征进行融并进行计算,输出预测的结果。
上述实施例中,所述预处理模块1收集公开Quora英文数据集并从网上爬取中文数据集,将数据转化成三元组格式,即(P,Q,y);其中P和Q分别表示两个句子,y表示两个句子间的语义关系,语义相同则为1,否则为0;
利用jieba对三元组格式的中文数据进行分词,再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化,作为网络的输入数据。
上述实施例中,所述特征提取模块2计算P中的每个单词与Q中的每一个单词的匹配程度,形成一个匹配矩阵A∈Rm×n,其中,其次,按照从左到右和从上到下两个方向进行运算,分别得到F0=(f0,1,..f0,i,f0,m)和F1=(f1,1,..f1,j,..f1,n);其中,i∈m,j∈n,f0,i=max(Ai,1,...,Ai,j),f1,j=max(A1,j,...,Ai,j);最后,分别通过pi'=F0,i·pi和q'j=F1,j·qj对每个词向量进行重新赋值;
采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中,给定一个输入序列x={x(1),x(2),.....,x(n)},其中x(t)是本文中的d维向量,在时间t的隐藏向量h(t)如下更新:
ct=ft*ct-1+it*Ct
ht=ot*tanh(ct)
在LSTM架构中,主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成;σ是sigmoid函数;其中Wk(k=i,f,o,c)是网络参数;
采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示,分别用hi和hj表示;采用BiLSTM来编码P的每个时间步长的上下文嵌入:
同时,采用相同的BiLSTM对Q进行编码:
定义一个多视角比较度量函数
w=fw(v1,v2;W)∈Rl
其中,l是透视的数目,v1,v2∈Rd,W∈Rl×d是一个可训练的矩阵参数;这样,每个分量wk∈w表示第k个视角的匹配值,它们是通过两个加权矢量之间的余弦相似度计算的;
其中,是元素乘法,Wk是W的第k行,它控制第k个透视图并为不同维度的空间分配不同的权重;其次,基于上面定义的公式fw,定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
全连接匹配:将每个前向或后向上下文嵌入与另一个句子的前向或后向表示的最后时间步进比较;
最大池匹配:将每个前向或后向上下文嵌入与其他句子的每个前向或后向上下文嵌入进行比较并且只保留每个维度的最大值;
注意力匹配:首先计算每个前向或后向上下文嵌入与另一个句子的每个前向或后向上下文嵌入之间的余弦相似度;然后,将作为的权重,并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量;最后,将每个向前或向后的的上下文嵌入与其对应的注意向量进行匹配;
最大注意力匹配:选择具有最高余弦相似度的上下文嵌入作为注意向量。然后,将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后,将每个向前或向后的的上下文嵌入与其对应的注意向量进行匹配;
将上述四种匹配模型应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步长的匹配向量。
上述实施例中,所述预测输出模块3将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络,计算每个时间步的值;在输出层中应用soft max函数对整个通道的值进行归一化;通过采用公式Pr=(y|P,Q)进行预测,并输出结果。
本实施例基于双层注意力机制的中文语义匹配***,在“匹配融合”框架下分别在单词表示层和上下文表示层使用注意力机制,并采用多种双向匹配模型;在英文数据集和中文数据集上都取得较好的结果,能够更好的捕获两个句子对间更多的语义信息,从而提高判断问题的准确性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种中文语义匹配方法,其特征在于,包括以下步骤:
S1、收集公开Quora英文数据集并从网上爬取中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;
S2、构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;
S3、将提取的语义特征进行融并进行计算,输出预测的结果。
2.根据权利要求1所述的一种中文语义匹配方法,其特征在于,所述S1的具体实现包括以下步骤:
S1.1、收集公开Quora英文数据集并从网上爬取中文数据集,将数据转化成三元组格式,即(P,Q,y);其中P和Q分别表示两个句子,y表示两个句子间的语义关系,语义相同则为1,否则为0;
S1.2、利用jieba对三元组格式的中文数据进行分词,再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化,,作为网络的输入数据。
3.根据权利要求2所述的一种中文语义匹配方法,其特征在于,所述S2的具体实现包括以下步骤:
S2.1、计算P中的每个单词与Q中的每一个单词的匹配程度,形成一个匹配矩阵A∈Rm×n,其中,其次,按照从左到右和从上到下两个方向进行运算,分别得到F0=(f0,1,..f0,i,f0,m)和F1=(f1,1,..f1,j,..f1,n);其中,i∈m,j∈n,f0,i=max(Ai,1,...,Ai,j),f1,j=max(A1,j,...,Ai,j);最后,分别通过p′i=F0,i·pi和q′j=F1,j·qj对每个词向量进行重新赋值;
S2.2、采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中,给定一个输入序列x={x(1),x(2),.....,x(n)},其中x(t)是本文中的d维向量,在时间t的隐藏向量h(t)如下更新:
ct=ft*ct-1+it*Ct
ht=ot*tanh(ct)
在LSTM架构中,主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成;σ是sigmoid函数;其中Wk(k=i,f,o,c)是网络参数;
采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示,分别用hi和hj表示;采用BiLSTM来编码P的每个时间步长的上下文嵌入:
同时,采用相同的BiLSTM对Q进行编码:
S2.3、定义一个多视角比较度量函数
w=fw(v1,v2;W)∈Rl
其中,l是透视的数目,v1,v2∈Rd,W∈Rl×d是一个可训练的矩阵参数;这样,每个分量wk∈w表示第k个视角的匹配值,它们是通过两个加权矢量之间的余弦相似度计算的;
其中,是元素乘法,Wk是W的第k行,它控制第k个透视图并为不同维度的空间分配不同的权重;其次,基于上面定义的公式fw,定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
全连接匹配:将每个前向或后向上下文嵌入与另一个句子的前向或后向表示的最后时间步进比较;
最大池匹配:将每个前向或后向上下文嵌入与其他句子的每个前向或后向上下文嵌入进行比较并且只保留每个维度的最大值;
注意力匹配:首先计算每个前向或后向上下文嵌入与另一个句子的每个前向或后向上下文嵌入之间的余弦相似度;然后,将作为的权重,并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量;最后,将每个向前或向后的的上下文嵌入与其对应的注意向量进行匹配;
最大注意力匹配:选择具有最高余弦相似度的上下文嵌入作为注意向量。然后,将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后,将每个向前或向后的的上下文嵌入与其对应的注意向量进行匹配;
将上述四种匹配模型应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步长的匹配向量。
4.根据权利要求3所述的一种中文语义匹配方法,其特征在于,将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络,计算每个时间步的值;在输出层中应用softmax函数对整个通道的值进行归一化;通过采用公式Pr=(y|P,Q)进行预测,并输出结果。
5.一种中文语义匹配***,其特征在于,包括:
预处理模块(1),用于收集公开Quora英文数据集并从网上爬取中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;
特征提取模块(2),用于构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;
预测输出模块(3),用于将提取的语义特征进行融并进行计算,输出预测的结果。
6.根据权利要求5所述的一种中文语义匹配***,其特征在于,所述预处理模块(1)收集公开Quora英文数据集并从网上爬取中文数据集,将数据转化成三元组格式,即(P,Q,y);其中P和Q分别表示两个句子,y表示两个句子间的语义关系,语义相同则为1,否则为0;
利用jieba对三元组格式的中文数据进行分词,再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化,作为网络的输入数据。
7.根据权利要求6所述的一种中文语义匹配***,其特征在于,所述特征提取模块(2)计算P中的每个单词与Q中的每一个单词的匹配程度,形成一个匹配矩阵A∈Rm×n,其中,其次,按照从左到右和从上到下两个方向进行运算,分别得到F0=(f0,1,..f0,i,f0,m)和F1=(f1,1,..f1,j,..f1,n);其中,i∈m,j∈n,f0,i=max(Ai,1,...,Ai,j),f1,j=max(A1,j,...,Ai,j);最后,分别通过p′i=F0,i·pi和q′j=F1,j·qj对每个词向量进行重新赋值;
采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中,给定一个输入序列x={x(1),x(2),.....,x(n)},其中x(t)是本文中的d维向量,在时间t的隐藏向量h(t)如下更新:
ct=ft*ct-1+it*Ct
ht=ot*tanh(ct)
在LSTM架构中,主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成;σ是sigmoid函数;其中Wk(k=i,f,o,c)是网络参数;
采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示,分别用hi和hj表示;采用BiLSTM来编码P的每个时间步长的上下文嵌入:
同时,采用相同的BiLSTM对Q进行编码:
定义一个多视角比较度量函数
w=fw(v1,v2;W)∈Rl
其中,l是透视的数目,v1,v2∈Rd,W∈Rl×d是一个可训练的矩阵参数;这样,每个分量wk∈w表示第k个视角的匹配值,它们是通过两个加权矢量之间的余弦相似度计算的;
其中,是元素乘法,Wk是W的第k行,它控制第k个透视图并为不同维度的空间分配不同的权重;其次,基于上面定义的公式fw,定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
全连接匹配:将每个前向或后向上下文嵌入与另一个句子的前向或后向表示的最后时间步进比较;
最大池匹配:将每个前向或后向上下文嵌入与其他句子的每个前向或后向上下文嵌入进行比较并且只保留每个维度的最大值;
注意力匹配:首先计算每个前向或后向上下文嵌入与另一个句子的每个前向或后向上下文嵌入之间的余弦相似度;然后,将作为的权重,并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量;最后,将每个向前或向后的的上下文嵌入与其对应的注意向量进行匹配;
最大注意力匹配:选择具有最高余弦相似度的上下文嵌入作为注意向量。然后,将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后,将每个向前或向后的的上下文嵌入与其对应的注意向量进行匹配;
将上述四种匹配模型应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步长的匹配向量。
8.根据权利要求7所述的一种中文语义匹配***,其特征在于,所述预测输出模块(3)将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络,计算每个时间步的值;在输出层中应用softmax函数对整个通道的值进行归一化;通过采用公式Pr=(y|P,Q)进行预测,并输出结果。
CN201810967045.4A 2018-08-23 2018-08-23 一种中文语义匹配***及方法 Pending CN109214001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810967045.4A CN109214001A (zh) 2018-08-23 2018-08-23 一种中文语义匹配***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810967045.4A CN109214001A (zh) 2018-08-23 2018-08-23 一种中文语义匹配***及方法

Publications (1)

Publication Number Publication Date
CN109214001A true CN109214001A (zh) 2019-01-15

Family

ID=64989114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810967045.4A Pending CN109214001A (zh) 2018-08-23 2018-08-23 一种中文语义匹配***及方法

Country Status (1)

Country Link
CN (1) CN109214001A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110362681A (zh) * 2019-06-19 2019-10-22 平安科技(深圳)有限公司 问答***重复问题识别方法、装置及存储介质
CN110765755A (zh) * 2019-10-28 2020-02-07 桂林电子科技大学 一种基于双重选择门的语义相似度特征提取方法
CN110826338A (zh) * 2019-10-28 2020-02-21 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法
CN111191458A (zh) * 2019-12-20 2020-05-22 中国科学院软件研究所 一种基于上下文的语义匹配方法和***
CN111221966A (zh) * 2019-12-31 2020-06-02 北京科东电力控制***有限责任公司 一种文本语义关系提取方法及***
CN111325028A (zh) * 2020-02-20 2020-06-23 齐鲁工业大学 一种基于深度分层编码的智能语义匹配方法和装置
CN111652000A (zh) * 2020-05-22 2020-09-11 重庆大学 一种语句相似度判断方法及判断***
CN112749566A (zh) * 2019-10-31 2021-05-04 兰雨晴 一种面向英文写作辅助的语义匹配方法及装置
CN113535928A (zh) * 2021-08-05 2021-10-22 陕西师范大学 基于注意力机制下长短期记忆网络的服务发现方法及***
CN114139532A (zh) * 2022-01-30 2022-03-04 北京语言大学 一种基于多任务框架进行简单释义生成的方法与***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547885A (zh) * 2016-10-27 2017-03-29 桂林电子科技大学 一种文本分类***及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547885A (zh) * 2016-10-27 2017-03-29 桂林电子科技大学 一种文本分类***及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BASANT AGARWAL等: "A Deep Network Model for Paraphrase Detection in Short Text Messages", 《INFORMATION PROCESSING&MANAGEMENT JOURNAL》 *
ZHIGUO WANG等: "Bilateral Multi-Perspective Matching for Natural Language Sentences", 《PROCEEDINGS OF THE 26TH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
赵勤鲁 等: "基于LSTM-Attention神经网络的文本特征提取方法", 《现代电子技术》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110298037B (zh) * 2019-06-13 2023-08-04 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110362681A (zh) * 2019-06-19 2019-10-22 平安科技(深圳)有限公司 问答***重复问题识别方法、装置及存储介质
CN110362681B (zh) * 2019-06-19 2023-09-22 平安科技(深圳)有限公司 问答***重复问题识别方法、装置及存储介质
CN110826338B (zh) * 2019-10-28 2022-06-17 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法
CN110765755A (zh) * 2019-10-28 2020-02-07 桂林电子科技大学 一种基于双重选择门的语义相似度特征提取方法
CN110826338A (zh) * 2019-10-28 2020-02-21 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法
CN112749566B (zh) * 2019-10-31 2024-05-03 兰雨晴 一种面向英文写作辅助的语义匹配方法及装置
CN112749566A (zh) * 2019-10-31 2021-05-04 兰雨晴 一种面向英文写作辅助的语义匹配方法及装置
CN111191458A (zh) * 2019-12-20 2020-05-22 中国科学院软件研究所 一种基于上下文的语义匹配方法和***
CN111221966A (zh) * 2019-12-31 2020-06-02 北京科东电力控制***有限责任公司 一种文本语义关系提取方法及***
CN111325028A (zh) * 2020-02-20 2020-06-23 齐鲁工业大学 一种基于深度分层编码的智能语义匹配方法和装置
WO2021164200A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 一种基于深度分层编码的智能语义匹配方法和装置
CN111652000B (zh) * 2020-05-22 2023-04-07 重庆大学 一种语句相似度判断方法及判断***
CN111652000A (zh) * 2020-05-22 2020-09-11 重庆大学 一种语句相似度判断方法及判断***
CN113535928A (zh) * 2021-08-05 2021-10-22 陕西师范大学 基于注意力机制下长短期记忆网络的服务发现方法及***
CN114139532B (zh) * 2022-01-30 2022-04-19 北京语言大学 一种基于多任务框架进行简单释义生成的方法与***
CN114139532A (zh) * 2022-01-30 2022-03-04 北京语言大学 一种基于多任务框架进行简单释义生成的方法与***

Similar Documents

Publication Publication Date Title
CN109214001A (zh) 一种中文语义匹配***及方法
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
CN107832400B (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN110826337B (zh) 一种短文本语义训练模型获取方法及相似度匹配算法
CN113641820B (zh) 基于图卷积神经网络的视角级文本情感分类方法及***
CN110298037A (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN109947912A (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN109543722A (zh) 一种基于情感分析模型的情感趋势预测方法
CN108197294A (zh) 一种基于深度学习的文本自动生成方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及***
CN111753207B (zh) 一种基于评论的神经图协同过滤方法
CN111222338A (zh) 基于预训练模型和自注意力机制的生物医学关系抽取方法
CN111860193B (zh) 一种基于文本的行人检索自监督视觉表示学习***及方法
CN110532395B (zh) 一种基于语义嵌入的词向量改进模型的建立方法
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN116662500A (zh) 一种基于bert模型与外部知识图谱的问答***构建方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN111460097A (zh) 一种基于tpn的小样本文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190115

RJ01 Rejection of invention patent application after publication