CN110765755A - 一种基于双重选择门的语义相似度特征提取方法 - Google Patents
一种基于双重选择门的语义相似度特征提取方法 Download PDFInfo
- Publication number
- CN110765755A CN110765755A CN201911032492.1A CN201911032492A CN110765755A CN 110765755 A CN110765755 A CN 110765755A CN 201911032492 A CN201911032492 A CN 201911032492A CN 110765755 A CN110765755 A CN 110765755A
- Authority
- CN
- China
- Prior art keywords
- sentence
- vector
- matching
- context information
- ith
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 189
- 238000013528 artificial neural network Methods 0.000 claims description 37
- 230000000306 recurrent effect Effects 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000002457 bidirectional effect Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 7
- 230000006403 short-term memory Effects 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 229910001316 Ag alloy Inorganic materials 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于双重选择门的语义相似度特征提取方法,涉及自然语言处理领域,技术方案为,首先对输入句子对进行分词并且进行向量化表示得到词向量,将得到的词向量序列输入双向长短时记忆网络中,得到两条句子的上下文信息向量,其次通过双重选择门分别获得句子对的核心特征向量,然后将向量输入多角度语义特征匹配网络,得到句子对的特征匹配向量,最后,将匹配向量分别通过双向长短时记忆网络聚合层合并两个语义特征匹配向量,并进行句子对的相似性预测。本方法有效缓解了信息冗余导致匹配效率低的问题,同时又避免了人工提取核心信息的成本问题。
Description
技术领域
本发明涉及自然语言处理领域,特别涉及一种基于双重选择门的语义相似度特征提取方法。
背景技术
当今世界充斥着海量的信息,这些信息大部分都是以文本的形式保存起来的,而人工智能一个重要的课题就是将这些文本信息整理后“表达”出来,使计算机能像人类一样“理解”这些信息。由于语言中存在很多一个词语有多种意思,相同的概念可以采用不同的方式进行表述等较多不确定因素的存在,传统基于字符串匹配的文本相似度计算方法在搜索引擎以及问答***中等,已经难以满足用户需求,当用户输入关键字寻找与关键字匹配的信息时,搜索反馈回来的内容可能对应着不符合的内容,有可能只是少数内容符合搜索的关键字,这给用户带来了极度的不变,所以更深层次的语义理解计算文本相似的成为当前自然语言研究的热点。
现有技术中句子语义相似度匹配方法很多,最开始基本上都集中在字符串的匹配上,其基本的流程通常分为两步,首先将两个要判断相似度的句子输入到循环网络中映射成向量表示,然后将所得到的两个句子向量通过余弦距离判断两个句子的相似程度。虽然采用传统的字符串法来判断句子对的相似性在一定程度上帮助人们在搜寻相关问题时过滤掉了一些无关信息,但搜索结果在质量上还是不能令人满意。因为通过字符串判断句子之间的相似程度仅仅是在字词层面计算词之间的距离,没有上下文语义信息,导致信息错误匹配、有歧义,最终用户不能快速找到关键字的相关信息。
因此,有必要发明一种新的语义相似度特征提取方法。
发明内容
本发明的目的是提供一种基于双重选择门的语义相似度特征提取方法,其能够自动判定两条句子的语义相似度,并且通过双重自动选择核心信息有效减少了句子冗余信息,提高了句子相似度的准确率和判定效率。
其技术方案为:
S100、将待处理的句子对P和Q的进行分词处理,对经过分词处理后的词语进行向量化表示得到词向量;
S200、将步骤S100中得到的句子对P和Q的全部词向量按顺序输入第一循环神经网络,得到上下文信息向量,其中,句子的最后一个上下文信息向量代表该句子的句向量;
S300、将句子对P和Q的句向量输入到一级选择门中,获取核心信息特征;
S400、将步骤S300中得到的核心信息输入到二级选择门中,再次获取核心信息特征;
S500、将步骤S400获取到的核心信息输入到多角度语义匹配网络,其中,多角度语义匹配网络包含全匹配、最大池化匹配、注意力匹配和最大注意力匹配四种方式,得到句子对的特征匹配向量;
S600、将步骤S500得到的匹配向量通过第二神经网络,使特征匹配向量融合成一个固定长度的向量,并输入到预测层计算句子对的相似度概率分布。
优选为,所述第一循环神经网络,用于生成上下文信息的状态向量。
优选为,所述第一循环神经网络第一层为单项长短时记忆网络,第二层为双向长短时记忆网络,每个层级结构均包括多个相连的LSTM细胞模块。
优选为,所述第一循环神经网络包括两个层级结构;
所述第一循环神经网络的第一层用于生成字词级别的向量;
所述第一循环神经网络的第二层用于生成上下文信息向量。
优选为,所述一级选择门和二级选择门分别包括多个一级选择门单元和二级选择门单元;
所述一级选择门和二级选择门的结构不同,参数不同。
优选为,所述步骤S200中,将步骤S100得到的句子对的全部词向量按顺序输入第一循环网络,从而得到输入每个词后的句子状态向量,具体为:
将第i个所述词向量和第i-1时刻的输出词向量输入到第i个所述LSTM细胞模块中,经过第i个所述LSTM细胞模块处理得到第i个词向量后句子的状态向量。
优选为,所述步骤S300中将句子对的句向量输入到一级选择门中,获取核心信息特征包括:
将句子P的每个时刻所述上下文信息向量和句子Q的第i个所述句向量输入到所述一级选择门单元中,经过第i个所述一级选择门单元处理得到核心信息。
优选为,步骤S400中将步骤S300中得到的核心信息输入到二级选择门中,再次获取核心信息特征包括:
将所述第i个一级选择门单元处理得到的核心信息输入到第i个二级选择门单元中,经过第i个二级选择门单元处理得到核心信息特征。
优选为,所述步骤S500中,将步骤S400获取到的核心信息输入到多角度语义匹配网络中,得到特征匹配向量包括:
所述全匹配将句子P每个时刻所述上下文信息向量与句子Q所述句向量进行余弦相似计算,得到特征匹配向量;
所述最大池化匹配将句子P每个时刻所述上下文信息向量与句子Q每个时刻所述上下文信息向量进行余弦相似计算,选取最大值作为特征匹配向量;
所述注意力匹配将句子P第i时刻的所述上下文信息向量与句子Q第i时刻所述上下文信息向量分别进行余弦计算,得到句子P的i个余弦值,将i个余弦值加权作为注意力权重并与句子Q每个时刻所述上下文信息相乘,得到的结果再与句子P每个时刻所述的上下文信息向量进行余弦计算,得到特征匹配向量;
所述最大注意力匹配将句子P第i时刻的所述上下文信息向量与句子Q第i时刻所述的上下文信息向量分别进行余弦计算,得到句子P的i个余弦值,从i个余弦值中选取最大的值作为注意力权重,并与句子Q的所述上下文信息相乘,得到的结果再与句子P每个时刻所述的上下文信息向量进行余弦计算,得到特征匹配向量。
优选为,所述第二神经网络包括两个双向长短时记忆网络,用于处理句子对的特征匹配向量聚合成一个固定长度的向量。
优选为,所述步骤S600将S500步骤得到的匹配向量通过第二神经网络,使特征匹配向量融合成一个固定长度的向量,并输入到预测层计算句子对的相似度概率分布包括:
将句子P经过四个匹配得到的四个特征匹配向量,经过所述第二循环神经网络聚合成一个固定长度的特征匹配向量;
将句子Q也经过四个匹配得到的四个特征匹配向量,经过所述的双向长短时记忆网络聚合成一个固定长度的特征匹配向量;
利用句子P和句子Q两个特征匹配向量输入到预测层,得到句子对相似度。
优选为,步骤S100中采用Word2Vec对所述经过Jieba分词处理后的词语进行向量化表示。Word2Vec是一种预测模型,可以高效地学习嵌入字,Word2Vec的基本思想是把自然语言中的每一个词,表示成一个统一意义统一维度的短向量。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明的基于双重选择门的语义相似度特征提取方法,无需依赖人工去除冗余信息,自动获取句子中的核心信息,通过语义相似度模型能够自动判定两条句子的语义相似性,并且用该模型判定的句子相似性准确率和效率更高,能够帮助用户在问答或者搜索***中找到更匹配的结果。
2、本发明的基于双重选择门的语义相似度特征提取方法,利用双向长短时记忆网络对句子进行上下文信息向量化表示。该网络拥有细胞状态能够捕获文本的长距离依赖关系,可以记住长期状态,实现信息的更新、遗忘、过滤,更好表达上下文关系,并且可以解决网络梯度消失和***问题。传统的RNN网络将过去的输出和当前的输入连接在一起通过激活函数控制两者输出,只能考虑最近时刻的状态。
3、本发明的基于双重选择门的语义相似度特征提取方法,利用两个选择门自动获取句子中的核心语义信息,从而避免了冗余信息对句子语义相似度判定的影响,并且提高了匹配效率。
4、本发明的基于双重选择门的语义相似度特征提取方法,利用多角度语义匹配网络,对两条句子进行全匹配、最大池化匹配、注意力匹配和最大注意力匹配四种匹配方式,四种匹配方式充分利用上下文信息向量进行多角度更细致的匹配,有效避免了在传统方法中只通过两条句子字词之间的余弦距离判定相似度准确率低的问题,并采用双向长短时记忆网络将匹配向量融合城固定长度向量,有效的控制了匹配向量的维度,有利于预测层计算句子对的相似度。
5、本发明的基于双重选择门的语义相似度特征提取方法,能够有效提高句子语义相似度的判定准确率和效率,适用于中文和英文句子对语料。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的双重选择门模块的结构图。
图3为本发明实施例的多角度语义匹配网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,在不冲突的情况下,本发明创造中的实施例及实施例中的特征可以相互组合。
实施例1
参见图1,本发明提供一种基于双重选择门的语义相似度特征提取方法,包括:
S100、将待处理的句子对P和Q的进行分词处理,对经过分词处理后的词语进行向量化表示得到词向量。
步骤S100中的分词处理是将句子中的词语切分成合理的、符合语境意义的词语序列的过程,它是自然语言理解和文本信息处理的关键技术和难点之一,也是语义相似度模型中的一个重要处理环节。中文的词语切分问题比较复杂,其原因在于词语之间没有明显的标记,词语的使用灵活、变化多样、语义丰富,容易产生歧义。据研究,基于统计的中文文本分词的主要难点在于歧义消解、固有名词和新词发现,本发明采用Jieba对中文文本进行分词,采用Nltk对英文文本进行分词,从而提高分词正确率。
对单词进行向量化表示的模型有One-hot模型和Distributed模型。其中,One-hot模型简单,但是维度无法控制,并且无法很好的表示词与词之间的关系,因此,本方法采用Distributed模型,具体采用Word2Vec对单词进行向量化表示。
S200、将步骤S100中得到的句子对P和Q的全部词向量按顺序输入第一循环神经网络,得到上下文信息向量,其中,句子的最后一个上下文信息向量代表该句子的句向量;
其中,第一循环神经网络,用于生成上下文信息的状态向量;第一循环神经网络包括两个层级结构,第一层为单项长短时记忆网络,用于生成字词级别的向量;第二层为双向长短时记忆网络,用于生成上下文信息向量;每个层级结构均包括多个相连的LSTM细胞模块;处于不同层级结构的模块参数不同,以便生成单词级别和上下文信息向量。
将步骤S100得到的句子对的全部词向量按顺序输入第一循环网络,从而得到输入每个词后的句子状态向量,具体为:
将第i个词向量和第i-1时刻的输出词向量输入到第i个LSTM细胞模块中,经过第i个LSTM细胞模块处理得到第i个词向量后句子的状态向量。
S300、将句子对P和Q的句向量输入到一级选择门中,获取核心信息特征;
具体为,将句子P的每个时刻上下文信息向量和句子Q的第i个句向量输入到一级选择门单元中,经过第i个一级选择门单元处理得到核心信息。
S400、将步骤S300中得到的核心信息输入到二级选择门中,再次获取核心信息特征;具体为,将第i个一级选择门单元处理得到的核心信息输入到第i个二级选择门单元中,经过第i个二级选择门单元处理得到核心信息特征。
一级选择门和二级选择门分别包括多个一级选择门单元和二级选择门单元;
一级选择门和二级选择门的结构不同,参数不同。
S500、将步骤S400获取到的核心信息输入到多角度语义匹配网络,其中,多角度语义匹配网络包含全匹配、最大池化匹配、注意力匹配和最大注意力匹配四种方式,得到句子对的特征匹配向量;具体为,
全匹配将句子P每个时刻上下文信息向量与句子Q句向量进行余弦相似计算,得到特征匹配向量;
最大池化匹配将句子P每个时刻上下文信息向量与句子Q每个时刻上下文信息向量进行余弦相似计算,选取最大值作为特征匹配向量;
注意力匹配将句子P第i时刻的上下文信息向量与句子Q第i时刻上下文信息向量分别进行余弦计算,得到句子P的i个余弦值,将i个余弦值加权作为注意力权重并与句子Q每个时刻上下文信息相乘,得到的结果再与句子P每个时刻的上下文信息向量进行余弦计算,得到特征匹配向量;
最大注意力匹配将句子P第i时刻的上下文信息向量与句子Q第i时刻的上下文信息向量分别进行余弦计算,得到句子P的i个余弦值,从i个余弦值中选取最大的值作为注意力权重,并与句子Q的上下文信息相乘,得到的结果再与句子P每个时刻的上下文信息向量进行余弦计算,得到特征匹配向量。
其中,第二神经网络包括两个双向长短时记忆网络,用于处理句子对的特征匹配向量聚合成一个固定长度的向量。
S600、将步骤S500得到的匹配向量通过第二神经网络,使特征匹配向量融合成一个固定长度的向量,并输入到预测层计算句子对的相似度概率分布,具体为,
将句子P经过四个匹配得到的四个特征匹配向量,经过第二循环神经网络聚合成一个固定长度的特征匹配向量;
将句子Q也经过四个匹配得到的四个特征匹配向量,经过的双向长短时记忆网络聚合成一个固定长度的特征匹配向量;
利用句子P和句子Q两个特征匹配向量输入到预测层,得到句子对相似度。
步骤S100中采用Word2Vec对经过Jieba分词处理后的词语进行向量化表示。
实施例2
在实施例1的基础上,第一循环神经网络由一层单向LSTM网络构成和一层双向LSTM网络构成,每个层级包括多个相连的LSTM细胞模块,根据LSTM细胞模块中的输入门、遗忘门、更新门和过滤输出门对当前输入信息和前一时刻输出信息进行处理。第一循环神经网络的第一层包括多个相连的单向LSTM细胞模块,用于得到每个词的状态向量。第一循环神经网络的第二层包括多个相连的双向LSTM细胞模块,用于的到句子上下文信息向量。
在本方法中,首先通过第一循环神经网络对句子的词语和上下文信息进行建模,得到句子每个词对应时刻的状态向量和每个时刻句子的上下文信息向量。其中,如图2所示,步骤S200中第一循环神经网络中采用长短时记忆网络(Long Short Term MemoryNetwork,LSTM)该网络的计算公式如下:
ft=σ(Wfwt+Ufht-1+bf);
it=σ(Wiwt+Uiht-1+bi);
ot=σ(Wowt+Uoht-1+bo);
ht=ottanh(ct);
上述公式中ft为遗忘门的输出;it为输入门的输出;ot为输出门的输出;Wf、Wi、Wo、Wc、bf、bi、bo、bc、为遗忘门、输入门、输出门、选择门的权重矩阵和偏置向量;为新的记忆信息;ct为更新的LSTM网络单元的记忆内容;σ为sigmoid函数;⊙为元素乘积;ht-1为t-1时刻的隐藏层输出,Wt为t时刻的输入信息。
在本发明的方法中,由于通过循环神经网络对句子上下文进行建模,使得t时刻输入单词后对应句子的状态向量理论上包含了该时刻之前的所有单词的信息,也就是说,输入最后一个词后得到的句子状态向量hn包含了整个句子的所有信息,因此,hn代表了整个句子的状态向量,即句向量。
实施例3
在实施例1或2的基础上,双重选择门包括两个选择门结构,两个选择门结构不同,参数也不同。通过不同的选择门,有利于过滤掉句子中的冗余信息,更加准确地获取核心信息。第一层选择门计算公式如下:
s=hn;
sGatei=σ(Wshi+Uss+b);
第二层选择门通过计算t时刻的上下文向量,利用前一时刻句向量和选择门隐层状态h′i计算选择门权重,最后将选择门权重归一化,计算公式如下:
ei,j=va Ttanh(Wast-1+Uah'i);
参见图2,语句P为P=[p1,p2,...,pi,...,pn],语句Q表示为Q=[q1,q2,...,qi,...,qm]表示输入的句子对序列,模型一次输入词语并经过步骤S200得到句子的每个时刻的上下文信息向量表示,P语句上下文的隐向量表达式矩阵和Q语句的上下文向量表达式矩阵经过步骤S300、S400中的两层选择门获取核心信息,语句P核心特征特征表达式 同理可得,语句Q表达式
本发明的方法通过循环神经网络得到的句子上下文信息向量,从而使两条句子的上下文语义关联性更强,更好的判断两条句子的语义相似度。
如图3所示,第二循环神经网络为双向LSTM神经网络,包括多个双向LSTM细胞模块相连。为了使多角度匹配网络生成的特征匹配向量变成一个固定长度的向量输入到预测层,需要将匹配向量输入至双向LSTM网络中融合成一个固定长度的向量。
本发明为得到两条语句的相似判定,使用了第二循环神经网络,将句子P和句子Q的四个特征匹配向量输入第二循环神经网络中融合得到一个固定长度向量,句子Q和句子P的四个特征匹配向量用以上相同操作,分别得到两个固定长度的匹配向量,将向量输入预测层得到句子对相似度概率分布。
利用本发明的方法判定的句子语义相似度,除了利用句子间的上下文信息之外,还自动从句子中提取了核心信息特征作为匹配网络的输入,提高了匹配准确率,同时减少了匹配网络对于冗余信息的处理,提高了匹配效率。对于句子中一些意思相同表达形式不同的词语,也可以通过模型判定它们相似,比如“计算机”和“电脑”两个词汇,在对两个词进行相似度判定时,不仅仅考虑词之间的距离,而是利用词所在句子上下文信息来判定相似度。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于双重选择门的语义相似度特征提取方法,其特征在于,包括如下步骤
S100、将待处理的句子对P和Q的进行分词处理,对经过分词处理后的词语进行向量化表示得到词向量;
S200、将步骤S100中得到的句子对P和Q的全部词向量按顺序输入第一循环神经网络,得到上下文信息向量,其中,句子的最后一个上下文信息向量代表该句子的句向量;
S300、将句子对P和Q的句向量输入到一级选择门中,获取核心信息特征;
S400、将步骤S300中得到的核心信息输入到二级选择门中,再次获取核心信息特征;
S500、将步骤S400获取到的核心信息输入到多角度语义匹配网络,其中,多角度语义匹配网络包含全匹配、最大池化匹配、注意力匹配和最大注意力匹配四种方式,得到句子对的特征匹配向量;
S600、将步骤S500得到的匹配向量通过第二神经网络,使特征匹配向量融合成一个固定长度的向量,并输入到预测层计算句子对的相似度概率分布。
2.根据权利要求1所述的基于双重选择门的语义相似度特征提取方法,其特征在于,所述第一循环神经网络,用于生成上下文信息的状态向量。
3.根据权利要求1所述的基于双重选择门的语义相似度特征提取方法,其特征在于,所述第一循环神经网络第一层为单项长短时记忆网络,第二层为双向长短时记忆网络,每个层级结构均包括多个相连的LSTM细胞模块。
4.根据权利要求3所述的基于双重选择门的语义相似度特征提取方法,其特征在于,
所述第一循环神经网络包括两个层级结构;
所述第一循环神经网络的第一层用于生成字词级别的向量;
所述第一循环神经网络的第二层用于生成上下文信息向量。
5.根据权利要求1所述的基于双重选择门的语义相似度特征提取方法,其特征在于,所述一级选择门和二级选择门分别包括多个一级选择门单元和二级选择门单元;
6.根据权利要求3所述的基于双重选择门的语义相似度特征提取方法,其特征在于,
所述步骤S200中,将步骤S100得到的句子对的全部词向量按顺序输入第一循环网络,从而得到输入每个词后的句子状态向量,具体为:
将第i个所述词向量和第i-1时刻的输出词向量输入到第i个所述LSTM细胞模块中,经过第i个所述LSTM细胞模块处理得到第i个词向量后句子的状态向量。
7.根据权利要求5所述的基于双重选择门的语义相似度特征提取方法,其特征在于,
所述步骤S300中将句子对的句向量输入到一级选择门中,获取核心信息特征包括:
将句子P的每个时刻所述上下文信息向量和句子Q的第i个所述句向量输入到所述一级选择门单元中,经过第i个所述一级选择门单元处理得到核心信息。
8.根据权利要求1-7所述的基于双重选择门的语义相似度特征提取方法,其特征在于,
步骤S400中将步骤S300中得到的核心信息输入到二级选择门中,再次获取核心信息特征包括:
将所述第i个一级选择门单元处理得到的核心信息输入到第i个二级选择门单元中,经过第i个二级选择门单元处理得到核心信息特征。
9.根据权利要求1-8所述的基于双重选择门的语义相似度特征提取方法,其特征在于,所述步骤S500中,将步骤S400获取到的核心信息输入到多角度语义匹配网络中,得到特征匹配向量包括:
所述全匹配将句子P每个时刻所述上下文信息向量与句子Q所述句向量进行余弦相似计算,得到特征匹配向量;
所述最大池化匹配将句子P每个时刻所述上下文信息向量与句子Q每个时刻所述上下文信息向量进行余弦相似计算,选取最大值作为特征匹配向量;
所述注意力匹配将句子P第i时刻的所述上下文信息向量与句子Q第i时刻所述上下文信息向量分别进行余弦计算,得到句子P的i个余弦值,将i个余弦值加权作为注意力权重并与句子Q每个时刻所述上下文信息相乘,得到的结果再与句子P每个时刻所述的上下文信息向量进行余弦计算,得到特征匹配向量;
所述最大注意力匹配将句子P第i时刻的所述上下文信息向量与句子Q第i时刻所述的上下文信息向量分别进行余弦计算,得到句子P的i个余弦值,从i个余弦值中选取最大的值作为注意力权重,并与句子Q的所述上下文信息相乘,得到的结果再与句子P每个时刻所述的上下文信息向量进行余弦计算,得到特征匹配向量。
10.根据权利要求1-9所述的基于双重选择门的语义相似度特征提取方法,其特征在于,所述步骤S600将S500步骤得到的匹配向量通过第二神经网络,使特征匹配向量融合成一个固定长度的向量,并输入到预测层计算句子对的相似度概率分布包括:
将句子P经过四个匹配得到的四个特征匹配向量,经过所述第二循环神经网络聚合成一个固定长度的特征匹配向量;
将句子Q也经过四个匹配得到的四个特征匹配向量,经过所述的双向长短时记忆网络聚合成一个固定长度的特征匹配向量;
利用句子P和句子Q两个特征匹配向量输入到预测层,得到句子对相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911032492.1A CN110765755A (zh) | 2019-10-28 | 2019-10-28 | 一种基于双重选择门的语义相似度特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911032492.1A CN110765755A (zh) | 2019-10-28 | 2019-10-28 | 一种基于双重选择门的语义相似度特征提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110765755A true CN110765755A (zh) | 2020-02-07 |
Family
ID=69334325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911032492.1A Pending CN110765755A (zh) | 2019-10-28 | 2019-10-28 | 一种基于双重选择门的语义相似度特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765755A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339249A (zh) * | 2020-02-20 | 2020-06-26 | 齐鲁工业大学 | 一种联合多角度特征的深度智能文本匹配方法和装置 |
CN111523301A (zh) * | 2020-06-05 | 2020-08-11 | 泰康保险集团股份有限公司 | 合同文档合规性检查方法及装置 |
CN111523241A (zh) * | 2020-04-28 | 2020-08-11 | 国网浙江省电力有限公司湖州供电公司 | 新型用电负荷逻辑信息模型的构建方法 |
CN111651973A (zh) * | 2020-06-03 | 2020-09-11 | 拾音智能科技有限公司 | 一种基于句法感知的文本匹配方法 |
CN112434514A (zh) * | 2020-11-25 | 2021-03-02 | 重庆邮电大学 | 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备 |
CN112560502A (zh) * | 2020-12-28 | 2021-03-26 | 桂林电子科技大学 | 一种语义相似度匹配方法、装置及存储介质 |
CN113157889A (zh) * | 2021-04-21 | 2021-07-23 | 韶鼎人工智能科技有限公司 | 一种基于主题损失的视觉问答模型构建方法 |
CN113177406A (zh) * | 2021-04-23 | 2021-07-27 | 珠海格力电器股份有限公司 | 文本处理方法、装置、电子设备和计算机可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547885A (zh) * | 2016-10-27 | 2017-03-29 | 桂林电子科技大学 | 一种文本分类***及方法 |
CN109101494A (zh) * | 2018-08-10 | 2018-12-28 | 哈尔滨工业大学(威海) | 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质 |
CN109165300A (zh) * | 2018-08-31 | 2019-01-08 | 中国科学院自动化研究所 | 文本蕴含识别方法及装置 |
CN109214001A (zh) * | 2018-08-23 | 2019-01-15 | 桂林电子科技大学 | 一种中文语义匹配***及方法 |
CN109800390A (zh) * | 2018-12-21 | 2019-05-24 | 北京石油化工学院 | 一种个性化情感摘要的计算方法与装置 |
CN110162593A (zh) * | 2018-11-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种搜索结果处理、相似度模型训练方法及装置 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
-
2019
- 2019-10-28 CN CN201911032492.1A patent/CN110765755A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547885A (zh) * | 2016-10-27 | 2017-03-29 | 桂林电子科技大学 | 一种文本分类***及方法 |
CN109101494A (zh) * | 2018-08-10 | 2018-12-28 | 哈尔滨工业大学(威海) | 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质 |
CN109214001A (zh) * | 2018-08-23 | 2019-01-15 | 桂林电子科技大学 | 一种中文语义匹配***及方法 |
CN109165300A (zh) * | 2018-08-31 | 2019-01-08 | 中国科学院自动化研究所 | 文本蕴含识别方法及装置 |
CN110162593A (zh) * | 2018-11-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种搜索结果处理、相似度模型训练方法及装置 |
CN109800390A (zh) * | 2018-12-21 | 2019-05-24 | 北京石油化工学院 | 一种个性化情感摘要的计算方法与装置 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
Non-Patent Citations (2)
Title |
---|
QINGYU ZHOU等: "Selective Encoding for Abstractive Sentence Summarization", 《ARXIV:1704.07073V1》, 24 April 2017 (2017-04-24), pages 4 * |
ZHIGUO WANG等: "Bilateral Multi-Perspective Matching for Natural Language Sentences", 《ARXIV:1702.03814V3》, 14 July 2017 (2017-07-14), pages 3 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339249A (zh) * | 2020-02-20 | 2020-06-26 | 齐鲁工业大学 | 一种联合多角度特征的深度智能文本匹配方法和装置 |
CN111523241A (zh) * | 2020-04-28 | 2020-08-11 | 国网浙江省电力有限公司湖州供电公司 | 新型用电负荷逻辑信息模型的构建方法 |
CN111523241B (zh) * | 2020-04-28 | 2023-06-13 | 国网浙江省电力有限公司湖州供电公司 | 用电负荷逻辑信息模型的构建方法 |
CN111651973A (zh) * | 2020-06-03 | 2020-09-11 | 拾音智能科技有限公司 | 一种基于句法感知的文本匹配方法 |
CN111651973B (zh) * | 2020-06-03 | 2023-11-07 | 拾音智能科技有限公司 | 一种基于句法感知的文本匹配方法 |
CN111523301A (zh) * | 2020-06-05 | 2020-08-11 | 泰康保险集团股份有限公司 | 合同文档合规性检查方法及装置 |
CN112434514B (zh) * | 2020-11-25 | 2022-06-21 | 重庆邮电大学 | 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备 |
CN112434514A (zh) * | 2020-11-25 | 2021-03-02 | 重庆邮电大学 | 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备 |
CN112560502B (zh) * | 2020-12-28 | 2022-05-13 | 桂林电子科技大学 | 一种语义相似度匹配方法、装置及存储介质 |
CN112560502A (zh) * | 2020-12-28 | 2021-03-26 | 桂林电子科技大学 | 一种语义相似度匹配方法、装置及存储介质 |
CN113157889A (zh) * | 2021-04-21 | 2021-07-23 | 韶鼎人工智能科技有限公司 | 一种基于主题损失的视觉问答模型构建方法 |
CN113177406A (zh) * | 2021-04-23 | 2021-07-27 | 珠海格力电器股份有限公司 | 文本处理方法、装置、电子设备和计算机可读介质 |
CN113177406B (zh) * | 2021-04-23 | 2023-07-07 | 珠海格力电器股份有限公司 | 文本处理方法、装置、电子设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110765755A (zh) | 一种基于双重选择门的语义相似度特征提取方法 | |
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN110377903B (zh) | 一种句子级实体和关系联合抽取方法 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN112347268A (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN110555083B (zh) | 一种基于zero-shot无监督实体关系抽取方法 | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及*** | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、***及介质 | |
CN106776562A (zh) | 一种关键词提取方法和提取*** | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN112163425A (zh) | 基于多特征信息增强的文本实体关系抽取方法 | |
CN110532395B (zh) | 一种基于语义嵌入的词向量改进模型的建立方法 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算***、方法、及存储介质 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN114428850B (zh) | 一种文本检索匹配方法和*** | |
CN111639165A (zh) | 基于自然语言处理和深度学习的智能问答优化方法 | |
CN114254645A (zh) | 一种人工智能辅助写作*** | |
Li et al. | Multimodal fusion with co-attention mechanism | |
CN112836062B (zh) | 一种文本语料库的关系抽取方法 | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
Yang et al. | Text classification based on convolutional neural network and attention model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200207 |