CN109189915A - 一种基于深度相关匹配模型的信息检索方法 - Google Patents
一种基于深度相关匹配模型的信息检索方法 Download PDFInfo
- Publication number
- CN109189915A CN109189915A CN201811082554.5A CN201811082554A CN109189915A CN 109189915 A CN109189915 A CN 109189915A CN 201811082554 A CN201811082554 A CN 201811082554A CN 109189915 A CN109189915 A CN 109189915A
- Authority
- CN
- China
- Prior art keywords
- document
- word
- term
- matrix
- indicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims abstract description 78
- 238000013528 artificial neural network Methods 0.000 claims abstract description 48
- 230000002452 interceptive effect Effects 0.000 claims abstract description 40
- 230000009467 reduction Effects 0.000 claims abstract description 9
- 230000000875 corresponding effect Effects 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 5
- 238000007689 inspection Methods 0.000 claims description 5
- 239000009951 qiqi Substances 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 13
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 210000005036 nerve Anatomy 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 241001481833 Coryphaena hippurus Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 210000004218 nerve net Anatomy 0.000 description 3
- 241000251730 Chondrichthyes Species 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000008357 Okapia johnstoni Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000004260 weight control Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于深度相关匹配模型的信息检索方法,包括如下步骤:获取检索词及文档的文档词;构建各个文档对应不同检索词的初始交互矩阵;使用具有检索维度的k‑max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top‑K交互矩阵;使用多层神经网络计算各个文档的Top‑K交互矩阵的检索得分;基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。本发明充分考虑了相似检索词的重要性,显著提高了检索的性能。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种基于深度相关匹配模型的信息检索方法。
背景技术
在传统的信息检索模型中,它们会根据精确匹配信号测量文档的相关性。也就是说,相关性得分通过来自文档的检索词的频率所确定。因为忽略了相似匹配信号,这类模型经常面临典型的单词不匹配问题。最近,深度神经网络在许多自然语言处理任务中取得了巨大成功。同时,这些深度神经网络也已应用于信息检索,称为神经信息检索(即NeuIR)。他们用词嵌入作为单词的表达,再基于这些表达来构建一些模型,这些模型的检索性能有比较大的提高。
单词的重要性对信息检索的模型非常重要。在传统的检索模型中,他们基于逆文档频率(即IDF)来测量单词的重要性。由于这些模型仅考虑与检索词相同的文档词,因此仅考虑检索词的IDF就足够了。最近,神经检索模型采用深度神经网络来模拟检索词和文档词之间的相似匹配。通过这种方式,与检索词相似的词也能够被检索到。然而,现有的神经检索模型忽略了这些相似检索词的重要性,检索性能较差。
因此,如何提供一种新的技术方案,提高检索性能成为了本领域技术人员急需解决的问题。
发明内容
针对现有技术中存在的上述不足,本发明公开了一种基于深度相关匹配模型的信息检索方法,充分考虑了相似检索词的重要性,显著提高了检索的性能。
为解决上述技术问题,本发明采用了如下的技术方案:
一种基于深度相关匹配模型的信息检索方法,包括如下步骤:
获取检索词及文档的文档词;
随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;
将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;
将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;
基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;
分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;
使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵;
使用多层神经网络计算各个文档的Top-K交互矩阵的检索得分;
基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。
优选地,所述多层神经网络可表示为
其中,wk和bk分别表示第k层神经网络的权重矩阵和偏差,ak表示第k层神经网络的激活函数,gqi表示第i个检索词的权重系数,i=1,2,…,M,M表示检索词的总个数,s表示检索得分,k=1,2,…,L,L表示多层神经网络的网络总层数,表示第i个检索词第k层神经网络的Top-K交互矩阵。
优选地,第i个检索词的权重系数gqi=softmax(wqiqi),qi表示第i个检索词的词嵌入矩阵,wqi表示第i个检索词对应的多层神经网络中的神经节点的权重,softmax()表示归一化指数函数。
优选地,任一文档中第i个检索词对应的降维后的Top-K交互矩阵为其中,M表示检索词的总个数,Tk表示具有检索维度的k-max池化函数,d为所述文档的词嵌入矩阵,gd为所述文档的文档词权重向量,gd={gd1,gd2,…,gdj,…,gdN},gdj为所述文档中第j个文档词的权重,gdj=wdjdj,wdj表示第j个文档词对应的多层神经网络中的神经节点的权重,dj为第j个文档词的词嵌入矩阵,j=1,2,…,N,N表示文档中包含的文档词的总个数,文档的词嵌入矩阵由所述文档中所有文档词的词嵌入矩阵组成。
优选地,通过损失函数L(θ)对神经网络的参数进行优化,其中,
θ表示神经网络中任意一种需要优化的参数,q表示检索词的集合,d+来自正样本文档集D+,d+表示与检索词正相关的文档词集,d-来自负样本文档集D-,d-表示与检索词无关和/或负相关的文档词集。
综上所述,本发明公开一种基于深度相关匹配模型的信息检索方法,包括如下步骤:获取检索词及文档的文档词;随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵;使用多层神经网络计算各个文档的Top-K交互矩阵的检索得分;基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。
附图说明
图1为本发明公开的一种基于深度相关匹配模型的信息检索方法的流程图。
图2为本发明采用本发明的方法选择不同的top-k时的性能比较。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
如图1所示,本发明公开了一种基于深度相关匹配模型的信息检索方法,包括如下步骤:
S101、获取检索词及文档的文档词;
S102、随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;
S103、将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;
S104、将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;
S105、基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;
gd为文档词权重向量,首先用文档中所有的文档词的词嵌入进行映射,假设,文档有300个词,词嵌入为50维,那么文档词嵌入矩阵为300*50维,用文档词对应的多层神经网络中的神经节点的权重映射为300*1维,如果检索词有5个单词,则将300*1维的矩阵扩展为5*300*1维,即文档词权重向量。
S106、分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;
每个文档的词嵌入矩阵与各个检索词的词嵌入矩阵都会得到一个初始交互矩阵,即一个文档的初始交互矩阵的个数等于检索词的个数。
给定检索词和文档,每个检索词和文档的文档词均处于分布式表示中,以求点积的方式以形成待添加重要性数据初始交互矩阵,为了强调文档中的不同单词具有不同的显着性水平,将文档词的重要性添加到矩阵中,即将待添加重要性数据初始交互矩阵的值和文档词权重向量的值相加,得到初始交互矩阵。
S107、使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵;
文档中不重要的文档词也包括在初始交互矩阵中并参与了后续计算。通过我们的研究,与检索词具有高相关性的文档词基本上确定了文档的检索得分,低相关的文档词,如停用词,对检索得分的影响很低,在此基础上,我们提出了基于检索维度的top-k池化函数,以选择最优文档词,去除不良文档词。处理k-max池层后,对于每个文档都是选取前K个最强的文档词,整个文档维度的长度为K,它形成一个固定值,能够有效减少计算量,提高检索效率,并为传入神经网络提供条件。
一般情况下,检索词或者文档中的文档词的词嵌入输入神经网路是不会改变的,但是由于词嵌入是通过其他数据训练而来,在当前数据训练或者预测时,难免会有偏差,因此,在当前数据训练的时候,神经网络也会像调整其他参数的值一样调整词嵌入的值,以此来调节数据的不一致问题。本发明充分利用现有的词嵌入来加速训练,突破了原始单词嵌入的局限,最大限度地避免了缺点。
S108、使用多层神经网络计算各个文档的Top-K交互矩阵的检索得分;
S109、基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。
本发明中,检索词可以以检索词集的形式存在,一个检索词集包括多个检索词。
在传统的信息检索模型中,它们会根据精确匹配信号测量文档的相关性。也就是说,相关性得分通过来自文档的检索词的频率所确定。因为忽略了相似匹配信号,这类模型经常面临典型的单词不匹配问题。最近,深度神经网络在许多自然语言处理任务中取得了巨大成功。同时,这些深度神经网络也已应用于信息检索,称为神经信息检索(即NeuIR)。他们用词嵌入作为单词的表达,再基于这些表达来构建一些模型,这些模型性能上有比较大的提高。
单词的重要性对信息检索的模型非常重要。在传统的检索模型中,他们基于逆文档频率(即IDF)来测量单词的重要性。由于这些模型仅考虑与检索词相同的文档词,因此仅考虑检索词的IDF就足够了。最近,神经检索模型采用深度神经网络来模拟检索词和文档词之间的相似匹配。通过这种方式,与检索词相似的词也能够被检索到。然而,现有的神经检索模型忽略了这些相似检索词的重要性,它们对模型的贡献也很大。以下面的例子为例:
检索:介绍生活在水中的动物,如鲨鱼
文档片段A:在水中游泳的海豚正在寻找食物。
文档片段B:一只黄色小狗落入水中。
从上面的例子可以看出,与精确匹配的信号“水”相比,“海豚”和“小狗”作为相似的匹配信号分别出现在文件A,B中。鉴于“水”和“鲨鱼”在检索中提供的语义环境,“海豚”的重要性应该大于“小狗”。因此,在不强调文档单词的重要性的情况下,很容易发生匹配错误。当强调词语的重要性时,它将对正确的匹配产生有利的贡献。
因此,本发明在对检索和文档之间的相关性进行建模时考虑了文档词的重要性,具体来说,本发明的方法以检索和文档的文本的词嵌入为输入,通过深度神经网络自动提取相关信号,产生最终的检索得分,首先构建交互矩阵,其中每个元素表示相应检索词和文档词之间的交互。同时,我们将文档词的词嵌入压缩到一个小维度,并融合到交互矩阵中。这样,交互矩阵不仅可以捕获匹配信号,还可以捕获文档重要性。然后,我们在交互矩阵上应用top-k池化层,并获得必要的最强的k个相关信号。最强相关性信号与每个检索项相关联,并投影到多层神经网络中以获得检索层面的匹配分数。最后,网络所产生的匹配分数与权重控制网络点积以产生检索得分。与现有技术相比,采用本发明公开的方法,能够显著提升检索性能。
本发明公开的方法,可以以一个深度相关匹配模型的形式存在,这个模型的工作原理即是本发明中S102至S109步骤中的方法。
具体实施时,所述多层神经网络可表示为
其中,wk和bk分别表示第k层神经网络的权重矩阵和偏差,ak表示第k层神经网络的激活函数,gqi表示第i个检索词的权重系数,i=1,2,…,M,M表示检索词的总个数,s表示检索得分,k=1,2,…,L,L表示多层神经网络的网络总层数,表示第i个检索词第k层神经网络的Top-K交互矩阵,任一文档中第i个检索词对应的降维后的Top-K交互矩阵为 为多层神经网络第一层的输入。
本发明中,激活函数可以采用softplus函数。
具体实施时,第i个检索词的权重系数gqi=softmax(wqiqi),qi表示第i个检索词的词嵌入矩阵,wqi表示第i个检索词对应的多层神经网络中的神经节点的权重,softmax()表示归一化指数函数。
具体实施时,任一文档中第i个检索词对应的降维后的Top-K交互矩阵为其中,M表示检索词的总个数,Tk表示具有检索维度的k-max池化函数,d为所述文档的词嵌入矩阵,gd为所述文档的文档词权重向量,gd={gd1,gd2,…,gdj,…,gdN},gdj为所述文档中第j个文档词的权重,gdj=wdjdj,wdj表示第j个文档词对应的多层神经网络中的神经节点的权重,dj为第j个文档词的词嵌入矩阵,j=1,2,…,N,N表示文档中包含的文档词的总个数,文档的词嵌入矩阵由所述文档中所有文档词的词嵌入矩阵组成。
·表示检索词和文档词之间的交互操作符,其作用是求向量的点积。
具体实施时,通过损失函数L(θ)对神经网络的参数进行优化,其中,
θ表示神经网络中任意一种需要优化的参数,q表示检索词的集合,d+来自正样本文档集D+,d+表示与检索词正相关的文档词集,d-来自负样本文档集D-,d-表示与检索词无关和/或负相关的文档词集。
θ表示神经网络中任意一种需要优化的参数,例如wk或bk。正样本和负样本文档集是通过官方下载的标准文档库,他们是用人工标注的正负样例,规整为文档集。本发明中,扩大了正样本和负样本之间的差距,使得正分数大于负分大于1,通过反向传播算法优化神经网络。
如图2所示,下面为本发明的方法与传统方法的实验比较示例:
数据集
Million Query Track 2007:简称MQ2007。数据集是LETOR4.0的子集,由网络爬虫从域名GOV2网站收集,用户点击用作文档排序的基础,包括25M文档和10000个检索词集。MQ2007共有58730个文档和1501个检索词集。其中,文档和检索词集中的单词是小写的和索引的,并且使用Krovetz词干分析器提取相应的单词。另外,参考INQUERY中的停用词列表,我们删除了检索词集中的停用词。表1详细列出了数据集的参数。
Robust04:Robust04是一个小型新闻数据集。我们使用Robust04-title作为我们的数据集之一。这些主题来自TREC Robust Track 2004.这里的Robust04-Title意味着主题的标题被用作检索词。该集合包含0.5M文档和250个检索词集。词汇量大小为0.6M,文档大小为252M。在下表1中更清楚地描述。
表1
MQ2007 | Robust04 | |
检索词集数 | 1501 | 250 |
文档数 | 58730 | 324541 |
基准方法
我们的基准包括传统模型,包括BM25,以及一些最近的神经网络模型。一种类型是以表示为中心的深度匹配模型,包括ACR-I,DSSM,CDSSM,另一种以交互为中心的深度匹配模型如下:ACR-II,MatchPyramid,DRMM。
我们选择一些神经深度匹配模型进行比较,我们将在下面介绍这些模型:
ARC-I:ARC-I是一种以表示为中心的模型。ARC-I已经在一组NLP任务上进行了测试,包括短语匹配,完形填空和释义识别。
DSSM:DSSM是一个出色的网络搜索模型。原始论文提到训练DSSM需要大量数据。在以下实验中,它没有显示出优异的结果。
CDSSM:DSSM是CDSSM的改进版本。它主要将DSSM中的全连接层改为卷积层,通过这种方式获得更多的结构信息,并且性能得到改善。
ARC-II:它是ACI-I的改进版本。它已经注意到交互的重要性,并且比ARC-I更早地学习了交互信息。ARC-I和ARC-II没有开源代码,因此它被重新实现并应用于比较模型。
MatchPyramid:它是一种广泛使用的模型。MatchPyramid有三个版本。我们选择最佳模型进行比较。实验比较中使用的模型是作者提供的原始模型。
DRMM:DRMM是以交互为中心的模型,具有不同类型的直方图映射函数(即,CH,NH和LCH)和权重门控函数(即,TV和IDF)。我们选择最佳的结果模型进行比较。同样,实验中使用的模型是作者提供的原始模型。
在使用中,采用本发明的方法时:
词嵌入尺寸:我们使用50维的词嵌入,它由GloVe模型提前训练。在培训过程中由于数据量较小,我们没有同步训练词嵌入。通过我们的统计,语料库的词汇是193367。
K-max池化层大小:k-max池化层选择512个最佳文档词,其他不会输入神经网络。通过我们的研究,数据集中的不同特征和数量会影响此参数大小的设置。
多层神经网络规模:多层神经网络的大小设置为[512,512,256,128,64,32,16,1],实验使用softplus的激活函数。
模型优化:使用Adam优化器进行优化,e为1-5,学***台,包括当今最先进的匹配模型。
评估结果:
显然,我们提出的方法(即表中的DTMM)比基线有显着改进。MQ2007和robust04中的模型的实验结果如表2及表3。
表2
表3
在MQ2007数据集上,所有以表示为中心的模型(包括DSSM,CDSSM,ARC-I)和大多数以交互为中心的模型(包括DRMM,ARC-II,MatchPyramid)都不如BM25。在之前的模型中,只有DRMM的性能优于BM25。以表示为中心的模型的性能通常不如以交互为中心的模型的性能。在某种程度上,这说明了IR中相关性强调的三个因素的作用。在MQ2007上DTMM对最佳深度学习基准(即DRMM)的提升如下NDCG@1为20.6%,P@1为15%,MAP为8%,这说明了我们的方法在IR任务上的优越性。
在robust04数据集上,大多数以交互为中心的模型的性能也明显优于以表示为中心的模型。但是一个例外是,以交互为中心的模型ARC-II具有与CDSSM相同的性能,并且不如以表示为中心的模型DSSM。这可能与该数据集中特征的不均匀分布有关。当ARC-II截断文本长度时,它会删除文档末尾的重要信息,这会对模型性能产生影响。同样,除DRMM模型外,大多数以交互为中心的模型和以表示为中心的模型不能超过BM25性能。在此数据集上,与最佳模型DRMM相比,DTMM也实现了最佳效果。DTMM相对于robust04的最佳深度学习基准(即DRMM)的改进分别是NDCG@20为7.4%,P@20为13%,MAP为12.5%。
表4显示了DTMM和没有注重文档词权重的DTMM版本(DTMMno)之间的比较。DTMMno表示没有文档单词重要性的模型。在评估ndcg@3,ndcg@5,ndcg@10和MAP时,完整的DTMM在ndcg@3,ndcg@5,ndcg@10和MAP指标上分别比DTMMno的性能高8.25%,7.58%,6.39%,2.85%。它表明强调文档中不同单词的重要性是有意义的。
表4
此外,在本发明进行检索时,可以先使用OKapi BM25算法初步筛选出符合的文档,然后使用本方法来选出更加精确的文档。
上述仅是本发明优选的实施方式,需指出是,对于本领域技术人员在不脱离本技术方案的前提下,还可以作出若干变形和改进,上述变形和改进的技术方案应同样视为落入本发明要求保护的范围。
Claims (5)
1.一种基于深度相关匹配模型的信息检索方法,其特征在于,包括如下步骤:
获取检索词及文档的文档词;
随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;
将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;
将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;
基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;
分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;
使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵;
使用多层神经网络计算各个文档的Top-K交互矩阵的检索得分;
基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。
2.如权利要求1所述的基于深度相关匹配模型的信息检索方法,其特征在于,所述多层神经网络可表示为
其中,wk和bk分别表示第k层神经网络的权重矩阵和偏差,ak表示第k层神经网络的激活函数,gqi表示第i个检索词的权重系数,i=1,2,…,M,M表示检索词的总个数,s表示检索得分,k=1,2,…,L,L表示多层神经网络的网络总层数,表示第i个检索词第k层神经网络的Top-K交互矩阵。
3.如权利要求2所述的基于深度相关匹配模型的信息检索方法,其特征在于,第i个检索词的权重系数gqi=softmax(wqiqi),qi表示第i个检索词的词嵌入矩阵,wqi表示第i个检索词对应的多层神经网络中的神经节点的权重,softmax()表示归一化指数函数。
4.如权利要求1所述的基于深度相关匹配模型的信息检索方法,其特征在于,任一文档中第i个检索词对应的降维后的Top-K交互矩阵为其中,i=1,2,…,M,M表示检索词的总个数,Tk表示具有检索维度的k-max池化函数,d为所述文档的词嵌入矩阵,gd为所述文档的文档词权重向量,gd={gd1,gd2,…,gdj,…,gdN},gdj为所述文档中第j个文档词的权重,gdj=wdjdj,wdj表示第j个文档词对应的多层神经网络中的神经节点的权重,dj为第j个文档词的词嵌入矩阵,j=1,2,…,N,N表示文档中包含的文档词的总个数,文档的词嵌入矩阵由所述文档中所有文档词的词嵌入矩阵组成。
5.如权利要求1所述的基于深度相关匹配模型的信息检索方法,其特征在于,通过损失函数L(θ)对神经网络的参数进行优化,其中,
θ表示神经网络中任意一种需要优化的参数,q表示检索词的集合,d+来自正样本文档集D+,d+表示与检索词正相关的文档词集,d-来自负样本文档集D-,d-表示与检索词无关和/或负相关的文档词集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811082554.5A CN109189915B (zh) | 2018-09-17 | 2018-09-17 | 一种基于深度相关匹配模型的信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811082554.5A CN109189915B (zh) | 2018-09-17 | 2018-09-17 | 一种基于深度相关匹配模型的信息检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109189915A true CN109189915A (zh) | 2019-01-11 |
CN109189915B CN109189915B (zh) | 2021-10-15 |
Family
ID=64911800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811082554.5A Expired - Fee Related CN109189915B (zh) | 2018-09-17 | 2018-09-17 | 一种基于深度相关匹配模型的信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189915B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948537A (zh) * | 2021-01-25 | 2021-06-11 | 昆明理工大学 | 一种融入文档词权重的跨境民族文化文本检索方法 |
CN113469365A (zh) * | 2021-06-30 | 2021-10-01 | 上海寒武纪信息科技有限公司 | 基于神经网络模型的推理和编译方法及其相关产品 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070250590A1 (en) * | 2006-04-21 | 2007-10-25 | Microsoft Corporation | Ad-hoc proxy for discovery and retrieval of dynamic data such as a list of active devices |
US20130144874A1 (en) * | 2010-11-05 | 2013-06-06 | Nextgen Datacom, Inc. | Method and system for document classification or search using discrete words |
CN104933183A (zh) * | 2015-07-03 | 2015-09-23 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
CN106095872A (zh) * | 2016-06-07 | 2016-11-09 | 北京高地信息技术有限公司 | 用于智能问答***的答案排序方法及装置 |
CN106203432A (zh) * | 2016-07-14 | 2016-12-07 | 杭州健培科技有限公司 | 一种基于卷积神经网显著性图谱的感兴趣区域的定位方法 |
CN107087161A (zh) * | 2017-04-28 | 2017-08-22 | 南京邮电大学 | 视频业务中基于多层神经网络的用户体验质量的预测方法 |
CN107247745A (zh) * | 2017-05-23 | 2017-10-13 | 华中师范大学 | 一种基于伪相关反馈模型的信息检索方法及*** |
CN108269122A (zh) * | 2017-12-29 | 2018-07-10 | 广东神马搜索科技有限公司 | 广告的相似度处理方法和装置 |
-
2018
- 2018-09-17 CN CN201811082554.5A patent/CN109189915B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070250590A1 (en) * | 2006-04-21 | 2007-10-25 | Microsoft Corporation | Ad-hoc proxy for discovery and retrieval of dynamic data such as a list of active devices |
US20130144874A1 (en) * | 2010-11-05 | 2013-06-06 | Nextgen Datacom, Inc. | Method and system for document classification or search using discrete words |
CN104933183A (zh) * | 2015-07-03 | 2015-09-23 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
CN106095872A (zh) * | 2016-06-07 | 2016-11-09 | 北京高地信息技术有限公司 | 用于智能问答***的答案排序方法及装置 |
CN106203432A (zh) * | 2016-07-14 | 2016-12-07 | 杭州健培科技有限公司 | 一种基于卷积神经网显著性图谱的感兴趣区域的定位方法 |
CN107087161A (zh) * | 2017-04-28 | 2017-08-22 | 南京邮电大学 | 视频业务中基于多层神经网络的用户体验质量的预测方法 |
CN107247745A (zh) * | 2017-05-23 | 2017-10-13 | 华中师范大学 | 一种基于伪相关反馈模型的信息检索方法及*** |
CN108269122A (zh) * | 2017-12-29 | 2018-07-10 | 广东神马搜索科技有限公司 | 广告的相似度处理方法和装置 |
Non-Patent Citations (4)
Title |
---|
JIAFENG GUO ET AL.: "A Deep Relevance Matching Model for Ad-hoc Retrieval", 《HTTP://DX.DOI.ORG/10.1145/2983323.2983769》 * |
ZHOU YANG ET AL.: "A Deep Top-K Relevance Matching Model for Ad-hoc Retrieval", 《HTTPS://DOI.ORG/10.1007/978-3-030-01012-6_2》 * |
张小川 等: "一种改进的向量空间模型的文本表示算法", 《重庆理工大学学报(自然科学)》 * |
杨州: "基于文本检索的深度关联匹配模型算法的研究与改进", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948537A (zh) * | 2021-01-25 | 2021-06-11 | 昆明理工大学 | 一种融入文档词权重的跨境民族文化文本检索方法 |
CN113469365A (zh) * | 2021-06-30 | 2021-10-01 | 上海寒武纪信息科技有限公司 | 基于神经网络模型的推理和编译方法及其相关产品 |
CN113469365B (zh) * | 2021-06-30 | 2024-03-19 | 上海寒武纪信息科技有限公司 | 基于神经网络模型的推理和编译方法及其相关产品 |
Also Published As
Publication number | Publication date |
---|---|
CN109189915B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN110442760B (zh) | 一种问答检索***的同义词挖掘方法及装置 | |
Jiang et al. | Zero-example event search using multimodal pseudo relevance feedback | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN111159359B (zh) | 文档检索方法、装置及计算机可读存储介质 | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN110543564B (zh) | 基于主题模型的领域标签获取方法 | |
CN112035658B (zh) | 基于深度学习的企业舆情监测方法 | |
CN104765769A (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN105975596A (zh) | 一种搜索引擎查询扩展的方法及*** | |
CN108334610A (zh) | 一种新闻文本分类方法、装置及服务器 | |
CN108717459B (zh) | 一种面向用户评论信息的移动应用缺陷定位方法 | |
CN109697289A (zh) | 一种改进的用于命名实体识别的主动学习方法 | |
CN110532450B (zh) | 一种基于改进鲨鱼搜索的主题爬虫方法 | |
CN110008309A (zh) | 一种短语挖掘方法及装置 | |
Tao et al. | Doc2cube: Allocating documents to text cube without labeled data | |
CN112579729B (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN110188174A (zh) | 一种基于专业词汇挖掘的专业领域faq智能问答方法 | |
CN110674313B (zh) | 一种基于用户日志动态更新知识图谱的方法 | |
CN109189915A (zh) | 一种基于深度相关匹配模型的信息检索方法 | |
CN112182155B (zh) | 一种基于生成式对抗网络的搜索结果多样化方法 | |
CN113836330A (zh) | 基于生成对抗性自动增强网络的图像检索方法及装置 | |
CN111008285B (zh) | 一种基于论文关键属性网络的作者消歧方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211015 |