CN112069399A - 一种基于交互匹配的个性化搜索*** - Google Patents

一种基于交互匹配的个性化搜索*** Download PDF

Info

Publication number
CN112069399A
CN112069399A CN202010861245.9A CN202010861245A CN112069399A CN 112069399 A CN112069399 A CN 112069399A CN 202010861245 A CN202010861245 A CN 202010861245A CN 112069399 A CN112069399 A CN 112069399A
Authority
CN
China
Prior art keywords
matching
vector
document
user
personalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010861245.9A
Other languages
English (en)
Other versions
CN112069399B (zh
Inventor
窦志成
邴庆禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN202010861245.9A priority Critical patent/CN112069399B/zh
Publication of CN112069399A publication Critical patent/CN112069399A/zh
Application granted granted Critical
Publication of CN112069399B publication Critical patent/CN112069399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明通过人工智能领域的方法,实现了一种基于交互匹配的个性化搜索***,***输入模块、基于交互匹配的个性化搜索模块、输出模块,基于交互匹配的个性化搜索模块的运算过程通过用户搜索历史的底层匹配建模、注意力权值的计算、用户兴趣匹配向量的生成、个性化重排序步骤四个步骤,将基于在单词层面将用户的历史查询与候选文档做交互进行匹配的模型思想,注意力机制减少搜索历史中无关信息的影响的思路,使用卷积神经网络对加权后的匹配方法进行融合,从而生成文档最终的兴趣匹配向量,得到更准确的兴趣匹配分,解决了现有基于向量表示的方法下,排序结果的质量依赖向量构建模型的好坏,且构建向量的过程可能会忽略掉一些有用的信息的技术问题。

Description

一种基于交互匹配的个性化搜索***
技术领域
本发明涉及人工智能领域,尤其涉及一种基于交互匹配的个性化搜索***。
背景技术
利用用户的历史信息来个性化用户搜索已经被证实可以有效提高搜索排序的质量。个性化搜索算法首先根据用户的历史行为等信息对用户的兴趣进行建模,在计算匹配分数时,不仅考虑到查询语句和文档的相关度,还引入了文档和用户兴趣之间的匹配程度,从而针对不同用户个性化定制更满足其需求的搜索结果列表。用户兴趣模型的建立可以基于多种信息来源,如用户的位置信息、检索模式、用户的浏览历史和搜索历史等,目前大多数个性化搜索算法都是基于用户的历史浏览和历史搜索行为来建立用户兴趣模型。近几年,研究者在个性化排序模型中引入了深度学习方法,增强了模型对文本的语义理解能力,在对搜索结果的个性化重排上取得了很好的效果。利用深度学习的排序算法可以分为基于表示匹配和基于交互匹配两种。基于表示匹配是指在排序算法中,先分别学习得到查询和文档的语义向量表示,再将两个向量做匹配计算,这种算法的核心是学习语义向量表示。基于交互匹配的算法则是将查询和文档在更细粒度的单词层面提前做交互,抓取更完整的匹配信号,再利用这些匹配信号融合成一个匹配分,这种算法的核心是如何处理匹配信号将其融合成一个匹配分。现有的个性化搜索算法几乎都是先计算出用户的兴趣表示向量,再与候选文档的表示向量做交互得到个性化匹配分数,使用了基于表示匹配的算法思想。
现有的大部分个性化排序算法都是根据用户的历史行为,通过各种方式直接计算出用户的兴趣表示向量,再与候选文档的表示向量做交互得到个性化匹配分数。这种类型的方法是以文档整体为单位获取其与用户兴趣的匹配信号,重点是将待匹配的文档和用户兴趣转换为表示向量,再进行向量匹配,更侧重对表示层的构建。在这种基于向量表示的方法下,排序结果的质量很大程度上依赖于向量构建模型的好坏,而构建向量的过程可能会忽略掉一些有用的信息,如查询与文档在单词层面的文本信息和交互信息,进而对个性化排序结果造成影响。
发明内容
为此,本发明提出了一种基于交互匹配的个性化搜索***,包括输入模块、基于交互匹配的个性化搜索模块、输出模块;
所述输入模块用于读取用户查询历史和备选文档,对其格式标准化后输入所述基于交互匹配的个性化搜索模块,
所述基于交互匹配的个性化搜索模块的运算过程分为四个步骤:
步骤一:用户搜索历史的底层匹配建模步骤,利用用户的历史搜索信息建立底层匹配模型,将用户的历史查询和候选文档按词做交互,得到底层细致的匹配信号;
步骤二:注意力权值的计算步骤,引入注意力机制,根据用户搜索历史中不同查询记录对当前查询的贡献度,对其对应的匹配信号做加权处理;
步骤三:用户兴趣匹配向量的生成步骤,使用卷积神经网络对加权后的匹配信号进行特征提取,生成文档与用户兴趣最终匹配向量;
步骤四:个性化重排序步骤,通过所述用户兴趣匹配向量的生成步骤得到的所述用户兴趣匹配向量计算候选文档的个性化得分,通过点击特征向量计算其相关度得分,用二者之和作为最终的文档匹配分进行个性化重排;
所述输出模块输出所述文档匹配分和个性化重排结果。
所述用户搜索历史的底层匹配建模步骤具体实现方式为:定义用户的历史查询列表为{q1,q2,q3,…,qn}(其中n≥3,为整数),当前候选文档为d,对于每一个历史查询-候选文档对<qi,d>,首先将二者逐词映射为单词向量,使用word2vec模型进行单词向量的表示,qi经过处理后表示为一组单词向量{qw1,qw2,qw3,…,qwx},d经过处理后表示为{dw1,dw2,dw3,…,dwy}。将两组单词向量中的每个向量两两进行交互,得到<qi,d>的单词匹配矩阵T,所述匹配矩阵T中的每个元素为:
Ti,j=cos(qwi,dwj)
其中Ti,j代表矩阵T中第i行、第j列的元素,qwi代表该历史查询中第i个单词对应的单词向量,dwj代表候选文档中第j个单词对应的单词向量(其中1≤i≤x,1≤j≤y,i、j、x、y均为整数),二者的匹配值由余弦函数计算得出。在K-NRM模型中,对于匹配矩阵中的每一行都应用K个RBF内核,得到一个K维的特征向量
Figure BDA0002648218730000021
RBF内核对应的公式为:
Figure BDA0002648218730000031
其中,Kk(Ti)代表第k个RBF内核对匹配矩阵T的第i行处理后的值,其取值范围在0到y之间;μk和σk均为超参数,μ从-1到1均匀取值,接着,将匹配矩阵中每一行对应的特征向量取对数再求和,作为历史查询qi与候选文档最终的底层匹配结果:
Figure BDA0002648218730000032
对基于用户的历史搜索信息计算出的底层匹配向量用{v1,v2,v3,…,vn}表示,其中的元素为候选文档的细粒度匹配向量v。
所述注意力权值的计算步骤的具体实现方式为:当前查询q与候选文档d的细粒度匹配向量v,为每一条历史查询记录所对应的底层匹配向量计算注意力权值:
ei=g(v,vi)
Figure BDA0002648218730000033
其中,g是一个以tanh作为激活函数的多层感知机,αi是通过注意力层计算出的底层匹配向量vi所对应的权值,加权后的底层匹配向量为:
Figure BDA0002648218730000034
则用户每条历史查询所对应的加权后的细粒度匹配向量为{V1,V2,V3,…,Vn}。
所述用户兴趣匹配向量的生成步骤的具体实现方式为:将加权后的细粒度匹配向量{V1,V2,V3,…,Vn}按列拼接成一个匹配特征矩阵M,M=[V1,V2,V3,…,Vn]∈RK×n,使用100个卷积核对所述匹配特征矩阵M做卷积,得到一个三维张量A∈R100×(K-2)×(n-2),张量A中的每个元素为:
Figure BDA0002648218730000035
其中,t取1≤t≤100的整数,bt为偏置向量b∈R100中的第t个元素值,ft为第t个3×3的卷积核,Mi-1:i+1,j-1:j+1代表匹配特征矩阵M从第i-1行到i+1行、第j-1列到j+1列取值的子矩阵,
Figure BDA0002648218730000036
表示将两个矩阵对应位置的元素相乘并将所有乘积相加求和的运算,卷积层采用了Relu函数作为激活函数,经过卷积层处理后,在池化层对三维张量A的第二和第三个维度应用最大池化,得到一个100维的向量I,It为向量I中的第t个元素:
Figure BDA0002648218730000041
输出的向量I即为最终的用户兴趣匹配向量。
所述卷积核的尺寸为3×3,且每个用户的搜索历史中至少有3条。
所述个性化重排序步骤的具体实现方式为:候选文档与用户兴趣的匹配分数score(d|I)由兴趣匹配向量I通过一个多层感知机训练得到;候选文档与当前查询的相关度分数score(d|q)是根据点击次数、原始点击位置和点击熵三种点击特征,通过一个多层感知机计算得出的;候选文档的最终分数由兴趣匹配分数score(d|I)和相关度分数score(d|q)相加得出,根据该分数对原文档列表进行重排序得到的即为最终的个性化排序结果。
所述候选文档与当前查询的相关度分数计算中,通过LambdaRank算法进行训练,将点击文档作为相关文档样本,其余文档作为不相关样本,选择一个相关文档di和一个不相关文档dj构成文档对来计算损失。损失函数的计算还引入了交换文档对的顺序对评测指标MAP的影响程度,作为相应的权值,即差异越大(交换顺序后MAP变化值大)的文档对被赋予越大的权值。损失函数由实际概率和预测概率之间的交叉熵与MAP评价指标的变化值相乘得到:
Figure BDA0002648218730000042
其中,Δ为文档di和文档dj交换位置后MAP评价指标的变化值,
Figure BDA0002648218730000043
表示文档di比文档dj相关度高的实际概率,pij表示预测概率,预测概率pij计算方法为:
Figure BDA0002648218730000044
本发明所要实现的技术效果在于:
(1)我们引入了基于交互匹配的模型思想,不再将文本转换成唯一的一个整体表示向量,而是在单词层面将用户的历史查询与候选文档做交互,得到更精确、更完整的匹配信号。
(2)我们引入注意力机制,根据不同历史查询对当前匹配的贡献度,对其对应的匹配信号做加权处理,从而减少搜索历史中无关信息的影响。
(3)我们使用卷积神经网络对加权后的匹配信号进行特征提取,生成文档最终的兴趣匹配向量,从而得到更准确的兴趣匹配分。
附图说明
图1基于交互匹配的个性化搜索模块的框架;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
为了实现上述的发明目的,本发明提供了基于交互匹配的个性化搜索***。
***包括输入模块、基于交互匹配的个性化搜索模块、输出模块;所述输入模块用于读取用户查询历史和备选文档,对其格式标准化后输入所述基于交互匹配的个性化搜索模块,所述输出模块输出所述文档匹配分和个性化重排结果。
基于交互匹配的个性化搜索模块,使用卷积神经网络对底层匹配信号进行处理,得到候选文档最终的兴趣匹配结果。
所述基于交互匹配的个性化搜索模块将用户历史行为信息中历史查询与候选文档的词间匹配信号纳入考虑,对于用户的历史查询列表{q1,q2,q3,…,qn},当前候选文档为d,首先通过一个基于交互匹配的K-NRM模型对用户的搜索日志进行处理,得到每一个历史查询qi和候选文档d的细粒度匹配向量vi(其中1≤i≤n),以及当前查询q与候选文档d的细粒度匹配向量v。然后,考虑到用户兴趣是动态变化的,且用户查询有时具有一定的偶然性,用户搜索历史中不同查询对当前查询的贡献度是不同的。根据每个历史查询对当前查询的贡献程度,利用一个多层感知机对上述K-NRM模型产生的匹配向量{v1,v2,v3,…,vn}进行加权处理,得到加权后的匹配向量列表{V1,V2,V3,…,Vn}。而后,利用卷积神经网络处理这些向量,得到候选文档与用户兴趣之间的匹配向量。最后根据兴趣匹配向量与点击特征向量分别计算出当前候选文档的兴趣匹配得分和相关度得分,加和得到最终的文档匹配分,公式如下:
score(d)=score(d|I)+score(d|q)
其中,score(d|I)表示当前候选文档与用户搜索兴趣的匹配分数,score(d|q)表示当前候选文档与当前查询的相关度分数。
基于交互匹配的个性化搜索模块的框架如图1所示,按照处理流程分为以下四个部分:
步骤一:用户搜索历史的底层匹配建模。利用用户的历史搜索信息建立底层匹配模型,将用户的历史查询和候选文档按词做交互,得到底层细致的匹配信号。
步骤二:注意力权值的计算。引入注意力机制,根据用户搜索历史中不同查询记录对当前查询的贡献度,对其对应的匹配信号做加权处理。
步骤三:用户兴趣匹配向量的生成。使用卷积神经网络对加权后的匹配信号进行特征提取,生成文档与用户兴趣的最终匹配向量。
步骤四:个性化重排序。通过上面得到的兴趣匹配向量计算候选文档的个性化得分,通过点击特征向量计算其相关度得分,用二者之和作为最终的文档匹配分进行个性化重排。
用户搜索历史的底层匹配建模步骤:
用户的搜索历史能够为用户搜索兴趣的获取提供丰富的信息。以往的算法大多基于用户的历史行为信息对用户兴趣建模得到一个表示用户搜索偏好的兴趣向量,再与文档向量进行交互处理。我们采用了K-NRM框架,对于每个用户U,利用其历史搜索信息来建立底层匹配模型,将用户历史搜索中的每一条历史查询在底层与候选文档做交互匹配。
用户的历史查询列表为{q1,q2,q3,…,qn},当前候选文档为d。对于每一个历史查询-候选文档对<qi,d>,首先将二者逐词映射为单词向量,使用word2vec模型进行单词向量的表示。qi经过处理后表示为一组单词向量{qw1,qw2,qw3,…,qwx},d经过处理后表示为{dw1,dw2,dw3,…,dwy}。将两组单词向量中的每个向量两两进行交互,得到<qi,d>的单词匹配矩阵T。匹配矩阵T中的每个元素由如下公式给出:
Ti,j=cos(qwi,dwj)
其中Ti,j代表矩阵T中第i行、第j列的元素,qwi代表该历史查询中第i个单词对应的单词向量,dwj代表候选文档中第j个单词对应的单词向量(其中1≤i≤x,1≤j≤y),二者的匹配值由余弦函数计算得出。
由以上描述可知,匹配矩阵中的第i行代表该历史查询中的第i个单词与候选文档的匹配信号。在K-NRM模型中,对于匹配矩阵中的每一行都应用K个RBF内核,得到一个K维的特征向量
Figure BDA0002648218730000071
RBF内核对应的公式如下:
Figure BDA0002648218730000072
其中,Kk(Ti)代表第k个RBF内核对匹配矩阵T的第i行处理后的值,其取值范围在0到y之间;μk和σk均为超参数。我们使用的K-NRM模型中,由于向量的余弦相似度取值在-1到1之间,故μ从-1到1均匀取值。接着,将匹配矩阵中每一行对应的特征向量取对数再求和,作为历史查询qi与候选文档最终的底层匹配结果,如下所示:
Figure BDA0002648218730000073
对于每个历史查询qi,它与当前候选文档有一个K维的匹配向量,该匹配向量即为历史查询qi和候选文档d的细粒度匹配向量vi。当前查询q与候选文档d的细粒度匹配向量v也由上述流程计算得出。至此,我们得到了基于用户的历史搜索信息计算出的底层匹配向量,用{v1,v2,v3,…,vn}表示。
注意力权值的计算步骤:
由于用户的搜索兴趣、搜索模式是动态变化的且用户查询具有一定的偶然性,用户搜索历史中不同查询记录对当前查询的影响程度是不同的。基于这种考虑,本步骤引入了注意力机制,根据不同历史查询对当前匹配的贡献程度,进一步优化各底层匹配向量。
在上一步中,我们得到了利用用户的历史搜索信息计算出的底层匹配向量{v1,v2,v3,…,vn}。本步骤基于当前查询q与候选文档d的细粒度匹配向量v,为每一条历史查询记录所对应的底层匹配向量计算注意力权值。注意力层的输入为上一步计算出的底层匹配向量{v1,v2,v3,…,vn}和v,计算公式如下:
ei=g(v,vi)
Figure BDA0002648218730000074
其中,g(·)是一个以tanh作为激活函数的多层感知机,αi是通过注意力层计算出的底层匹配向量vi所对应的权值。加权后的底层匹配向量由如下公式给出:
Figure BDA0002648218730000081
注意力层根据用户搜索历史中不同历史查询对当前匹配贡献的信息量大小,为贡献更大的历史查询所对应的底层匹配向量给予更多的关注,得到根据贡献程度加权后的优化的底层匹配信息。至此,我们得到了用户每条历史查询所对应的加权后的细粒度匹配向量{V1,V2,V3,…,Vn}。
用户兴趣匹配向量的生成步骤:
将加权后的细粒度匹配向量{V1,V2,V3,…,Vn}按列拼接成一个匹配特征矩阵M,M=[V1,V2,V3,…,Vn]∈RK×n。传统的方式是在该匹配特征矩阵上直接应用最大池化或平均池化,得到用户兴趣匹配向量。但是,考虑到用户搜索历史中可能有数量较多的历史搜索记录,在匹配特征矩阵上直接应用池化或许会忽略掉一些有用的信息,例如相邻历史查询所对应的底层匹配向量之间的关系信息。
为了弥补这种不足,本步骤使用了100个3×3的卷积核f1,f2,…,f100对匹配特征矩阵M做卷积,得到一个三维张量A∈R100×(K-2)×(n-2)。张量A中的每个元素由如下公式给出:
Figure BDA0002648218730000082
其中,1≤t≤100,bt为偏置向量b∈R100中的第t个元素值,ft为第t个3×3的卷积核,Mi-1:i+1,j-1:j+1代表匹配特征矩阵M从第i-1行到i+1行、第j-1列到j+1列取值的子矩阵,
Figure BDA0002648218730000083
表示将两个矩阵对应位置的元素相乘并将所有乘积相加求和的运算。本步骤的卷积层使用了3×3的卷积核,这就要求每个用户的搜索历史中至少有3条历史查询记录。换句话说,本模型不支持历史查询记录小于三条的用户,原因在于过少的历史查询记录不能为用户搜索兴趣的提取提供足够的信息,这种情况下进行文档的个性化重排反而会干扰文档分数的准确计算。除此之外,此处的卷积层采用了Relu函数作为激活函数,相比于sigmoid等其他激活函数,Relu函数计算量较小,且能够避免梯度消失问题。
经过卷积层处理后,我们在池化层对三维张量A的第二和第三个维度应用最大池化(max-pooling),得到一个100维的向量I。It为向量I中的第t个元素,其计算公式如下:
Figure BDA0002648218730000091
池化层的目的是对匹配特征张量A进行进一步的特征提取,输出的向量I即为最终的用户兴趣匹配向量。
个性化重排序步骤
由于候选文档的得分由两部分组成:候选文档与用户兴趣的匹配分数以及与当前查询的相关度分数。候选文档与用户兴趣的匹配分数score(d|I)由兴趣匹配向量I通过一个多层感知机训练得到;候选文档与当前查询的相关度分数score(d|q)是根据点击次数、原始点击位置和点击熵三种点击特征,通过一个多层感知机计算得出的。候选文档的最终分数由兴趣匹配分数score(d|I)和相关度分数score(d|q)相加得出,根据该分数对原文档列表进行重排序得到的即为最终的个性化排序结果。
本步骤选择了LambdaRank算法进行训练,将点击文档作为相关文档样本,其余文档作为不相关样本,选择一个相关文档di和一个不相关文档dj构成文档对来计算损失。损失函数由实际概率和预测概率之间的交叉熵与MAP评价指标的变化值相乘得到,计算公式如下:
Figure BDA0002648218730000092
其中,Δ为MAP评价指标的变化值,
Figure BDA0002648218730000093
表示文档di比文档dj相关度高的实际概率,pij表示其预测概率;
Figure BDA0002648218730000094
表示文档dj比文档di相关度高的实际概率,pji表示其预测概率。预测概率pij由如下公式计算得出:
Figure BDA0002648218730000095
最终得到的个性化排序结果输出至输出模块对外输出。

Claims (7)

1.一种基于交互匹配的个性化搜索***,其特征在于:包括输入模块、基于交互匹配的个性化搜索模块、输出模块;
所述输入模块用于读取用户查询历史和备选文档,对其格式标准化后输入所述基于交互匹配的个性化搜索模块,
所述基于交互匹配的个性化搜索模块的运算过程分为四个步骤:
步骤一:用户搜索历史的底层匹配建模步骤,利用用户的历史搜索信息建立底层匹配模型,将用户的历史查询和候选文档按词做交互,得到底层细致的匹配信号;
步骤二:注意力权值的计算步骤,引入注意力机制,根据用户搜索历史中不同查询记录对当前查询的贡献度,对其对应的匹配信号做加权处理;
步骤三:用户兴趣匹配向量的生成步骤,使用卷积神经网络对加权后的匹配信号进行特征提取,生成文档与用户兴趣最终匹配向量;
步骤四:个性化重排序步骤,通过所述用户兴趣匹配向量的生成步骤得到的所述用户兴趣匹配向量计算候选文档的个性化得分,通过点击特征向量计算其相关度得分,用二者之和作为最终的文档匹配分进行个性化重排;
所述输出模块输出所述文档匹配分和个性化重排结果。
2.如权利要求1所述一种基于交互匹配的个性化搜索***,其特征在于:所述用户搜索历史的底层匹配建模步骤具体实现方式为:定义用户的历史查询列表为{q1,q2,q3,…,qn},其中n取n≥3的整数,当前候选文档为d,对于每一个历史查询-候选文档对<qi,d>,首先将二者逐词映射为单词向量,使用word2vec模型进行单词向量的表示,qi经过处理后表示为一组单词向量{qw1,qw2,qw3,…,qwx},d经过处理后表示为{dw1,dw2,dw3,…,dwy},将两组单词向量中的每个向量两两进行交互,得到<qi,d>的单词匹配矩阵T,所述匹配矩阵T中的每个元素为:
Ti,j=cos(qwi,dwj)
其中Ti,j代表矩阵T中第i行、第j列的元素,qwi代表该历史查询中第i个单词对应的单词向量,dwj代表候选文档中第j个单词对应的单词向量,其中1≤i≤x,1≤j≤y,i、j、x、y均为整数,二者的匹配值由余弦函数计算得出,在K-NRM模型中,对于匹配矩阵中的每一行都应用K个RBF内核,得到一个K维的特征向量
Figure FDA0002648218720000011
RBF内核对应的公式为:
Figure FDA0002648218720000021
其中,Kk(Ti)代表第k个RBF内核对匹配矩阵T的第i行处理后的值,其取值范围在0到y之间;μk和σk均为超参数,μ从-1到1均匀取值,接着,将匹配矩阵中每一行对应的特征向量取对数再求和,作为历史查询qi与候选文档最终的底层匹配结果:
Figure FDA0002648218720000022
对基于用户的历史搜索信息计算出的底层匹配向量用{v1,v2,v3,…,vn}表示,其中的元素为候选文档的细粒度匹配向量v。
3.如权利要求2所述一种基于交互匹配的个性化搜索***,其特征在于:所述注意力权值的计算步骤的具体实现方式为:当前查询q与候选文档d的细粒度匹配向量v,为每一条历史查询记录所对应的底层匹配向量计算注意力权值:
ei=g(v,vi)
Figure FDA0002648218720000023
其中,g是一个以tanh作为激活函数的多层感知机,αi是通过注意力层计算出的底层匹配向量vi所对应的权值,加权后的底层匹配向量为:
Figure FDA0002648218720000024
则用户每条历史查询所对应的加权后的细粒度匹配向量为{V1,V2,V3,…,Vn}。
4.如权利要求3所述一种基于交互匹配的个性化搜索***,其特征在于:所述用户兴趣匹配向量的生成步骤的具体实现方式为:将加权后的细粒度匹配向量{V1,V2,V3,…,Vn}按列拼接成一个匹配特征矩阵M,M=[V1,V2,V3,…,Vn]∈RK×n,使用100个卷积核对所述匹配特征矩阵M做卷积,得到一个三维张量A∈R100×(K-2)×(n-2),张量A中的每个元素为:
Figure FDA0002648218720000025
其中,t取1≤t≤100的整数,bt为偏置向量b∈R100中的第t个元素值,ft为第t个3×3的卷积核,Mi-1:i+1,j-1:j+1代表匹配特征矩阵M从第i-1行到i+1行、第j-1列到j+1列取值的子矩阵,
Figure FDA0002648218720000026
表示将两个矩阵对应位置的元素相乘并将所有乘积相加求和的运算,卷积层采用了Relu函数作为激活函数,经过卷积层处理后,在池化层对三维张量A的第二和第三个维度应用最大池化,得到一个100维的向量I,It为向量I中的第t个元素:
Figure FDA0002648218720000031
输出的向量I即为最终的用户兴趣匹配向量。
5.如权利要求4所述一种基于交互匹配的个性化搜索***,其特征在于:所述卷积核的尺寸为3×3,且每个用户的搜索历史中至少有3条。
6.如权利要求5所述一种基于交互匹配的个性化搜索***,其特征在于:所述个性化重排序步骤的具体实现方式为:候选文档与用户兴趣的匹配分数score(d|I)由兴趣匹配向量I通过一个多层感知机训练得到;候选文档与当前查询的相关度分数score(d|q)是根据点击次数、原始点击位置和点击熵三种点击特征,通过一个多层感知机计算得出的;候选文档的最终分数由兴趣匹配分数score(d|I)和相关度分数score(d|q)相加得出,根据该分数对原文档列表进行重排序得到的即为最终的个性化排序结果。
7.如权利要求6所述一种基于交互匹配的个性化搜索***,其特征在于:所述候选文档与当前查询的相关度分数计算中,通过LambdaRank算法进行训练,将点击文档作为相关文档样本,其余文档作为不相关样本,选择一个相关文档di和一个不相关文档dj构成文档对来计算损失,损失函数的计算还引入了交换文档对的顺序对评测指标MAP的影响程度,作为相应的权值,即交换顺序后MAP变化值大、的文档差异越大,则对被赋予越大的权值,损失函数由实际概率和预测概率之间的交叉熵与MAP评价指标的变化值相乘得到:
Figure FDA0002648218720000032
Figure FDA0002648218720000033
其中,Δ为文档di和文档dj交换位置后MAP评价指标的变化值,
Figure FDA0002648218720000034
表示文档di比文档dj相关度高的实际概率,pij表示预测概率。
CN202010861245.9A 2020-08-25 2020-08-25 一种基于交互匹配的个性化搜索*** Active CN112069399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010861245.9A CN112069399B (zh) 2020-08-25 2020-08-25 一种基于交互匹配的个性化搜索***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010861245.9A CN112069399B (zh) 2020-08-25 2020-08-25 一种基于交互匹配的个性化搜索***

Publications (2)

Publication Number Publication Date
CN112069399A true CN112069399A (zh) 2020-12-11
CN112069399B CN112069399B (zh) 2023-06-02

Family

ID=73658899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010861245.9A Active CN112069399B (zh) 2020-08-25 2020-08-25 一种基于交互匹配的个性化搜索***

Country Status (1)

Country Link
CN (1) CN112069399B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987155A (zh) * 2021-11-25 2022-01-28 中国人民大学 一种融合知识图谱与大规模用户日志的会话式检索方法
CN114357231A (zh) * 2022-03-09 2022-04-15 城云科技(中国)有限公司 一种基于文本的图像检索方法、装置及可读存储介质
CN117851444A (zh) * 2024-03-07 2024-04-09 北京谷器数据科技有限公司 一种基于语义理解下的高级搜索方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291871A (zh) * 2017-06-15 2017-10-24 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
CN107957993A (zh) * 2017-12-13 2018-04-24 北京邮电大学 英文句子相似度的计算方法及装置
US20180349477A1 (en) * 2017-06-06 2018-12-06 Facebook, Inc. Tensor-Based Deep Relevance Model for Search on Online Social Networks
US20190114511A1 (en) * 2017-10-16 2019-04-18 Illumina, Inc. Deep Learning-Based Techniques for Training Deep Convolutional Neural Networks
CN111125538A (zh) * 2019-12-31 2020-05-08 中国人民大学 一个利用实体信息增强个性化检索效果的搜索方法
CN111177357A (zh) * 2019-12-31 2020-05-19 中国人民大学 一个基于记忆神经网络的对话式信息检索的方法
CN111310023A (zh) * 2020-01-15 2020-06-19 中国人民大学 基于记忆网络的个性化搜索方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180349477A1 (en) * 2017-06-06 2018-12-06 Facebook, Inc. Tensor-Based Deep Relevance Model for Search on Online Social Networks
CN107291871A (zh) * 2017-06-15 2017-10-24 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
US20190114511A1 (en) * 2017-10-16 2019-04-18 Illumina, Inc. Deep Learning-Based Techniques for Training Deep Convolutional Neural Networks
CN107957993A (zh) * 2017-12-13 2018-04-24 北京邮电大学 英文句子相似度的计算方法及装置
CN111125538A (zh) * 2019-12-31 2020-05-08 中国人民大学 一个利用实体信息增强个性化检索效果的搜索方法
CN111177357A (zh) * 2019-12-31 2020-05-19 中国人民大学 一个基于记忆神经网络的对话式信息检索的方法
CN111310023A (zh) * 2020-01-15 2020-06-19 中国人民大学 基于记忆网络的个性化搜索方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENYAN XIONG ET AL.: "End-to-End Neural Ad-hoc Ranking with Kernel Pooling", 《RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
周雨佳 等: "基于递归神经网络与注意力机制的动态个性化搜索算法", 《计算机学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987155A (zh) * 2021-11-25 2022-01-28 中国人民大学 一种融合知识图谱与大规模用户日志的会话式检索方法
CN113987155B (zh) * 2021-11-25 2024-03-26 中国人民大学 一种融合知识图谱与大规模用户日志的会话式检索方法
CN114357231A (zh) * 2022-03-09 2022-04-15 城云科技(中国)有限公司 一种基于文本的图像检索方法、装置及可读存储介质
CN114357231B (zh) * 2022-03-09 2022-06-28 城云科技(中国)有限公司 一种基于文本的图像检索方法、装置及可读存储介质
CN117851444A (zh) * 2024-03-07 2024-04-09 北京谷器数据科技有限公司 一种基于语义理解下的高级搜索方法
CN117851444B (zh) * 2024-03-07 2024-06-04 北京谷器数据科技有限公司 一种基于语义理解下的高级搜索方法

Also Published As

Publication number Publication date
CN112069399B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN109299396B (zh) 融合注意力模型的卷积神经网络协同过滤推荐方法及***
CN110516160B (zh) 基于知识图谱的用户建模方法、序列推荐方法
CN110188358B (zh) 自然语言处理模型的训练方法及装置
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
CN110929164A (zh) 一种基于用户动态偏好与注意力机制的兴趣点推荐方法
CN112069399B (zh) 一种基于交互匹配的个性化搜索***
Li et al. Heuristic rank selection with progressively searching tensor ring network
CN110232122A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN111737578A (zh) 一种推荐方法及***
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
Gad et al. A robust deep learning model for missing value imputation in big NCDC dataset
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN110222838B (zh) 文档排序方法、装置、电子设备及存储介质
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
CN112115371A (zh) 一种基于因子分解机的神经注意力机制手机应用推荐模型
CN111178986B (zh) 用户-商品偏好的预测方法及***
Jiang et al. An intelligent recommendation approach for online advertising based on hybrid deep neural network and parallel computing
CN116976505A (zh) 基于信息共享的解耦注意网络的点击率预测方法
Dinov et al. Black box machine-learning methods: Neural networks and support vector machines
CN117648469A (zh) 一种基于对比学习的交叉双塔结构答案选择方法
Kuo et al. An application of differential evolution algorithm-based restricted Boltzmann machine to recommendation systems
Alcin et al. OMP-ELM: orthogonal matching pursuit-based extreme learning machine for regression
CN116910375A (zh) 一种基于用户偏好多样性的跨域推荐方法及***
Kushwaha et al. Textual data dimensionality reduction-a deep learning approach
Lima et al. A grammar-based GP approach applied to the design of deep neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant