CN111581545A

CN111581545A - 一种召回文档的排序方法及相关设备

Info

Publication number: CN111581545A
Application number: CN202010399795.3A
Authority: CN
Inventors: 彭江军; 周智昊; 王禹; 安明洋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-08-25
Anticipated expiration: 2040-05-12
Also published as: CN111581545B

Abstract

本申请提供了一种召回文档的排序方法及相关设备，涉及人工智能中的机器学习，通过对点击概率构建召回文档的标签进行训练得到的预设排序模型，进而在通过预设排序模型对搜索词条对应的召回结果进行排序时，提高排序的准确率。该方法包括：获取目标词条对应的召回文档集合，所述目标词条为待搜索的词条；确定第一目标召回文档的特征数据；基于预设排序模型以及所述第一目标召回文档的特征数据生成所述召回文档集合中每个召回文档的排序得分；基于所述召回文档集合中每个召回文档的排序得分对所述召回文档集合中的召回文档进行排序。

Description

一种召回文档的排序方法及相关设备

技术领域

本申请涉及搜索排序领域，尤其涉及一种召回文档的排序方法及相关设备。

背景技术

随着互联网应用的发展，搜索处理技术也日渐成熟。将用户输入的搜索词表示成特定的形式，来与待排序的搜索结果条目进行排序分数的计算，从而根据排序分数返回更准确的搜索排序结果，是搜索***的核心问题。

目前采用的排序方案是将position直接带入网络进行训练，训练的时候由于用户点击数据中含有position数值，因此可以学出来position对于总体预测分数的影响，然后在预测的时候，将所有的文档的position全部置换成1，即在预测的时候认为所有的文档的排序全部都是1。

但是，在实际训练的时候position和许多其他的特征一起进行训练，导致position这一维度特征对于模型的输出分值贡献很小，进而导致采用该模型对搜索词条的召回结果进行排序时，准确率不高。

发明内容

本申请提供了一种召回文档的排序方法及相关设备，提前对点击概率构建召回文档的标签进行训练得到的预设排序模型，进而在通过预设排序模型对搜索词条对应的召回结果进行排序时，提高排序的准确率。

本申请第一方面提供了一种召回文档的排序方法，包括：

获取目标词条对应的召回文档集合，所述目标词条为待搜索的词条；

确定第一目标召回文档的特征数据，所述第一目标召回文档为所述召回文档集合任意一个召回文档，所述第一目标召回文档的特征数据为所述第一目标召回文档在第一目标位次被点击的概率、所述第一目标召回文档排在所述第一目标位次被浏览的概率、所述第一目标召回文档与所述目标词条的相关性概率以及所述第一目标召回文档对应的历史点击行为数据；

基于预设排序模型以及所述第一目标召回文档的特征数据生成所述召回文档集合中每个召回文档的排序得分，所述预设排序模型为通过对训练数据集进行训练得到的，所述训练数据集包括M个召回文档中每个召回文档的标签，M个召回文档与目标搜索词条相对应，所述目标搜索词条为N个搜索词条中的任意一个搜索词条，M和N均为大于或等于1的正整数；

基于所述召回文档集合中每个召回文档的排序得分对所述召回文档集合中的召回文档进行排序。

可选地，所述方法还包括：

获取所述M个召回文档；

确定所述M个召回文档中每个召回文档对应的点击概率；

根据所述M个召回文档中每个召回文档对应的点击概率生成所述M个召回文档中每个召回文档的标签；

通过所述M个召回文档中每个召回文档的标签进行模型训练，得到所述预设排序模型。

可选地，所述确定所述M个召回文档中每个召回文档对应的点击概率包括：

确定第二目标召回文档的特征数据，所述第二目标召回文档为所述M个召回文档中任意一个召回文档；

根据所述第二目标召回文档的特征数据确定所述M个召回文档中每个召回文档对应的点击概率。

可选地，所述第二目标召回文档的特征数据包括所述第二目标召回文档在第二目标位次被点击的概率、所述第二目标召回文档在所述第二目标位次被浏览的概率、所述第二目标召回文档与所述目标搜索词条的相关性概率以及所述第二目标召回文档对应的点击行为数据，所述根据所述第二目标召回文档的特征数据确定所述M个召回文档中每个召回文档对应的点击概率：

根据所述第二目标召回文档在第二目标位次被点击的概率、所述第二目标召回文档在所述第二目标位次被浏览的概率、所述第二目标召回文档与所述目标搜索词条的相关性概率以及所述第二目标召回文档对应的点击行为数据确定所述M个召回文档中每个召回文档对应的点击概率。

可选地，所述根据所述M个召回文档中每个召回文档对应的点击概率生成所述M个召回文档中每个召回文档的标签包括：

将所述M个召回文档中每个召回文档对应的点击概率进行排序，得到排序结果；

根据所述排序结果生成所述M个召回文档中每个召回文档的标签。

可选地，所述通过所述M个召回文档中每个召回文档的标签进行模型训练，得到预设排序模型：

基于搜索评价指标，通过所述M个召回文档中每个召回文档的标签进行模型训练，得到所述预设排序模型。

本申请第二方面提供了一种召回文档的排序装置，包括：

获取单元，用于获取目标词条对应的召回文档集合，所述目标词条为待搜索的词条；

确定单元，用于确定第一目标召回文档的特征数据，所述第一目标召回文档为所述召回文档集合任意一个召回文档，所述第一目标召回文档的特征数据为所述第一目标召回文档在第一目标位次被点击的概率、所述第一目标召回文档排在所述第一目标位次被浏览的概率、所述第一目标召回文档与所述目标词条的相关性概率以及所述第一目标召回文档对应的历史点击行为数据；

生成单元，用于基于预设预设排序模型以及所述第一目标召回文档的特征数据生成所述召回文档集合中每个召回文档的排序得分，所述预设排序模型为通过对训练数据集进行训练得到的，所述训练数据集包括M个召回文档中每个召回文档的标签，M个召回文档与目标搜索词条相对应，所述目标搜索词条为N个搜索词条中的任意一个搜索词条，M和N均为大于或等于1的正整数；

排序单元，用于基于所述召回文档集合中每个召回文档的排序得分对所述召回文档集合中的召回文档进行排序。

可选地，所述召回文档的排序装置还包括：

训练单元，所述训练单元包括：

获取模块，用于获取所述M个召回文档；

确定模块，用于确定所述M个召回文档中每个召回文档对应的点击概率；

生成模块，用于根据所述M个召回文档中每个召回文档对应的点击概率生成所述M个召回文档中每个召回文档的标签；

训练模块，用于通过所述M个召回文档中每个召回文档的标签进行模型训练，得到所述预设排序模型。

可选地，所述确定模块具体用于：

可选地，所述第二目标召回文档的特征数据为所述第二目标召回文档在第二目标位次被点击的概率、所述第二目标召回文档在所述第二目标位次被浏览的概率、所述第二目标召回文档与所述目标搜索词条的相关性概率以及所述第二目标召回文档对应的点击行为数据，所述确定模块根据所述第二目标召回文档的特征数据确定所述M个召回文档中每个召回文档对应的点击概率：

可选地，所述生成模块具体用于：

可选地，所述训练模块具体用于：

本申请第三方面提供了一种计算机装置，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储程序代码，所述程序代码由所述处理器加载并执行以实现上述所述的召回文档的排序方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述所述的召回文档的排序方法的步骤。

综上所述，可以看出，本申请提供的实施例中，通过预先对训练数据集进行训练得到预设排序模型，该训练数据集包括召回文档中各个文档的标签，不在通过直接通过每个文档的点击概率进行训练，而是通过点击概率生成各个文档的标签，这样提前对点击概率构建召回文档的标签进行训练得到的预设排序模型，进而在通过预设排序模型对搜索词条对应的召回结果进行排序时，提高排序的准确率。

附图说明

图1为本申请实施例提供的Pointwise模式下召回文档的排序流程示意图；

图2为本申请实施例提供的点击数据的推导示意图；

图3为本申请实施例提供的召回文档的排序方法的一个流程示意图；

图4为本申请实施例提供的召回文档的排序方法的另一流程示意图；

图5为本申请实施例提供的预设排序模型的训练流程示意图；

图6A为本申请实施例提供的现有的排序模型与本申请的预设排序模型的分桶长转化率(KPI口径)对比示意图；

图6B为本申请实施例提供的现有的排序模型和本申请的预设排序模型的分桶点击率(CVR)对比示意图；

图6C为本申请实施例提供的现有的排序模型与本申请的预设排序模型的分桶点击率(CTR)对比示意图；

图7为本申请实施例提供的召回文档的排序装置的虚拟结构示意图；

图8为本申请实施例提供的服务器的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个***中，或一些特征向量可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

下面对本申请实施例的召回文档的排序方法中涉及到的一些名词进行说明：

Pointwise模式：将排序看成一个个独立的二分类问题，预测在一次搜索下，返回的视频文档的概率，其点击的概率和当前搜索下的其他视频文档无关。如下面图1所示，每个文档可以独立的构成一个训练样本，如图1中的101对应的训练数据(Training data)，图1中通过学习***(Learning system)102对101的训练数据进行训练，得到103模型h(Modelh)，之后通过测试数据(Test Data)104进行测试，得到105排列***(Ranking System)，由此可以通过排列***对文档进行排序(prediction)；

Pairwise模式：将需要排序的文档两两组成pair对(d1，d2)，预测两两之间谁更可能点击。将两两的document组成训练样本；

Listwise模式：根据返回的文档的顺序，学习整个文档集合的顺序。将一次搜索下返回的所有document组成一个训练样本；

位置偏差：受界面展示和用户心理的影响，用户绝大多数都会倾向于点击头部的结果，这种位置上带来的点击差异，就是所谓的位置偏差；

会话(session):一次搜索事件下，用户从开始输入到关闭搜索页(可以是退出APP，或者进入观看界面等)，然后根据用户的点击，可以看到一次session下用户对每个召回排序的文档的点击情况；

EM算法：期望最大化算法(ExpectationMaximum)的简称，是一种机器学习算法，求解过程分为两部分，E步(Expectation):对于优化过程中需要求解的中间变量求上一次迭代参数下的期望；M步(Maximum)：根据E步计算值，算出新的参数。E-M步循环迭代，直到满足停止条件。

召回：用户输入词条后，搜索引擎会把和输入相关的文档先从海量的文档库里面召回一部分，排序算法在对召回的这部分进行排序。

排序模型一般都是通过计算各个召回文档的分值，之后基于分值进行排序，目前来说一般有三种方式来得到排序结果：

1：统计每个位次上点击的平均概率，作为分母，然后用预测出来的概率或者分数除上分母得到最终的分值；

2，将position直接带入网络进行训练，训练的时候由于用户点击数据中含有position数值，因此可以学出来position对于总体预测分数的影响。然后在预测的时候，将所有的文档的position全部置换成1，即在预测的时候认为所有的文档的排序全部都是1。如此反向相处位置的影响；

3：基于EM算法的回归模型：假定文档被点击的会经历两个过程，先浏览在点击。假定浏览的概率和文档的特征无关，只和位置有关。通过EM算法求解每个位置处的被浏览的概率和每个query下文档被点击的概率，再依据query下文档的概率进行抽样，选择正样本，即点击样本，在进行pointwise模型训练。

但是采用第1种方法，统计的方法粒度最粗，效果不突出，提升不明显；采用第2种方法，基于网络的反向消除position bias对于position利用率不够、这是因为实际训练的时候position和许多其他的特征一起丢进深度网络，这样就导致position对于整体点击的权重会被其他较为重要的特征给稀释掉。从而position这一维度特征对于模型的输出分值贡献很小。采用第3种方法，从无偏学习的角度，从有偏的用户点击样本中推测出无偏的数据。然后在根据无偏的数据的概率进行采样。增加正样本占总体的比例，提高数据的质量，从而提升模型的效果。但是依靠概率进行采样得到的正样本的比例太小，很难对整体的正负样本比例产生较大的变化。

请参阅表1，表1为本申请实施例提供的根据视频用户点击数据采用EM_regression(基于EM算法的回归模型归)得到的query-doc(查询词条-文档)被点击的概率分布情况，基于EM算法的回归模型：假定文档被点击的会经历两个过程，先浏览在点击。假定浏览的概率和文档的特征无关，只和位置有关。通过EM算法求解每个位置处的被浏览的概率和每个query下文档被点击的概率，再依据query下文档的概率进行抽样，选择正样本，即点击样本，在进行pointwise模型训练：

表1

表1中第二列表示在无点击样本中query-doc的概率大于阈值的样本的个数。比如第一行无点击的样本数目有2966W(万)个，其中1001W的样本的预估出来的概率是大于0.001的。表1中的第三以及四列表示训练样本的概率的均值和中位数。点击样本表示的是该份数据集合中点击样本的个数。最后一列表示将概率值大于0的都记为正样本后正样本增加的比例。

EM-regression的做法是将无点击样本依据EM算法得到的概率进行采样。通过采样新增的正样本的个数为：1001W*0.027＝27.027W；新增正样本加入后，将改善数据的正负样本比例。正负样本的比例由之前的442W/3408W＝0.1297变为469.07W/3408W＝0.1376。由此可以看出，对于整体的正负样本比例提升的幅度很小，增幅0.79％，新增了少部分的正样本，对于提升数据质量是有帮助的，但是帮助的幅度比较小。

请参阅图2，图2为本申请实施例提供的点击数据的推导示意图，包括：201页面展示、202点击数据、203数学编码以及204预估概率，201页面展示展示某个搜索词条对应的文档(图2中以5个文档为例进行说明)，用户可以对展示的文档进行点击，收集到202点击数据(如图2中对文档2进行点击)，之后通过编码对点击数据进行编码，得到203的数据编码(点击为1，不点击为0)，即可以推荐204预估概率，得到文档2的预估概率为1，文档1的预估概率为0.05。如图2的点击模型是对用户的点击数据进行训练，其编码的方式是采用one-hot编码，点击为1，不点击为0，然后构造样本集合进行模型训练，该模式称为为pointwise模式，其损失函数为：

本申请中对用户的点击数据进行推断，得到一次搜索下，召回文档被点击的概率，如图2中的203预估概率，然后再根据样本的概率构造一次搜索下的文档的排序列表，获取到足够多的样本后进行训练，得到预设排序模型。

请参阅图3，图3为本申请实施例提供的召回文档的排序方法的一个流程示意图，包括：

301、日志收集过滤，其中包括用户搜索过的词条、该词条对应的召回文旦，以及用户每次搜索对应的点击行为。

302、构造EM算法，可以通过用户搜索过的词条、该词条对应的召回文旦，以及用户每次搜索对应的点击行为构造EM算法，为了便于构造EM算法，这里定义一些符号，排序的位次记为k，用户浏览位次k上的文档的概率只和位次有关，也即位次k上的文档的浏览概率记为θ_k，在一次会话下，用户搜索的词条记为query，也即目标搜索词条，一次query搜索下，某个文档记为d，在这个query下，d文档与该query的相关性概率记为γ_q,d。用户的点击行为可以分解成先浏览，然后浏览的文档和搜索的词条相关。用户的点击行为记为C，浏览行为记为E，query和文档之间相关性变量记为R。

在某次搜索下(一次搜索对应一个词条)，某个文档排在第k位被点击的概率记为P(C＝1|q，d，k)该文档排在k位上的浏览概率记为P(E＝1|k)，该搜索词条和该文档之间的相关性概率记为P(R＝1|q，d)。因此用户的浏览过程可以建模如下：

P(C＝1|q,d,k)＝P(E＝1|k)*P(R＝1|q,d)；

为了便于描述，标记θ_k＝P(E＝1|k)，γ_q,d＝P(R＝1|q,d)。

303、求解得到γ_q,d，θ_k，在构造完EM算法之后，可以通过EM算法求解得到γ_q,d和θ_k。

304、Lable设计，通过对每个搜索词条对应的M个召回文档中的每个召回文档的点击概率进行设计，得到每个搜索词条下各个召回文档的标签；

305、Listwise训练得到Ranker，通过Listwise模式对每个搜索词条下各个召回文档的标签进行训练，得到预设排序模型；

306、Online排序，线上发布预设排序模型，接收用户输入的搜索词条，并根据输入词条获取召回文档，通过预设排序模型得到召回文档的排序得分，并根据得分进行排序，得到排序结果。

由此，通过召回文档中各个文档的点击概率来分别生成各召回文档的标签，并基于Listwise模式对标签进行模型训练，得到预设排序模型，将有偏学习学习在一定程度上转化为无偏学习，提高了训练的质量，由此，通过该模型进行召回文档排序时，可以提高排序结果的准确性。

下面从召回文档的排序装置的角度对本申请实施例提供的召回文档的排序方法进行说明，该召回文档的排序装置可以为服务器，也可以为服务器中的服务单元，具体不做限定。

请参阅图4，图4为本申请实施例提供的召回文档的排序方法的另一流程示意图，包括：

401、获取目标词条对应的召回文档集合。

本实施例中，召回文档的排序装置可以获取目标词条对应的召回文档集合，其中，该目标词条为待搜索的词条，此处具体不限定获取目标词条对应的召回文档集合的方式，例如接收用户输入的目标词条，之后根据目标词条从文档库中获取与目标词条对应的召回文档集合。

402、确定第一目标召回文档的特征数据。

本实施例中，召回文档的排序装置可以确定第一目标召回文档的特征数据，该第一目标召回文档为召回文档集合中的任意一个召回文档，该第一目标召回文档的特征数据为第一目标召回文档在第一目标位次被点击的概率、第一目标召回文档在第一目标位次被浏览的概率、第一目标召回文档与目标词条的相关性概率以及第一目标召回文档对应的历史点击行为数据(例如在之前的搜索词条中出现了该第一目标召回文档时，该第一目标召回文档被点击则该点击行为数据为1，不被点击则该点击行为数据为0，此处具体不限定确定第一目标召回文档的特征数据方式，例如可以通过预先训练好的特征模型来确定)。

需要说明的是，该第一目标召回文档的特征数据还可以包括其他的数据，例如该第一目标召回文档对应的时间数据，如该第一目标召回文档的上架时间等时间数据，具体不做限定。

403、基于预设排序模型以及第一目标召回文档的特征数据生成召回文档集合中每个召回文档的排序得分。

本实施例中，召回文档的排序装置可以通过预先训练好的预设排序模型以及第一目标召回文档的特征数据生成召回文档集合中每个召回文档的排序得分。

可以理解的是，该预设排序模型为预先通过对训练数据集进行训练得到的，用来对召回文档进行评分的模型，该训练数据集包括M个召回文档中每个召回文档的标签，该M个召回文档为目标搜索词条对应的召回文档，该目标搜索词条为N个搜索词条中的任意一个搜索词条，其中，该M个召回文档中每个召回文档的标签为根据M个召回文档中每个召回文本的点击概率生成，该M个召回文档中每个召回文档的点击概率为根据第二目标召回文档的特征数据生成，该第二目标召回文档为M个召回文档中任意一个召回文档。

404、基于召回文档集合中每个召回文档的排序得分对召回文档集合中的召回文档进行排序。

本实施例中，在通过预设排序模型得到召回文档集合中每个召回文档的排序得分之后，可以按照降序的方式对排序得分进行排序，得到目标词条对应的排序结果。

下面结合图5对本申请实施例提供的预设排序模型的训练进行说明，请参阅图5，图5为本申请实施例提供的预设排序模型的训练流程示意图，包括：

501、获取M个召回文档。

本实施例中，召回文档的排序装置可以从N个搜索词条中任意挑选一个搜索词条作为目标搜索词条，并获取该目标搜索词条对应的M个召回文档集合。此处具体不限定获取的方式，数据库中存储有多个搜索词条以及该多个搜索词条对应的召回文档，以及每个搜索词条对应的用户的点击行为，此时，可以直接从数据库中获取到目标搜索词条，其中，该目标搜索词条包含于M个召回文档中，目标搜索词条为N个搜索词条中的任意一个搜索词条，N和M均为大于或等于1的正整数。也就是说，该目标搜索词条对应的召回文档的数量有M个。

502、确定M个召回文档中每个召回文档对应的点击概率。

本实施例中，召回文档的排序装置在获取到M个召回文档之后，确定M个召回文档中每个召回文档对应的点击概率。具体的，可以确定第二目标召回文档的特征数据，该第二目标召回文档为M个召回文档中的任意一个召回文档，之后根据该第二目标召回文档的特征数据确定M个召回文档中每个召回文档的点击概率。

需要说明的是，该第二目标召回文档的特征数据包括第二目标召回文档在第二目标位次被点击的概率、第二目标召回文档在第二目标位次被点击的概率、第二目标召回文档在第二目标位次被浏览的概率、第二目标召回文档与目标搜索词条的相关性概率以及第二目标召回文档对应的点击行为数据，具体的，可以根据第二目标召回文档在第二目标位次被点击的概率、第二目标召回文档在第二目标位次被浏览的概率、第二目标召回文档与目标搜索词条的相关性概率以及第二目标召回文档对应的点击行为数据确定M个召回文档中每个召回文档对应的点击概率

一个实施例中，召回文档的排序装置确定第二目标召回文档在第二目标位次的浏览概率以及第二目标召回文档与目标搜索词条的相关性概率包括：

通过迭代执行如下公式计算所述浏览概率：

其中，

为第二目标召回文档排在第二目标位次k时的浏览概率，c为目标搜索词条对应的点击行为，点击为1，不点击为0，q为目标搜索词条，d为M个召回文档，I为示性函数，k′为M个召回文档中每个召回文档对应的位次，P(E＝1|C＝0,q,d,k)为M个召回文档中未被点击的召回文档被点击的概率；

通过迭代执行如下公式计算相关性概率：

其中，γ_q,d ^t+1为第二目标召回文档与目标搜索词条的相关性概率，R为目标搜索词条与第二目标召回文档的相关性变量，d′为M个召回文档，q′为N个搜索词词条，P(R＝1|C＝0,q,d,k)为M个召回文档中未被点击的召回文档与目标搜索词条的相关性概率。

本实施例中，EM算法分为两步，第一步是计算期望(E)，利用对隐藏变量的现有估计值，计算其最大似然估计值；第二步是最大化(M)，最大化(M)是在E步上求得的最大似然值来计算参数的值，M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。具体的，

对于上述已经定义好了的目标搜索词条对应的可观测的数据L＝{(c,q,d,k)}，log似然函数为：

logP(L)＝∑_{(c,q,d,k)∈L}clog(θ_kγ_q,d)+(1-c)log(1-θ_kγ_q,d)；

求解上述log似然函数，具体如下：

第一步(也即EM算法中的E步)：

基于上一次迭代(第t次迭代)的参数

求解几个中间变量的期望值，该几个中间变量如下：

由此可以从目标搜索词条对应不完全数据里面估计边缘概率P(E＝1|C，q，d，k)和P(R＝1|C，q，d，k)。

第二步(也即EM算法中的M步)：

通过迭代执行如下公式计算第二目标召回文档在第二目标位次的浏览概率以及第二目标召回文档与目标搜索词条的相关性概率：

其中，I为示性函数，满足如下两个条件时，为1，否者为0：

由此，可以得到第二目标召回文档在第二目标位次的浏览概率

以及，目标搜索词条与第二目标召回文档的相关性概率

之后，可以通过浏览概率

与相关性概率

相乘即可以得到第二目标召回文档的点击概率。由此可以得到目标搜索词条对应的M个召回文档中每个召回文档的点击概率。

503、根据M个召回文档中每个召回文档对应的点击概率生成M个召回文档中每个召回文档的标签。

本实施例中，召回文档的排序装置在得到M个召回文档中每个召回文档的点击概率后，该点击概率生成的好坏决定了模型训练的精度。理论上可以根据γ_q,d得到到的顺序直接进行排序，但是这种波动很大，因为有些后部的文档曝光和点击发生的情况很少，从而导致生成的γ_q,d不是那么的置信。因此这里采用按照query下点击的位次进行label的训练。具体的，将M个召回文档中每个召回文档对应的点击概率进行排序，得到排序结果；根据排序结果生成M个召回文档中每个召回文档的标签。也就是说，对于相同的query进行排序，按照M个召回文档中每个召回文档的点击概率按照从大到小进行排序(当然也还可以是其他的排序规则，例如从小到大，具体不限定)得到排序结果，之后根据排序结果生成，生成的规则如下：

也就是说，对于点击概率最大的召回文档的位次设置为5档位，对于点击概率第二以及第三大的召回文档设置为4档位，以此类推，得到M个召回文档中每个召回文档的标签。由此，可以增加了Label的稳健性，若是直接用position作为Label，会导致后面小概率的召回文档的Label之间不具备可比性。

504、通过M个召回文档中每个召回文档的标签进行模型训练，得到预设排序模型。

本实施例中，在得到M个召回文档中每个召回文档的标签之后，可以基于该M个召回文档中每个召回文档的标签采用Listwise的方式进行训练，也即将一个搜索词条对应的M个召回文档的标签单独作为一个训练样本。具体的，可以基于搜索评价指标，通过M个召回文档中每个召回文档的标签进行模型训练，得到预设排序模型，也即将搜索评价指标(Normalized Discounted Cumulative Gain，NDCG)加入模型训练的过程，调用LambdaRank的方法进行训练，该方法是Bugers等人从RankNet发展而来，使用够着lambda函数的方法优化度量标准NDCG将每个搜索词条进行处理后得到的标签列表单独作为一个训练样本进行训练。目标搜索词条对应的M个文档的NDCG得分记为：

由于LambdaRank的Listwise模式是在RankNet的pairwise基础上发展的，其损失函数是通过改变RankNet的梯度下降法里面的梯度来实现的。

RankNet中推导出，文档排序需要的是排序错误的梯度信息，但是NDCG的度量函数是非光滑，非连续的，不能直接求得梯度信息，因此将|delta(NDCG)|＝|NDCG(new)-NDCG(old)|引入，构造lambda函数为：

替换RankNet中的梯度表示，进而得到预设排序模型称为LambdaRank。最后训练得到排序的函数，即上述λ_i,j中的s函数。

综上所述，可以看出，本申请实施例中，通过对点击概率构建召回文档的标签进行训练得到的预设排序模型，进而在通过预设排序模型对搜索词条对应的召回结果进行排序时，提高排序的准确率。

下面结合图6A至图6C对本申请的召回文档的排序方法得到预设排序模型进行实验证明，请参阅图6A至图6C，图6A为本申请实施例提供的现有的排序模型与本申请的预设排序模型的分桶长转化率(KPI口径)对比示意图(分桶长转换率KPI口径＝(分桶长转化次数*2+分桶中转化)/分桶搜索次数，在不翻页的情况下)，6A1为现有的排序模型的分桶长转化率，6A2为本申请的预设排序模型的分桶长转化率，图6B为本申请实施例提供的现有的排序模型和本申请的预设排序模型的分桶点击率(CVR)对比示意图(其中，分桶点击率(CVR)＝分桶转化次数/分桶搜索次数)，6B1为现有的排序模型的分桶点击率(CVR)，6B2为本申请的预设排序模型的分桶点击率(CVR)，图6C为本申请实施例提供的现有的排序模型与本申请的预设排序模型的分桶点击率(CTR)对比示意图，6C1为现有的排序模型的分桶点击率(CTR)，6C2为本申请的预设排序模型的分桶点击率(CTR)(其中，分桶点击率(CTR)＝分桶点击次数/分桶搜索次数)，其中，6A1、6A2、6B1、6B2、6C1、6C2都是position_bias的实验，但是6A1、6B1以及6C1均是采用position的倒序来做label，由于这样设置的label误差很大，导致结果不是很好。而6A2、6B2以及6C2是按照图5中的步骤503构建标签Label设置的。可以看到本申请的实验效果最好。将图6A至图6C中的趋势写成表格，其对应的数值如表2所示：

表2

其中，LCVR为长点击转换率，WLCVR为转化口径后的长点击转换率，CVR为转换率，英文全称为Click Value Rate，CTR为点击率，英文全称为Click Through Rate。

下面从召回文档的排序装置的角度对本申请的召回文档的排序方法进行说明，请参阅图7，图7为本申请实施例提供的召回文档的排序方法的流程示意图，包括：

获取单元701，用于获取目标词条对应的召回文档集合，所述目标词条为待搜索的词条；

确定单元702，用于确定第一目标召回文档的特征数据，所述第一目标召回文档为所述召回文档集合任意一个召回文档，所述第一目标召回文档的特征数据为所述第一目标召回文档在第一目标位次被点击的概率、所述第一目标召回文档排在所述第一目标位次被浏览的概率、所述第一目标召回文档与所述目标词条的相关性概率以及所述第一目标召回文档对应的历史点击行为数据；

生成单元703，用于基于预设预设排序模型以及所述第一目标召回文档的特征数据生成所述召回文档集合中每个召回文档的排序得分，所述预设排序模型为通过对训练数据集进行训练得到的，所述训练数据集包括M个召回文档中每个召回文档的标签，M个召回文档与目标搜索词条相对应，所述目标搜索词条为N个搜索词条中的任意一个搜索词条，M和N均为大于或等于1的正整数；

排序单元704，用于基于所述召回文档集合中每个召回文档的排序得分对所述召回文档集合中的召回文档进行排序。

可选地，所述召回文档的排序装置还包括：

训练单元705，所述训练单元705包括：

获取模块7051，用于获取所述M个召回文档；

确定模块7052，用于确定所述M个召回文档中每个召回文档对应的点击概率；

生成模块7053，用于根据所述M个召回文档中每个召回文档对应的点击概率生成所述M个召回文档中每个召回文档的标签；

训练模块7054，用于通过所述M个召回文档中每个召回文档的标签进行模型训练，得到所述预设排序模型。

可选地，所述确定模块7052具体用于：

可选地，所述第二目标召回文档的特征数据为所述第二目标召回文档在第二目标位次被点击的概率、所述第二目标召回文档在所述第二目标位次被浏览的概率、所述第二目标召回文档与所述目标搜索词条的相关性概率以及所述第二目标召回文档对应的点击行为数据，所述确定模块7052根据所述第二目标召回文档的特征数据确定所述M个召回文档中每个召回文档对应的点击概率：

可选地，所述生成模块7053具体用于：

可选地，所述训练模块7054具体用于：

综上所述，可以看出，本申请提供的实施例中，通过预先对训练数据集进行训练得到预设排序模型，该训练数据集包括召回文档中各个文档的标签，不在通过直接通过每个文档的点击概率进行训练，而是通过点击概率生成各个文档的标签，这样通过对点击概率构建召回文档的标签进行训练得到的预设排序模型，进而在通过预设排序模型对搜索词条对应的召回结果进行排序时，提高排序的准确率。

图8是本申请实施例提供的一种服务器结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作***841，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由召回文档的排序装置所执行的步骤可以基于该图8所示的服务器结构。

本申请实施例还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述所述召回文档的排序方法的步骤。

本申请实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述召回文档的排序方法的步骤。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行上述所述召回文档的排序方法的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种召回文档的排序方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述M个召回文档；

确定所述M个召回文档中每个召回文档对应的点击概率；

3.根据权利要求2所述的方法，其特征在于，所述确定所述M个召回文档中每个召回文档对应的点击概率包括：

4.根据权利要求3所述的方法，其特征在于，所述第二目标召回文档的特征数据包括所述第二目标召回文档在第二目标位次被点击的概率、所述第二目标召回文档在所述第二目标位次被浏览的概率、所述第二目标召回文档与所述目标搜索词条的相关性概率以及所述第二目标召回文档对应的点击行为数据，所述根据所述第二目标召回文档的特征数据确定所述M个召回文档中每个召回文档对应的点击概率：

5.根据权利要求2所述的方法，其特征在于，所述根据所述M个召回文档中每个召回文档对应的点击概率生成所述M个召回文档中每个召回文档的标签包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述通过所述M个召回文档中每个召回文档的标签进行模型训练，得到预设排序模型：

7.一种召回文档的排序装置，其特征在于，包括：

8.根据权利要求7所述的召回文档的排序装置，其特征在于，所述召回文档的排序装置还包括：

训练单元，所述训练单元包括：

获取模块，用于获取所述M个召回文档；

9.根据权利要求8所述的召回文档的排序装置，其特征在于，所述确定模块具体用于：

10.根据权利要求9所述的召回文档的排序装置，其特征在于，所述第二目标召回文档的特征数据为所述第二目标召回文档在第二目标位次被点击的概率、所述第二目标召回文档在所述第二目标位次被浏览的概率、所述第二目标召回文档与所述目标搜索词条的相关性概率以及所述第二目标召回文档对应的点击行为数据，所述确定模块根据所述第二目标召回文档的特征数据确定所述M个召回文档中每个召回文档对应的点击概率：

11.根据权利要求8所述的召回文档的排序装置，其特征在于，所述生成模块具体用于：

12.根据权利要求7至11中任一项所述的召回文档的排序装置，其特征在于，所述训练模块具体用于：

13.一种计算机装置，其特征在于，包括：

至少一个连接的处理器、存储器和收发器；

其中，所述存储器用于存储程序代码，所述程序代码由所述处理器加载并执行以实现上述权利要求1至6中任一项所述的召回文档的排序方法的步骤。

14.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行上述权利要求1至6中任一项所述的召回文档的排序方法的步骤。