CN111444438B

CN111444438B - 召回策略的准召率的确定方法、装置、设备及存储介质

Info

Publication number: CN111444438B
Application number: CN202010212112.9A
Authority: CN
Inventors: 魏龙; 王娜; 武桓州
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-09-01
Anticipated expiration: 2040-03-24
Also published as: CN111444438A

Abstract

本公开提供一种的召回策略的准召率的确定方法、装置、设备及存储介质，涉及智能推荐技术，包括：根据召回策略生成用于在线召回的向量数据；根据向量数据、已有的真实用户点击数据模拟线上召回过程，并确定召回结果；根据召回结果确定召回策略对应的准召率。本公开提供的方法、装置、设备及可读存储介质中，可以通过线下模拟的方式确定召回结果，再根据召回结果确定准召率，无需将***上线获取召回结果，从而能够提高确定召回策略准召率的效率。

Description

召回策略的准召率的确定方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术，尤其涉及智能推荐技术。

背景技术

互联网能够向用户提供海量的信息，而智能推荐***能够迅速帮助用户找到感兴趣的信息。

推荐***的推荐，是通过建立人和物品的关联关系，围绕数据、算法、***为核心，将海量的数据信息，利用推荐***的算法，应用到对应的召回策略和排序策略中，实现提供给用户个性化的推荐过程。

其中召回策略用于生成推荐的候选集，在原始数据中通过算法和规则匹配用户的候选集。排序策略根据不同的算法模型对召回策略生成的候选集进行重排序，得到推荐候选集列表。

由于目前存在多种召回策略，而现有技术中需要根据召回策略和排序策略生成推荐信息，并在线上应用，再基于线上应用的结果确定召回策略的准召率，从而利用准召率确定召回策略的效果。

但是，通过线上测试的方式需要较长的时间，导致评估召回策略的效率较低，因此，如何提高召回策略的评估效率，是本领域技术人员亟需解决的技术问题。

发明内容

本公开提供一种召回策略的准召率的确定方法、装置、设备及存储介质，以提高召回策略的评估效率。

本公开的第一个方面是提供一种召回策略的准召率的确定方法，包括：

根据所述召回策略生成用于在线召回的向量数据；

根据所述向量数据、已有的真实用户点击数据模拟线上召回过程，并确定召回结果；

根据所述召回结果确定所述召回策略对应的准召率。

在一种可选的实施方式中，所述向量数据中包括用户向量；

若所述召回策略包括基于用户的协同过滤，则所述根据所述向量数据、已有的真实用户点击数据模拟线上召回过程，并确定召回结果，包括：

根据所述用户向量确定与第一预设用户对应的相似用户；

根据所述真实用户点击数据获取在预设时间段内所述第一预设用户的第一点击内容信息、所述相似用户的第二点击内容信息；

根据所述第一点击内容信息、所述第二点击内容信息确定所述召回结果。

在这种可选的实施方式中，可以利用确定的用户向量模拟基于用户的协同过滤向第一预设用户进行内容推荐的过程，进而得到召回结果。由于在推荐***中，是根据用户向量向用户进行推荐内容的，因此，这种实施方式能够模拟真实的推荐过程。

在一种可选的实施方式中，所述根据所述用户向量确定与第一预设用户对应的相似用户，包括：

确定所述第一预设用户的预设向量，根据所述预设向量在所述用户向量中确定对应的相似向量；

将所述相似向量对应的用户确定为与所述预设向量对应的相似用户。

在这种可选的实施方式中，可以根据确定的用户向量确定第一预设用户的相似用户，进而利用召回策略对应的向量数据模拟出在线向第一预设用户推荐内容时，确定的与该第一预设用户匹配的相似用户。

在一种可选的实施方式中，所述根据所述第一点击内容信息、所述第二点击内容信息确定所述召回结果，包括：

比对所述第一点击内容、所述第二点击内容的点击时间与第一时间阈值；

根据比对结果确定所述召回策略对应的检索信息、内容相关信息。

在这种可选的实施方式中，可以利用已有的真实点击数据，确定第一预设用户的点击内容和相似用户的点击内容，从而基于这些内容确定***检索出的内容与第一预设用户是否相关。

在一种可选的实施方式中，所述根据比对结果确定所述召回策略对应的检索信息、内容相关信息，包括：

根据所述点击时间大于所述第一时间阈值的第一点击内容、第二点击内容确定所述检索信息；

根据所述点击时间小于所述第一时间阈值的第一点击内容、第二点击内容确定所述内容相关。

所述根据所述点击时间大于所述第一时间阈值的第一点击内容、第二点击内容确定所述检索信息，包括：

在点击时间大于所述第一时间阈值的第一点击内容中，筛选出点击时间最大的第一预设数量个第一筛选内容，在点击时间大于所述第一时间阈值的第二点击内容中，筛选出点击时间最大的第一预设数量个第二筛选内容；

根据所述第一筛选内容、所述第二筛选内容确定所述检索信息；

所述根据所述点击时间小于所述第一时间阈值的第一点击内容、第二点击内容确定所述内容相关信息，包括：

在点击时间小于所述第一时间阈值的第一点击内容中，筛选出点击时间最小的第二预设数量个第三筛选内容，在点击时间小于所述第一时间阈值的第二点击内容中，筛选出点击时间最小的第二预设数量个第四筛选内容；

根据所述第三筛选内容、所述第四筛选内容确定所述内容相关信息。

在这种可选的实施方式中，通过第一时间阈值对分别对第一点击内容和第二点击内容进行划分，能够模拟出在该时间基于召回策略向第一预设用户推荐内容时，召回结果中的内容相关信息、检索信息，也就是***检索到的相关内容、检索到的不相关内容，以及未检索到的相关内容。

在一种可选的实施方式中，所述向量数据包括内容向量；

若所述召回策略包括基于内容的协同过滤，则所述根据所述向量数据、已有的真实用户点击数据模拟线上召回过程，并确定召回结果，包括：

获取第二预设用户在第二时间阈值对应的第三点击内容；

根据所述第三点击内容确定相关内容候选集、检索内容候选集；

根据所述向量数据中包括的内容向量、所述相关内容候选集、所述检索内容候选集确定所述召回结果。

在这种可选的实施方式中，可以利用确定的内容向量模拟基于内容的协同过滤向第二预设用户进行内容推荐的过程，进而得到召回结果。由于在推荐***中，是根据内容向量向用户进行推荐内容的，因此，这种实施方式能够模拟真实的推荐过程。

在一种可选的实施方式中，所述根据所述向量数据中包括的内容向量、所述相关内容候选集、所述检索内容候选集确定所述召回结果，包括：

根据所述内容向量、所述相关内容候选集确定内容相关信息；

根据所述检索内容候选集确定检索信息。

在这种可选的实施方式中，可以结合内容向量、内容候选集模拟出更多的相关内容信息，并且可以根据第二预设用户的检索内容候选集确定检索信息，从而得到此次模拟过程的召回结果。

在一种可选的实施方式中，所述根据所述召回结果确定所述召回策略对应的准召率，包括：

根据所述内容相关信息、所述检索信息，确定检索到相关内容的第一数量、检索到不相关内容的第二数量、未检索到相关内容的第三数量；

根据所述第一数量、所述第二数量、所述第三数量确定所述准召率。

所述根据所述第一数量、所述第二数量、所述第三数量确定所述准召率，包括：

将所述第一数量与所述第一数量与所述第二数量之和的比值，确定为准确率；

将所述第一数量与所述第一数量与所述第三数量之和的比值，确定为召回率。

在这种可选的实施方式中，可以统计出召回结果中检索到的相关内容，检索到的不相关内容以及未检索到的相关内容，基于此，能够确定出召回策略对应的准确率和召回率，进而能够利用这些数据衡量召回策略的优劣。

在一种可选的实施方式中，所述根据所述召回策略生成用于在线召回的向量数据，包括：

获取用户历史点击数据，并根据所述历史点击数据确定用户相关性信息、内容相关性信息；

对所述用户相关性信息、内容相关性信息进行训练得到相关向量，并对所述相关向量进行拆分得到用户向量、内容向量。

在这种可选的实施方式中，可以基于真实的用户数据确定用于在线召回的用户向量和内容向量，再对确定的内容向量和用户向量进行效果评估。

在一种可选的实施方式中，还包括：

对所述检索信息与所述内容相关信息进行去重处理。

在这种可选的实施方式中，能够去除召回结果中的重复数据，从而使确定的准召率更加准确。

本公开的第二个方面是提供一种召回策略的准召率的确定装置，包括：

生成模块，用于根据所述召回策略生成用于在线召回的向量数据；

模拟模块，用于根据所述向量数据、已有的真实用户点击数据模拟线上召回过程，并确定召回结果；

确定模块，用于根据所述召回结果确定所述召回策略对应的准召率。

本公开的第三个方面是提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面任一项所述的召回策略的准召率的确定方法。

本公开的第四个方面是提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面任一项所述的召回策略的准召率的确定方法。

本公开提供的召回策略的准召率的确定方法、装置、设备及存储介质，包括：根据召回策略生成用于在线召回的向量数据；根据向量数据、已有的真实用户点击数据模拟线上召回过程，并确定召回结果；根据召回结果确定召回策略对应的准召率。本公开提供的方法、装置、设备及可读存储介质中，可以通过线下模拟的方式确定召回结果，再根据召回结果确定准召率，无需将***上线获取召回结果，从而能够提高确定召回策略准召率的效率。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请一示例性实施例示出的召回策略的准召率的确定方法的流程图；

图2为本申请一示例性实施例示出的准召率的确定方式的示意图；

图3为本申请另一示例性实施例示出的召回策略的准召率的确定方法的流程图；

图4为本申请一示例性实施例示出的用户相关性信息、物品相关性信息的示意图；

图5为本申请一示例性实施例示出的用户向量、内容向量的生成的示意图；

图6为本申请一示例性实施例示出的第一点击内容、第二点击内容的示意图；

图7为本申请一示例性实施例示出的第三点击内容的示意图；

图8为本申请一示例性实施例示出的分布式***架构图；

图9为本申请一示例性实施例示出的召回策略的准召率的确定装置的结构图；

图10为本申请另一示例性实施例示出的召回策略的准召率的确定装置的结构图；

图11为本申请一示例性实施例示出的电子设备的结构图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前的互联网能够向用户提供海量的信息，为了向用户提供更有针对性的内容，可以设置推荐***，通过推荐***为用户筛选与其匹配的内容，并向用户推荐。

推荐***是在大数据/AI领域的应用场景下，通过建立人和物品的关联关系，围绕数据、算法、***为核心，将海量的数据信息，利用推荐***的算法(譬如基于协同过滤的算法和机器学习算法等)，应用到对应的召回策略和排序策略中，实现提供给用户个性化的推荐过程。

其中召回策略用于生成推荐的候选集，在原始数据中通过算法和规则匹配用户的候选集。排序策略根据不同的算法模型对召回策略或者近线策略生成的候选集进行重排序，得到推荐候选集列表。

对于召回策略和排序策略而言，都需要有各自的评估指标来衡量策略的效果，使其推荐效果更好，更贴合用户的喜好。

目前，可以将推荐***上线，并基于推荐***向用户进行推荐，再根据用户的反馈结果确定召回策略的准召率，从而评估召回策略的效果。但是，从***上线到得到用户反馈的耗时过长，导致召回策略的评估效率比较低。

本申请提供的方案，可以利用已有的真实用户点击数据模拟线上的召回过程，从而实现线下召回，并利用召回结果确定召回策略的准召率，从而评估召回策略的效果。这种方式无需对***进行上线，就能够得到召回策略的准召率，能够提高召回策略的评估效果。

图1为本申请一示例性实施例示出的召回策略的准召率的确定方法的流程图。

如图1所示，本申请提供的召回策略的准召率的确定方法包括：

步骤101，根据召回策略生成用于在线召回的向量数据。

本实施例提供的方法可以由具备计算能力的电子设备来执行，该电子设备可以是单台的电子设备，也可以是多台电子设备。例如，可以是由多台电子设备组成的电子***。

其中，召回策略可以是待评估的召回策略，可以设置多个待评估的召回策略，并基于本实施例提供的方法确定各个待评估的召回策略的准召率。

具体的，准召率包括召回率和准确率。通过召回率和准确率能够衡量召回策略的优劣。其中，召回率(Recall)＝***检索到的相关内容/***所有相关的内容总数；准确率(Precision)＝***检索到的相关内容/***所有检索到的内容总数。

图2为本申请一示例性实施例示出的准召率的确定方式的示意图。

如图2所示，若***检索到的相关内容数量为A，检索到的不相关内容数量为B，未检索到的相关内容数量为C，未检索到的不相关内容数量为D。则召回率＝A/(A+C)；准确率＝A/(A+B)。

比如一推荐***基于用户画像向其推荐的内容包括：“北京大学保安考上研究生”；“北京互联网工作招聘”；“大学生活是什么样的”。而实际上，结合该用户的信息可以确定其中的“北京大学保安考上研究生”是该用户关心的内容。即推荐***从已有的数据中检索到的相关内容为“北京大学保安考上研究生”，检索到的不相关内容为“北京互联网工作招聘”、“大学生活是什么样的”。此外，该***的已有数据中还包括内容“北大开学季”、“未名湖的景色”，结合用户信息可以确定这两条内容也是用户关心的内容，因此，推荐***未检索到的相关内容包括“北大开学季”、“未名湖的景色”。

在推荐***中，可以先基于召回策略生成用于在线召回的向量数据，再根据向量数据匹配与用户相关的内容，并向其进行推荐，因此，推荐效果的优劣与生成的向量数据具有关联关系。

本实施例提供的方法中，先基于召回策略生成用于在线召回的向量数据，该向量数据中可以包括用户向量和内容向量。向一用户推荐内容时，可以基于用户向量匹配该用户的相似用户，并向该用户推荐相似用户感兴趣的内容。比如，用户甲对内容A感兴趣，用户甲与用户乙是相似用户，则可以向用户乙推荐内容A。另外，在向一用户推荐内容时，还可以基于内容向量，匹配与该用户感兴趣内容对应的相似内容，并向该用户推荐相似内容。比如，用户甲对内容A感兴趣，内容A与内容B相似，则向用户甲推荐内容B。

此外，内容之间的相似度可以仅仅是基于内容本身得到的，还可以结合用户喜好，比如预先根据所有用户的历史偏好数据计算物品之间的相似性。

在推荐***中，向量数据对于确定向用户推荐的内容具有关键性作用，若基于召回策略生成的向量数据不准确，则匹配出的推荐内容也会不准确。

其中，可以基于召回策略对历史点击数据进行分析，从中提取用户间关联关系以及内容间的关联关系，进而根据这些关联关系生成向量数据。

具体的，可以获取大量用户的历史点击数据，从中能够获取用户与点击内容的对应关系，比如用户甲点击了内容A、B，用户乙点击了内容B、C等。再根据这些历史点击数据构建用户与内容的关联关系，再根据这一关联关系能够得到用户、内容间的关系图，例如，用户甲和用户乙都点击了内容B，则可以通过内容B将这两个用户关联起来。利用该关系图，能够得到用户关系序列、内容关系序列。

进一步的，可以根据用户关系序列、内容关系序列进行模型训练，输出相关向量，再对相关向量进行分离得到用户向量和内容向量。在训练过程中，不同的召回策略对应的训练特征可能不同，也会导致输出的向量不同。

步骤102，根据向量数据、已有的真实用户点击数据模拟线上召回过程，并确定召回结果。

实际应用时，可以根据向量数据确定一预设用户对应的检索内容，再结合真实用户点击数据确定召回结果，召回结果中可以包括检索到的相关内容、检索到的不相关内容、未检索到的相关内容、未检索到的不相关内容等。

其中，可以利用向量数据模拟向预设用户推荐内容时匹配出的内容，再结合真实用户点击数据确定召回结果，从而无需将***上线，就能够确定出召回结果。

其中，若召回策略包括基于用户的协同过滤，则可以根据用户向量确定预设用户的相似用户，再结合真实用户点击数据，确定预设用户对应的点击内容和相似用户对应的点击内容，从而可以根据二者点击内容确定召回结果。

具体的，若将推荐***上线，则基于用户的协同过滤的推荐***会向预设用户推荐与其相似的用户对应的点击内容，因此，本实施例能够模拟这一过程。同时，还可以结合预设用户真实的点击内容和相似用户真实的点击内容，确定检索到的相关内容、检索到的不相关内容、未检索到的相关内容等。

进一步的，若召回策略包括基于内容的协同过滤，则可以根据真实用户点击数据确定预设用户对应的点击内容，再在这些点击内容中筛选出相关内容候选集、检索内容候选集。针对相关内容候选集，可以利用内容向量筛选出与该相关内容候选集的中的内容相似的其他内容，即可以筛选出更多与该用户对应的相关内容信息。

根据检索内容候选集可以确定检索层面的信息，即检索到的相关内容和未检索到的相关内容。根据最终筛选出的相关内容信息，可以确定出相关层面的信息，即检索到的相关内容和未检索到的相关内容。

具体的，若将推荐***上线，则基于内容的协同过滤的推荐***，会根据内容向量向预设用户推荐与其感兴趣的内容对应的相似内容，因此，本实施例能够模拟这一过程。同时，还可以结合预设用户真实的点击内容和真实点击数据，确定检索到的相关内容、检索到的不相关内容、未检索到的相关内容等。

步骤103，根据召回结果确定召回策略对应的准召率。

进一步的，确定出召回结果后，可以根据召回结果确定准召率。比如，可以根据召回结果中检索到的相关内容、检索到的不相关内容、未检索到的相关内容，确定准确率和召回率。

实际应用时，召回率(Recall)＝***检索到的相关内容/***所有相关的内容总数；准确率(Precision)＝***检索到的相关内容/***所有检索到的内容总数。

其中，可以根据确定出的准确率和召回率评估召回策略的优劣，从而提高召回策略的评估效率。

本实施例提供的方法用于确定召回策略的优劣，该方法由设置有本实施例提供的方法的设备执行，该设备通常以硬件和/或软件的方式来实现。

本实施例提供的召回策略的准召率的确定方法，包括：根据召回策略生成用于在线召回的向量数据；根据向量数据、已有的真实用户点击数据模拟线上召回过程，并确定召回结果；根据召回结果确定召回策略对应的准召率。本实施例提供的方法中，可以通过线下模拟的方式确定召回结果，再根据召回结果确定准召率，无需将***上线获取召回结果，从而能够提高确定召回策略准召率的效率。

图3为本申请另一示例性实施例示出的召回策略的准召率的确定方法的流程图。

如图3所示，本申请提供的召回策略的准召率的确定方法，包括：

步骤301，获取用户历史点击数据，并根据历史点击数据确定用户相关性信息、内容相关性信息。

其中，用户历史点击数据可以是通过已有的***获取的。比如，可以获取大量用户在一个预设时间内的点击数据，该预设时间段可以根据需求设置，比如近三个月。历史点击数据中可以包括一个用户对应的点击内容，比如用户甲点击了内容A和内容B，用户乙点击了内容B、内容C。

图4为本申请一示例性实施例示出的用户相关性信息、物品相关性信息的示意图。

如图4所示，可以根据历史点击数据构建用户与内容之间的关系图，可以用边来连接用户与内容，比如用户user1与内容A之间可以建立一条边，用户user2与内容B之间也可以建立一条边。

进一步的，根据用户与内容之间的关系图可以生成有向关系图。可以将用户与内容之间的关系图中的相同内容进行合并，从而通过相同内容连接不同的用户，使得该有向关系图中包括更加丰富的信息。比如多个用户关联同一内容，再比如同一个用户关注了多个内容。

实际应用时，可以对有向关系图中包括的丰富信息进行分析，确定出用户相关性信息、内容相关性信息。该用户相关性信息比如可以是用户起点游走序列，内容相关性信息比如可以是内容起点游走序列。

用户起点游走序列中可以包括一个用户为起点，关联的其他用户。比如，有N个用户与用户user1关注的内容相似，则起点游走序列中，用户user1可以指向这N个用户。内容起点游走序列中可以包括一个以内容为起点，关联的其他内容。比如一个用户关注了内容A以及N个其他内容，则起点游走序列中，内容A可以指向这N个其他内容。

如图4所示，确定的用户相关性信息为用户起点游走序列(USER起点游走序列)，确定的内容相关信息为内容起点游走序列(ITEM)起点游走序列。

步骤302，对用户相关性信息、内容相关性信息进行训练得到相关向量，并对相关向量进行拆分得到用户向量、内容向量。

其中，得到用户相关性信息、内容相关性信息后，还可以对其进行训练，以得到用户向量和内容向量。

一种实施方式中，可以直接根据用户相关性信息和内容相关性信息确定用户向量和内容向量，比如，关注内容相同的用户的向量相近，内容本身相似的内容向量相近。

本实施例提供的方法中，结合用户相关性信息、内容相关性信息共同确定用户向量、内容向量，使得用户向量和内容向量更准确，比如，可以根据用户的历史偏好确定内容向量，从而使相似用户关注的内容向量也相似。

具体的，可以对用户相关性信息、内容相关性信息进行训练得到相关向量，并对相关向量进行拆分得到用户向量、内容向量。

图5为本申请一示例性实施例示出的用户向量、内容向量的生成的示意图。

如图5所示，具体可以对用户起点游走序列、内容起点游走序列(序列样本)进行模型训练，输出相关向量(UI向量)，再分离出用户向量和内容向量。

继续参见图3，若召回策略包括基于用户的协同过滤，则可以执行步骤303-305。

步骤303，根据用户向量确定与第一预设用户对应的相似用户。

进一步的，可以预先选择一个第一预设用户，通过该第一预设用户来模拟线下召回过程。比如，选择一个用户id，将该id对应的用户作为第一预设用户。

实际应用时，该第一预设用户可以是真实的用户，即再真实用户点击数据中，包括该第一预设用户的点击数据。

其中，可以确定第一预设用户的预设向量，比如，可以直接从已分离出的用户向量中查找该第一预设用户的预设向量。

具体的，可以在确定的用户向量中确定该预设向量对应的相似向量，并将相似向量对应的用户作为第一预设用户的相似用户。本实施例提供的方法中，可以通过向量来描述用户的特征，若用户向量相似，则认为两个用户也相似。

步骤304，根据真实用户点击数据获取在预设时间段内第一预设用户的第一点击内容信息、相似用户的第二点击内容信息。

进一步的，可以指定一预设时间段，比如可以是某一时刻阈值附近的一段时间，比如是早晨十点附近的1分钟时间段。当时间长度为0时，可以认为预设时间段是一指定时间，比如可以是早晨十点的时刻。

实际应用时，可以根据真实用户点击数据，获取第一预设用户的第一点击内容信息，以及相似用户的第二点击内容信息。内容信息中可以包括内容对应的标识，比如可以是内容的id。

其中，第一点击内容信息中可以包括第一预设用户在预设时间段点击的内容标识，第二点击内容信息中可以包括相似用户在预设时间段点击的内容标识。

步骤305，根据第一点击内容信息、第二点击内容信息确定召回结果。

具体的，可以将第二点击内容信息作为基于召回策略确定的向第一预设用户推荐的内容，将第一点击内容信息作为第一预设用户实际点击的内容，也就是该用户关心的内容。可以结合第一点击内容信息、第二点击内容信息确定此次线下模拟召回的结果。

进一步的，还可以设置一第一时间阈值，并比对各个第一点击内容的点击时间与该第一时间阈值，还可以比对各个第二点击内容与该第一时间阈值，可以根据比对结果对点击内容分组。比如，可以将点击时间小于第一时间阈值的第一点击内容分为一组，点击时间大于第一时间阈值的第一点击内容分为一组，相应的，将点击时间小于第一时间阈值的第二点击内容分为一组，点击时间大于第一时间阈值的第二点击内容分为一组。

实际应用时，可以根据比对结果确定召回策略对应的检索信息、内容相关信息，具体可以根据分组结果进行确定。

其中，可以根据点击时间大于第一时间阈值的第一点击内容、第二点击内容确定检索信息，根据点击时间小于第一时间阈值的第一点击内容、第二点击内容确定内容相关信息。

图6为本申请一示例性实施例示出的第一点击内容、第二点击内容的示意图。

如图6所示，可以对第一点击内容和第二点击内容分别按照点击时间进行排序。左边为第一点击内容，右边为第二点击内容。可以根据第一时间阈值对第一点击内容进行划分，得到点击时间大于第一时间阈值的第一点击内容61，点击时间小于第一时间阈值的第一点击内容62。还可以根据第一时间阈值对第二点击内容进行划分，得到点击时间大于第一时间阈值的第二点击内容63，点击时间小于第一时间阈值的第二点击内容64。

其中，可以根据第一点击内容61、第二点击内容63确定检索信息，具体可以得到检索到的相关内容、未检索到的相关内容。根据第一点击内容62、第二点击内容64确定内容相关信息，具体可以包括检索到的相关内容、检索到的不相关内容。

具体的，可以在点击时间大于第一时间阈值的第一点击内容61中，筛选出第一预设数量个第一筛选内容611，在点击时间大于第一时间阈值的第二点击内容63中，筛选出第一预设数量个第二筛选内容631，比如第一预设数量可以是5，从而筛选出5个第一筛选内容611、5个第二筛选内容631。可以根据第一筛选内容和第二筛选内容确定出检索信息。

进一步的，可以在点击时间小于第一时间阈值的第一点击内容62中，筛选出第二预设数量个第三筛选内容621，在点击时间小于第一时间阈值的第二点击内容63中，筛选出第二预设数量个第四筛选内容631，比如第二预设数量可以是20，从而筛选出20个第三筛选内容、20个第四筛选内容。可以根据第三筛选内容和第四筛选内容确定出内容相关信息。

继续参见图3，若召回策略包括基于内容的协同过滤，则可以执行步骤306-308。

步骤306，获取第二预设用户在第二时间阈值对应的第三点击内容。

进一步的，可以预先选择一个第二预设用户，通过该第二预设用户来模拟线下召回过程。比如，选择一个用户id，将该id对应的用户作为第一预设用户。

实际应用时，该第二预设用户可以是真实的用户，即在真实用户点击数据中，包括该第二预设用户的点击数据。

其中，可以预先设置第二时间阈值，并获取第二预设用户在该第二时间阈值对应的第三点击内容。具体可以获取第二预设用户在第二时间阈值附近时的点击内容，比如该用户在早晨十点左右对应的第三点击内容，具体可以精确到包括第二时间阈值的时间段，比如在早晨十点前后5分钟该第二预设用户的第三点击内容。

步骤307，根据第三点击内容确定相关内容候选集、检索内容候选集。

具体的，可以根据确定的第三点击内容初步筛选出相关内容候选集、检索内容候选集。

进一步的，可以根据点击时间对各个第三点击内容进行排序，将点击时间靠后的第三预设数量个(m个)第三点击内容作为检索内容候选集，将点击时间靠后的第四预设数量个(n个)第三点击内容作为相关内容候选集。

图7为本申请一示例性实施例示出的第三点击内容的示意图。

如图7所示，可以按照点击时间对第三点击内容进行排序，图中示出的是按照时间从小到大的顺序对第三点击内容进行排序。如图7所示，可以将时间靠后的m个第三点击内容作为检索内容候选集，将点击时间靠后的n个第三点击内容作为相关内容候选集。

m、n的值可以根据需求进行设置，比如m可以是20，n可以是60。

实际应用时，本实施例提供的方法对第三点击内容的数量有一定的要求，即第三点击内容的数量应当大于m和n的值，基于此，当获取第二预设用户的第三点击内容时，若数量小于m或者n则可以更换第二预设用户，并重新确定第三点击内容。

请继续参考图3，当确定出相关内容候选集、检索内容候选集之后，本实施例提供的方法还包括：

步骤308，根据向量数据中包括的内容向量、相关内容候选集、检索内容候选集确定召回结果。

其中，可以结合预先确定的内容向量和相关内容候选集、检索内容候选集，确定该召回策略对应的召回结果。相关内容候选集中包括的内容可以被认为是相关内容，检索内容候选集中包括的是检索到的内容

具体的，可以根据内容向量、相关内容候选集确定内容相关信息；根据检索内容候选集确定检索信息。

进一步的，可以根据预先确定的内容向量、内容候选集确定更多的相关内容信息。比如，可以根据相关内容候选集中包括的相关内容确定一相关内容向量，再根据预先确定的内容向量找到相似的向量，将其对应的内容作为相关内容。通过这样的方式，可以确定该召回策略对应的内容相关信息。

实际应用时，内容相关信息中可以包括检索到的相关的内容、检索到的不相关的内容。

其中，还可以根据检索内容候选集确定检索信息，检索信息中可以包括检索到的相关的内容，未检索到的相关的内容。

在步骤305或步骤308之后，还可以包括：

步骤309，对检索信息与内容相关信息进行去重处理。

本实施例提供的方法中，确定的召回结果中包括检索信息、内容相关信息。

具体的，确定的检索信息与内容相关信息中可能存在重复的内容，比如，检索信息中包括检索到的一相关内容A，在内容相关信息中，也包括检索到的相关内容A，则可以对其进行去重，仅保留一个内容A。

进一步的，可以通过识别内容id的方式确定检索信息与内容相关信息中是否存在重复的内容。

步骤310，根据内容相关信息、检索信息，确定检索到相关内容的第一数量、检索到不相关内容的第二数量、未检索到相关内容的第三数量。

进一步的，可以对内容相关信息和检索信息进行统计，确定其中检索到相关内容的第一数量。比如，在相关信息中，检索到的相关内容数量为a，在检索信息中，检索到的相关内容数量为b，则可以将a与b的和作为第一数量。

实际应用时，还可以根据检索信息确定未检索到的相关内容，并统计出第三数量。可以根据内容相关信息确定检索到的不相关内容，并统计第二数量。

步骤311，根据第一数量、第二数量、第三数量确定准召率。

其中，确定出第一数量、第二数量和第三数量之后，可以将所述第一数量与所述第一数量与所述第二数量之和的比值，确定为准确率；将所述第一数量与所述第一数量与所述第三数量之和的比值，确定为召回率。

具体的，针对每种召回策略都可以确定其对应的准召率，并基于准召率确定各个召回策略的优劣。

可选的，为了进一步的提高确定准召率的效率，本实施例提供的方法可以应用在一分布式***中。

图8为本申请一示例性实施例示出的分布式***架构图。

如图8所示，可以通过客户端81下发确定准召率的任务，任务被任务调度中心82接收。任务调度中心82再将任务下发给节点端83，节点端83通过消息中间件84将任务下发至执行端85。

执行端85用于执行上述任一种召回策略的准召率的确定方法，执行端85还将执行结果反馈给节点端83。再分布式***架构中，可以设置有多个执行端85，多个执行端85中，可以包括实体设备，也可以包括虚拟机。

当执行端85是实体设备时，其可以同时运行多个确定准召率的任务，当执行端85是虚拟机时，其可以只运行一个确定准召率的任务。

当需要对比多个召回策略的准召率时，基于上述分布式***，能够快速的得到各个召回策略对应的准召率，从而进一步的提高准召率的确定效率。

图9为本申请一示例性实施例示出的召回策略的准召率的确定装置的结构图。

如图9所示，本申请所示出的召回策略的准召率的确定装置，包括：

生成模块91，用于根据所述召回策略生成用于在线召回的向量数据；

模拟模块92，用于根据所述向量数据、已有的真实用户点击数据模拟线上召回过程，并确定召回结果；

确定模块93，用于根据所述召回结果确定所述召回策略对应的准召率。

本实施例提供的召回策略的准召率的确定装置，包括生成模块，用于根据召回策略生成用于在线召回的向量数据；模拟模块，用于根据向量数据、已有的真实用户点击数据模拟线上召回过程，并确定召回结果；确定模块，用于根据召回结果确定召回策略对应的准召率。本实施例提供的装置中，可以通过线下模拟的方式确定召回结果，再根据召回结果确定准召率，无需将***上线获取召回结果，从而能够提高确定召回策略准召率的效率。

本实施例提供的召回策略的准召率的确定装置的具体原理和实现方式均与图1所示的实施例类似，此处不再赘述。

图10为本申请另一示例性实施例示出的召回策略的准召率的确定装置的结构图。

如图10所示，在上述实施例基础上，本实施例提供的召回策略的准召率的确定装置，可选的，所述向量数据中包括用户向量；

若所述召回策略包括基于用户的协同过滤，则所述模拟模块92包括第一确定单元921，用于：

根据所述用户向量确定与第一预设用户对应的相似用户；

可选的，所述第一确定单元921具体用于：

根据所述点击时间小于所述第一时间阈值的第一点击内容、第二点击内容确定所述内容相关信息。

可选的，所述第一确定单元921具体用于：

可选的，所述向量数据包括内容向量；

若所述召回策略包括基于内容的协同过滤，则模拟模块包括第二确定单元922，用于：

获取第二预设用户在第二时间阈值对应的第三点击内容；

可选的，所述第二确定单元922具体用于：

根据所述检索内容候选集确定检索信息。

可选的，所述召回结果中包括内容相关信息、检索信息；

所述确定模块93包括：

统计单元931，用于根据所述内容相关信息、所述检索信息，确定检索到相关内容的第一数量、检索到不相关内容的第二数量、未检索到相关内容的第三数量；

准召率确定单元932，用于根据所述第一数量、所述第二数量、所述第三数量确定所述准召率。

可选的，所述准召率确定单元932具体用于：

可选的，所述生成模块91包括：

数据处理单元911，用于获取用户历史点击数据，并根据所述历史点击数据确定用户相关性信息、内容相关性信息；

训练单元912，用于对所述用户相关性信息、内容相关性信息进行训练得到相关向量，并对所述相关向量进行拆分得到用户向量、内容向量。

可选的，所述装置还包括去重模块94，用于：

对所述检索信息与所述内容相关信息进行去重处理。

本实施例提供的召回策略的准召率的确定装置的具体原理和实现方式均与图3所示的实施例类似，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图11所示，是根据本申请实施例的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图11所示，该电子设备包括：一个或多个处理器1101、存储器1102，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图11中以一个处理器1101为例。

存储器1102即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的召回策略的准召率的确定方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的召回策略的准召率的确定方法。

存储器1102作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的召回策略的准召率的确定方法对应的程序指令/模块(例如，附图9所示的生成模块91、模拟模块92和确定模块93)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的召回策略的准召率的确定方法。

存储器1102可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器1102可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1102可选包括相对于处理器1101远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104可以通过总线或者其他方式连接，图11中以通过总线连接为例。

输入装置1103可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种召回策略的准召率的确定方法，其特征在于，包括：

根据所述召回策略生成用于在线召回的向量数据；

根据所述召回结果确定所述召回策略对应的准召率；

所述向量数据包括内容向量；

获取第二预设用户在第二时间阈值对应的第三点击内容；

2.根据权利要求1所述的方法，其特征在于，所述向量数据中包括用户向量；

根据所述用户向量确定与第一预设用户对应的相似用户；

3.根据权利要求2所述的方法，其特征在于，所述根据所述用户向量确定与第一预设用户对应的相似用户，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一点击内容信息、所述第二点击内容信息确定所述召回结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据比对结果确定所述召回策略对应的检索信息、内容相关信息，包括：

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求1所述的方法，其特征在于，所述根据所述向量数据中包括的内容向量、所述相关内容候选集、所述检索内容候选集确定所述召回结果，包括：

根据所述检索内容候选集确定检索信息。

8.根据权利要求4-7任一项所述的方法，其特征在于，所述根据所述召回结果确定所述召回策略对应的准召率，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述第一数量、所述第二数量、所述第三数量确定所述准召率，包括：

10.根据权利要求1-7、9任一项所述的方法，其特征在于，所述根据所述召回策略生成用于在线召回的向量数据，包括：

11.根据权利要求4-7任一项所述的方法，其特征在于，还包括：

对所述检索信息与所述内容相关信息进行去重处理。

12.一种召回策略的准召率的确定装置，其特征在于，包括：

确定模块，用于根据所述召回结果确定所述召回策略对应的准召率；

所述向量数据包括内容向量；若所述召回策略包括基于内容的协同过滤，则模拟模块包括第二确定单元，用于：获取第二预设用户在第二时间阈值对应的第三点击内容；根据所述第三点击内容确定相关内容候选集、检索内容候选集；根据所述向量数据中包括的内容向量、所述相关内容候选集、所述检索内容候选集确定所述召回结果。

13.根据权利要求12所述的装置，其特征在于，所述向量数据中包括用户向量；

若所述召回策略包括基于用户的协同过滤，则所述模拟模块包括第一确定单元，用于：

根据所述用户向量确定与第一预设用户对应的相似用户；

14.根据权利要求13所述的装置，其特征在于，所述第一确定单元具体用于：

15.根据权利要求12-14任一项所述的装置，其特征在于，所述召回结果中包括内容相关信息、检索信息；

所述确定模块包括：

统计单元，用于根据所述内容相关信息、所述检索信息，确定检索到相关内容的第一数量、检索到不相关内容的第二数量、未检索到相关内容的第三数量；

准召率确定单元，用于根据所述第一数量、所述第二数量、所述第三数量确定所述准召率。

16.根据权利要求12-14任一项所述的装置，其特征在于，所述生成模块包括：

数据处理单元，用于获取用户历史点击数据，并根据所述历史点击数据确定用户相关性信息、内容相关性信息；

训练单元，用于对所述用户相关性信息、内容相关性信息进行训练得到相关向量，并对所述相关向量进行拆分得到用户向量、内容向量。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。