CN109727047A

CN109727047A - 一种确定数据关联度的方法和装置、数据推荐方法和装置

Info

Publication number: CN109727047A
Application number: CN201711032881.5A
Authority: CN
Inventors: 赵旭玲; 李凯东; 闫石; 王经纬; 王云涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2019-05-07

Abstract

本发明公开了一种确定数据关联度的方法和装置、数据推荐方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：根据用户的历史浏览数据确定关联数据集，所述关联数据集至少包括关联的两个条目的数据；按照统计指标对所述关联数据集中各条目数据进行数据统计，以得到各条目数据的统计值；根据各条目数据的统计值，确定所述各条目数据与关联条目数据的关联度。能够提升对数据关联度的计算精度，并精确确定数据间的关联度，有助于从用户角度更精确地了解数据间的关联关系，从而将与用户正在浏览的数据关联度高的数据推荐给用户，优化用户体验。

Description

一种确定数据关联度的方法和装置、数据推荐方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种确定数据关联度的方法和装置、推荐数据的方法和装置。

背景技术

随着互联网的普及和电子商务的发展，电商已经初步取代了传统实体销售渠道，为用户提供的产品也越来越多样性。在PC(电子计算机)端为主的时代，为了增强产品的曝光力度，电商会在用户浏览的页面尽最大可能曝光产品，吸引用户的目光，提升转化率，但是目前随着手机等移动终端的跨越式发展，越来越多的用户选择在手机端购物，这便给店商基于PC端的传统曝光方式带来两个挑战。第一，以前手机用户最关心的是话费，但是现在手机用户最关心的是流量。如果电商还是采用以往的野蛮、海量图片的曝光方式，会消耗用户大量的手机流量，不但起不到提升转化效率效果，还有可能激起用户的反感。第二，以往PC端显示屏幕的大小为15寸左右，但是手机的屏幕相对于电脑屏幕却非常小，电商可以展示给用户的图片信息则更为有限。基于以上两点原因，电商必须改变以往的产品曝光方式，要由野蛮试曝光向精细化曝光发展，尽量将用户感兴趣的产品推送给用户，而不是千篇一律的全部产品。

为了将关联性强的产品推荐给用户，现有的产品关联分析方案中，一种是基于账号的订单行为，即对同一订单内共同购买的商品品类进行计算，该方案可用数据量较少，且计算结果很容易被强势品类所影响；另一种是基于账号的浏览行为，即基于一段时间内用户登录后的浏览行为进行计算，该方案容易将用户隔天、甚至当天非同一时段内的非真正关联品类的行为计算到一起。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有方案对产品关联分析的精确度不足，无法精准地将用户感兴趣的产品推送给用户。

发明内容

有鉴于此，本发明实施例提供一种确定数据关联度的方法和装置、推荐数据的方法和装置，能够提升对数据关联度的计算精度，并精确确定数据间的关联度，有助于从用户角度更精确地了解数据间的关联关系，从而将与用户正在浏览的数据关联度高的数据推荐给用户，优化用户体验。

为实现上述目的，根据本发明实施例的一个方面，提供了一种确定数据关联度的方法。

一种确定数据关联度的方法，包括：根据用户的历史浏览数据确定关联数据集，所述关联数据集至少包括关联的两个条目的数据；按照统计指标对所述关联数据集中各条目数据进行数据统计，以得到各条目数据的统计值；根据各条目数据的统计值确定所述各条目数据与关联条目数据的关联度。

可选地，根据用户的历史浏览数据确定关联数据集的步骤，包括：根据用户的历史浏览数据中各条目数据所属会话的信息确定各条目数据的关联条目数据；其中，一个条目数据的关联条目数据为与该条目数据属于相同会话的一个或多个条目的数据；对于每个条目的数据，分别统计该条目数据的各关联条目数据对应的关联会话计数，并根据所述关联会话计数的大小对该条目数据的各关联条目数据排序，以得到该条目数据的关联条目数据序列；其中，该条目数据的一关联条目数据对应的关联会话计数为该条目数据与该关联条目数据共同所属会话的数量；按照预设规则对所有条目的数据进行筛选，以根据选中条目的数据确定关联数据集。

可选地，根据各条目数据的统计值确定所述各条目数据与关联条目数据的关联度的步骤，包括：根据各条目数据的统计值计算所述各条目数据与关联条目数据的关联性分数；根据所述关联性分数确定所述各条目数据与关联条目数据的关联度。

可选地，根据各条目数据的统计值计算所述各条目数据与关联条目数据的关联性分数的步骤，包括：对于每个条目数据，按照如下公式计算该条目数据与一个关联条目数据的关联性分数：Score＝N1*N2，其中，Score为该条目数据与该关联条目数据的关联性分数，N1为该条目数据的该关联条目数据对应的关联会话计数与该条目数据所属会话的数量的比值，N2为该条目数据的该关联条目数据对应的反转计数与该条目数据的该关联条目数据所属会话的数量的比值，其中，所述N1和所述N2的值根据所述统计值得出。

可选地，根据所述关联性分数确定所述各条目数据与关联条目数据的关联度的步骤，包括：将各条目数据与关联条目数据的关联性分数和第一阈值、第二阈值作比较，其中：所述关联性分数大于第一阈值时，则确定该条目数据与该关联条目数据的关联度为强关联；所述关联性分数小于所述第一阈值且大于第二阈值时，则该条目数据与该关联条目数据的关联度为弱关联；所述关联性分数小于所述第二阈值时，则确定该条目数据与该关联条目数据的关联度为无关联。

根据本发明实施例的另一方面，提供了一种基于本发明实施例的确定数据关联度的方法确定的数据关联度推荐数据的方法。

一种基于本发明实施例的确定数据关联度的方法确定的数据关联度推荐数据的方法，包括：获取用户当前浏览条目的数据；根据确定的所述用户当前浏览条目的数据与关联条目数据的关联度，将符合预设推荐条件的所述关联条目数据推荐给所述用户。

根据本发明实施例的又一方面，提供了一种确定数据关联度的装置。

一种确定数据关联度的装置，包括：关联数据集确定模块，用于根据用户的历史浏览数据确定关联数据集，所述关联数据集至少包括关联的两个条目的数据；数据统计模块，用于按照统计指标对所述关联数据集中各条目数据进行数据统计，以得到各条目数据的统计值；数据关联度确定模块，用于根据各条目数据的统计值确定所述各条目数据与关联条目数据的关联度。

可选地，所述关联数据集确定模块还用于：根据用户的历史浏览数据中各条目数据所属会话的信息确定各条目数据的关联条目数据；其中，一个条目数据的关联条目数据为与该条目数据属于相同会话的一个或多个条目的数据；对于每个条目的数据，分别统计该条目数据的各关联条目数据对应的关联会话计数，并根据所述关联会话计数的大小对该条目数据的各关联条目数据排序，以得到该条目数据的关联条目数据序列；其中，该条目数据的一关联条目数据对应的关联会话计数为该条目数据与该关联条目数据共同所属会话的数量；按照预设规则对所有条目的数据进行筛选，以根据选中条目的数据确定关联数据集。

可选地，所述数据关联度确定模块还用于：根据各条目数据的统计值计算所述各条目数据与关联条目数据的关联性分数；根据所述关联性分数确定所述各条目数据与关联条目数据的关联度。

可选地，所述数据关联度确定模块包括计算子模块，用于：对于每个条目数据，按照如下公式计算该条目数据与一个关联条目数据的关联性分数：Score＝N1*N2，其中，Score为该条目数据与该关联条目数据的关联性分数，N1为该条目数据的该关联条目数据对应的关联会话计数与该条目数据所属会话的数量的比值，N2为该条目数据的该关联条目数据对应的反转计数与该条目数据的该关联条目数据所属会话的数量的比值，其中，所述N1和所述N2的值根据所述统计值得出。

可选地，所述数据关联度确定模块还包括确定子模块，用于：将各条目数据与关联条目数据的关联性分数和第一阈值、第二阈值作比较，其中：所述关联性分数大于第一阈值时，则确定该条目数据与该关联条目数据的关联度为强关联；所述关联性分数小于所述第一阈值且大于第二阈值时，则该条目数据与该关联条目数据的关联度为弱关联；所述关联性分数小于所述第二阈值时，则确定该条目数据与该关联条目数据的关联度为无关联。

根据本发明实施例的又一方面，提供了一种基于本发明实施例的确定数据关联度的装置确定的数据关联度推荐数据的装置。

一种基于本发明实施例的确定数据关联度的装置确定的数据关联度推荐数据的装置，包括：获取模块，用于获取用户当前浏览条目的数据；推荐模块，用于根据确定的所述用户当前浏览条目的数据与关联条目数据的关联度，将符合预设推荐条件的所述关联条目数据推荐给所述用户。

根据本发明实施例的又一方面，提供了一种服务器。

一种服务器，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现确定数据关联度的方法或基于所述确定数据关联度的方法确定的数据关联度推荐数据的方法。

根据本发明实施例的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现确定数据关联度的方法或基于所述确定数据关联度的方法确定的数据关联度推荐数据的方法。

上述发明中的一个实施例具有如下优点或有益效果：根据用户的历史浏览数据确定关联数据集，然后按照统计指标对关联数据集中各条目数据进行数据统计，以得到各条目数据的统计值，再根据各条目数据的统计值确定各条目数据与关联条目数据的关联度。能够提升对数据关联度的计算精度，并精确确定数据间的关联度，有助于从用户角度更精确地了解数据间的关联关系，从而将与用户正在浏览的数据关联度高的数据推荐给用户，优化用户体验。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的确定数据关联度的方法的主要步骤示意图；

图2是根据本发明实施例的确定不同品类商品数据间的关联度的优选流程示意图；

图3是根据本发明实施例的确定数据关联度的装置的主要模块示意图；

图4是本发明实施例可以应用于其中的示例性***架构图；

图5是适于用来实现本发明实施例的服务器的计算机***的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的确定数据关联度的方法的主要步骤示意图。

如图1所示，本发明实施例的确定数据关联度的方法主要包括如下的步骤S101至步骤S103。

步骤S101：根据用户的历史浏览数据确定关联数据集。

其中，关联数据集至少包括关联的两个条目的数据，关联的两个条目的数据中，其中一个条目的数据为另一个条目的数据的关联条目数据。根据本发明实施例的应用场景，可以根据需要来定义数据的条目的含义。例如，在电商领域中确定不同品类商品数据间的关联度，一个条目的数据可以是某一级别商品品类的ID，对于其他应用场景例如用户浏览除电商平台网站之外的其他网页数据，这种网页数据不是按照商品品类来划分的商品数据，则可以按照网页数据的内容，用户浏览的一个内容的数据即可作为一个条目的数据。

根据用户的历史浏览数据确定关联数据集的具体步骤可包括：根据用户的历史浏览数据中各条目数据所属会话的信息确定各条目数据的关联条目数据；对于每个条目的数据，分别统计该条目数据的各关联条目数据对应的关联会话计数，并根据各关联会话计数的大小对该条目数据的各关联条目数据排序，以得到该条目数据的关联条目数据序列，其中，该条目数据的一关联条目数据对应的关联会话计数为该条目数据与该关联条目数据共同所属的会话的数量；按照预设规则对所有条目的数据进行筛选，以根据选中条目的数据确定关联数据集，其中，预设规则包括：当一条目数据与该条目数据的一关联条目数据二者中，任意一者均位于另一者的关联条目数据序列的前N个位置，则该二者被选入关联数据集，N为自然数。

各条目数据所属会话的信息可以是各条目数据所属会话的ID(可表示为session_id)，每一次会话对应一个ID。

其中，一个条目数据的关联条目数据为与该条目数据属于相同会话的一个或多个条目的数据。一次会话的含义为：自用户打开浏览器开始浏览操作时起，到关闭浏览所有浏览页，或者，自用户打开浏览器开始浏览操作时起到用户暂停浏览操作达到预设时长的时间点为止，都可以定义为一次会话。预设时长为session_id(即会话ID)的有效时长，可以自行设置，例如通常设置该预设时长为30分钟，即如果用户重启浏览器或在暂停浏览操作30分钟的时间点之后再次恢复浏览操作则属于一次新的会话。

步骤S102：按照统计指标对关联数据集中各条目数据进行数据统计，以得到各条目数据的与统计指标对应的统计值。

按照统计指标对关联数据集中各条目数据进行数据统计，能够得到各条目数据的统计值，每个条目数据的一个统计值与一个统计指标相对应。

统计指标具体可以包括被执行数据统计的当前条目数据的各关联条目数据对应的关联会话计数、当前条目数据所属会话的数量、当前条目数据的各关联条目数据分别所属会话的数量、当前条目数据的各关联条目数据对应的反转计数，其中，当前条目数据的一关联条目数据对应的反转计数为：该关联条目数据作为新的当前条目数据、且所述当前条目数据作为新的当前条目数据的一关联条目数据时，该新的当前条目数据与该新的当前条目数据的该关联条目数据共同所属的会话的数量。

步骤S103：根据各条目数据的与统计指标对应的统计值，确定各条目数据与相应的关联条目数据的关联度。

具体地，可以根据各条目数据的与统计指标对应的统计值，计算各条目数据与相应的关联条目数据的关联性分数，然后根据关联性分数确定各条目数据与相应的关联条目数据的关联度。

其中，根据各条目数据的与所述统计指标对应的统计值，计算所述各条目数据与相应的关联条目数据的关联性分数的步骤，具体可以包括：对于每个条目数据，按照如下公式计算该条目数据与相应的一个关联条目数据的关联性分数：

Score＝N1*N2，

其中，Score为该条目数据与该关联条目数据的关联性分数，其中，N1和N2的值可以根据各统计指标对应的统计值得出。具体地，N1为该条目数据的该关联条目数据对应的关联会话计数与该条目数据所属会话的数量的比值，N2为该条目数据的该关联条目数据对应的反转计数与该条目数据的该关联条目数据所属会话的数量的比值。

并且，根据关联性分数确定各条目数据与相应的关联条目数据的关联度的步骤，具体可以包括：将各条目数据与相应的关联条目数据的关联性分数和第一阈值、第二阈值作比较，其中：关联性分数大于第一阈值时，则确定该条目数据与该关联条目数据的关联度为强关联；关联性分数小于第一阈值且大于第二阈值时，则该条目数据与该关联条目数据的关联度为弱关联；关联性分数小于所述第二阈值时，则确定该条目数据与该关联条目数据的关联度为无关联。

本发明实施例的确定数据关联度的方法能够提升对数据关联度的计算精度，并精确确定数据间的关联度，有助于从用户角度更精确地了解数据间的关联关系，从而将与用户正在浏览的数据关联度高的数据推荐给用户，优化用户体验。

本发明实施例的确定数据关联度的方法适用于所有确定数据关联度的场景，例如电商领域可以使用本发明实施例的确定数据关联度的方法来确定不同品类商品数据间的关联度，下面以电商领域中确定不同品类商品数据间的关联度为例，对本发明实施例的确定数据关联度的方法进行详细介绍。

图2是根据本发明实施例的确定不同品类商品数据间的关联度的优选流程示意图。

如图2所示，确定不同品类商品数据间的关联度的优选流程包括如下的步骤S201至步骤S211。

步骤S201：获取预设时间段的用户历史浏览数据。

由于人类的活动周期一般为7的整数倍，因此在获取用户历史浏览数据时，可以以7天的倍数为基础抽取历史浏览数据，然后验证所抽取到的数据的最佳数据体量，以便用最小的计算资源获得最佳的精度。以商品数据分为三个级别为例，从用户的浏览历史记录中抽取用户7天的历史浏览数据，可以基于session_id限定用户的一次会话，建立用户浏览品类基本表，其中，session_id即会话ID，用于标识用户一次会话。用户浏览品类基本表中数据格式具体可以包括，session_id，用户浏览的一级、二级、三级品类的ID，以及商品的名称。

通常情况下，当各品类商品数据分为三个级别时，一级品类和二级品类包括多个品类的商品，三级品类对应的是具体某一个品类的商品，例如一级品类为母婴用品，二级品类为奶粉，三级品类为孕妇奶粉，该三级品类对应的商品为各种品牌的孕妇奶粉，因此，以下以三级品类的ID作为本发明实施例的各品类商品数据。本领域技术人员可以理解的是，本发明实施例不限于品类级别为三个级别的情况，如果是多于或少于三个级别，只要选取对应一个的具体品类商品的级别的品类数据即可，例如对于四个品类级别，第四级品类对应的为单一的具体品类的商品，则可以选取第四级品类的ID作为本发明实施例的各品类商品数据。

由于本发明实施例以三级品类的ID为例作为本发明实施例的各品类商品数据，为了表述方便，三级品类可以简称品类。

在抽取到上述历史浏览数据之后，还可以首先对抽取到的历史浏览数据进行数据清洗，具体地，数据清洗可以包括对抽取到的历史浏览数据进行异常值处理，针对不同的异常值特点采取不同的处理策略，例如针对能够修补的异常值可以采用临***均值的方式修补等处理策略，数据清洗还可以包括结合用户的账号等数据、电商平台的风控数据等将企业用户账号、风险账号(例如电商商家刷单账号)、僵尸账号(例如在长期不登录的账号或长期登录后只浏览却无下单行为的账号，该“长期”的具体时间范围可以根据经验来设定)等账号过滤。在执行上述数据清洗之后，输出清洗后的每个会话的浏览品类数据。

步骤S202：根据用户的历史浏览数据中各品类商品数据所属的会话的信息对各品类商品数据执行数据拼接，得到拼接后的数据表。

根据用户的历史浏览数据(可以是数据清洗之后的历史浏览数据)以session_id作为数据拼接的标准，对用户浏览品类基本表进行自身笛卡尔积运算，具体地，可将用户浏览品类基本表中的三级品类ID进行区分数据次序的两两组合，得出拼接数据，具体例如，假设用户浏览品类基本表只包括一个会话，且会话ID为S1，该会话包括两个品类商品数据，即三级品类ID分别为C1和C2，则对用户浏览品类基本表进行自身笛卡尔积运算的结果为：S1：C1，C2；以及，S1：C2，C1。通过对用户浏览品类基本表进行自身笛卡尔积运算，可以将session_id一致的数据条目连接到一起。这样，可以保证所有被拼接到一起的品类A与B一定是同时出现在一次用户浏览行为(即同一会话)中，只有这样才能保证挖掘出来的品类为具有密切相关性的品类，即用户在一次会话中即浏览了品类C1还浏览了品类C2。如果不限定session_id，挖掘出来的品类更有可能是电商平台上的热搜品类，而不一定是具有关联性的品类。各拼接数据组成拼接后的数据表，拼接后的数据表可以如表1所示。

表1

session_id	商品三级品类ID	同时浏览商品三级品类ID
			S1	C1	C2
S1	C1	C3
			S1	C1	C4
…	…	…
			S1	C1	C5
S2	C1	C2
			S2	C1	C3

表1中，S1、S2为session_id(即会话ID)，表示两次不同的会话。C1、C2、C3、C4、C5为三级品类ID。例如，session_id为S1、商品三级品类ID为C1、同时浏览商品三级品类ID为C2，表示：用户在会话ID为S1的会话中，在浏览了ID为C1的三级品类的同时，还浏览了ID为C2的三级品类。通过拼接后的数据表，可见，在第一次会话(会话ID为S1)中，用户访问品类C1的同时，还访问了C2、C3、C4，…C5等三级品类，在第二次会话(会话ID为S2)中，用户访问品类C1的同时还访问了C2、C3等三级品类。

步骤S203：统计拼接后的数据表中每个品类商品数据的关联品类商品数据对应的关联会话计数。

一个品类商品数据的关联品类商品数据为与该品类商品数据属于相同会话的一个或多个品类商品数据，即一个品类商品数据与其关联品类商品数据为用户在一次用户浏览行为中同时浏览的数据。以表1为例，在会话ID为S1的会话中，C1品类的关联品类商品数据为品类C2、C3、C4，…C5，在会话ID为S2的会话中，C1品类的关联品类商品数据为品类C2、C3。

某一品类商品数据的一关联品类商品数据对应的关联会话计数为该品类商品数据与该关联品类商品数据共同所属的会话的数量。以表1中的数据为例，C1品类和其关联的C2品类共同所属的会话为S1和S2，则C1品类的该ID为C2的关联品类商品数据对应的关联会话计数为2；C1品类和其关联的C4品类共同所属的会话为S1，则C1品类的该ID为C4的关联品类商品数据对应的关联会话计数为1。

步骤S204：对每个品类商品数据的各关联品类商品数据排序，以得到每个品类商品数据的关联品类商品数据序列。

根据统计得到的各品类商品数据的关联品类商品数据对应的关联会话计数的大小对每个品类商品数据的各关联品类商品数据排序，以得到每个品类商品数据的的关联品类商品数据序列。

以表1中的数据为例，通过该步骤可以统计出各品类商品数据与其关联品类商品数据(例如品类C1与其关联的品类C2)在所有的用户浏览行为(会话)中同时出现的次数(即关联会话计数)，但是对于同一次会话不进行重复计算。例如，如果在拼接后的数据表中，会话S1有多条C1与C2同时出现的记录，但是只统计一次。由于只有用户在一次会话中同时被访问到的品类，才能说明这些品类间存在某种关联性，这样，可以将用户的浏览行为聚焦到一次会话中，如果没有限定同一次会话(即session_id相等)，可能会将用户不同次会话浏览中的品类统计到一起，这样挖掘出来的不是品类间的关联关系，而是热搜品类的聚集。

通过分析用户每一次浏览会话中将哪些品类一起浏览，进而可以挖掘出在用户的心里哪些品类间具有关联性。

步骤S205：判断每个品类商品数据与该品类商品数据的一个关联品类商品数据二者中，是否任意一者均位于另一者的关联品类商品数据序列的前N个位置，若是，则执行步骤S206，若否，则执行步骤S207。

N的数值可以根据需要设定，以N＝20为例，假设品类C1与其关联的品类为品类C2，判断是否满足：品类C1位于品类C2的关联品类商品数据序列的前20的位置，且品类C2位于品类C1的关联品类商品数据序列的前20的位置。

步骤S206：将该品类商品数据和该关联品类商品数据二者选入关联数据集。

根据步骤S205中的举例，如果满足：品类C1位于品类C2的关联品类商品数据序列的前20的位置，且品类C2位于品类C1的关联品类商品数据序列的前20的位置，则将品类C1和品类C2选入关联数据集。

执行完步骤S206之后，执行步骤S208。

步骤S207：将拼接后的数据表中该品类商品数据和该关联品类商品数据的关联记录删除。

根据步骤S205中的举例，如果不满足：品类C1位于品类C2的关联品类商品数据序列的前20的位置，且品类C2位于品类C1的关联品类商品数据序列的前20的位置，则将拼接后的数据表中品类C1与品类C2的关联记录删除。

本发明实施例将互为关联的两个品类必须同时互为对方关联品类商品数据序列的前20位的品类，才被选入关联数据集，如果两个关联品类，有一个不能出现在另一个的关联品类商品数据序列的前20位，则删除该条记录，能够提高确定不同品类商品数据间的关联度的精度。

步骤S208：按照统计指标对关联数据集中各品类商品数据进行数据统计，以得到品类统计表。

品类统计表中为按照统计指标对关联数据集中各品类商品数据进行数据统计得到的各品类商品数据的与统计指标对应的统计值。该统计指标具体可以包括被执行数据统计的当前品类商品数据的各关联品类商品数据对应的关联会话计数、当前品类商品数据所属会话的数量、当前品类商品数据的各关联品类商品数据分别所属会话的数量、当前品类商品数据的各关联品类商品数据对应的反转计数，其中，当前品类商品数据的一关联品类商品数据对应的反转计数为：该关联品类商品数据作为新的当前品类商品数据、且所述当前品类商品数据作为新的当前品类商品数据的一关联品类商品数据时，该新的当前品类商品数据与该新的当前品类商品数据的该关联品类商品数据共同所属的会话的数量。表2示例性列出了品类统计表的一种具体形式。

表2

如表2所示，表2中第一行的六列分别为当前品类商品数据、关联品类商品数据、4个统计指标，当前品类商品数据对应列为三级品类ID，每个三级品类ID对应的关联品类商品数据为用户在一次会话中同时浏览的三级品类ID，每个统计指标对应的一列数据为该统计指标对应的统计值，例如，C1C2_Num表示当前品类商品数据为C1品类时，该C1品类的关联品类商品数据即C2品类对应的关联会话计数，即C1品类和其关联的C2品类共同所属的会话的数量，换言之，即用户在浏览C1品类的同时还浏览了C2品类的会话的数量。C2C1_Num为该C1品类的关联品类商品数据即C2品类对应的反转计数，即C2品类和其关联的C1品类共同所属的会话的数量，换言之，即用户在浏览C2品类的同时还浏览了C1品类的会话的数量。对于相同的一组当前品类商品数据和其关联品类商品数据而言，对应的关联会话计数和反转计数的统计值相同。C1_Num_Sum即C1品类所属会话的数量，即用户浏览C1品类的会话的数量，C2_Num_Sum为C2品类所属会话的数量，即用户浏览C2品类的会话的数量。

步骤S209：根据品类统计表中各品类商品数据的与统计指标对应的统计值，计算各品类商品数据与相应的关联品类商品数据的关联性分数。

以表2中的当前品类商品数据为C1品类，其关联品类商品数据为C2品类为例，C1品类和C2品类的关联性分数(Score)等于N1*N2，其中，N1为C1C2_Num与C1_Num_Sum的比值，N2为C2C1_Num与C2_Num_Sum的比值。

由于对于相同的一组当前品类商品数据和其关联品类商品数据而言，对应的关联会话计数和反转计数的统计值相同，因此计算各品类商品数据与相应的关联品类商品数据的关联性分数的公式：Score＝N1*N2中，N2还可以为该品类商品数据的该关联品类商品数据对应的关联会话计数与该品类商品数据的该关联品类商品数据所属会话的数量的比值。

各品类商品数据与相应的关联品类商品数据的关联性分数表示两个品类商品数据之间的关联度的高低，该值得取值范围在0至1之间，例如C1品类和C2品类的关联性分数为0.09，该数值越接近于1，表示两个品类商品数据间的关联度越高，本发明实施例具体设置两个阈值(第一阈值、第二阈值)来确定两个品类商品数据间的关联度，具体确定规则将在下文详细介绍。

步骤S210：将各品类商品数据与相应的关联品类商品数据的关联性分数和第一阈值、第二阈值作比较。

以表2中的当前品类商品数据为C1品类，其关联品类商品数据为C2品类为例，即将C1品类和C2品类的关联性分数Score(N1*N2)与第一阈值、第二阈值作比较。

步骤S211：根据比较结果确定各品类商品数据与相应的关联品类商品数据的关联度。

根据步骤S210中的举例，C1品类和C2品类的关联性分数Score(N1*N2)大于第一阈值时，则确定该C1品类和C2品类的关联度为强关联，该Score小于第一阈值且大于第二阈值时，则确定该C1品类和C2品类的关联度为弱关联；该Score小于第二阈值时，则确定该C1品类和C2品类的关联度为无关联。

本发明实施例可以构建一个品类关联性模型来执行步骤S202至步骤S211。在抽取到历史浏览数据之后，对抽取到的历史浏览数据进行数据清洗，并在数据清洗之后的历史浏览数据作为该品类关联性模型的输入数据，通过该品类关联性模型执行步骤S202至步骤S211，以计算出各品类商品数据与相应的关联品类商品数据的关联性分数，最后该模型的输出数据为各品类商品数据(可简称各品类)的关联度。

本发明实施例的该品类关联性模型的输入数据基于一些模型假设，具体包括：假设从电商平台反馈回来的用户浏览数据，都是正常用户的浏览行为，即排除竞争对手进行信息收集的情况；假设从全渠道流量明细收集到的用户浏览行为都是正确的信息，即没有异常值干扰；假设session_id返回的信息都是正确的信息，即不存在***错误，上述三个模型假设即表示在数据清洗之后的历史浏览数据(即模型的输入数据)已经满足上述三个假设，为模型可以使用的理想数据。

通过品类关联性模型确定出各品类商品数据之间的数据关联度之后，还可以对该模型的输出结果在实际生产***中进行测试，例如将模型确定的结果，分AB测试，即：将一部分品类商品数据作为A类数据，按照模型确定的关联度，根据业务需求预先设置推荐条件，将符合预设推荐条件的A类数据的关联品类商品数据推荐给用户，同时将另一部分品类商品数据作为B类数据，不采用模型确定的关联度来向用户推荐数据，然后根据生产***返回的购买用户转化率(即浏览且购买用户与总浏览用户的比值)，检查按照模型确定的关联度来向用户推荐数据的购买用户转化率是否达到期望值(例如B类数据的购买用户转化率为5％，期望A类数据的购买用户转化率为10％，则该期望值为10％)，如果未达到期望值，则调整品类关联性模型的参数(即第一阈值和第二阈值)，从而调整不同品类商品数据的关联度确定结果，通过多次循环迭代，可以不断地优化品类关联性模型的输出结果。

本发明实施例还可以建立模型输入数据的自动执行脚本，并配置定时执行任务，通过品类关联性模型定时执行自动化任务，并可将品类关联性模型关联商业***(如电商平台***)，直接将模型的输出结果输入到商业***中。帮助电商平台***从用户角度更精确地了解哪些品类间具有强弱关联性，使得电商平台***可以根据用户当前的浏览状态，将与用户正在浏览的品类，具有强相关性的品类推送给用户，并且可以根据用户的浏览行为不断优化推荐的品类，增强相关品类的曝光力度，将用户最感兴趣的产品放在最佳的货位上，帮助用户找到感性的产品，缩短用户的购买周期，优化用户体验，让用户感觉到电商平台***的人性化设计，从而实现提升用户单次购买GMV(成交金额)的效果。

本发明的另一实施例提供了一种基于本发明实施例的确定数据关联度的方法确定的数据关联度推荐数据的方法。

该推荐数据的方法基于本发明实施例的确定数据关联度的方法确定的数据关联度推荐数据，本发明实施例的确定数据关联度的方法各步骤的结果可以运用于该推荐数据的方法中。

该推荐数据的方法主要包括：获取用户当前浏览条目的数据，并根据确定的用户当前浏览条目的数据与相应的关联条目数据的关联度，将符合预设推荐条件的所述关联条目数据推荐给用户。

其中，确定的用户当前浏览条目的数据与相应的关联条目数据的关联度包括强关联、弱关联、无关联。预设推荐条件可以根据业务需求预先设置，例如设置的推荐条件可以为：被推荐条目的数据为用户当前浏览条目的数据的强关联条目的数据，或者，被推荐条目的数据为当前浏览条目的数据与各强关联条目的数据的关联性分数之中分数最高的M个强关联条目的数据(M为自然数，且M小于当前浏览条目的数据的所有强关联条目的数据的总数)。

本发明实施例的推荐数据的方法可以适用于电商领域推荐相关联品类的商品数据，也可以适用于其他领域向用户推荐与用户浏览的数据相关联的内容的数据。根据应用场景可以根据需要来定义数据的条目的含义。例如，在电商领域中一个条目的数据可以是某一级别商品品类的ID，对于其他应用场景例如用户浏览除电商平台网站之外的其他网页数据，这种网页数据不是按照商品品类来划分的商品数据，则可以按照网页数据的内容，用户浏览的一个内容的数据即可作为一个条目的数据。

本发明实施例的确定数据关联度的方法以及推荐数据的方法，基于用户的浏览行为数据，挖掘不同品类间的关联度，引入session_id(用户发起一次浏览的会话ID)限定品类关联性的数据边界，即必须是用户一次会话中同时被访问到的品类才能被作为具有关联性的品类，如果两个品类是出现在不同的会话中，则不能认为这两个品类作为具有关联性。因为用户的每一次浏览(会话)，都是用户心理活动的外在体现，用户一定是带着某种目的在进行品类浏览，所以只有在同一次的浏览行为中，才是最能体现在用户心目中哪些品类具有相关性。本发明实施例的品类关联性模型基于上述考虑，不是盲目地将用户每次浏览的数据都汇集到一起，避免了将电商平台中的热搜品类作为关联品类而导致的品类关联度确认精确度不高的缺陷。此外，从全局出发统计所有用户的历史浏览行为，最终生成不同品类间的关联性，既考虑到用户的个体行为，也综考虑到用户的群体效应，基于单个会话次数作为隐性权重，对不同的品类打分，挖掘品类间的强弱相关性，既可以提升模型的运行效率，又可以提升模型对品类关联性的计算精度。并且，可以使得电商平台***获得用户当前的浏览行为时，能够根据用户个人喜好，针对性地提供个性化的推荐产品，对电商平台的消费品的销售具有指导意义，在实际电商业务中有助于给电商平台***带来更大的商业价值。

图3是根据本发明实施例的确定数据关联度的装置的主要模块示意图。

本发明实施例的确定数据关联度的装置300主要包括：关联数据集确定模块301、数据统计模块302、数据关联度确定模块303。

关联数据集确定模块301，用于根据用户的历史浏览数据确定关联数据集。

关联数据集至少包括关联的两个条目的数据。根据本发明实施例的应用场景，可以根据需要来定义数据的条目的含义。例如，在电商领域中确定不同品类商品数据间的关联度，一个条目的数据可以是某一级别商品品类的ID，对于其他应用场景例如用户浏览除电商平台网站之外的其他网页数据，这种网页数据不是按照商品品类来划分的商品数据，则可以按照网页数据的内容，用户浏览的一个内容的数据即可作为一个条目的数据。

具体地，关联数据集确定模块301用于：根据用户的历史浏览数据中各条目数据所属会话的信息确定各条目数据的关联条目数据，其中，一个条目数据的关联条目数据为与该条目数据属于相同会话的一个或多个条目的数据；对于每个条目的数据，分别统计该条目数据的各关联条目数据对应的关联会话计数，并根据关联会话计数的大小对该条目数据的各关联条目数据排序，以得到该条目数据的关联条目数据序列，其中，该条目数据的一关联条目数据对应的关联会话计数为该条目数据与该关联条目数据共同所属的会话的数量；按照预设规则对所有条目的数据进行筛选，以根据选中条目的数据确定关联数据集，其中，预设规则可以包括：当一条目数据与该条目数据的一关联条目数据二者中，任意一者均位于另一者的关联条目数据序列的前N个位置，则该二者被选入关联数据集，N为自然数。

数据统计模块302，用于按照统计指标对关联数据集中各条目数据进行数据统计，以得到各条目数据的与统计指标对应的统计值。

数据关联度确定模块303，用于根据各条目数据的与统计指标对应的统计值，确定各条目数据与相应的关联条目数据的关联度。

具体地，数据关联度确定模块303用于根据各条目数据的与统计指标对应的统计值，计算各条目数据与相应的关联条目数据的关联性分数，并根据关联性分数确定各条目数据与相应的关联条目数据的关联度。

数据关联度确定模块303具体可以包括计算子模块，用于：对于每个条目数据，按照如下公式计算该条目数据与相应的一个关联条目数据的关联性分数：Score＝N1*N2，其中，Score为该条目数据与该关联条目数据的关联性分数，N1为该条目数据的该关联条目数据对应的关联会话计数与该条目数据所属会话的数量的比值，N2为该条目数据的该关联条目数据对应的反转计数与该条目数据的该关联条目数据所属会话的数量的比值。

数据关联度确定模块303还可以包括确定子模块，用于：将各条目数据与相应的关联条目数据的关联性分数和第一阈值、第二阈值作比较，其中：关联性分数大于第一阈值时，则确定该条目数据与该关联条目数据的关联度为强关联；关联性分数小于第一阈值且大于第二阈值时，则该条目数据与该关联条目数据的关联度为弱关联；关联性分数小于第二阈值时，则确定该条目数据与该关联条目数据的关联度为无关联。

本发明的另一实施例还提供了一种基于本发明实施例的确定数据关联度的装置300确定的数据关联度推荐数据的装置。

该推荐数据的装置，主要包括获取模块和推荐模块。

获取模块，用于获取用户当前浏览条目的数据。

推荐模块，用于根据确定的用户当前浏览条目的数据与相应的关联条目数据的关联度，将符合预设推荐条件的关联条目数据推荐给所述用户。

另外，在本发明实施例中确定数据关联度的装置300和基于本发明实施例的确定数据关联度的装置300确定的数据关联度推荐数据的装置的具体实施内容，在上面所述确定数据关联度的方法和基于本发明实施例的确定数据关联度的方法确定的数据关联度推荐数据的方法中已经详细说明了，故在此重复内容不再说明。

图4示出了可以应用本发明实施例的确定数据关联度的方法、推荐数据的方法、确定数据关联度的装置、或推荐数据的装置的示例性***架构400。

如图4所示，***架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如推荐信息、产品信息)反馈给终端设备。

需要说明的是，本发明实施例所提供的确定数据关联度的方法或推荐数据的方法一般由服务器405执行，相应地，确定数据关联度的装置或推荐数据的装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本申请实施例的服务器的计算机***500的结构示意图。图5示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机***500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括关联数据集确定模块301、数据统计模块302、数据关联度确定模块303。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，关联数据集确定模块301还可以被描述为“用于根据用户的历史浏览数据确定关联数据集的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：根据用户的历史浏览数据确定关联数据集，关联数据集至少包括关联的两个条目的数据；按照统计指标对关联数据集中各条目数据进行数据统计，以得到各条目数据的与统计指标对应的统计值；根据各条目数据的与统计指标对应的统计值，确定各条目数据与相应的关联条目数据的关联度。

根据本发明实施例的技术方案，根据用户的历史浏览数据确定关联数据集，然后按照统计指标对关联数据集中各条目数据进行数据统计，以得到各条目数据的与统计指标对应的统计值，再根据各条目数据的与统计指标对应的统计值，确定各条目数据与相应的关联条目数据的关联度。能够提升对数据关联度的计算精度，并精确确定数据间的关联度，有助于从用户角度更精确地了解数据间的关联关系，从而将与用户正在浏览的数据关联度高的数据推荐给用户，优化用户体验。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种确定数据关联度的方法，其特征在于，包括：

根据用户的历史浏览数据确定关联数据集，所述关联数据集至少包括关联的两个条目的数据；

按照统计指标对所述关联数据集中各条目数据进行数据统计，以得到各条目数据的统计值；

根据各条目数据的统计值确定所述各条目数据与关联条目数据的关联度。

2.根据权利要求1所述的方法，其特征在于，根据用户的历史浏览数据确定关联数据集的步骤，包括：

根据用户的历史浏览数据中各条目数据所属会话的信息确定各条目数据的关联条目数据；其中，一个条目数据的关联条目数据为与该条目数据属于相同会话的一个或多个条目的数据；

对于每个条目的数据，分别统计该条目数据的各关联条目数据对应的关联会话计数，并根据所述关联会话计数的大小对该条目数据的各关联条目数据排序，以得到该条目数据的关联条目数据序列；其中，该条目数据的一关联条目数据对应的关联会话计数为该条目数据与该关联条目数据共同所属会话的数量；

按照预设规则对所有条目的数据进行筛选，以根据选中条目的数据确定关联数据集。

3.根据权利要求1所述的方法，其特征在于，根据各条目数据的统计值确定所述各条目数据与关联条目数据的关联度的步骤，包括：

根据各条目数据的统计值计算所述各条目数据与关联条目数据的关联性分数；

根据所述关联性分数确定所述各条目数据与关联条目数据的关联度。

4.根据权利要求3所述的方法，其特征在于，根据各条目数据的统计值计算所述各条目数据与关联条目数据的关联性分数的步骤，包括：

对于每个条目数据，按照如下公式计算该条目数据与一个关联条目数据的关联性分数：Score＝N1*N2，其中，Score为该条目数据与该关联条目数据的关联性分数，N1为该条目数据的该关联条目数据对应的关联会话计数与该条目数据所属会话的数量的比值，N2为该条目数据的该关联条目数据对应的反转计数与该条目数据的该关联条目数据所属会话的数量的比值，其中，所述N1和所述N2的值根据所述统计值得出。

5.根据权利要求3所述的方法，其特征在于，根据所述关联性分数确定所述各条目数据与关联条目数据的关联度的步骤，包括：

将各条目数据与关联条目数据的关联性分数和第一阈值、第二阈值作比较，其中：

所述关联性分数大于第一阈值时，则确定该条目数据与该关联条目数据的关联度为强关联；

所述关联性分数小于所述第一阈值且大于第二阈值时，则该条目数据与该关联条目数据的关联度为弱关联；

所述关联性分数小于所述第二阈值时，则确定该条目数据与该关联条目数据的关联度为无关联。

6.一种基于权利要求1至5中任一项所述的方法确定的数据关联度推荐数据的方法，其特征在于，包括：

获取用户当前浏览条目的数据；

根据确定的所述用户当前浏览条目的数据与关联条目数据的关联度，将符合预设推荐条件的所述关联条目数据推荐给所述用户。

7.一种确定数据关联度的装置，其特征在于，包括：

关联数据集确定模块，用于根据用户的历史浏览数据确定关联数据集，所述关联数据集至少包括关联的两个条目的数据；

数据统计模块，用于按照统计指标对所述关联数据集中各条目数据进行数据统计，以得到各条目数据的统计值；

数据关联度确定模块，用于根据各条目数据的统计值确定所述各条目数据与关联条目数据的关联度。

8.根据权利要求7所述的装置，其特征在于，所述关联数据集确定模块还用于：

9.根据权利要求7所述的装置，其特征在于，所述数据关联度确定模块还用于：

10.根据权利要求9所述的装置，其特征在于，所述数据关联度确定模块包括计算子模块，用于：

11.根据权利要求9所述的装置，其特征在于，所述数据关联度确定模块还包括确定子模块，用于：

12.一种基于权利要求7至11中任一项所述的装置确定的数据关联度推荐数据的装置，其特征在于，包括：

获取模块，用于获取用户当前浏览条目的数据；

推荐模块，用于根据确定的所述用户当前浏览条目的数据与关联条目数据的关联度，将符合预设推荐条件的所述关联条目数据推荐给所述用户。

13.一种服务器，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。