CN105335368A

CN105335368A - 一种产品聚类方法及装置

Info

Publication number: CN105335368A
Application number: CN201410250664.3A
Authority: CN
Inventors: 陈海凯
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-06-06
Filing date: 2014-06-06
Publication date: 2016-02-17
Anticipated expiration: 2034-06-06
Also published as: CN105335368B

Abstract

本申请涉及电子商务技术，特别涉及一种产品聚类方法及装置。该方法为：基于各个产品之间的相似度筛选出相似度符合预设条件的产品，再基于预设原则在筛选出的各个产品中进一步确定簇中心产品，以及分别基于每一个簇中心产品，将每一个非簇中心产品与相似度最高的簇中心产品归为一簇。采用上述方法，不受聚类个数的限制，仅需计算一次产品相似度，便可以构建相似网络并基于启发式算法逐步实现对产品的聚类，这样，不但能够大幅度提高聚类结果的准确度，还能够大大降低实现产品聚类的时间复杂度和空间复杂度，从而避免给***带来严重的运行负荷，进而将实现成本控制在理想范围内，尤其适用于大规模的产品聚类场景。

Description

一种产品聚类方法及装置

技术领域

本申请涉及电子商务技术，特别涉及一种产品聚类方法及装置。

背景技术

随着电子商务技术的发展，电子商务网站中展示的产品数目日亦庞大，并且产品与产品之间的相似度计算复杂度很高。通常情况下，电子商务网站拥有数亿的用户，用户的行为也是非常丰富的。但是由于产品的数据量巨大，用户对产品的操作行为(如，点击、购买、收藏等)则显得非常稀疏。由于用户到产品的数据的稀疏性，在计算用户偏好以及计算用户相似性等等参量时，往往覆盖率不高，而且也影响准确性。

针对上述问题，现有技术下，通常会将足够相似的产品聚合成一个簇，再把簇内产品涉及的所有用户行为聚合起来，以增加数据的稠密性，然后在稠密数据的基础上进行用户偏好及用户相似性的挖掘，从而得到较高的覆盖率和准确率；进一步地，也可以基于获得的挖掘结果向用户推荐其他相关产品。

现有技术下划分簇的算法较多，比较常用的是谱聚类的算法。采用谱聚类算法时，首先需要设定一个聚类的个数K，从而将产品与产品之间的相似性降维成K(即是针对海量产品设置了目标类数)，然后再利用k-means将降维后的产品进行聚类。

采用谱聚类算法的缺点如下：

首先，必须要设置聚类的个数K。然而，在给定一个数据集合后，用户很难判断K的取值需要设置为多大才合适。

其次，需要对产品进行降维处理，一般降成K维。然而，电子商务网站中存在着海量的产品，要通过降维处理聚类为几百万的簇，其计算的时间复杂度和空间复杂度会给***带来严重的运行负荷。

发明内容

本申请实施例提供一种产品聚类方法及装置，用以解决现有技术中存在的为了实现海量产品的准确聚类，从而增加***运行负荷的问题。

本申请实施例提供的具体技术方案如下：

提供一种产品聚类方法，包括：

根据用户的操作行为计算各个产品之间的相似度；

基于各个产品之间的相似度筛选出相似度符合预设条件的产品；

基于预设原则在筛选出的各个产品中进一步确定簇中心产品，其中，所述预设原则包括：与簇中心产品之间存在链接的产品的数目达到预设门限值，以及，不同簇中心产品之间不存在链接；

对于一个非簇中心产品，从各簇中心产品中，确定与该非簇中心产品具有最高相似度的簇中心产品，并将该非簇中心产品和所述与该非簇中心产品具有最高相似度的簇中心产品归为一簇。

较佳的，基于各个产品之间的相似度筛选出相似度符合预设条件的产品，包括：

根据计算获得的各个产品之间的相似度，分别针对每一个产品保存相似度最高的K个产品，并在每一个产品与对应其保存的相似的每一个产品之间建立链接；

删除单向相似的产品之间的链接，只保留双向相似的产品之间的链接。

较佳的，在保留双向相似的产品之间的链接之后，进一步包括：

分别计算并判断每一条链接两端的两个产品的相似产品的重合程度是否达到预设的重合度阈值，若是，则保留相应的链接，否则，删除相应的链接。

较佳的，基于预设原则在筛选出的各个产品中进一步确定簇中心产品，包括：

根据各个产品之间的链接，分别确定每一个产品的度数，其中，一产品的度数为与所述一产品之间存在链接的其他产品的数目；

筛选出度数大于预设的第一度数阈值的所有产品作为待选簇中心产品；

将各个待选簇中心产品按照度数从大到小的顺序进行排序；

按照排序顺序遍历每个待选簇中心产品，每当确定与某一待选簇中心产品之间存在链接的其他产品均为非待选簇中心产品时，将所述某一待选簇中心产品确定为簇中心产品。

较佳的，对于一个非簇中心产品，从各簇中心产品中，确定与该非簇中心产品具有最高相似度的簇中心产品，并将该非簇中心产品和所述与该非簇中心产品具有最高相似度的簇中心产品归为一簇，包括：

确定一非簇中心产品的度数，并判断所述非簇中心产品的度数是否大于预设的第二度数阈值，其中，所述第二度数阈值小于所述第一度数阈值；

若所述非簇中心产品的度数大于预设的第二度数阈值，则获取所有与所述非簇中心产品之间存在链接的簇中心产品，并将与所述非簇中心产品之间存在链接数目最多的簇中心产品与所述非簇中心产品归为一簇；

若所述非簇中心产品的度数不大于预设的第二度数阈值，则确定与所述非簇中心产品之间存在链接的所有其他产品，并分别确定所述其他产品各自对应的簇中心产品，以及将与所述其他产品之间存在链接最多的簇中心产品与所述非簇中心产品归为一簇。

提供一种产品聚类装置，包括：

计算单元，根据用户的操作行为计算各个产品之间的相似度；

第一处理单元，用于基于各个产品之间的相似度筛选出相似度符合预设条件的产品；

第二处理单元，用于基于预设原则在筛选出的各个产品中进一步确定簇中心产品，其中，所述预设原则包括：与簇中心产品之间存在链接的产品的数目达到预设门限值，以及，不同簇中心产品之间不存在链接；

聚类单元，用于对于一个非簇中心产品，从各簇中心产品中，确定与该非簇中心产品具有最高相似度的簇中心产品，并将该非簇中心产品和所述与该非簇中心产品具有最高相似度的簇中心产品归为一簇。

较佳的，在基于各个产品之间的相似度筛选出相似度符合预设条件的产品时，所述第一处理单元具体用于：

较佳的，在保留双向相似的产品之间的链接之后，所述第一处理单元进一步用于：

较佳的，在基于预设原则在筛选出的各个产品中进一步确定簇中心产品时，所述第二处理单元具体用于：

将各个待选簇中心产品按照度数从大到小的顺序进行排序；

较佳的，在对于一个非簇中心产品，从各簇中心产品中，确定与该非簇中心产品具有最高相似度的簇中心产品，并将该非簇中心产品和所述与该非簇中心产品具有最高相似度的簇中心产品归为一簇时，所述聚类单元具体用于：

本发明实施例中，电子商务***根据用户的操作行为计算各个产品之间的相似度，并基于各个产品之间的相似度筛选出相似度符合预设条件的产品，再基于预设原则在筛选出的各个产品中进一步确定簇中心产品，其中，所谓预设原则包括：与簇中心产品之间存在链接的产品的数目达到预设门限值，以及，簇中心产品和簇中心产品之间不存在链接，最后，分别基于每一个簇中心产品，将每一个非簇中心产品与相似度最高的簇中心产品归为一簇。采用上述方法，不受聚类个数的限制，仅需计算一次产品相似度，便可以构建相似网络并基于启发式算法逐步实现对产品的聚类，这样，不但能够大幅度提高聚类结果的准确度，还能够大大降低实现产品聚类的时间复杂度和空间复杂度，从而避免给***带来严重的运行负荷，进而将实现成本控制在理想范围内，尤其适用于大规模的产品聚类场景。

附图说明

图1为本申请实施例中产品聚类流程图；

图2为本申请实施例中产品聚类装置第一结构示意图。

具体实施方式

为了解决现有技术中存在的为了实现海量产品的准确聚类，从而增加***运行负荷的问题。本申请实施例中，根据产品之间的相似度构建的一个top相似网络，再基于该top相似网络，利用启发式的算法来将产品聚类分簇。

当然，本申请技术方案的实施依赖大量用户行为数据的分析，因而需要类似hadoop之类的并行计算平台。另一方面，本申请技术方案不仅仅适用于产品分族，也可以适用于用户分簇，店铺分簇等等其他的一个分簇场景，在此不再赘述。

下面仅以产品为例，结合附图对本申请优选的实施方式进行详细说明。

参阅图1所示，本申请实施例中，产品聚类的实现流程如下：

步骤100：根据用户的操作行为计算各个产品之间的相似度。

本申请所述的产品可以理解为数据对象，比如，一项商品信息数据。

所述数据对象可以是商品信息数据，也可以是多媒体信息数据(例如音视频内容)。用户对产品的操作行为也即用户对某一数据对象的操作，包括访问请求(例如浏览所述数据对象)、存储请求(例如收藏所述数据对象)、转发请求(例如将所述数据对象推荐给其他用户)等。

本申请实施例中，分别判定每个产品被哪些用户执行过指定操作，并将针对各个产品的判定结果作为相应产品的特征，如果不同产品被同一用户执行过指定操作(比如浏览行为或发出交易请求的行为)，理论上认为这些产品之间存在相似度。

抽取用户的操作行为之后即得到每个产品的特征(即每个产品被哪些用户执行过指定操作)，用协同过滤的方法即可以计算各个产品之间的相似度。具体的，cosine算法、jaccard算法和皮尔森相关系数算法等等中的任意一种。以cosine算法为例，可以采用公式一来计算两个产品之间的相似度：

sim (di, dj) = \frac{\underset{u}{Σ} w_{ui} w_{uj}}{\underset{u}{Σ} {w_{ui}}^{2} \underset{u}{Σ} {w_{uj}}^{2}}

公式一

其中，di和dj分别表示两个不同的产品，sim(di,dj)表示两个不同产品之间的相似度；wui和wuj分别表示用户u对两个产品是否执行过指定操作)，如果两个产品被越多相同的用户执行过指定操作，相似度就越高。wui和wuj可以使用数字“0”或“1”进行量化。例如，用户u对产品i执行过指定操作，wui记作“1”；未对i执行过指定操作，wui记作“0”。

步骤110：基于各个产品之间的相似度筛选出相似度符合预设条件的产品。

实际应用中，仅仅计算出产品与产品之间的相似度是远远不够的，因为这样计算出来的相似度往往会有一些噪声(即会误判定无关联的两个产品之间存在相似度)，因而，在计算出各个产品之间的相似度后，需要在这个相似度的基础之上构建出一个产品之间高度相似的相似网络，这样才能保证最后聚类获得的每个簇里面的产品是相似的。

因而，在执行步骤110时，首先需要根据计算获得的各个产品之间的相似度，分别针对每一个产品，保存与该产品相似度最高的K个产品，并在每一个产品与对应其保存的相似的每一个产品之间建立链接。本申请实施例中，可选的，针对每一个产品选取中取了top40个最相似的产品，即K＝40。

在执行这一操作后，一部分产品之间的关系变成为单向关系，如，一个产品A的topK个相似产品中有产品B，但是产品B的topK个相似产品里面不一定有产品A。此时，每一个产品便拥有了自身的度数，所谓度数即是指产品与产品之间构建的一个无向相似网络中，与该产品具有链接关系的相似产品的数量。假设一个产品与N个产品之间有链接，那么这个产品的度数就是N。

接着，构建无向的top相似网络，即在上一操作的基础上再进行筛选，删除单向相似的产品之间的链接，只保留双向相似的产品与产品的链接。例如，若产品B在产品A的topK个相似产品中，并且产品A也在产品B的topK个相似产品中，才保留产品A和产品B之间的链接。

经过前面两个操作之后，若认为噪声已经降低到门限值以下，则可以继续执行步骤120；若认为筛选出的各个产品中可能还有一些噪声，则可以作进一步筛选。较佳的，可以分别计算并判断每一条链接两端的两个产品的相似产品的重合程度是否达到预设的重合度阈值，若是，则保留相应的链接，否则，删除相应的链接，以清除噪声。

例如，有一条边链接着产品A和产品B，那么产品A的相似产品有一个集合，称为similar_auction(A)，产品B也有一个相似集合，称烟similar_auction(B)，计算两个集合similar_auction(A)和similar_auction(B)的并集，并且根据并集的大小来筛选产品A和产品B这间的链接，如，若并集小于5，则删除产品A和产品B之间的链接，若并集大于等于5，则保留产品A和产品B之间的链接。

步骤120：基于预设原则在筛选出的各个产品中进一步确定簇中心产品；其中，所谓预设原则为：与簇中心产品之间存在链接的产品的数目达到预设门限值，以及，不同簇中心产品之间不存在链接。

本申请实施例中，在构建了一个无向top相似网络之后，采用启发式的方法来寻找作为簇中心点的产品，以下称为簇中心产品。所谓的启发式的方法需要遵循两个基本原则，其一，簇中心产品的度数越大越好，即与簇中心产品之间存在链接的产品的数目越大越好，且需要达到预设门限值，其二，簇中心产品和簇中心产品之间不能够存在链接，即各个簇中心产品之间不存在相似度。

具体的，在执行步骤130时，可以执行但不限于以下操作：

A：首先，基于已构建的top相似网络，确定每一个产品的度数，其中，一产品的度数为与该产品之间存在链接的其他产品的数目。

此时，可以建立一簇中心产品集合center_auction，并将其初始化为空集。

B：其次，筛选出度数大于预设的第一度数阈值的所有产品作为待选簇中心产品。

较佳的，第一度数阈值的取值可以为10，即与其他产品之间存在10个链接的产品可以作为待选的簇中心产品。

C：将各个待选簇中心产品按照度数从大到小的顺序进行排序。

D：按照排序顺序遍历每个待选簇中心产品，每当确定与某一待选簇中心产品之间存在链接的其他产品均为非待选簇中心产品时，将上述某一待选簇中心产品确定为簇中心产品。

例如，在查看待选簇中心产品i(以下简称产品i)的所有相似产品(即与产品i之间存在链接的所有产品)时，判断产品i的所有相似产品是否均不在簇中心产品集合center_auction中，若是，则将产品i加入center_auction这个簇中心产品集合，并继续遍历下一个待选簇中心产品；否则，直接继续遍历下一个待选簇中心产品。

步骤130：对于一个非簇中心产品，从各簇中心产品中，确定与该非簇中心产品具有最高相似度的簇中心产品，并将该非簇中心产品和上述与该非簇中心产品具有最高相似度的簇中心产品归为一簇。

以任意一非簇中心产品为例(以下简称为产品x)，在执行步骤140时，需要执行但不限于以下操作：

首先，确定产品x的度数并判断产品x的度数是否大于设定的第二度数阈值，其中，第二度数阈值小于第一度数阈值。

其次，若产品x的度数大于设定的第二度数阈值，则说明产品x与簇中心产品之间一定存在链接，则获取所有与产品x之间存在链接的簇中心产品，并将与产品x之间存在链接数目最多的簇中心产品与产品x归为一簇。

而若产品x的度数不大于设定的第二度数阈值，则说明产品x与簇中心产品之间不一定存在链接，那么，此时需要确定与产品x之间存在链接的所有其他产品，并分别确定上述其他产品各自对应的簇中心产品，接着，将与上述其他产品之间存在链接最多的簇中心产品与产品x归为一簇。

例如，可以采用邻近算法(k-NearestNeighbor，knn)算法，计算出与产品x之间存在链接的其他产品分别归属于哪些簇(即分别对应哪一个簇中心产品)，再判断上述其他产品中哪些产品归属到同一个簇，如果上述产品中有有最多的产品归属到同一个簇，那么便可以将产品x归属至这个簇中。

如，与产品x之间存在链接的其他产品为产品a、产品b、产品c、产品d，其中，产品a和产品b均与簇中心产品M归属于同一簇，产品c与簇中心产品N归属于同一簇，产品d与簇中心产品L归属于同一族，那么，可以将产品x与簇中心产品M归属为同一簇。

经过上述流程，电子商务***可以对产品进行精确分簇，这样，当用户浏览某一产品时，电子商务***可以根据该产品所归属的簇，向用户呈现相似度极高的推荐产品，准确体现了用户偏好及用户相似性，提高了推荐信息的覆盖率和准确率，同时也缩短了用户查找目标产品所需要的时间，提高了用户的查找效率的同时，有效提升了电子商务网络的服务质量。

基于上述实施例，参阅图2所示，本申请实施例中，实现产品聚类的装置包括：

参阅图2所示，本申请实施例中，实现产品聚类的装置包括计算单元20、第一处理单元21、第二处理单元22和聚类单元23，其中，

计算单元20，根据用户的操作行为计算各个产品之间的相似度；

第一处理单元21，用于基于各个产品之间的相似度筛选出相似度符合预设条件的产品；

第二处理单元22，用于基于预设原则在筛选出的各个产品中进一步确定簇中心产品，其中，预设原则包括：与簇中心产品之间存在链接的产品的数目达到预设门限值，以及，簇中心产品和簇中心产品之间不存在链接；

聚类单元23，用于对于一个非簇中心产品，从各簇中心产品中，确定与该非簇中心产品具有最高相似度的簇中心产品，并将该非簇中心产品和上述与该非簇中心产品具有最高相似度的簇中心产品归为一簇。

较佳的，在基于各个产品之间的相似度筛选出相似度符合预设条件的产品时，第一处理单元21具体用于：

较佳的，在保留双向相似的产品之间的链接之后，第一处理单元21进一步用于：

较佳的，在基于预设原则在筛选出的各个产品中进一步确定簇中心产品时，第二处理单元22具体用于：

根据各个产品之间的链接，分别确定每一个产品的度数，其中，一产品的度数为与一产品之间存在链接的其他产品的数目；

将各个待选簇中心产品按照度数从大到小的顺序进行排序；

按照排序顺序遍历每个待选簇中心产品，每当确定与某一待选簇中心产品之间存在链接的其他产品均为非待选簇中心产品时，将某一待选簇中心产品确定为簇中心产品。

较佳的，在对于一个非簇中心产品，从各簇中心产品中，确定与该非簇中心产品具有最高相似度的簇中心产品，并将该非簇中心产品和上述与该非簇中心产品具有最高相似度的簇中心产品归为一簇时，聚类单元23具体用于：

确定一非簇中心产品的度数，并判断该非簇中心产品的度数是否大于预设的第二度数阈值，其中，第二度数阈值小于第一度数阈值；

若该非簇中心产品的度数大于预设的第二度数阈值，则获取所有与该非簇中心产品之间存在链接的簇中心产品，并将与该非簇中心产品之间存在链接数目最多的簇中心产品与该非簇中心产品归为一簇；

若该非簇中心产品的度数不大于预设的第二度数阈值，则确定与该非簇中心产品之间存在链接的所有其他产品，并分别确定其他产品各自对应的簇中心产品，以及将与其他产品之间存在链接最多的簇中心产品与该非簇中心产品归为一簇。

综上所述，本申请实施例中，电子商务***根据用户的操作行为计算各个产品之间的相似度，并基于各个产品之间的相似度筛选出相似度符合预设条件的产品，再基于预设原则在筛选出的各个产品中进一步确定簇中心产品，其中，所谓预设原则包括：与簇中心产品之间存在链接的产品的数目达到预设门限值，以及，簇中心产品和簇中心产品之间不存在链接，最后，分别基于每一个簇中心产品，将每一个非簇中心产品与相似度最高的簇中心产品归为一簇。

采用上述方法，不受聚类个数的限制，仅需计算一次产品相似度，便可以构建相似网络并基于启发式算法逐步实现对产品的聚类，这样，不但能够大幅度提高聚类结果的准确度，还能够大大降低实现产品聚类的时间复杂度和空间复杂度，从而避免给***带来严重的运行负荷，进而将实现成本控制在理想范围内，尤其适用于大规模的产品聚类场景。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种产品聚类方法，其特征在于，包括：

根据用户的操作行为计算各个产品之间的相似度；

2.如权利要求1所述的方法，其特征在于，基于各个产品之间的相似度筛选出相似度符合预设条件的产品，包括：

3.如权利要求2所述的方法，其特征在于，在保留双向相似的产品之间的链接之后，进一步包括：

4.如权利要求2所述的方法，其特征在于，基于预设原则在筛选出的各个产品中进一步确定簇中心产品，包括：

将各个待选簇中心产品按照度数从大到小的顺序进行排序；

5.如权利要求2所述的方法，其特征在于，对于一个非簇中心产品，从各簇中心产品中，确定与该非簇中心产品具有最高相似度的簇中心产品，并将该非簇中心产品和所述与该非簇中心产品具有最高相似度的簇中心产品归为一簇，包括：

6.一种产品聚类装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，在基于各个产品之间的相似度筛选出相似度符合预设条件的产品时，所述第一处理单元具体用于：

8.如权利要求7所述的装置，其特征在于，在保留双向相似的产品之间的链接之后，所述第一处理单元进一步用于：

9.如权利要求7所述的装置，其特征在于，在基于预设原则在筛选出的各个产品中进一步确定簇中心产品时，所述第二处理单元具体用于：

将各个待选簇中心产品按照度数从大到小的顺序进行排序；

10.如权利要求7所述的装置，其特征在于，在对于一个非簇中心产品，从各簇中心产品中，确定与该非簇中心产品具有最高相似度的簇中心产品，并将该非簇中心产品和所述与该非簇中心产品具有最高相似度的簇中心产品归为一簇时，所述聚类单元具体用于：