CN103793504B

CN103793504B - 一种基于用户偏好与项目属性的聚类初始点选择方法

Info

Publication number: CN103793504B
Application number: CN201410035844.XA
Authority: CN
Inventors: 宿红毅; 王彩群; 闫波; 郑宏
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-01-24
Filing date: 2014-01-24
Publication date: 2018-02-27
Anticipated expiration: 2034-01-24
Also published as: CN103793504A

Abstract

本发明涉及一种基于用户偏好与项目属性的聚类初始点选择方法，属于机器学习领域。首先确定基于项目的相似矩阵和基于用户偏好的同现矩阵，通过两矩阵得到最终的相似矩阵；进而通过去除边缘点，选择聚类初始中心点，完成对初始中心点的选择。本发明可以有效提高聚类效果。

Description

一种基于用户偏好与项目属性的聚类初始点选择方法

技术领域

本发明涉及一种基于用户偏好与项目属性的聚类初始点选择方法，属于机器学习领域。

背景技术

聚类是一种无监督的学习方法，它通过一定的规则将数据对象按照定义的相似性划分成为多个类或簇，在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。到目前为止，聚类分析的应用已十分广泛，包括统计学、机器学习、图像分割、和数据挖掘等。目前，主要的聚类算法分为划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。而划分式聚类算法是实际应用中聚类分析的支柱。划分式聚类算法需要预先指定聚类数目或聚类中心，通过反复迭代运算，逐步降低目标函数的误差值，当目标函数值收敛时，得到最终聚类结果。划分式聚类算法简单、快速而且能有效的处理大数据集，但此聚类算法存在高计算性及对数据的输入顺序敏感的缺点，且需要预先指定聚类数目或聚类中心。初始聚类中心点对聚类结果的影响很大。如果初始聚类中心点选择不当，得到的聚类结果可能会陷入局部最优，从而得不到较好的聚类结果。而划分式聚类初始聚类中心点的选择方法也是多种多样，主要有以下几种方法：

随机选择法：随机选取k个数据点作为初始聚类中心点；

经验法：依据经验，根据个体性质，选择k个有代表意义的点作为初始聚类中心点；

递推法：首先计算全体数据样本的均值，以这个数值点作为初始聚类中心，然后计算距离第一个数值点最远的一个点作为第2个聚类中心，以此类推，由第k-1个聚类中心计算聚类最远的一个数据样本作为最后一个聚类中心。

密度估计选择法：计算特定半径内的每个数据样本的密度，具有最大密度的点作为第一个聚类中心点，然后再计算剩下的初始中心点，若是具有第二大密度的点距离第一个聚类中心点的距离大于特定值则作为第2个初始聚类中心点，按此方法依次选出k个中心点；

距离优化选择法：按照最大最小距离计算

采用遗传算法计算聚类初始中心点等。

由于初始聚类中心点对聚类结果的影响很大。如果初始聚类中心点选择不当，得到的聚类结果可能会陷入局部最优，从而得不到较好的聚类结果。为了获得恰当的初始聚类中心点，避免聚类结果陷入局部最优，本专利提出一种新的聚类初始中心点的选择方法。

发明内容

本发明的目的是为了解决基于划分的算法的初始中心点的选择的问题，使用用户的偏好信息和商品属性来构造相似矩阵，从而得到初试中心点。

本发明技术方案的实现过程为：

步骤1、确定基于项目的相似矩阵；

定义项目的特征向量：item_i=(p₁，p₂，…，p_m)；其中m为项目的属性个数，p_i(1≤i≤m)代表了此项目第i个特征向量的值。然后每个项目可以转换为用一个向量item_i＝(w₁，w₂，…，w_m)表示，其中向量维数是m，即项目的属性特征个数。然后通过计算表示项目的向量间的距离A_ij来表示item_i和item_j之间的相似性，从而构成相似矩阵

所属项目u与项目v之间通过距离获取相似度的计算方法包括：皮尔逊相关的距离、欧氏距离、余弦距离、斯皮尔曼距离和基于谷本相关的距离。

步骤2、确定基于用户偏好的同现矩阵；

定义用户对项目的偏好列表：prefs＝(user_id，item_id，pref)，其中pref代表用户对项目的评分，所有用户对项目的评分组成评分列表prefs。通过计算item_i和item_j同时出现在相同的用户的偏好列表中的次数B_ij，来构成同现矩阵

步骤3、确定最终的相似矩阵；

最终的相似矩阵定义为其中和β为自定义的权重。

步骤4、去除边缘点；

在TS的每行中，分别计算相似度大于给定阈值θ的项目的个数，记为α_i，若是α_i的个数小于给定阈值μ表示此点是边缘点，则从相似矩阵中删除代表此项目的行和列以此来实现从相似矩阵中去除此边缘点；遍历所有的行后完成所有去除边缘点的操作后再次获得相似矩阵；

步骤5、选择聚类初始中心点：

（1）在步骤4中获得的相似矩阵中，找出最大相似度，然后将这个最大相似度的两个点的中心点作为聚类的中心点，记录到Cluster[]中；并计算两个点到它们的中心点的距离，找出较大距离的点，将相似矩阵中代表较大的距离的点的行和列删除，得到新的相似矩阵；

（2）再从上述相似矩阵中找到最大相似度，依次计算具有此最大相似度的两个点分别到所有聚类初始中心点Cluster[]的距离，若是存在距离小于给定阈值ω，则合并此点到具有最小距离的聚类中，重新计算聚类中心点，否则若是不存在距离小于给定阈值ω，则此点作为新的聚类中心，并将此点作为另外一个初始中心点加入到Cluster[]中；然后将此最大相似度的两个点所代表的的行和列删除得到新的相似矩阵。进行迭代，直至聚类中心点的个数为k。

项目到聚类中心点的距离的计算方法包括：皮尔逊相关的距离、基于欧氏距离的距离、余弦距离、斯皮尔曼距离和基于谷本相关的距离。

经过以上操作则完成对初始中心点的选择。

有益效果

本发明通过提出基于用户偏好信息与商品属性的初始点选择方法，来提高聚类的效果。

附图说明

图1为本发明实施的具体流程示意图

具体实施方式

下面通过实施例对的具体实施方式做进一步详细说明。

在某站点中，有用户1000个，电影5000部，每部电影具有名称、发售年份、类别3种属性，现使用基于改进的相似矩阵的聚类算法实现对该站点中的第1个物品20个聚类，基于用户偏好与项目属性的聚类初始点选择方法实施的具体流程如图1所示：

根据步骤1：确定基于项目的相似矩阵；

定义电影的特征向量：item_i＝(p₁，p₂，p₃)，p_i(1≤i≤3)代表了此项目第i个特征的取值。首先将每部电影用3维向量表示item_i＝(w₁，w₂，w₃)，其中w_i(1≤i≤3)表示物品第i个特征的值。然后通过计算表示项目的向量间的距离A_ij来表示item_i和item_j之间的相似性，从而构成相似矩阵

所属项目u与项目v之间通过距离获取相似度的计算方法采用欧氏距离计算得到。

根据步骤2：确定基于用户偏好的同现矩阵；

定义用户对项目的偏好列表：prefs＝(userid,itemid，pref),其中pref代表用户对项目的评分，所有用户对项目的评分组成评分列表prefs。，通过计算每一对项目同时出现在同一个用户的偏好列表中的次数B_ij（表示item_i和item_j同时出现在相同的用户的偏好列表中的次数）来构成同现矩阵

根据步骤3：确定最终的相似矩阵；

最终的相似矩阵定义为

其中α和β分别为0.5。

根据步骤4：去除边缘点；

在TS的每行中，分别计算相似度大于给定阈值θ（θ定义为此行中最大相似度的0.2倍）的项目的个数，记为α_i，若是α_i的个数小于给定阈值μ(μ定义为 0·0O1N其中N代表所有聚类点的个数即5000）表示此点是边缘点，则从相似矩阵中删除代表此项目的行和列以此来实现从相似矩阵中去除此边缘点。遍历所有的行后完成所有去除边缘点的操作后再次获得相似矩阵。

根据步骤5：选择初始中心点；

（1）：在步骤4中获得的相似矩阵中，找出最大相似度即所有数据中的最大值，然后将这个最大相似度的两个点的中心点作为聚类的中心点，记录到Cluster[]中。并计算两个点到它们的中心点的距离，找出较大距离的点。然后找出最下相似度即所有数据中的最小值，然后计算这个最小相似度的两个点间的距离，即为distance。并将相似矩阵中代表较大的距离的点的行和列删除，得到新的相似矩阵；

（2）：再从上述相似矩阵中找到最大相似度，依次计算具有此最大相似度的两个点分别到所有聚类初始中心点Cluster[]的距离，若是存在距离小于给定阈值ω(ω为distance/20*2，其中distance为步骤（1）中获得数据），则合并此点到具有最小距离的聚类中，重新计算聚类中心点，否则若是不存在距离小于给定阈值ω，则此点作为新的聚类中心，并将此点作为另外一个初始中心点加入到Cluster[]中。然后将此最大相似度的两个点所代表的行和列删除得到新的相似矩阵。迭代步骤直至聚类中心点的个数为20。

项目到聚类中心点的距离的计算方法选择基于欧氏距离的距离。

Claims

1.一种基于用户偏好与项目属性的聚类初始点选择方法，其特征在于：

步骤1、确定基于项目的相似矩阵；定义项目的特征向量：item_i＝(p₁,p₂,…,p_m)；其中m为项目的属性个数，p_r(1≤r≤m)代表了此项目第r个特征向量的值；然后每个项目可以转换为用一个向量item_i＝(w₁,w₂,…,w_m)表示，其中向量维数是m，即项目的属性特征个数，w_m表示第m个属性特征值；然后通过计算表示项目的向量间的距离A_ij来表示item_i和item_j之间的相似性，从而构成相似矩阵item_j表示第j个项目，n表示项目的个数；

步骤2、确定基于用户偏好的同现矩阵；定义用户对项目的偏好列表：prefs＝(user_id,item_id,pref)，其中pref代表用户对项目的评分，所有用户对项目的评分组成评分列表prefs；通过计算item_i和item_j同时出现在相同的用户的偏好列表中的次数B_ij，来构成同现矩阵

步骤3、确定最终的相似矩阵:其中和β为自定义的权重；

步骤4、去除边缘点；在TS的每行中，分别计算相似度大于给定阈值θ的项目的个数，记为α_q，若是α_q的个数小于给定阈值μ表示此点是边缘点，则从相似矩阵中删除代表此项目的行和列以此来实现从相似矩阵中去除此边缘点；遍历所有的行后完成所有去除边缘点的操作后再次获得相似矩阵；

步骤5、选择聚类初始中心点；所述选择聚类初始中心点具体包括：

(1)在获得的相似矩阵中，找出最大相似度，然后将这个最大相似度的两个点的中心点作为聚类的中心点，记录到Cluster[]中；并计算两个点到它们的中心点的距离，找出较大距离的点，将相似矩阵中代表较大的距离的点的行和列删除，得到新的相似矩阵；

(2)再从上述相似矩阵中找到最大相似度，依次计算具有此最大相似度的两个点分别到所有聚类初始中心点Cluster[]的距离，若是存在距离小于给定阈值ω，则合并此点到具有最小距离的聚类中，重新计算聚类中心点，否则若是不存在距离小于给定阈值ω，则此点作为新的聚类中心，并将此点作为另外一个初始中心点加入到Cluster[]中；然后将此最大相似度的两个点所代表的的行和列删除得到新的相似矩阵；进行迭代，直至聚类中心点的个数为k。