CN103793504B - 一种基于用户偏好与项目属性的聚类初始点选择方法 - Google Patents

一种基于用户偏好与项目属性的聚类初始点选择方法 Download PDF

Info

Publication number
CN103793504B
CN103793504B CN201410035844.XA CN201410035844A CN103793504B CN 103793504 B CN103793504 B CN 103793504B CN 201410035844 A CN201410035844 A CN 201410035844A CN 103793504 B CN103793504 B CN 103793504B
Authority
CN
China
Prior art keywords
point
cluster
project
item
similar matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410035844.XA
Other languages
English (en)
Other versions
CN103793504A (zh
Inventor
宿红毅
王彩群
闫波
郑宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201410035844.XA priority Critical patent/CN103793504B/zh
Publication of CN103793504A publication Critical patent/CN103793504A/zh
Application granted granted Critical
Publication of CN103793504B publication Critical patent/CN103793504B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于用户偏好与项目属性的聚类初始点选择方法,属于机器学习领域。首先确定基于项目的相似矩阵和基于用户偏好的同现矩阵,通过两矩阵得到最终的相似矩阵;进而通过去除边缘点,选择聚类初始中心点,完成对初始中心点的选择。本发明可以有效提高聚类效果。

Description

一种基于用户偏好与项目属性的聚类初始点选择方法
技术领域
本发明涉及一种基于用户偏好与项目属性的聚类初始点选择方法,属于机器学习领域。
背景技术
聚类是一种无监督的学习方法,它通过一定的规则将数据对象按照定义的相似性划分成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。到目前为止,聚类分析的应用已十分广泛,包括统计学、机器学习、图像分割、和数据挖掘等。目前,主要的聚类算法分为划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。而划分式聚类算法是实际应用中聚类分析的支柱。划分式聚类算法需要预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数值收敛时,得到最终聚类结果。划分式聚类算法简单、快速而且能有效的处理大数据集,但此聚类算法存在高计算性及对数据的输入顺序敏感的缺点,且需要预先指定聚类数目或聚类中心。初始聚类中心点对聚类结果的影响很大。如果初始聚类中心点选择不当,得到的聚类结果可能会陷入局部最优,从而得不到较好的聚类结果。而划分式聚类初始聚类中心点的选择方法也是多种多样,主要有以下几种方法:
随机选择法:随机选取k个数据点作为初始聚类中心点;
经验法:依据经验,根据个体性质,选择k个有代表意义的点作为初始聚类中心点;
递推法:首先计算全体数据样本的均值,以这个数值点作为初始聚类中心,然后计算距离第一个数值点最远的一个点作为第2个聚类中心,以此类推,由第k-1个聚类中心计算聚类最远的一个数据样本作为最后一个聚类中心。
密度估计选择法:计算特定半径内的每个数据样本的密度,具有最大密度的点作为第一个聚类中心点,然后再计算剩下的初始中心点,若是具有第二大密度的点距离第一个聚类中心点的距离大于特定值则作为第2个初始聚类中心点,按此方法依次选出k个中心点;
距离优化选择法:按照最大最小距离计算
采用遗传算法计算聚类初始中心点等。
由于初始聚类中心点对聚类结果的影响很大。如果初始聚类中心点选择不当,得到的聚类结果可能会陷入局部最优,从而得不到较好的聚类结果。为了获得恰当的初始聚类中心点,避免聚类结果陷入局部最优,本专利提出一种新的聚类初始中心点的选择方法。
发明内容
本发明的目的是为了解决基于划分的算法的初始中心点的选择的问题,使用用户的偏好信息和商品属性来构造相似矩阵,从而得到初试中心点。
本发明技术方案的实现过程为:
步骤1、确定基于项目的相似矩阵;
定义项目的特征向量:itemi=(p1,p2,…,pm);其中m为项目的属性个数,pi(1≤i≤m)代表了此项目第i个特征向量的值。然后每个项目可以转换为用一个向量itemi=(w1,w2,…,wm)表示,其中向量维数是m,即项目的属性特征个数。然后通过计算表示项目的向量间的距离Aij来表示itemi和itemj之间的相似性,从而构成相似矩阵
所属项目u与项目v之间通过距离获取相似度的计算方法包括:皮尔逊相关的距离、欧氏距离、余弦距离、斯皮尔曼距离和基于谷本相关的距离。
步骤2、确定基于用户偏好的同现矩阵;
定义用户对项目的偏好列表:prefs=(user_id,item_id,pref),其中pref代表用户对项目的评分,所有用户对项目的评分组成评分列表prefs。通过计算itemi和itemj同时出现在相同的用户的偏好列表中的次数Bij,来构成同现矩阵
步骤3、确定最终的相似矩阵;
最终的相似矩阵定义为其中和β为自定义的权重。
步骤4、去除边缘点;
在TS的每行中,分别计算相似度大于给定阈值θ的项目的个数,记为αi,若是αi的个数小于给定阈值μ表示此点是边缘点,则从相似矩阵中删除代表此项目的行和列以此来实现从相似矩阵中去除此边缘点;遍历所有的行后完成所有去除边缘点的操作后再次获得相似矩阵;
步骤5、选择聚类初始中心点:
(1)在步骤4中获得的相似矩阵中,找出最大相似度,然后将这个最大相似度的两个点的中心点作为聚类的中心点,记录到Cluster[]中;并计算两个点到它们的中心点的距离,找出较大距离的点,将相似矩阵中代表较大的距离的点的行和列删除,得到新的相似矩阵;
(2)再从上述相似矩阵中找到最大相似度,依次计算具有此最大相似度的两个点分别到所有聚类初始中心点Cluster[]的距离,若是存在距离小于给定阈值ω,则合并此点到具有最小距离的聚类中,重新计算聚类中心点,否则若是不存在距离小于给定阈值ω,则此点作为新的聚类中心,并将此点作为另外一个初始中心点加入到Cluster[]中;然后将此最大相似度的两个点所代表的的行和列删除得到新的相似矩阵。进行迭代,直至聚类中心点的个数为k。
项目到聚类中心点的距离的计算方法包括:皮尔逊相关的距离、基于欧氏距离的距离、余弦距离、斯皮尔曼距离和基于谷本相关的距离。
经过以上操作则完成对初始中心点的选择。
有益效果
本发明通过提出基于用户偏好信息与商品属性的初始点选择方法,来提高聚类的效果。
附图说明
图1为本发明实施的具体流程示意图
具体实施方式
下面通过实施例对的具体实施方式做进一步详细说明。
在某站点中,有用户1000个,电影5000部,每部电影具有名称、发售年份、类别3种属性,现使用基于改进的相似矩阵的聚类算法实现对该站点中的第1个物品20个聚类,基于用户偏好与项目属性的聚类初始点选择方法实施的具体流程如图1所示:
根据步骤1:确定基于项目的相似矩阵;
定义电影的特征向量:itemi=(p1,p2,p3),pi(1≤i≤3)代表了此项目第i个特征的取值。首先将每部电影用3维向量表示itemi=(w1,w2,w3),其中wi(1≤i≤3)表示物品第i个特征的值。然后通过计算表示项目的向量间的距离Aij来表示itemi和itemj之间的相似性,从而构成相似矩阵
所属项目u与项目v之间通过距离获取相似度的计算方法采用欧氏距离计算得到。
根据步骤2:确定基于用户偏好的同现矩阵;
定义用户对项目的偏好列表:prefs=(userid,itemid,pref),其中pref代表用户对项目的评分,所有用户对项目的评分组成评分列表prefs。,通过计算每一对项目同时出现在同一个用户的偏好列表中的次数Bij(表示itemi和itemj同时出现在相同的用户的偏好列表中的次数)来构成同现矩阵
根据步骤3:确定最终的相似矩阵;
最终的相似矩阵定义为
其中α和β分别为0.5。
根据步骤4:去除边缘点;
在TS的每行中,分别计算相似度大于给定阈值θ(θ定义为此行中最大相似度的0.2倍)的项目的个数,记为αi,若是αi的个数小于给定阈值μ(μ定义为 0·0O1N其中N代表所有聚类点的个数即5000)表示此点是边缘点,则从相似矩阵中删除代表此项目的行和列以此来实现从相似矩阵中去除此边缘点。遍历所有的行后完成所有去除边缘点的操作后再次获得相似矩阵。
根据步骤5:选择初始中心点;
(1):在步骤4中获得的相似矩阵中,找出最大相似度即所有数据中的最大值,然后将这个最大相似度的两个点的中心点作为聚类的中心点,记录到Cluster[]中。并计算两个点到它们的中心点的距离,找出较大距离的点。然后找出最下相似度即所有数据中的最小值,然后计算这个最小相似度的两个点间的距离,即为distance。并将相似矩阵中代表较大的距离的点的行和列删除,得到新的相似矩阵;
(2):再从上述相似矩阵中找到最大相似度,依次计算具有此最大相似度的两个点分别到所有聚类初始中心点Cluster[]的距离,若是存在距离小于给定阈值ω(ω为distance/20*2,其中distance为步骤(1)中获得数据),则合并此点到具有最小距离的聚类中,重新计算聚类中心点,否则若是不存在距离小于给定阈值ω,则此点作为新的聚类中心,并将此点作为另外一个初始中心点加入到Cluster[]中。然后将此最大相似度的两个点所代表的行和列删除得到新的相似矩阵。迭代步骤直至聚类中心点的个数为20。
项目到聚类中心点的距离的计算方法选择基于欧氏距离的距离。

Claims (1)

1.一种基于用户偏好与项目属性的聚类初始点选择方法,其特征在于:
步骤1、确定基于项目的相似矩阵;定义项目的特征向量:itemi=(p1,p2,…,pm);其中m为项目的属性个数,pr(1≤r≤m)代表了此项目第r个特征向量的值;然后每个项目可以转换为用一个向量itemi=(w1,w2,…,wm)表示,其中向量维数是m,即项目的属性特征个数,wm表示第m个属性特征值;然后通过计算表示项目的向量间的距离Aij来表示itemi和itemj之间的相似性,从而构成相似矩阵itemj表示第j个项目,n表示项目的个数;
步骤2、确定基于用户偏好的同现矩阵;定义用户对项目的偏好列表:prefs=(user_id,item_id,pref),其中pref代表用户对项目的评分,所有用户对项目的评分组成评分列表prefs;通过计算itemi和itemj同时出现在相同的用户的偏好列表中的次数Bij,来构成同现矩阵
步骤3、确定最终的相似矩阵:其中和β为自定义的权重;
步骤4、去除边缘点;在TS的每行中,分别计算相似度大于给定阈值θ的项目的个数,记为αq,若是αq的个数小于给定阈值μ表示此点是边缘点,则从相似矩阵中删除代表此项目的行和列以此来实现从相似矩阵中去除此边缘点;遍历所有的行后完成所有去除边缘点的操作后再次获得相似矩阵;
步骤5、选择聚类初始中心点;所述选择聚类初始中心点具体包括:
(1)在获得的相似矩阵中,找出最大相似度,然后将这个最大相似度的两个点的中心点作为聚类的中心点,记录到Cluster[]中;并计算两个点到它们的中心点的距离,找出较大距离的点,将相似矩阵中代表较大的距离的点的行和列删除,得到新的相似矩阵;
(2)再从上述相似矩阵中找到最大相似度,依次计算具有此最大相似度的两个点分别到所有聚类初始中心点Cluster[]的距离,若是存在距离小于给定阈值ω,则合并此点到具有最小距离的聚类中,重新计算聚类中心点,否则若是不存在距离小于给定阈值ω,则此点作为新的聚类中心,并将此点作为另外一个初始中心点加入到Cluster[]中;然后将此最大相似度的两个点所代表的的行和列删除得到新的相似矩阵;进行迭代,直至聚类中心点的个数为k。
CN201410035844.XA 2014-01-24 2014-01-24 一种基于用户偏好与项目属性的聚类初始点选择方法 Expired - Fee Related CN103793504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410035844.XA CN103793504B (zh) 2014-01-24 2014-01-24 一种基于用户偏好与项目属性的聚类初始点选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410035844.XA CN103793504B (zh) 2014-01-24 2014-01-24 一种基于用户偏好与项目属性的聚类初始点选择方法

Publications (2)

Publication Number Publication Date
CN103793504A CN103793504A (zh) 2014-05-14
CN103793504B true CN103793504B (zh) 2018-02-27

Family

ID=50669170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410035844.XA Expired - Fee Related CN103793504B (zh) 2014-01-24 2014-01-24 一种基于用户偏好与项目属性的聚类初始点选择方法

Country Status (1)

Country Link
CN (1) CN103793504B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268876A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于聚类的近似重复记录的检测方法及装置
CN110413854A (zh) * 2019-06-14 2019-11-05 平安科技(深圳)有限公司 基于用户行为特征的选择聚类初始点的方法及相关设备
CN110838123B (zh) * 2019-11-06 2022-02-11 南京止善智能科技研究院有限公司 一种室内设计效果图像光照高亮区域的分割方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149759A (zh) * 2007-11-09 2008-03-26 山西大学 一种基于邻域模型的K-means初始聚类中心选择方法
CN102937985A (zh) * 2012-10-25 2013-02-20 南京理工大学 一种基于用户心智模型的网站分类优化分析方法
CN103440275A (zh) * 2013-08-08 2013-12-11 南京邮电大学 一种基于普利姆的k均值聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8229729B2 (en) * 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149759A (zh) * 2007-11-09 2008-03-26 山西大学 一种基于邻域模型的K-means初始聚类中心选择方法
CN102937985A (zh) * 2012-10-25 2013-02-20 南京理工大学 一种基于用户心智模型的网站分类优化分析方法
CN103440275A (zh) * 2013-08-08 2013-12-11 南京邮电大学 一种基于普利姆的k均值聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hadoop环境下的分布式协同过滤算法设计与实现;肖强 等;《现代图书情报技术》;20130131(第1期);83-89 *
基于聚类的个性化推荐算法研究;雷震;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140115(第01期);I138-1600 *
改进的K-means算法在网络舆情分析中的应用;汤寒青 等;《计算机***应用》;20110331;第20卷(第3期);165-168,196 *

Also Published As

Publication number Publication date
CN103793504A (zh) 2014-05-14

Similar Documents

Publication Publication Date Title
CN105701191B (zh) 一种推送信息点击率估计方法和装置
CN105005589B (zh) 一种文本分类的方法和装置
CN107256494B (zh) 一种物品推荐方法及装置
CN104462383B (zh) 一种基于用户多种行为反馈的电影推荐方法
CN106570008A (zh) 推荐方法及装置
CN103106262B (zh) 文档分类、支持向量机模型生成的方法和装置
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN106055661B (zh) 基于多Markov链模型的多兴趣资源推荐方法
CN107430625A (zh) 通过集群对文档进行分类
CN108897784A (zh) 一个基于社交媒体的突发事件多维分析***
CN102254043A (zh) 一种基于语义映射的服装图像检索方法
CN106156163B (zh) 文本分类方法以及装置
CN102929894A (zh) 一种文本在线聚类可视化方法
Parashar et al. An efficient classification approach for data mining
CN103942571A (zh) 一种基于遗传规划算法的图形图像分类方法
CN103793504B (zh) 一种基于用户偏好与项目属性的聚类初始点选择方法
CN102722578B (zh) 一种基于拉普拉斯正则化无监督的聚类特征选取方法
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN107451617A (zh) 一种图转导半监督分类方法
WO2013034027A1 (zh) 一种媒体信息位推荐方法及***
CN106919647B (zh) 一种基于聚类的网络结构相似性推荐方法
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
CN108268478A (zh) 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置
CN110309424A (zh) 一种基于粗糙聚类的社会化推荐方法
CN109948055A (zh) 一种基于群体偏好的推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180227

Termination date: 20200124