CN108846435A - 自动确定聚类中心的用户影评密度峰值聚类方法 - Google Patents
自动确定聚类中心的用户影评密度峰值聚类方法 Download PDFInfo
- Publication number
- CN108846435A CN108846435A CN201810606267.3A CN201810606267A CN108846435A CN 108846435 A CN108846435 A CN 108846435A CN 201810606267 A CN201810606267 A CN 201810606267A CN 108846435 A CN108846435 A CN 108846435A
- Authority
- CN
- China
- Prior art keywords
- user
- cluster
- point
- cluster centre
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000011156 evaluation Methods 0.000 title abstract 2
- 238000012552 review Methods 0.000 claims description 40
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000005611 electricity Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
自动确定聚类中心的用户影评密度峰值聚类方法,包括:步骤1.读取用户影视评分数据文件中的数据集;步骤2.计算两个用户之间的相似度;步骤3.初始化截断距离dc;步骤4.影评用户i的局部密度ρi计算;步骤5.计算用户点i的距离δi;步骤6.计算用户i的归一化决策函数ri;步骤7.初始化聚类中心;步骤8.依据降序的ri取前Ci个数据点作为聚类中心用户,对非中心用户进行归类;步骤9.离群用户剔除;步骤10.计算占分比N;步骤11.取占分比最大值时的聚类中心点数Ci,然后依据降序后的归一化决策函数,取前Ci‑1个点作为本样本的聚类中心,然后按照上述步骤对非中心点进行归类划分;步骤12.输出聚类结果。
Description
技术领域
本发明涉及一种用户影视评分数据聚类方法,尤其是涉及一种自动确定聚类中心的影评用户密度峰值聚类方法。
背景技术
在现如今的影视领域中,对于如何发掘客户群体之间的相似性,对群体客户进行有效分类,找到用户群体最佳的群体个数,并设计针对性的营销策略和推荐商品已经成为数据时代的重要研究内容和应用课题。而针对如何将没有任何标签的用户影评数据进行有效的分类,发掘用户之间的潜在关系,并把用户有效的划分成多个群体,本发明提出了一种自动确定聚类中心的影评用户密度峰值聚类算法,不仅解决了对无标签的用户进行群体划分,而且还能找到用户影评数据集最佳的群体个数。
由于互联网在商业上的迅速发展,人们存储了大量的商业数据,这些数据都存在其重要的潜在价值,数据挖掘技术就应运而生。而聚类技术就是针对这些无标签的数据挖掘其潜在的价值,从而为商业智能、工业智能、项目科研等的发展提供技术支持。因此,可以通过对影评用户进行数据挖掘,来准确地将影评用户划分成相应的种类群,从而为影视行业的发展提供技术上的支持。
发明内容
本发明要克服现有技术的上述缺点,提出一种自动确定聚类中心的影评用户密度峰值聚类技术,该技术通过对大量的用户影评数据进行挖掘聚类,从而确定这些用户观影偏好,智能地将相似的用户划分为有效的不同群体,减少人为对影评用户主观划分的因素,增强了对影评用户群体智能划分的准确性。
本发明的自动确定聚类中心的用户影评密度峰值聚类方法,包括以下步骤:
步骤1.读取用户影视评分数据文件中的数据集,该数据集包含1000个用户,1700部电影作品,然后计算任意两个用户i与j(i,j<=1000)之间的相似度值,这里用欧式距离计算(亦可以采用其他计算方法),可以理解的是相似度值是用来反应两个影评用户之间的相关关系的程度,相似度值越大,表示这两个用户的相关关系越大,被划为同一类的可能性就越大;反之,相似度值越小,即相关性就越小,被划分为同一类的可能性就越小。
步骤2.计算两个用户之间的相似度:
i与j代指某两个影评用户,n为数据集中电影总数
步骤3.初始化截断距离dc
其中M为步骤2中计算距离的总数,t为比例系数,初始化t=2%,f(Mt)是对Mt进行四舍五入后得到的整数,公式译为对所有的距离dij进行升序排列,然后取第2%位置的距离点作为截断距离的dc的值。
步骤4.影评用户i的局部密度ρi计算,可以理解为作为聚类中心用户的必要条件之一,即聚类中心用户会有更多的非中心用户附庸,而局部密度值就是反应每一个用户的附庸指数,其计算公式为:
dij为影评用户j与影评用户i的相似度,dc为截断距离。
步骤5.计算用户点i的距离δi,可以理解为作为聚类中心用户的必要条件之二,即作为聚类中心不仅要有更多的附庸,而且必须要与其他聚类中心有更大的相似度值,这样两个聚类群体才会保证不仅每一个群体内部有较高的相似性,对其他群体有更大相异性。距离计算公式为:
ρi、ρj分别为影评用户i、j的局部密度,其中局部密度最大值的影评用户取δi=maxj(dij)。
步骤6.计算用户i的归一化决策函数ri,从上面的聚类中心两个必要条件分析可以知道,作为聚类中心点,必须要有更大的局部密度值和更大的距离值,其计算方式为:
ri=[ρi/(ρmax-ρmin)]*[δi/(δmax-δmin)] (5)
ρmax、ρmin、δmax、δmin分别表示多有的影评用户的最大局部密度值、最小局部密度值、最大距离、最小距离。
步骤7.初始化聚类中心。根据归一化决策函数对ri进行降序排列,初始化聚类中心个数Ci=1。由上述分析可知,决策函数值越大,其成为聚类中心的可能性就越大,因此最佳的聚类中心个数必然是决策函数靠前的几个用户。
步骤8.依据降序的ri取前Ci个数据点作为聚类中心用户,对非中心用户进行归类。将非聚类中心用户划分为局部密度比之大,且距离最近点中心用户。
步骤9.离群用户剔除。依据截断距离dc把初步归类好的用户划分为核心用户和边界用户:若边界点p的dc邻域中包含的核心用户同属于一个类簇,则把该点划分为核心用户簇中;若该边界点p同时落在几个不同的类簇中,则把该点划分为边界点。取同一个类簇的边界点的局部密度最大值作为判别离群用户阈值ρb。将局部密度小于ρb的用户作为离群用户处理。
步骤10.计算占分比N
N=△m/m (6)
△m为聚类核心点总数的变化量,m为当前聚类核心点数。
步骤11.取占分比最大值时的聚类中心点数Ci,然后依据降序后的归一化决策函数,取前Ci-1个点作为本样本的聚类中心,然后按照上述步骤对非中心点进行归类划分。
步骤12.输出聚类结果。聚类结果主要有两部分组成,一部分是已经聚类好的多个用户群体;另一部分是离群用户,这些离群用户与那些用户群体有较低的相似度,其商业价值较低。
占分比为不同的聚类中心个数聚类后,已经聚类的核心数据点变化数与当前聚类核心点数之比,即N=△m/m。
决策函数采用归一化处理,即对决策函数的两个影响因子ρ、δ进行约束和归一,决策函数为
ri=ρi/(ρmax-ρmin)*δi/(δmax-δmin) (5)
本发明提供了一种自动确定聚类中心的影评用户密度峰值聚类技术,提出了一种平衡各种制约因子的归一化决策函数,避免了聚类中心选择时,某一个制约因子的单位过大,导致聚类中心选择出现误差情况的发生。而且,针对密度峰值聚类原算法在选择聚类中心时需要人为参与的非智能性问题,提出了一种新的自动选择聚类中心的方法,本发明方法可以避免聚类过程中人为参与过程中,主观因素导致的聚类效果不乐观的问题发生。对于影视商业对用户影评聚类结果分析,很大程度上减少了对不同用户群体推荐影视作品的工作量。
本发明的优点是:减少主观因素对于聚类效果的影响,准确度较高。
附图说明
图1为本发明的聚类技术流程示意图。
图2为聚类过程中占分比变化图。
具体实施方式
为了能够更容易理解本发明的流程,本发明将以一个用户影视评分数据集为例,并结合图1的流程图进行以下的具体介绍。
本发明的自动确定聚类中心的用户影评密度峰值聚类方法,包括以下步骤:
步骤1.读取用户影视评分数据文件中的数据集,该数据集包含1000个用户,1700部电影作品,然后计算任意两个用户i与j(i,j<=1000)之间的相似度值,这里用欧式距离计算(亦可以采用其他计算方法),可以理解的是相似度值是用来反应两个影评用户之间的相关关系的程度,相似度值越大,表示这两个用户的相关关系越大,被划为同一类的可能性就越大;反之,相似度值越小,即相关性就越小,被划分为同一类的可能性就越小。
步骤2.计算两个用户之间的相似度:
i与j代指某两个影评用户,n为数据集中电影总数
步骤3.初始化截断距离dc
其中M为步骤2中计算距离的总数,t为比例系数,初始化t=2%,f(Mt)是对Mt进行四舍五入后得到的整数,公式译为对所有的距离dij进行升序排列,然后取第2%位置的距离点作为截断距离的dc的值。
步骤4.影评用户i的局部密度ρi计算,可以理解为作为聚类中心用户的必要条件之一,即聚类中心用户会有更多的非中心用户附庸,而局部密度值就是反应每一个用户的附庸指数,其计算公式为:
dij为影评用户j与影评用户i的相似度,dc为截断距离。
步骤5.计算用户点i的距离δi,可以理解为作为聚类中心用户的必要条件之二,即作为聚类中心不仅要有更多的附庸,而且必须要与其他聚类中心有更大的相似度值,这样两个聚类群体才会保证不仅每一个群体内部有较高的相似性,对其他群体有更大相异性。距离计算公式为:
ρi、ρj分别为影评用户i、j的局部密度,其中局部密度最大值的影评用户取δi=maxj(dij)。
步骤6.计算用户i的归一化决策函数ri,从上面的聚类中心两个必要条件分析可以知道,作为聚类中心点,必须要有更大的局部密度值和更大的距离值,其计算方式为:
ri=[ρi/(ρmax-ρmin)]*[δi/(δmax-δmin)] (5)
ρmax、ρmin、δmax、δmin分别表示多有的影评用户的最大局部密度值、最小局部密度值、最大距离、最小距离。
步骤7.初始化聚类中心。根据归一化决策函数对ri进行降序排列,初始化聚类中心个数Ci=1。由上述分析可知,决策函数值越大,其成为聚类中心的可能性就越大,因此最佳的聚类中心个数必然是决策函数靠前的几个用户。
步骤8.依据降序的ri取前Ci个数据点作为聚类中心用户,对非中心用户进行归类。将非聚类中心用户划分为局部密度比之大,且距离最近点中心用户。
步骤9.离群用户剔除。依据截断距离dc把初步归类好的用户划分为核心用户和边界用户:若边界点p的dc邻域中包含的核心用户同属于一个类簇,则把该点划分为核心用户簇中;若该边界点p同时落在几个不同的类簇中,则把该点划分为边界点。取同一个类簇的边界点的局部密度最大值作为判别离群用户阈值ρb。将局部密度小于ρb的用户作为离群用户处理。
步骤10.计算占分比N
N=△m/m (6)
△m为聚类核心点总数的变化量,m为当前聚类核心点数。
步骤11.取占分比最大值时的聚类中心点数Ci,然后依据降序后的归一化决策函数,取前Ci-1个点作为本样本的聚类中心,然后按照上述步骤对非中心点进行归类划分。
步骤12.输出聚类结果。聚类结果主要有两部分组成,一部分是已经聚类好的多个用户群体;另一部分是离群用户,这些离群用户与那些用户群体有较低的相似度,其商业价值较低。
本实例的占分比N变化图如图2所示。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.自动确定聚类中心的用户影评密度峰值聚类方法,包括以下步骤:
步骤1.读取用户影视评分数据文件中的数据集,该数据集包含1000个用户,1700部电影作品,然后用欧式距离计算任意两个用户i与j之间的相似度值,i,j<=1000,相似度值是用来反应两个影评用户之间的相关关系的程度,相似度值越大,表示这两个用户的相关关系越大,被划为同一类的可能性就越大;反之,相似度值越小,即相关性就越小,被划分为同一类的可能性就越小;
步骤2.计算两个用户之间的相似度:
i与j代指某两个影评用户,n为数据集中电影总数;
步骤3.初始化截断距离dc
其中M为步骤2中计算距离的总数,t为比例系数,初始化t=2%,f(Mt)是对Mt进行四舍五入后得到的整数,公式译为对所有的距离dij进行升序排列,然后取第2%位置的距离点作为截断距离的dc的值;
步骤4.影评用户i的局部密度ρi计算,可以理解为作为聚类中心用户的必要条件之一,即聚类中心用户会有更多的非中心用户附庸,而局部密度值就是反应每一个用户的附庸指数,其计算公式为:
dij为影评用户j与影评用户i的相似度,dc为截断距离;
步骤5.计算用户点i的距离δi,可以理解为作为聚类中心用户的必要条件之二,即作为聚类中心不仅要有更多的附庸,而且必须要与其他聚类中心有更大的相似度值,这样两个聚类群体才会保证不仅每一个群体内部有较高的相似性,对其他群体有更大相异性;距离计算公式为:
ρi、ρj分别为影评用户i、j的局部密度,其中局部密度最大值的影评用户取δi=maxj(dij);
步骤6.计算用户i的归一化决策函数ri,从上面的聚类中心两个必要条件分析可以知道,作为聚类中心点,必须要有更大的局部密度值和更大的距离值,其计算方式为:
ri=[ρi/(ρmax-ρmin)]*[δi/(δmax-δmin)] (5)
ρmax、ρmin、δmax、δmin分别表示多有的影评用户的最大局部密度值、最小局部密度值、最大距离、最小距离;
步骤7.初始化聚类中心;根据归一化决策函数对ri进行降序排列,初始化聚类中心个数Ci=1;由上述分析可知,决策函数值越大,其成为聚类中心的可能性就越大,因此最佳的聚类中心个数必然是决策函数靠前的几个用户;
步骤8.依据降序的ri取前Ci个数据点作为聚类中心用户,对非中心用户进行归类;将非聚类中心用户划分为局部密度比之大,且距离最近点中心用户;
步骤9.离群用户剔除;依据截断距离dc把初步归类好的用户划分为核心用户和边界用户:若边界点p的dc邻域中包含的核心用户同属于一个类簇,则把该点划分为核心用户簇中;若该边界点p同时落在几个不同的类簇中,则把该点划分为边界点;取同一个类簇的边界点的局部密度最大值作为判别离群用户阈值ρb;将局部密度小于ρb的用户作为离群用户处理;
步骤10.计算占分比N
N=△m/m (6)
△m为聚类核心点总数的变化量,m为当前聚类核心点数;
步骤11.取占分比最大值时的聚类中心点数Ci,然后依据降序后的归一化决策函数,取前Ci-1个点作为本样本的聚类中心,然后按照上述步骤对非中心点进行归类划分;
步骤12.输出聚类结果;聚类结果主要有两部分组成,一部分是已经聚类好的多个用户群体;另一部分是离群用户,这些离群用户与那些用户群体有较低的相似度,其商业价值较低。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810606267.3A CN108846435B (zh) | 2018-06-13 | 2018-06-13 | 自动确定聚类中心的用户影评密度峰值聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810606267.3A CN108846435B (zh) | 2018-06-13 | 2018-06-13 | 自动确定聚类中心的用户影评密度峰值聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108846435A true CN108846435A (zh) | 2018-11-20 |
CN108846435B CN108846435B (zh) | 2022-01-14 |
Family
ID=64211050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810606267.3A Active CN108846435B (zh) | 2018-06-13 | 2018-06-13 | 自动确定聚类中心的用户影评密度峰值聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108846435B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276374A (zh) * | 2019-05-10 | 2019-09-24 | 浙江工业大学 | 自动确定聚类中心的用户行为日志密度峰值聚类方法 |
CN113775929A (zh) * | 2021-09-28 | 2021-12-10 | 上海天麦能源科技有限公司 | 一种城市燃气管网布局区域划分方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462819A (zh) * | 2014-12-09 | 2015-03-25 | 国网四川省电力公司信息通信公司 | 一种基于密度聚类的局部离群点检测方法 |
CN104636496A (zh) * | 2015-03-04 | 2015-05-20 | 重庆理工大学 | 基于高斯分布和距离相似度的混合聚类的推荐方法 |
CN104809408A (zh) * | 2015-05-08 | 2015-07-29 | 中国科学技术大学 | 一种基于差分隐私的直方图发布方法 |
CN104933014A (zh) * | 2014-03-18 | 2015-09-23 | 日本电气株式会社 | 关系模型的确定方法及装置 |
CN105046720A (zh) * | 2015-07-10 | 2015-11-11 | 北京交通大学 | 基于人体运动捕捉数据字符串表示的行为分割方法 |
CN106339416A (zh) * | 2016-08-15 | 2017-01-18 | 常熟理工学院 | 基于网格快速搜寻密度峰值的数据聚类方法 |
CN106408939A (zh) * | 2016-10-29 | 2017-02-15 | 浙江大学 | 基于密度峰值聚类的交通流量序列划分方法 |
-
2018
- 2018-06-13 CN CN201810606267.3A patent/CN108846435B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933014A (zh) * | 2014-03-18 | 2015-09-23 | 日本电气株式会社 | 关系模型的确定方法及装置 |
CN104462819A (zh) * | 2014-12-09 | 2015-03-25 | 国网四川省电力公司信息通信公司 | 一种基于密度聚类的局部离群点检测方法 |
CN104636496A (zh) * | 2015-03-04 | 2015-05-20 | 重庆理工大学 | 基于高斯分布和距离相似度的混合聚类的推荐方法 |
CN104809408A (zh) * | 2015-05-08 | 2015-07-29 | 中国科学技术大学 | 一种基于差分隐私的直方图发布方法 |
CN105046720A (zh) * | 2015-07-10 | 2015-11-11 | 北京交通大学 | 基于人体运动捕捉数据字符串表示的行为分割方法 |
CN106339416A (zh) * | 2016-08-15 | 2017-01-18 | 常熟理工学院 | 基于网格快速搜寻密度峰值的数据聚类方法 |
CN106408939A (zh) * | 2016-10-29 | 2017-02-15 | 浙江大学 | 基于密度峰值聚类的交通流量序列划分方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276374A (zh) * | 2019-05-10 | 2019-09-24 | 浙江工业大学 | 自动确定聚类中心的用户行为日志密度峰值聚类方法 |
CN113775929A (zh) * | 2021-09-28 | 2021-12-10 | 上海天麦能源科技有限公司 | 一种城市燃气管网布局区域划分方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108846435B (zh) | 2022-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Elkan | Clustering documents with an exponential-family approximation of the Dirichlet compound multinomial distribution | |
CN103136504B (zh) | 人脸识别方法及装置 | |
CN105760888B (zh) | 一种基于属性聚类的邻域粗糙集集成学习方法 | |
CN108229674B (zh) | 聚类用神经网络的训练方法和装置、聚类方法和装置 | |
CN109242209B (zh) | 基于K-means聚类的铁路突发事件分级预警方法 | |
CN108304479B (zh) | 一种基于图结构过滤的快速密度聚类双层网络推荐方法 | |
CN110119948B (zh) | 基于时变权重动态组合的电力用户信用评价方法及*** | |
CN109886284B (zh) | 基于层次化聚类的欺诈检测方法及*** | |
CN111291822B (zh) | 基于模糊聚类最优k值选择算法的设备运行状态判断方法 | |
CN110232331B (zh) | 一种在线人脸聚类的方法及*** | |
CN110532429B (zh) | 一种基于聚类和关联规则的线上用户群体分类方法及装置 | |
CN110633371A (zh) | 一种日志分类方法及*** | |
CN112541532A (zh) | 基于密集连接结构的目标检测方法 | |
CN109508374A (zh) | 基于遗传算法的文本数据半监督聚类方法 | |
CN108846435A (zh) | 自动确定聚类中心的用户影评密度峰值聚类方法 | |
CN110580510A (zh) | 一种聚类结果评价方法和*** | |
CN111476319A (zh) | 商品推荐方法、装置、存储介质和计算设备 | |
CN103020167A (zh) | 一种计算机中文文本分类方法 | |
CN109934852B (zh) | 一种基于对象属性关系图的视频描述方法 | |
CN107818341A (zh) | 一种基于改进K‑means算法的颜色提取方法 | |
CN113658199B (zh) | 基于回归修正的染色体实例分割网络 | |
CN110276374A (zh) | 自动确定聚类中心的用户行为日志密度峰值聚类方法 | |
CN113569920A (zh) | 基于自动编码的第二近邻异常检测方法 | |
CN105760471B (zh) | 基于组合凸线性感知器的两类文本分类方法 | |
CN111899086A (zh) | 一种客户信用分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |