CN108846435A

CN108846435A - 自动确定聚类中心的用户影评密度峰值聚类方法

Info

Publication number: CN108846435A
Application number: CN201810606267.3A
Authority: CN
Inventors: 王万良; 吕闯; 高楠; 赵燕伟; 张兆娟
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-20
Anticipated expiration: 2038-06-13
Also published as: CN108846435B

Abstract

自动确定聚类中心的用户影评密度峰值聚类方法，包括：步骤1.读取用户影视评分数据文件中的数据集；步骤2.计算两个用户之间的相似度；步骤3.初始化截断距离d_c；步骤4.影评用户i的局部密度ρi计算；步骤5.计算用户点i的距离δi；步骤6.计算用户i的归一化决策函数r_i；步骤7.初始化聚类中心；步骤8.依据降序的r_i取前C_i个数据点作为聚类中心用户，对非中心用户进行归类；步骤9.离群用户剔除；步骤10.计算占分比N；步骤11.取占分比最大值时的聚类中心点数C_i，然后依据降序后的归一化决策函数，取前C_i‑1个点作为本样本的聚类中心，然后按照上述步骤对非中心点进行归类划分；步骤12.输出聚类结果。

Description

自动确定聚类中心的用户影评密度峰值聚类方法

技术领域

本发明涉及一种用户影视评分数据聚类方法，尤其是涉及一种自动确定聚类中心的影评用户密度峰值聚类方法。

背景技术

在现如今的影视领域中，对于如何发掘客户群体之间的相似性，对群体客户进行有效分类，找到用户群体最佳的群体个数，并设计针对性的营销策略和推荐商品已经成为数据时代的重要研究内容和应用课题。而针对如何将没有任何标签的用户影评数据进行有效的分类，发掘用户之间的潜在关系，并把用户有效的划分成多个群体，本发明提出了一种自动确定聚类中心的影评用户密度峰值聚类算法，不仅解决了对无标签的用户进行群体划分，而且还能找到用户影评数据集最佳的群体个数。

由于互联网在商业上的迅速发展，人们存储了大量的商业数据，这些数据都存在其重要的潜在价值，数据挖掘技术就应运而生。而聚类技术就是针对这些无标签的数据挖掘其潜在的价值，从而为商业智能、工业智能、项目科研等的发展提供技术支持。因此，可以通过对影评用户进行数据挖掘，来准确地将影评用户划分成相应的种类群，从而为影视行业的发展提供技术上的支持。

发明内容

本发明要克服现有技术的上述缺点，提出一种自动确定聚类中心的影评用户密度峰值聚类技术，该技术通过对大量的用户影评数据进行挖掘聚类，从而确定这些用户观影偏好，智能地将相似的用户划分为有效的不同群体，减少人为对影评用户主观划分的因素，增强了对影评用户群体智能划分的准确性。

本发明的自动确定聚类中心的用户影评密度峰值聚类方法，包括以下步骤：

步骤1.读取用户影视评分数据文件中的数据集，该数据集包含1000个用户，1700部电影作品，然后计算任意两个用户i与j(i，j<＝1000)之间的相似度值，这里用欧式距离计算(亦可以采用其他计算方法)，可以理解的是相似度值是用来反应两个影评用户之间的相关关系的程度，相似度值越大，表示这两个用户的相关关系越大，被划为同一类的可能性就越大；反之，相似度值越小，即相关性就越小，被划分为同一类的可能性就越小。

步骤2.计算两个用户之间的相似度：

i与j代指某两个影评用户，n为数据集中电影总数

步骤3.初始化截断距离d_c

其中M为步骤2中计算距离的总数，t为比例系数，初始化t＝2％，f(M_t)是对M_t进行四舍五入后得到的整数，公式译为对所有的距离d_ij进行升序排列，然后取第2％位置的距离点作为截断距离的d_c的值。

步骤4.影评用户i的局部密度ρi计算，可以理解为作为聚类中心用户的必要条件之一，即聚类中心用户会有更多的非中心用户附庸，而局部密度值就是反应每一个用户的附庸指数，其计算公式为：

d_ij为影评用户j与影评用户i的相似度，d_c为截断距离。

步骤5.计算用户点i的距离δi，可以理解为作为聚类中心用户的必要条件之二，即作为聚类中心不仅要有更多的附庸，而且必须要与其他聚类中心有更大的相似度值，这样两个聚类群体才会保证不仅每一个群体内部有较高的相似性，对其他群体有更大相异性。距离计算公式为：

ρ_i、ρ_j分别为影评用户i、j的局部密度，其中局部密度最大值的影评用户取δ_i＝max_j(d_ij)。

步骤6.计算用户i的归一化决策函数r_i，从上面的聚类中心两个必要条件分析可以知道，作为聚类中心点，必须要有更大的局部密度值和更大的距离值，其计算方式为：

r_i＝[ρ_i/(ρ_max-ρ_min)]*[δ_i/(δ_max-δ_min)] (5)

ρ_max、ρ_min、δ_max、δ_min分别表示多有的影评用户的最大局部密度值、最小局部密度值、最大距离、最小距离。

步骤7.初始化聚类中心。根据归一化决策函数对r_i进行降序排列，初始化聚类中心个数C_i＝1。由上述分析可知，决策函数值越大，其成为聚类中心的可能性就越大，因此最佳的聚类中心个数必然是决策函数靠前的几个用户。

步骤8.依据降序的r_i取前C_i个数据点作为聚类中心用户，对非中心用户进行归类。将非聚类中心用户划分为局部密度比之大，且距离最近点中心用户。

步骤9.离群用户剔除。依据截断距离d_c把初步归类好的用户划分为核心用户和边界用户：若边界点p的d_c邻域中包含的核心用户同属于一个类簇，则把该点划分为核心用户簇中；若该边界点p同时落在几个不同的类簇中，则把该点划分为边界点。取同一个类簇的边界点的局部密度最大值作为判别离群用户阈值ρ_b。将局部密度小于ρ_b的用户作为离群用户处理。

步骤10.计算占分比N

N＝△m/m (6)

△m为聚类核心点总数的变化量，m为当前聚类核心点数。

步骤11.取占分比最大值时的聚类中心点数C_i，然后依据降序后的归一化决策函数，取前C_i-1个点作为本样本的聚类中心，然后按照上述步骤对非中心点进行归类划分。

步骤12.输出聚类结果。聚类结果主要有两部分组成，一部分是已经聚类好的多个用户群体；另一部分是离群用户，这些离群用户与那些用户群体有较低的相似度，其商业价值较低。

占分比为不同的聚类中心个数聚类后，已经聚类的核心数据点变化数与当前聚类核心点数之比，即N＝△m/m。

决策函数采用归一化处理，即对决策函数的两个影响因子ρ、δ进行约束和归一，决策函数为

r_i＝ρ_i/(ρ_max-ρ_min)*δ_i/(δ_max-δ_min) (5)

本发明提供了一种自动确定聚类中心的影评用户密度峰值聚类技术，提出了一种平衡各种制约因子的归一化决策函数，避免了聚类中心选择时，某一个制约因子的单位过大，导致聚类中心选择出现误差情况的发生。而且，针对密度峰值聚类原算法在选择聚类中心时需要人为参与的非智能性问题，提出了一种新的自动选择聚类中心的方法，本发明方法可以避免聚类过程中人为参与过程中，主观因素导致的聚类效果不乐观的问题发生。对于影视商业对用户影评聚类结果分析，很大程度上减少了对不同用户群体推荐影视作品的工作量。

本发明的优点是：减少主观因素对于聚类效果的影响，准确度较高。

附图说明

图1为本发明的聚类技术流程示意图。

图2为聚类过程中占分比变化图。

具体实施方式

为了能够更容易理解本发明的流程，本发明将以一个用户影视评分数据集为例，并结合图1的流程图进行以下的具体介绍。

步骤2.计算两个用户之间的相似度：

i与j代指某两个影评用户，n为数据集中电影总数

步骤3.初始化截断距离d_c

d_ij为影评用户j与影评用户i的相似度，d_c为截断距离。

r_i＝[ρ_i/(ρ_max-ρ_min)]*[δ_i/(δ_max-δ_min)] (5)

步骤10.计算占分比N

N＝△m/m (6)

△m为聚类核心点总数的变化量，m为当前聚类核心点数。

本实例的占分比N变化图如图2所示。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.自动确定聚类中心的用户影评密度峰值聚类方法，包括以下步骤：

步骤1.读取用户影视评分数据文件中的数据集，该数据集包含1000个用户，1700部电影作品，然后用欧式距离计算任意两个用户i与j之间的相似度值，i，j<＝1000，相似度值是用来反应两个影评用户之间的相关关系的程度，相似度值越大，表示这两个用户的相关关系越大，被划为同一类的可能性就越大；反之，相似度值越小，即相关性就越小，被划分为同一类的可能性就越小；

步骤2.计算两个用户之间的相似度：

i与j代指某两个影评用户，n为数据集中电影总数；

步骤3.初始化截断距离d_c

其中M为步骤2中计算距离的总数，t为比例系数，初始化t＝2％，f(M_t)是对M_t进行四舍五入后得到的整数，公式译为对所有的距离d_ij进行升序排列，然后取第2％位置的距离点作为截断距离的d_c的值；

d_ij为影评用户j与影评用户i的相似度，d_c为截断距离；

步骤5.计算用户点i的距离δi，可以理解为作为聚类中心用户的必要条件之二，即作为聚类中心不仅要有更多的附庸，而且必须要与其他聚类中心有更大的相似度值，这样两个聚类群体才会保证不仅每一个群体内部有较高的相似性，对其他群体有更大相异性；距离计算公式为：

ρ_i、ρ_j分别为影评用户i、j的局部密度，其中局部密度最大值的影评用户取δ_i＝max_j(d_ij)；

r_i＝[ρ_i/(ρ_max-ρ_min)]*[δ_i/(δ_max-δ_min)] (5)

ρ_max、ρ_min、δ_max、δ_min分别表示多有的影评用户的最大局部密度值、最小局部密度值、最大距离、最小距离；

步骤7.初始化聚类中心；根据归一化决策函数对r_i进行降序排列，初始化聚类中心个数C_i＝1；由上述分析可知，决策函数值越大，其成为聚类中心的可能性就越大，因此最佳的聚类中心个数必然是决策函数靠前的几个用户；

步骤8.依据降序的r_i取前C_i个数据点作为聚类中心用户，对非中心用户进行归类；将非聚类中心用户划分为局部密度比之大，且距离最近点中心用户；

步骤9.离群用户剔除；依据截断距离d_c把初步归类好的用户划分为核心用户和边界用户：若边界点p的d_c邻域中包含的核心用户同属于一个类簇，则把该点划分为核心用户簇中；若该边界点p同时落在几个不同的类簇中，则把该点划分为边界点；取同一个类簇的边界点的局部密度最大值作为判别离群用户阈值ρ_b；将局部密度小于ρ_b的用户作为离群用户处理；

步骤10.计算占分比N

N＝△m/m (6)

△m为聚类核心点总数的变化量，m为当前聚类核心点数；

步骤11.取占分比最大值时的聚类中心点数C_i，然后依据降序后的归一化决策函数，取前C_i-1个点作为本样本的聚类中心，然后按照上述步骤对非中心点进行归类划分；

步骤12.输出聚类结果；聚类结果主要有两部分组成，一部分是已经聚类好的多个用户群体；另一部分是离群用户，这些离群用户与那些用户群体有较低的相似度，其商业价值较低。