CN105681089A

CN105681089A - 网络用户行为聚类方法、装置及终端

Info

Publication number: CN105681089A
Application number: CN201610052562.XA
Authority: CN
Inventors: 汤奇峰; 刘作涛
Original assignee: Shanghai Zamplus Technology Development Co Ltd
Current assignee: Shanghai Zamplus Technology Development Co Ltd
Priority date: 2016-01-26
Filing date: 2016-01-26
Publication date: 2016-06-15
Anticipated expiration: 2036-01-26
Also published as: CN105681089B

Abstract

一种网络用户行为聚类方法、装置及终端，网络用户行为聚类方法包括：根据预设的集合数目进行集合中心点的初始化；对所有用户进行采样以得到采样用户，根据所述采样用户与各个集合中心点的距离，将所述采样用户分配到所述集合中心点对应的集合，并根据分配的结果更新所述集合中心点；迭代所述采样、分配和更新所述集合中心点的过程，直至进入收敛状态；在迭代进入收敛状态后，根据所有用户与各个集合中心点的距离，进行所述所有用户的分配。本发明技术方案提高了用户网络用户行为聚类结果的精准性。

Description

网络用户行为聚类方法、装置及终端

技术领域

本发明涉及互联网大数据分析领域，尤其涉及一种网络用户行为聚类方法、装置及终端。

背景技术

随着互联网的普及以及移动互联网的快速发展，用户访问网站和广告平台累计产生的上网数据量非常大，在网站和广告平台每天可以达到百亿级的用户浏览记录。在互联网领域，由于个性化营销的需要，需要将用户划分成多个不同的集合，并对每个集合的用户针对性地采用不同的营销策略，以提高营销的效果。网站的经营者需要深入的理解或分析用户，并根据不同类型用户对网站的使用情况，相应地设计改进方案。因此，网站的精细化运营需要对用户类型进行划分，并得到每个集合的统计特征。

现有技术中，用户类型的划分采用人工分类的方式，根据经验制定一些划分的依据。例如，从用户对网站的访问频次和花费金额上，可以划分为高频访问用户、轻度访问用户、高花费用户、微花费用户等；针对网站和平台的个性化营销活动，可以根据最近一周的用户记录，把访问过购物车网页的用户划分为高转化概率用户，把访问过商品详情页却没有访问过购物车网页的用户划分为低转化概率用户。

但是，人工划分网络用户类型受限于人的知识范围，且用户的网络行为复杂，现有的划分网络用户的方法不能全面覆盖用户的各种网络行为，降低了网络用户划分的准确性。

发明内容

本发明解决的技术问题是如何提高网络用户行为聚类的精准性。

为解决上述技术问题，本发明实施例提供一种网络用户行为聚类方法，网络用户行为聚类方法包括：

根据预设的集合数目进行集合中心点的初始化；

对所有用户进行采样以得到采样用户，根据所述采样用户与各个集合中心点的距离，将所述采样用户分配到所述集合中心点对应的集合，并根据分配的结果更新所述集合中心点；

迭代所述采样、分配和更新所述集合中心点的过程，直至进入收敛状态；

在迭代进入收敛状态后，根据所有用户与各个集合中心点的距离，进行所述所有用户的分配。

可选的，根据所述预设的集合数目进行所述集合中心点的初始化包括：

确定预设集合中心点，所述预设集合中心点的数量小于所述预设的集合数目；

随机选择设定数量的用户，计算选定用户与所述预设集合中心点的距离；

选取所述距离最大的用户作为未知的集合中心点；

迭代所述随机选择、计算和选取的过程，直至所述预设集合中心点和未知的集合中心点的数目之和达到所述预设的集合数目。

可选的，将所述采样用户分配到所述集合中心点对应的集合包括：所述采样用户与所述集合中心点之间的距离最小时，将所述采样用户分配到所述集合中心点对应的集合。

可选的，根据分配的结果更新所述集合中心点还包括：计算所述采样用户与所述集合中心点以外的其他所述集合中心点的距离；选取所述距离最大的所述采样用户作为所述集合中心点，直至进入收敛状态。

可选的，将所述采样用户分配到所述集合中心点对应的集合还包括：对分配的结果进行均衡性处理，以使所有集合内的所述采样用户的数量大于第二设定值。

可选的，进行所述所有用户的分配后，还包括：对分配的结果进行均衡性处理，以使所有集合内的所述用户的数量大于第二设定值。

可选的，所述距离为马氏距离。

为解决上述技术问题，本发明实施例还公开了一种网络用户行为聚类装置，网络用户行为聚类装置包括：

初始单元，根据预设的集合数目进行集合中心点的初始化；

更新单元，对所有用户进行采样以得到采样用户，根据所述采样用户与各个集合中心点的距离，将所述采样用户分配到所述集合中心点对应的集合，并根据分配的结果更新所述集合中心点；

迭代更新单元，控制所述更新单元迭代所述采样、分配和更新所述集合中心点的过程，直至进入收敛状态；

分配单元，在迭代进入收敛状态后，根据所有用户与各个集合中心点的距离，进行所述所有用户的分配。

可选的，所述初始单元包括：

初始子单元，确定预设集合中心点，所述预设集合中心点的数量小于所述预设的集合数目；

初始计算单元，随机选择设定数量的用户，计算选定用户与所述预设集合中心点的距离；

初始判定单元，选取所述距离最大的用户作为未知的集合中心点；

初始迭代单元，控制所述初始计算单元和所述初始判定单元迭代所述随机选择、计算和选取的过程，直至所述预设集合中心点和未知的集合中心点的数目之和达到所述预设的集合数目。

可选的，所述更新单元包括：采样分配单元，所述采样用户与所述集合中心点之间的距离最小时，将所述采样用户分配到所述集合中心点对应的集合。

可选的，所述迭代更新单元计算所述采样用户与所述集合中心点以外的其他所述集合中心点的距离；选取所述距离最大的所述采样用户作为所述集合中心点，直至进入收敛状态。

可选的，所述更新单元还包括：均衡处理单元，对分配的结果进行均衡性处理，以使所有集合内的所述采样用户的数量大于第二设定值。

可选的，所述网络用户行为聚类装置还包括：分配均衡处理单元，对分配的结果进行均衡性处理，以使所有集合内的所述用户的数量大于第二设定值。

可选的，所述距离为马氏距离。

为解决上述技术问题，本发明实施例还公开了一种终端，终端包括所述网络用户行为聚类装置。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例根据预设的集合数目进行集合中心点的初始化，确定所有的集合中心点的位置；对所有用户进行采样以得到采样用户，根据所述采样用户与各个集合中心点的距离，将所述采样用户分配到所述集合中心点对应的集合，并根据分配的结果更新所述集合中心点，通过对用户采样并用于更新集合中心点，减小了聚合过程的计算量，提高了聚合效率；迭代所述采样、分配和更新所述集合中心点的过程，直至进入收敛状态，在迭代进入收敛状态后，根据所有用户与各个集合中心点的距离，进行所述所有用户的分配，通过迭代运算得到精准的集合中心点的位置，然后根据距离大小进行分配，提高了用户网络用户行为聚类结果的精准性。

进一步，所述距离为马氏距离，在计算马氏距离的过程中，将用户网络行为的各个特征维度之间的相关性考虑进去，从而使得用户与集合中心点的距离更加准确，进一步提高了用户网络用户行为聚类结果的精准性。

附图说明

图1是本发明实施例一种网络用户行为聚类方法的流程图；

图2是本发明实施例另一种网络用户行为聚类方法的流程图；

图3是本发明实施例一种网络用户行为聚类装置的结构示意图；

图4是本发明实施例另一种网络用户行为聚类的结构示意图。

具体实施方式

如背景技术中所述，人工划分网络用户类型受限于人的知识范围，且用户的网络行为复杂，现有的划分网络用户的方法不能全面覆盖用户的各种网络行为，降低了网络用户划分的准确性。

用户行为聚类是将互联网用户的网上行为聚合成多个相似的集合。聚合的依据是用户访问的站点、经常上网的时间段、用户地域、使用的设备等多种维度。在不同的应用场景下，或者数据来源不同时，聚类使用的维度会有不同。相对于人工分类的方式，用户行为聚类可以自动地进行用户划分。与人工的按规则切分相比，自动聚类的方法考虑的因素更全面，可以得到更精细的用户集合。

本发明实施例通过迭代运算得到精准的集合中心点的位置，然后根据距离大小进行分配，提高了用户网络用户行为聚类结果的精准性，聚类结果相对稳定，各个集合的用户规模比较均衡。本发明实施例提供一种高效、稳定、均衡的网络用户行为聚类方法、装置及终端，可以用于网站分析。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

本发明实施例的网络用户行为聚类方法、装置和终端对网络用户行为进行聚类分析，针对的是用户在上网过程中产生的网络数据，可以是广告投放***积累的用户上网数据。也可以是网站运营过程的积累数据，网站可以记录每个用户记录的浏览历史、使用的浏览器、设备类型等信息，并利用这些信息对用户行为做聚类分析。

图1是本发明实施例一种网络用户行为聚类方法的流程图。

请参照图1，网络用户行为聚类方法包括：步骤S101，根据预设的集合数目进行集合中心点的初始化。

本实施例中，所述用户行为信息可以通过以下方式采集得到：通过用户在访问网络过程中产生的cookie信息或设备ID信息，提取所述用户行为信息。所述采样用户与所述集合中心点的距离以及所述所有用户与所述集合中心点的距离是根据用户行为信息计算得到的。所述用户行为信息可以包括用户标识信息以及以下一种或多种：所述用户浏览网站的频次、网络行为时间比例、网络行为类型、网络行为IP地址、设备类型和浏览器信息。

具体实施中，所述用户标识信息用于对不同的用户进行区分，例如可以是iphone中的广告标示符(IdentifierForIdentifier,IDFA)，或者android手机中的国际移动设备标识(InternationalMobileEquipmentIdentity,IMEI)。可以根据所述用户标识信息进行相关用户的查找和追踪。由于用户行为信息还包括用户上网行为特征数据：所述用户浏览网站的频次、网络行为时间比例、网络行为类型、网络行为IP地址、设备类型和浏览器信息，把每个用户的行为信息作为一个向量，包含多个维度，多个维度对应多个上网行为特征数据。实现了多维度数据在一个集合中的统一。

本实施例中，对网络用户行为进行聚类，首先需要确定聚类的集合数目，然后根据预设的集合数目进行集合中心点的初始化。其中，所述预设的集合数目可以根据实际的应用环境进行配置。

具体实施中，根据所述预设的集合数目进行所述集合中心点的初始化可以包括：确定预设集合中心点，所述预设集合中心点的数量小于所述预设的集合数目；随机选择设定数量的用户，计算选定用户与所述预设集合中心点的距离；选取所述距离最大的用户作为未知的集合中心点；迭代所述随机选择、计算和选取的过程，直至所述预设集合中心点和未知的集合中心点的数目之和达到所述预设的集合数目。其中，所述设定数量为所述未知的集合中心点的数目的90—100倍。由于人工经验可以判定典型的用户类型，所以预设集合中心点的确定可以根据人工经验进行人工指定，作为部分数量的集合中心点。剩余集合中心点的确定根据选定用户与确定集合中心点的距离进行判断，选取距离最大的用户作为未知的集合中心点，直至预设集合数目的集合中心点全部确定。至此，聚类所需的集合中心点全部确定下来。

可以理解的是，选取设定数量的用户进行集合中心点的初始化是为了减小聚类过程的计算量，所述设定数量可以设置为任意可实施的数值，可以根据实际的应用环境进行适应性的调整。

步骤S102，对所有用户进行采样以得到采样用户，根据所述采样用户与各个集合中心点的距离，将所述采样用户分配到所述集合中心点对应的集合，并根据分配的结果更新所述集合中心点。

本实施例中，聚类所需的集合中心点全部确定下来后，对所有用户进行采样以得到采样用户，根据所述采样用户与各个集合中心点的距离，将所述采样用户分配到所述集合中心点对应的集合。其中，所述采样用户与所述集合中心点之间的距离最小时，将所述采样用户分配到所述最小距离的集合中心点对应的集合。所述采样用户的数量为所述集合数目的9000—10000倍。

可以理解的是，对所有用户采样用于进行集合的分配和集合中心点的更新是为了减小聚类过程的计算量，所述采样用户的数量可以设置为任意可实施的数值，可以根据实际的应用环境进行适应性的调整。

本实施例中，根据分配的结果更新所述集合中心点，其中，按照与所述集合中心点的距离从小到大的原则，将分配至所述集合中心点对应的集合的所述采样用户进行排序，并筛选排序在前的数量为第一设定值的所述采样用户，用于更新所述集合中心点。所述第一设定值可以为分配至所述集合的所述采样用户数量的40％—60％。计算所述采样用户与所述集合中心点以外的其他所述集合中心点的距离，选取所述距离最大的所述采样用户作为所述集合中心点。

优选的，可以选取采样用户数量的50％用于更新集合中心点，即选取靠近集合中心点的用户，一方面，可以简化聚类分析的计算。另一方面，用户行为信息为高维度数据，在同一集合中，很多用户在当前维度的计算中是孤立的点，与集合中心点的距离远，选取靠近集合中心点的用户对于更新中心点可以避免孤立的点对计算过程的干扰。

本实施例中，对集合分配的结果进行均衡性处理，以使所有集合内的所述采样用户的数量大于第二设定值。其中，所述第二设定值表示集合内采样用户数量的最小值。当前集合内包含的所述采样用户的数量小于所述第二设定值时，则将包含的采样用户的数量大于所述第二设定值的集合内的所述采样用户排序，并释放出排序在前的部分采样用户，用于分配至所述当前集合，其中，排序按照所述采样用户与所述集合中心点的距离从大到小进行操作。

可以理解的是，保证每个集合内的用户数量至少为第二设定值，是为了保证聚类结果的均衡性，所述第二设定值的大小可以根据实际应用环境进行配置。

步骤S103，迭代所述采样、分配和更新所述集合中心点的过程，直至进入收敛状态。

本实施例中，迭代所述采样、分配计算过程，通过计算的所述采样用户与所述集合中心点以外的其他所述集合中心点的距离，选取所述距离最大的所述采样用户作为所述集合中心点，直至进入收敛状态，所述收敛状态是指所有的集合中心点确定下来，不再变化。

步骤S104，在迭代进入收敛状态后，根据所有用户与各个集合中心点的距离，进行所述所有用户的分配。

本实施例中，在迭代进入收敛状态后，根据所有用户与各个集合中心点的距离，将用户分配至与其距离最小的集合中心点。

本实施例中，所有所述距离均采用马氏距离。马氏距离可以有效的计算两个未知样本集的相似度。与欧氏距离不同的是马氏考虑到各种特征维度之间的关联度。马氏距离可以去除各个特征维度间相关性和尺度的影响。

具体实施中，用户的行为信息向量有多个不同的维度，而不同的维度取值范围相差很大。例如，用户浏览各个网站的频次，取值范围从0到几千，而用户上网行为在各个时段的占比，取值范围是从0到1。取值范围大的数据维度在计算距离上的影响会大于取值范围小的数据维度，造成距离计算结果不准确。例如，用户浏览各个网站上的频次比用户上网在各个时段的占比，对距离计算的结果的影响大很多。而用马氏距离计算，会消除各个维度取值范围相差太大的影响。此外，马氏距离可以计算不同类型的维度的特征数据的相似度，可以去除各个维度可能不相互独立的影响。例如，特征数据用户浏览各个网站的频次和特征数据用户浏览各个类型网站的频次，是两种类型的维度，但是两种维度是有相互作用的，例如，用户浏览的新浪网站频次越多，则浏览新闻门户这种类型的网站频次也会越多。采用马氏距离计算会避免距离度量中的重复计算。

表1为一种示例性的用户行为信息。

	访问新浪	上午占比
			用户c	0	0.1
用户d	6	0.7
			用户e	15	1
用户f	99	0.2

表1

如表1所示，用户行为信息有4个，维度有两种，用户行为信息包括：用户c访问新浪0次，上网频次上午占比0.1；用户d访问新浪6次，上网频次上午占比0.7；用户e访问新浪15次，上网频次上午占比1；用户f访问新浪99次，上网频次上午占比0.2。

现有技术中，欧氏距离的计算公式为：

其中，a和b表示任意两个用户，

a_i表示用户a在特征维度i上的数据，

b_i表示用户b在特征维度i上的数据，

M表示集合中所有特征的数量。

将用户c与用户d的特征数据代入欧氏距离计算公式，得到用户c与用户d的欧氏距离为将用户d与用户e的特征数据代入欧氏距离计算公式，用户d与用户e的欧氏距离为用户c与用户d的欧氏距离小于用户d与用户e的欧氏距离。

本实施例中，为了计算马氏距离，首先计算各个维度间的协方差矩阵。将表1所示用户行为信息数据代入协方差矩阵的计算公式:

S = \frac{1}{N} Σ_{i = 1}^{N} \sqrt{{(x_{i} - \overset{&OverBar;}{x})}^{T} (x_{i} - \overset{&OverBar;}{x})},

其中，x_i表示用户行为信息向量，

表示集合中所有用户行为信息向量的平均值，

N表示集合中所有用户数量。

其中，所有用户行为信息向量的平均值

\bar{x} = (\begin{matrix} 30 \\ 0.5 \end{matrix}),

用户c信息向量

x_{1} = (\begin{matrix} 0 \\ 0.1 \end{matrix}),

用户d信息向量

x_{2} = (\begin{matrix} 6 \\ 0.7 \end{matrix}),

用户e信息向量

x_{3} = (\begin{matrix} 15 \\ 1 \end{matrix}),

用户f信息向量

x_{4} = (\begin{matrix} 99 \\ 0.2 \end{matrix}) .

将所有用户行为信息向量的平均值用户c信息向量x₁、用户d信息向量x₂、用户e信息向量x₃和用户f信息向量x₄代入协方差矩阵的计算公式，得到用户行为信息的特征值“访问新浪”和“上午占比”之间的协方差矩阵如下述表2所示。

表2为表1所示的用户行为信息之间的协方差矩阵。

	访问新浪	上午占比
			访问新浪	2154	-7
上午占比	-7	0.18

表2

如表2所示，特征数据“访问新浪”和“上午占比”两个维度之间的协方差分别为：访问新浪和访问新浪协方差为2154，访问新浪和上午占比协方差为-7，上午占比和访问新浪协方差为-7，上午占比和上午占比协方差为0.18。

本实施例中，马氏距离的计算公式表示为:

d = \sqrt{{(x_{m} - x_{n})}^{T} S^{- 1} (x_{m} - x_{n})},

其中，x_m和x_n表示集合中两个不同的用户行为信息向量，

S表示用户行为信息向量的协方差矩阵，

S^-1表示用户行为信息向量的协方差矩阵的逆矩阵。

其中，根据协方差矩阵

S = (\begin{matrix} 2154 & - 7 \\ - 7 & 0.18 \end{matrix})

计算得到协方差矩阵的逆矩阵

S^{- 1} = (\begin{matrix} 0.0005 & 0.0207 \\ 0.0207 & 6.3592 \end{matrix}),

将用户c信息向量

x_{1} = (\begin{matrix} 0 \\ 0.1 \end{matrix})

和用户d信息向量

x_{2} = (\begin{matrix} 6 \\ 0.7 \end{matrix})

代入马氏距离的计算公式，得到用户c与用户d的马氏距离是1.567，将用户d信息向量

x_{2} = (\begin{matrix} 6 \\ 0.7 \end{matrix})

和用户e信息向量

x_{3} = (\begin{matrix} 15 \\ 1 \end{matrix})

代入马氏距离的计算公式，得到用户d与用户e的马氏距离0.8511，其他距离的计算以此类推。用户c与用户d的马氏距离大于用户d与用户e的马氏距离，得到了与现有技术完全相反的结论。

本实施例中，由于特征数据“访问新浪”的取值大，在现有技术的距离计算中会影响用户之间距离的准确性，而在马氏距离的计算中通过协方差对此做了修正，提高了距离计算结果的精准性。

图2是本发明实施例另一种网络用户行为聚类方法的流程图。

请参照图2，网络用户行为聚类方法包括：步骤S201，确定预设集合中心点。

步骤S202，随机选择设定数量的用户，计算选定用户与所述预设集合中心点的马氏距离。

步骤S203，选取所述马氏距离最大的用户作为未知的集合中心点。

本实施例中，对网络用户行为进行聚类，首先需要确定聚类的集合数目，然后根据预设的集合数目进行集合中心点的初始化。其中，所述预设的集合数目可以根据实际的应用环境进行配置。然后人工确定预设集合中心点，随机选择设定数量的用户，计算选定用户与所述预设集合中心点的马氏距离，选取所述马氏距离最大的用户作为未知的集合中心点。

步骤S204，判断预设集合中心点和未知的集合中心点的数目之和是否达到所述预设的集合数目，如果是，则进入步骤S205，否则继续步骤S202。

步骤S205，对所有用户进行采样以得到采样用户，根据所述采样用户与各个集合中心点的马氏距离，将所述采样用户分配到所述集合中心点对应的集合。

本实施例中，由于初始化后的集合中心点只是满足了预设的集合数目，作为集合的中心点并不精确，还要对初始化后的集合中心点进行更新，以确定更加精确的集合中心点。

步骤S206，按照与所述集合中心点的马氏距离从小到大的原则，将分配至所述集合中心点对应的集合的所述采样用户进行排序，并筛选排序在前的数量为第一设定值的所述采样用户。

步骤S207，计算所述采样用户与所述集合中心点以外的其他所述集合中心点的马氏距离，并选取所述马氏距离最大的所述采样用户作为所述集合中心点。

本实施例中，可以选取采样用户数量的50％用于更新集合中心点，即选取靠近集合中心点的用户，一方面，可以简化聚类分析的计算。另一方面，用户行为信息为高维度数据，在同一集合中，很多用户在当前维度的计算中是孤立的点，与集合中心点的马氏距离远，选取靠近集合中心点的用户对于更新中心点可以避免孤立的点对计算过程的干扰。

步骤S208，判断所述集合中心点是否处于收敛状态，如果是，则进入步骤S209，否则继续步骤S206。

步骤S209，根据所有用户与各个集合中心点的马氏距离，进行所述所有用户的分配。

步骤S210，对分配的结果进行均衡性处理。

本实施例中，在迭代进入收敛状态后，根据所有用户与各个集合中心点的马氏距离，将用户分配至与其马氏距离最小的集合中心点。并对分配的结果进行均衡性处理，保证了每个集合内的用户数量。

本发明实施例的具体实施方式可参照前述相应实施例，此处不再赘述。

本发明实施例通过迭代运算得到精准的集合中心点的位置，然后根据马氏距离大小进行分配，提高了用户网络用户行为聚类结果的精准性。且在计算马氏距离的过程中，将用户网络行为的各个特征维度之间的相关性考虑进去，从而使得用户与集合中心点的距离更加准确，进一步提高了用户网络用户行为聚类结果的精准性。

图3是本发明实施例一种网络用户行为聚类装置的结构示意图。

请参照图3，网络用户行为聚类装置包括：初始单元301、更新单元302、迭代更新单元303和分配单元304。

其中，初始单元301根据预设的集合数目进行集合中心点的初始化。初始单元301可以根据人工经验进行人工指定预设集合中心点，作为部分数量的集合中心点。剩余集合中心点的确定根据选定用户与确定集合中心点的距离进行判断，选取距离最大的用户作为未知的集合中心点，直至预设集合数目的集合中心点全部确定。至此，聚类所需的集合中心点全部确定下来

更新单元302对所有用户进行采样以得到采样用户，根据所述采样用户与各个集合中心点的距离，将所述采样用户分配到所述集合中心点对应的集合，并根据分配的结果更新所述集合中心点。

迭代更新单元303控制更新单元302迭代所述采样、分配和更新所述集合中心点的过程，直至进入收敛状态。迭代更新单元303迭代所述采样、分配计算过程，通过计算的所述采样用户与所述集合中心点以外的其他所述集合中心点的距离，选取所述距离最大的所述采样用户作为所述集合中心点，直至进入收敛状态，所述收敛状态是指所有的集合中心点确定下来，不再变化。

分配单元304在迭代进入收敛状态后，根据所有用户与各个集合中心点的距离，进行所述所有用户的分配。在迭代进入收敛状态后，分配单元304根据所有用户与各个集合中心点的距离，将用户分配至与其距离最小的集合中心点。

本发明实施例的具体实施方式可参照前述相应实施例，此处不再赘述

图4是本发明实施例另一种网络用户行为聚类装置的结构示意图。

请参照图4，网络用户行为聚类装置包括：初始单元301、更新单元302、迭代更新单元303、分配单元304和分配均衡处理单元408。

其中，初始单元301根据预设的集合数目进行集合中心点的初始化。初始单元301包括：初始子单元401、初始计算单元402、初始判定单元403和初始迭代单元404。

本实施例中，初始子单元401确定预设集合中心点，所述预设集合中心点的数量小于所述预设的集合数目。初始计算单元402随机选择设定数量的用户，计算选定用户与所述预设集合中心点的距离。初始判定单元403选取所述距离最大的用户作为未知的集合中心点。初始迭代单元404控制初始计算单元402和初始判定单元403迭代所述随机选择、计算和选取的过程，直至所述预设集合中心点和未知的集合中心点的数目之和达到所述预设的集合数目。

更新单元302对所有用户进行采样以得到采样用户，根据所述采样用户与各个集合中心点的距离，将所述采样用户分配到所述集合中心点对应的集合，并根据分配的结果更新所述集合中心点。更新单元302包括：采样分配单元405、筛选单元406和均衡处理单元407。

本实施例中，采样分配单元405所述采样用户与所述集合中心点之间的距离最小时，将所述采样用户分配到所述集合中心点对应的集合。筛选单元406按照与所述集合中心点的距离从小到大的原则，将分配至所述集合中心点对应的集合的所述采样用户进行排序，并筛选排序在前的数量为第一设定值的所述采样用户，用于更新所述集合中心点，所述第一设定值为分配至所述集合的所述采样用户数量的40％—60％。均衡处理单元407对分配的结果进行均衡性处理，以使所有集合内的所述采样用户的数量大于第二设定值

迭代更新单元303控制更新单元302迭代所述采样、分配和更新所述集合中心点的过程，直至进入收敛状态。所述迭代更新单元303计算所述采样用户与所述集合中心点以外的其他所述集合中心点的距离；选取所述距离最大的所述采样用户作为所述集合中心点，直至进入收敛状态。

分配单元304在迭代进入收敛状态后，根据所有用户与各个集合中心点的距离，进行所述所有用户的分配。

分配均衡处理单元408在当前集合内包含的所述采样用户的数量小于所述第二设定值时，则将包含的采样用户的数量大于所述第二设定值的集合内的所述采样用户排序，并释放出排序在前的部分采样用户，用于分配至所述当前集合，其中，排序按照所述采样用户与所述集合中心点的距离从大到小进行操作。

本发明实施例的初始单元301、更新单元302、迭代更新单元303和分配单元304的具体实施方式可参照前述相应实施例，此处不再赘述。

本发明实施例还公开了一种终端，所述终端包括所述网络用户行为聚类装置。所述终端可以是任意可以支持所述网络用户行为聚类装置的设备，例如可以是计算机、平板、手机等。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于以计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种网络用户行为聚类方法，其特征在于，包括：

根据预设的集合数目进行集合中心点的初始化；

2.根据权利要求1所述的网络用户行为聚类方法，其特征在于，根据所述预设的集合数目进行所述集合中心点的初始化包括：

选取所述距离最大的用户作为未知的集合中心点；

3.根据权利要求1所述的网络用户行为聚类方法，其特征在于，将所述采样用户分配到所述集合中心点对应的集合包括：所述采样用户与所述集合中心点之间的距离最小时，将所述采样用户分配到所述集合中心点对应的集合。

4.根据权利要求1所述的网络用户行为聚类方法，其特征在于，根据分配的结果更新所述集合中心点包括：计算所述采样用户与所述集合中心点以外的其他所述集合中心点的距离；选取所述距离最大的所述采样用户作为所述集合中心点，直至进入收敛状态。

5.根据权利要求1所述的网络用户行为聚类方法，其特征在于，将所述采样用户分配到所述集合中心点对应的集合包括：对分配的结果进行均衡性处理，以使所有集合内的所述采样用户的数量大于第二设定值。

6.根据权利要求1所述的网络用户行为聚类方法，其特征在于，进行所述所有用户的分配后，还包括：对分配的结果进行均衡性处理，以使所有集合内的所述用户的数量大于第二设定值。

7.根据权利要求1至6任一项所述的网络用户行为聚类方法，其特征在于，所述距离为马氏距离。

8.一种网络用户行为聚类装置，其特征在于，包括：

初始单元，根据预设的集合数目进行集合中心点的初始化；

9.根据权利要求8所述的网络用户行为聚类装置，其特征在于，所述初始单元包括：

初始判定单元，选取所述距离最大的用户作为未知的集合中心点；初始迭代单元，控制所述初始计算单元和初始判定单元迭代所述随机选择、计算和选取的过程，直至所述预设集合中心点和未知的集合中心点的数目之和达到所述预设的集合数目。

10.根据权利要求8所述的网络用户行为聚类装置，其特征在于，所述更新单元包括：采样分配单元，所述采样用户与所述集合中心点之间的距离最小时，将所述采样用户分配到所述集合中心点对应的集合。

11.根据权利要求8所述的网络用户行为聚类装置，其特征在于，所述迭代更新单元计算所述采样用户与所述集合中心点以外的其他所述集合中心点的距离；选取所述距离最大的所述采样用户作为所述集合中心点，直至进入收敛状态。

12.根据权利要求10所述的网络用户行为聚类装置，其特征在于，所述更新单元还包括：均衡处理单元，对分配的结果进行均衡性处理，以使所有集合内的所述采样用户的数量大于第二设定值。

13.根据权利要求8所述的网络用户行为聚类装置，其特征在于，还包括：分配均衡处理单元，对分配的结果进行均衡性处理，以使所有集合内的所述用户的数量大于第二设定值。

14.根据权利要求8至13任一项所述的网络用户行为聚类装置，其特征在于，所述距离为马氏距离。

15.一种终端，包括权利要求8至14任一项所述的网络用户行为聚类装置。