CN105681089A - 网络用户行为聚类方法、装置及终端 - Google Patents

网络用户行为聚类方法、装置及终端 Download PDF

Info

Publication number
CN105681089A
CN105681089A CN201610052562.XA CN201610052562A CN105681089A CN 105681089 A CN105681089 A CN 105681089A CN 201610052562 A CN201610052562 A CN 201610052562A CN 105681089 A CN105681089 A CN 105681089A
Authority
CN
China
Prior art keywords
center point
cluster center
user
distance
congestion control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610052562.XA
Other languages
English (en)
Other versions
CN105681089B (zh
Inventor
汤奇峰
刘作涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zamplus Technology Development Co Ltd
Original Assignee
Shanghai Zamplus Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zamplus Technology Development Co Ltd filed Critical Shanghai Zamplus Technology Development Co Ltd
Priority to CN201610052562.XA priority Critical patent/CN105681089B/zh
Publication of CN105681089A publication Critical patent/CN105681089A/zh
Application granted granted Critical
Publication of CN105681089B publication Critical patent/CN105681089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种网络用户行为聚类方法、装置及终端,网络用户行为聚类方法包括:根据预设的集合数目进行集合中心点的初始化;对所有用户进行采样以得到采样用户,根据所述采样用户与各个集合中心点的距离,将所述采样用户分配到所述集合中心点对应的集合,并根据分配的结果更新所述集合中心点;迭代所述采样、分配和更新所述集合中心点的过程,直至进入收敛状态;在迭代进入收敛状态后,根据所有用户与各个集合中心点的距离,进行所述所有用户的分配。本发明技术方案提高了用户网络用户行为聚类结果的精准性。

Description

网络用户行为聚类方法、装置及终端
技术领域
本发明涉及互联网大数据分析领域,尤其涉及一种网络用户行为聚类方法、装置及终端。
背景技术
随着互联网的普及以及移动互联网的快速发展,用户访问网站和广告平台累计产生的上网数据量非常大,在网站和广告平台每天可以达到百亿级的用户浏览记录。在互联网领域,由于个性化营销的需要,需要将用户划分成多个不同的集合,并对每个集合的用户针对性地采用不同的营销策略,以提高营销的效果。网站的经营者需要深入的理解或分析用户,并根据不同类型用户对网站的使用情况,相应地设计改进方案。因此,网站的精细化运营需要对用户类型进行划分,并得到每个集合的统计特征。
现有技术中,用户类型的划分采用人工分类的方式,根据经验制定一些划分的依据。例如,从用户对网站的访问频次和花费金额上,可以划分为高频访问用户、轻度访问用户、高花费用户、微花费用户等;针对网站和平台的个性化营销活动,可以根据最近一周的用户记录,把访问过购物车网页的用户划分为高转化概率用户,把访问过商品详情页却没有访问过购物车网页的用户划分为低转化概率用户。
但是,人工划分网络用户类型受限于人的知识范围,且用户的网络行为复杂,现有的划分网络用户的方法不能全面覆盖用户的各种网络行为,降低了网络用户划分的准确性。
发明内容
本发明解决的技术问题是如何提高网络用户行为聚类的精准性。
为解决上述技术问题,本发明实施例提供一种网络用户行为聚类方法,网络用户行为聚类方法包括:
根据预设的集合数目进行集合中心点的初始化;
对所有用户进行采样以得到采样用户,根据所述采样用户与各个集合中心点的距离,将所述采样用户分配到所述集合中心点对应的集合,并根据分配的结果更新所述集合中心点;
迭代所述采样、分配和更新所述集合中心点的过程,直至进入收敛状态;
在迭代进入收敛状态后,根据所有用户与各个集合中心点的距离,进行所述所有用户的分配。
可选的,根据所述预设的集合数目进行所述集合中心点的初始化包括:
确定预设集合中心点,所述预设集合中心点的数量小于所述预设的集合数目;
随机选择设定数量的用户,计算选定用户与所述预设集合中心点的距离;
选取所述距离最大的用户作为未知的集合中心点;
迭代所述随机选择、计算和选取的过程,直至所述预设集合中心点和未知的集合中心点的数目之和达到所述预设的集合数目。
可选的,将所述采样用户分配到所述集合中心点对应的集合包括:所述采样用户与所述集合中心点之间的距离最小时,将所述采样用户分配到所述集合中心点对应的集合。
可选的,根据分配的结果更新所述集合中心点还包括:计算所述采样用户与所述集合中心点以外的其他所述集合中心点的距离;选取所述距离最大的所述采样用户作为所述集合中心点,直至进入收敛状态。
可选的,将所述采样用户分配到所述集合中心点对应的集合还包括:对分配的结果进行均衡性处理,以使所有集合内的所述采样用户的数量大于第二设定值。
可选的,进行所述所有用户的分配后,还包括:对分配的结果进行均衡性处理,以使所有集合内的所述用户的数量大于第二设定值。
可选的,所述距离为马氏距离。
为解决上述技术问题,本发明实施例还公开了一种网络用户行为聚类装置,网络用户行为聚类装置包括:
初始单元,根据预设的集合数目进行集合中心点的初始化;
更新单元,对所有用户进行采样以得到采样用户,根据所述采样用户与各个集合中心点的距离,将所述采样用户分配到所述集合中心点对应的集合,并根据分配的结果更新所述集合中心点;
迭代更新单元,控制所述更新单元迭代所述采样、分配和更新所述集合中心点的过程,直至进入收敛状态;
分配单元,在迭代进入收敛状态后,根据所有用户与各个集合中心点的距离,进行所述所有用户的分配。
可选的,所述初始单元包括:
初始子单元,确定预设集合中心点,所述预设集合中心点的数量小于所述预设的集合数目;
初始计算单元,随机选择设定数量的用户,计算选定用户与所述预设集合中心点的距离;
初始判定单元,选取所述距离最大的用户作为未知的集合中心点;
初始迭代单元,控制所述初始计算单元和所述初始判定单元迭代所述随机选择、计算和选取的过程,直至所述预设集合中心点和未知的集合中心点的数目之和达到所述预设的集合数目。
可选的,所述更新单元包括:采样分配单元,所述采样用户与所述集合中心点之间的距离最小时,将所述采样用户分配到所述集合中心点对应的集合。
可选的,所述迭代更新单元计算所述采样用户与所述集合中心点以外的其他所述集合中心点的距离;选取所述距离最大的所述采样用户作为所述集合中心点,直至进入收敛状态。
可选的,所述更新单元还包括:均衡处理单元,对分配的结果进行均衡性处理,以使所有集合内的所述采样用户的数量大于第二设定值。
可选的,所述网络用户行为聚类装置还包括:分配均衡处理单元,对分配的结果进行均衡性处理,以使所有集合内的所述用户的数量大于第二设定值。
可选的,所述距离为马氏距离。
为解决上述技术问题,本发明实施例还公开了一种终端,终端包括所述网络用户行为聚类装置。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例根据预设的集合数目进行集合中心点的初始化,确定所有的集合中心点的位置;对所有用户进行采样以得到采样用户,根据所述采样用户与各个集合中心点的距离,将所述采样用户分配到所述集合中心点对应的集合,并根据分配的结果更新所述集合中心点,通过对用户采样并用于更新集合中心点,减小了聚合过程的计算量,提高了聚合效率;迭代所述采样、分配和更新所述集合中心点的过程,直至进入收敛状态,在迭代进入收敛状态后,根据所有用户与各个集合中心点的距离,进行所述所有用户的分配,通过迭代运算得到精准的集合中心点的位置,然后根据距离大小进行分配,提高了用户网络用户行为聚类结果的精准性。
进一步,所述距离为马氏距离,在计算马氏距离的过程中,将用户网络行为的各个特征维度之间的相关性考虑进去,从而使得用户与集合中心点的距离更加准确,进一步提高了用户网络用户行为聚类结果的精准性。
附图说明
图1是本发明实施例一种网络用户行为聚类方法的流程图;
图2是本发明实施例另一种网络用户行为聚类方法的流程图;
图3是本发明实施例一种网络用户行为聚类装置的结构示意图;
图4是本发明实施例另一种网络用户行为聚类的结构示意图。
具体实施方式
如背景技术中所述,人工划分网络用户类型受限于人的知识范围,且用户的网络行为复杂,现有的划分网络用户的方法不能全面覆盖用户的各种网络行为,降低了网络用户划分的准确性。
用户行为聚类是将互联网用户的网上行为聚合成多个相似的集合。聚合的依据是用户访问的站点、经常上网的时间段、用户地域、使用的设备等多种维度。在不同的应用场景下,或者数据来源不同时,聚类使用的维度会有不同。相对于人工分类的方式,用户行为聚类可以自动地进行用户划分。与人工的按规则切分相比,自动聚类的方法考虑的因素更全面,可以得到更精细的用户集合。
本发明实施例通过迭代运算得到精准的集合中心点的位置,然后根据距离大小进行分配,提高了用户网络用户行为聚类结果的精准性,聚类结果相对稳定,各个集合的用户规模比较均衡。本发明实施例提供一种高效、稳定、均衡的网络用户行为聚类方法、装置及终端,可以用于网站分析。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
本发明实施例的网络用户行为聚类方法、装置和终端对网络用户行为进行聚类分析,针对的是用户在上网过程中产生的网络数据,可以是广告投放***积累的用户上网数据。也可以是网站运营过程的积累数据,网站可以记录每个用户记录的浏览历史、使用的浏览器、设备类型等信息,并利用这些信息对用户行为做聚类分析。
图1是本发明实施例一种网络用户行为聚类方法的流程图。
请参照图1,网络用户行为聚类方法包括:步骤S101,根据预设的集合数目进行集合中心点的初始化。
本实施例中,所述用户行为信息可以通过以下方式采集得到:通过用户在访问网络过程中产生的cookie信息或设备ID信息,提取所述用户行为信息。所述采样用户与所述集合中心点的距离以及所述所有用户与所述集合中心点的距离是根据用户行为信息计算得到的。所述用户行为信息可以包括用户标识信息以及以下一种或多种:所述用户浏览网站的频次、网络行为时间比例、网络行为类型、网络行为IP地址、设备类型和浏览器信息。
具体实施中,所述用户标识信息用于对不同的用户进行区分,例如可以是iphone中的广告标示符(IdentifierForIdentifier,IDFA),或者android手机中的国际移动设备标识(InternationalMobileEquipmentIdentity,IMEI)。可以根据所述用户标识信息进行相关用户的查找和追踪。由于用户行为信息还包括用户上网行为特征数据:所述用户浏览网站的频次、网络行为时间比例、网络行为类型、网络行为IP地址、设备类型和浏览器信息,把每个用户的行为信息作为一个向量,包含多个维度,多个维度对应多个上网行为特征数据。实现了多维度数据在一个集合中的统一。
本实施例中,对网络用户行为进行聚类,首先需要确定聚类的集合数目,然后根据预设的集合数目进行集合中心点的初始化。其中,所述预设的集合数目可以根据实际的应用环境进行配置。
具体实施中,根据所述预设的集合数目进行所述集合中心点的初始化可以包括:确定预设集合中心点,所述预设集合中心点的数量小于所述预设的集合数目;随机选择设定数量的用户,计算选定用户与所述预设集合中心点的距离;选取所述距离最大的用户作为未知的集合中心点;迭代所述随机选择、计算和选取的过程,直至所述预设集合中心点和未知的集合中心点的数目之和达到所述预设的集合数目。其中,所述设定数量为所述未知的集合中心点的数目的90—100倍。由于人工经验可以判定典型的用户类型,所以预设集合中心点的确定可以根据人工经验进行人工指定,作为部分数量的集合中心点。剩余集合中心点的确定根据选定用户与确定集合中心点的距离进行判断,选取距离最大的用户作为未知的集合中心点,直至预设集合数目的集合中心点全部确定。至此,聚类所需的集合中心点全部确定下来。
可以理解的是,选取设定数量的用户进行集合中心点的初始化是为了减小聚类过程的计算量,所述设定数量可以设置为任意可实施的数值,可以根据实际的应用环境进行适应性的调整。
步骤S102,对所有用户进行采样以得到采样用户,根据所述采样用户与各个集合中心点的距离,将所述采样用户分配到所述集合中心点对应的集合,并根据分配的结果更新所述集合中心点。
本实施例中,聚类所需的集合中心点全部确定下来后,对所有用户进行采样以得到采样用户,根据所述采样用户与各个集合中心点的距离,将所述采样用户分配到所述集合中心点对应的集合。其中,所述采样用户与所述集合中心点之间的距离最小时,将所述采样用户分配到所述最小距离的集合中心点对应的集合。所述采样用户的数量为所述集合数目的9000—10000倍。
可以理解的是,对所有用户采样用于进行集合的分配和集合中心点的更新是为了减小聚类过程的计算量,所述采样用户的数量可以设置为任意可实施的数值,可以根据实际的应用环境进行适应性的调整。
本实施例中,根据分配的结果更新所述集合中心点,其中,按照与所述集合中心点的距离从小到大的原则,将分配至所述集合中心点对应的集合的所述采样用户进行排序,并筛选排序在前的数量为第一设定值的所述采样用户,用于更新所述集合中心点。所述第一设定值可以为分配至所述集合的所述采样用户数量的40%—60%。计算所述采样用户与所述集合中心点以外的其他所述集合中心点的距离,选取所述距离最大的所述采样用户作为所述集合中心点。
优选的,可以选取采样用户数量的50%用于更新集合中心点,即选取靠近集合中心点的用户,一方面,可以简化聚类分析的计算。另一方面,用户行为信息为高维度数据,在同一集合中,很多用户在当前维度的计算中是孤立的点,与集合中心点的距离远,选取靠近集合中心点的用户对于更新中心点可以避免孤立的点对计算过程的干扰。
本实施例中,对集合分配的结果进行均衡性处理,以使所有集合内的所述采样用户的数量大于第二设定值。其中,所述第二设定值表示集合内采样用户数量的最小值。当前集合内包含的所述采样用户的数量小于所述第二设定值时,则将包含的采样用户的数量大于所述第二设定值的集合内的所述采样用户排序,并释放出排序在前的部分采样用户,用于分配至所述当前集合,其中,排序按照所述采样用户与所述集合中心点的距离从大到小进行操作。
可以理解的是,保证每个集合内的用户数量至少为第二设定值,是为了保证聚类结果的均衡性,所述第二设定值的大小可以根据实际应用环境进行配置。
步骤S103,迭代所述采样、分配和更新所述集合中心点的过程,直至进入收敛状态。
本实施例中,迭代所述采样、分配计算过程,通过计算的所述采样用户与所述集合中心点以外的其他所述集合中心点的距离,选取所述距离最大的所述采样用户作为所述集合中心点,直至进入收敛状态,所述收敛状态是指所有的集合中心点确定下来,不再变化。
步骤S104,在迭代进入收敛状态后,根据所有用户与各个集合中心点的距离,进行所述所有用户的分配。
本实施例中,在迭代进入收敛状态后,根据所有用户与各个集合中心点的距离,将用户分配至与其距离最小的集合中心点。
本实施例中,所有所述距离均采用马氏距离。马氏距离可以有效的计算两个未知样本集的相似度。与欧氏距离不同的是马氏考虑到各种特征维度之间的关联度。马氏距离可以去除各个特征维度间相关性和尺度的影响。
具体实施中,用户的行为信息向量有多个不同的维度,而不同的维度取值范围相差很大。例如,用户浏览各个网站的频次,取值范围从0到几千,而用户上网行为在各个时段的占比,取值范围是从0到1。取值范围大的数据维度在计算距离上的影响会大于取值范围小的数据维度,造成距离计算结果不准确。例如,用户浏览各个网站上的频次比用户上网在各个时段的占比,对距离计算的结果的影响大很多。而用马氏距离计算,会消除各个维度取值范围相差太大的影响。此外,马氏距离可以计算不同类型的维度的特征数据的相似度,可以去除各个维度可能不相互独立的影响。例如,特征数据用户浏览各个网站的频次和特征数据用户浏览各个类型网站的频次,是两种类型的维度,但是两种维度是有相互作用的,例如,用户浏览的新浪网站频次越多,则浏览新闻门户这种类型的网站频次也会越多。采用马氏距离计算会避免距离度量中的重复计算。
表1为一种示例性的用户行为信息。
访问新浪 上午占比
用户c 0 0.1
用户d 6 0.7
用户e 15 1
用户f 99 0.2
表1
如表1所示,用户行为信息有4个,维度有两种,用户行为信息包括:用户c访问新浪0次,上网频次上午占比0.1;用户d访问新浪6次,上网频次上午占比0.7;用户e访问新浪15次,上网频次上午占比1;用户f访问新浪99次,上网频次上午占比0.2。
现有技术中,欧氏距离的计算公式为:
其中,a和b表示任意两个用户,
ai表示用户a在特征维度i上的数据,
bi表示用户b在特征维度i上的数据,
M表示集合中所有特征的数量。
将用户c与用户d的特征数据代入欧氏距离计算公式,得到用户c与用户d的欧氏距离为将用户d与用户e的特征数据代入欧氏距离计算公式,用户d与用户e的欧氏距离为用户c与用户d的欧氏距离小于用户d与用户e的欧氏距离。
本实施例中,为了计算马氏距离,首先计算各个维度间的协方差矩阵。将表1所示用户行为信息数据代入协方差矩阵的计算公式:
S = 1 N Σ i = 1 N ( x i - x ‾ ) T ( x i - x ‾ ) ,
其中,xi表示用户行为信息向量,
表示集合中所有用户行为信息向量的平均值,
N表示集合中所有用户数量。
其中,所有用户行为信息向量的平均值 x - = 30 0 . 5 , 用户c信息向量 x 1 = 0 0.1 , 用户d信息向量 x 2 = 6 0.7 , 用户e信息向量 x 3 = 15 1 , 用户f信息向量 x 4 = 99 0.2 . 将所有用户行为信息向量的平均值用户c信息向量x1、用户d信息向量x2、用户e信息向量x3和用户f信息向量x4代入协方差矩阵的计算公式,得到用户行为信息的特征值“访问新浪”和“上午占比”之间的协方差矩阵如下述表2所示。
表2为表1所示的用户行为信息之间的协方差矩阵。
访问新浪 上午占比
访问新浪 2154 -7
上午占比 -7 0.18
表2
如表2所示,特征数据“访问新浪”和“上午占比”两个维度之间的协方差分别为:访问新浪和访问新浪协方差为2154,访问新浪和上午占比协方差为-7,上午占比和访问新浪协方差为-7,上午占比和上午占比协方差为0.18。
本实施例中,马氏距离的计算公式表示为:
d = ( x m - x n ) T S - 1 ( x m - x n ) ,
其中,xm和xn表示集合中两个不同的用户行为信息向量,
S表示用户行为信息向量的协方差矩阵,
S-1表示用户行为信息向量的协方差矩阵的逆矩阵。
其中,根据协方差矩阵 S = 2154 - 7 - 7 0.18 计算得到协方差矩阵的逆矩阵 S - 1 = 0.0005 0.0207 0.0207 6.3592 , 将用户c信息向量 x 1 = 0 0.1 和用户d信息向量 x 2 = 6 0.7 代入马氏距离的计算公式,得到用户c与用户d的马氏距离是1.567,将用户d信息向量 x 2 = 6 0.7 和用户e信息向量 x 3 = 15 1 代入马氏距离的计算公式,得到用户d与用户e的马氏距离0.8511,其他距离的计算以此类推。用户c与用户d的马氏距离大于用户d与用户e的马氏距离,得到了与现有技术完全相反的结论。
本实施例中,由于特征数据“访问新浪”的取值大,在现有技术的距离计算中会影响用户之间距离的准确性,而在马氏距离的计算中通过协方差对此做了修正,提高了距离计算结果的精准性。
图2是本发明实施例另一种网络用户行为聚类方法的流程图。
请参照图2,网络用户行为聚类方法包括:步骤S201,确定预设集合中心点。
步骤S202,随机选择设定数量的用户,计算选定用户与所述预设集合中心点的马氏距离。
步骤S203,选取所述马氏距离最大的用户作为未知的集合中心点。
本实施例中,对网络用户行为进行聚类,首先需要确定聚类的集合数目,然后根据预设的集合数目进行集合中心点的初始化。其中,所述预设的集合数目可以根据实际的应用环境进行配置。然后人工确定预设集合中心点,随机选择设定数量的用户,计算选定用户与所述预设集合中心点的马氏距离,选取所述马氏距离最大的用户作为未知的集合中心点。
步骤S204,判断预设集合中心点和未知的集合中心点的数目之和是否达到所述预设的集合数目,如果是,则进入步骤S205,否则继续步骤S202。
步骤S205,对所有用户进行采样以得到采样用户,根据所述采样用户与各个集合中心点的马氏距离,将所述采样用户分配到所述集合中心点对应的集合。
本实施例中,由于初始化后的集合中心点只是满足了预设的集合数目,作为集合的中心点并不精确,还要对初始化后的集合中心点进行更新,以确定更加精确的集合中心点。
步骤S206,按照与所述集合中心点的马氏距离从小到大的原则,将分配至所述集合中心点对应的集合的所述采样用户进行排序,并筛选排序在前的数量为第一设定值的所述采样用户。
步骤S207,计算所述采样用户与所述集合中心点以外的其他所述集合中心点的马氏距离,并选取所述马氏距离最大的所述采样用户作为所述集合中心点。
本实施例中,可以选取采样用户数量的50%用于更新集合中心点,即选取靠近集合中心点的用户,一方面,可以简化聚类分析的计算。另一方面,用户行为信息为高维度数据,在同一集合中,很多用户在当前维度的计算中是孤立的点,与集合中心点的马氏距离远,选取靠近集合中心点的用户对于更新中心点可以避免孤立的点对计算过程的干扰。
步骤S208,判断所述集合中心点是否处于收敛状态,如果是,则进入步骤S209,否则继续步骤S206。
步骤S209,根据所有用户与各个集合中心点的马氏距离,进行所述所有用户的分配。
步骤S210,对分配的结果进行均衡性处理。
本实施例中,在迭代进入收敛状态后,根据所有用户与各个集合中心点的马氏距离,将用户分配至与其马氏距离最小的集合中心点。并对分配的结果进行均衡性处理,保证了每个集合内的用户数量。
本发明实施例的具体实施方式可参照前述相应实施例,此处不再赘述。
本发明实施例通过迭代运算得到精准的集合中心点的位置,然后根据马氏距离大小进行分配,提高了用户网络用户行为聚类结果的精准性。且在计算马氏距离的过程中,将用户网络行为的各个特征维度之间的相关性考虑进去,从而使得用户与集合中心点的距离更加准确,进一步提高了用户网络用户行为聚类结果的精准性。
图3是本发明实施例一种网络用户行为聚类装置的结构示意图。
请参照图3,网络用户行为聚类装置包括:初始单元301、更新单元302、迭代更新单元303和分配单元304。
其中,初始单元301根据预设的集合数目进行集合中心点的初始化。初始单元301可以根据人工经验进行人工指定预设集合中心点,作为部分数量的集合中心点。剩余集合中心点的确定根据选定用户与确定集合中心点的距离进行判断,选取距离最大的用户作为未知的集合中心点,直至预设集合数目的集合中心点全部确定。至此,聚类所需的集合中心点全部确定下来
更新单元302对所有用户进行采样以得到采样用户,根据所述采样用户与各个集合中心点的距离,将所述采样用户分配到所述集合中心点对应的集合,并根据分配的结果更新所述集合中心点。
迭代更新单元303控制更新单元302迭代所述采样、分配和更新所述集合中心点的过程,直至进入收敛状态。迭代更新单元303迭代所述采样、分配计算过程,通过计算的所述采样用户与所述集合中心点以外的其他所述集合中心点的距离,选取所述距离最大的所述采样用户作为所述集合中心点,直至进入收敛状态,所述收敛状态是指所有的集合中心点确定下来,不再变化。
分配单元304在迭代进入收敛状态后,根据所有用户与各个集合中心点的距离,进行所述所有用户的分配。在迭代进入收敛状态后,分配单元304根据所有用户与各个集合中心点的距离,将用户分配至与其距离最小的集合中心点。
本发明实施例的具体实施方式可参照前述相应实施例,此处不再赘述
图4是本发明实施例另一种网络用户行为聚类装置的结构示意图。
请参照图4,网络用户行为聚类装置包括:初始单元301、更新单元302、迭代更新单元303、分配单元304和分配均衡处理单元408。
其中,初始单元301根据预设的集合数目进行集合中心点的初始化。初始单元301包括:初始子单元401、初始计算单元402、初始判定单元403和初始迭代单元404。
本实施例中,初始子单元401确定预设集合中心点,所述预设集合中心点的数量小于所述预设的集合数目。初始计算单元402随机选择设定数量的用户,计算选定用户与所述预设集合中心点的距离。初始判定单元403选取所述距离最大的用户作为未知的集合中心点。初始迭代单元404控制初始计算单元402和初始判定单元403迭代所述随机选择、计算和选取的过程,直至所述预设集合中心点和未知的集合中心点的数目之和达到所述预设的集合数目。
更新单元302对所有用户进行采样以得到采样用户,根据所述采样用户与各个集合中心点的距离,将所述采样用户分配到所述集合中心点对应的集合,并根据分配的结果更新所述集合中心点。更新单元302包括:采样分配单元405、筛选单元406和均衡处理单元407。
本实施例中,采样分配单元405所述采样用户与所述集合中心点之间的距离最小时,将所述采样用户分配到所述集合中心点对应的集合。筛选单元406按照与所述集合中心点的距离从小到大的原则,将分配至所述集合中心点对应的集合的所述采样用户进行排序,并筛选排序在前的数量为第一设定值的所述采样用户,用于更新所述集合中心点,所述第一设定值为分配至所述集合的所述采样用户数量的40%—60%。均衡处理单元407对分配的结果进行均衡性处理,以使所有集合内的所述采样用户的数量大于第二设定值
迭代更新单元303控制更新单元302迭代所述采样、分配和更新所述集合中心点的过程,直至进入收敛状态。所述迭代更新单元303计算所述采样用户与所述集合中心点以外的其他所述集合中心点的距离;选取所述距离最大的所述采样用户作为所述集合中心点,直至进入收敛状态。
分配单元304在迭代进入收敛状态后,根据所有用户与各个集合中心点的距离,进行所述所有用户的分配。
分配均衡处理单元408在当前集合内包含的所述采样用户的数量小于所述第二设定值时,则将包含的采样用户的数量大于所述第二设定值的集合内的所述采样用户排序,并释放出排序在前的部分采样用户,用于分配至所述当前集合,其中,排序按照所述采样用户与所述集合中心点的距离从大到小进行操作。
本发明实施例的初始单元301、更新单元302、迭代更新单元303和分配单元304的具体实施方式可参照前述相应实施例,此处不再赘述。
本发明实施例还公开了一种终端,所述终端包括所述网络用户行为聚类装置。所述终端可以是任意可以支持所述网络用户行为聚类装置的设备,例如可以是计算机、平板、手机等。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于以计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (15)

1.一种网络用户行为聚类方法,其特征在于,包括:
根据预设的集合数目进行集合中心点的初始化;
对所有用户进行采样以得到采样用户,根据所述采样用户与各个集合中心点的距离,将所述采样用户分配到所述集合中心点对应的集合,并根据分配的结果更新所述集合中心点;
迭代所述采样、分配和更新所述集合中心点的过程,直至进入收敛状态;
在迭代进入收敛状态后,根据所有用户与各个集合中心点的距离,进行所述所有用户的分配。
2.根据权利要求1所述的网络用户行为聚类方法,其特征在于,根据所述预设的集合数目进行所述集合中心点的初始化包括:
确定预设集合中心点,所述预设集合中心点的数量小于所述预设的集合数目;
随机选择设定数量的用户,计算选定用户与所述预设集合中心点的距离;
选取所述距离最大的用户作为未知的集合中心点;
迭代所述随机选择、计算和选取的过程,直至所述预设集合中心点和未知的集合中心点的数目之和达到所述预设的集合数目。
3.根据权利要求1所述的网络用户行为聚类方法,其特征在于,将所述采样用户分配到所述集合中心点对应的集合包括:所述采样用户与所述集合中心点之间的距离最小时,将所述采样用户分配到所述集合中心点对应的集合。
4.根据权利要求1所述的网络用户行为聚类方法,其特征在于,根据分配的结果更新所述集合中心点包括:计算所述采样用户与所述集合中心点以外的其他所述集合中心点的距离;选取所述距离最大的所述采样用户作为所述集合中心点,直至进入收敛状态。
5.根据权利要求1所述的网络用户行为聚类方法,其特征在于,将所述采样用户分配到所述集合中心点对应的集合包括:对分配的结果进行均衡性处理,以使所有集合内的所述采样用户的数量大于第二设定值。
6.根据权利要求1所述的网络用户行为聚类方法,其特征在于,进行所述所有用户的分配后,还包括:对分配的结果进行均衡性处理,以使所有集合内的所述用户的数量大于第二设定值。
7.根据权利要求1至6任一项所述的网络用户行为聚类方法,其特征在于,所述距离为马氏距离。
8.一种网络用户行为聚类装置,其特征在于,包括:
初始单元,根据预设的集合数目进行集合中心点的初始化;
更新单元,对所有用户进行采样以得到采样用户,根据所述采样用户与各个集合中心点的距离,将所述采样用户分配到所述集合中心点对应的集合,并根据分配的结果更新所述集合中心点;
迭代更新单元,控制所述更新单元迭代所述采样、分配和更新所述集合中心点的过程,直至进入收敛状态;
分配单元,在迭代进入收敛状态后,根据所有用户与各个集合中心点的距离,进行所述所有用户的分配。
9.根据权利要求8所述的网络用户行为聚类装置,其特征在于,所述初始单元包括:
初始子单元,确定预设集合中心点,所述预设集合中心点的数量小于所述预设的集合数目;
初始计算单元,随机选择设定数量的用户,计算选定用户与所述预设集合中心点的距离;
初始判定单元,选取所述距离最大的用户作为未知的集合中心点;初始迭代单元,控制所述初始计算单元和初始判定单元迭代所述随机选择、计算和选取的过程,直至所述预设集合中心点和未知的集合中心点的数目之和达到所述预设的集合数目。
10.根据权利要求8所述的网络用户行为聚类装置,其特征在于,所述更新单元包括:采样分配单元,所述采样用户与所述集合中心点之间的距离最小时,将所述采样用户分配到所述集合中心点对应的集合。
11.根据权利要求8所述的网络用户行为聚类装置,其特征在于,所述迭代更新单元计算所述采样用户与所述集合中心点以外的其他所述集合中心点的距离;选取所述距离最大的所述采样用户作为所述集合中心点,直至进入收敛状态。
12.根据权利要求10所述的网络用户行为聚类装置,其特征在于,所述更新单元还包括:均衡处理单元,对分配的结果进行均衡性处理,以使所有集合内的所述采样用户的数量大于第二设定值。
13.根据权利要求8所述的网络用户行为聚类装置,其特征在于,还包括:分配均衡处理单元,对分配的结果进行均衡性处理,以使所有集合内的所述用户的数量大于第二设定值。
14.根据权利要求8至13任一项所述的网络用户行为聚类装置,其特征在于,所述距离为马氏距离。
15.一种终端,包括权利要求8至14任一项所述的网络用户行为聚类装置。
CN201610052562.XA 2016-01-26 2016-01-26 网络用户行为聚类方法、装置及终端 Active CN105681089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610052562.XA CN105681089B (zh) 2016-01-26 2016-01-26 网络用户行为聚类方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610052562.XA CN105681089B (zh) 2016-01-26 2016-01-26 网络用户行为聚类方法、装置及终端

Publications (2)

Publication Number Publication Date
CN105681089A true CN105681089A (zh) 2016-06-15
CN105681089B CN105681089B (zh) 2019-10-18

Family

ID=56303751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610052562.XA Active CN105681089B (zh) 2016-01-26 2016-01-26 网络用户行为聚类方法、装置及终端

Country Status (1)

Country Link
CN (1) CN105681089B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355449A (zh) * 2016-08-31 2017-01-25 腾讯科技(深圳)有限公司 用户选取方法和装置
CN109271555A (zh) * 2018-09-19 2019-01-25 上海哔哩哔哩科技有限公司 信息聚类方法、***、服务器及计算机可读存储介质
WO2019218927A1 (zh) * 2018-05-14 2019-11-21 新华三信息安全技术有限公司 异常用户识别
CN111506627A (zh) * 2020-04-21 2020-08-07 成都路行通信息技术有限公司 一种目标行为聚类方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982489A (zh) * 2012-11-23 2013-03-20 广东电网公司电力科学研究院 一种基于海量计量数据的电力客户在线分群方法
CN104123352A (zh) * 2014-07-10 2014-10-29 西安理工大学 面向微博的话题层次用户影响力度量方法
CN104598565A (zh) * 2015-01-09 2015-05-06 国家电网公司 一种基于随机梯度下降算法的k均值大规模数据聚类方法
CN105243128A (zh) * 2015-09-29 2016-01-13 西华大学 一种基于签到数据的用户行为轨迹聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982489A (zh) * 2012-11-23 2013-03-20 广东电网公司电力科学研究院 一种基于海量计量数据的电力客户在线分群方法
CN104123352A (zh) * 2014-07-10 2014-10-29 西安理工大学 面向微博的话题层次用户影响力度量方法
CN104598565A (zh) * 2015-01-09 2015-05-06 国家电网公司 一种基于随机梯度下降算法的k均值大规模数据聚类方法
CN105243128A (zh) * 2015-09-29 2016-01-13 西华大学 一种基于签到数据的用户行为轨迹聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁青,周留根,朱爱兵,张义东: "基于K-means聚类算法的校园网用户行为分析研究", 《微计算机应用》 *
常慧君,单洪,满毅: "基于分段、聚类和时序关联分析的用户行为分析", 《计算机应用研究》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355449A (zh) * 2016-08-31 2017-01-25 腾讯科技(深圳)有限公司 用户选取方法和装置
CN106355449B (zh) * 2016-08-31 2021-09-07 腾讯科技(深圳)有限公司 用户选取方法和装置
US11574139B2 (en) 2016-08-31 2023-02-07 Tencent Technology (Shenzhen) Company Limited Information pushing method, storage medium and server
WO2019218927A1 (zh) * 2018-05-14 2019-11-21 新华三信息安全技术有限公司 异常用户识别
US11671434B2 (en) 2018-05-14 2023-06-06 New H3C Security Technologies Co., Ltd. Abnormal user identification
CN109271555A (zh) * 2018-09-19 2019-01-25 上海哔哩哔哩科技有限公司 信息聚类方法、***、服务器及计算机可读存储介质
CN111506627A (zh) * 2020-04-21 2020-08-07 成都路行通信息技术有限公司 一种目标行为聚类方法和***
CN111506627B (zh) * 2020-04-21 2023-05-30 成都路行通信息技术有限公司 一种目标行为聚类方法和***

Also Published As

Publication number Publication date
CN105681089B (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
US20240037600A1 (en) Methods and apparatus to incorporate saturation effects into marketing mix models
US11200592B2 (en) Simulation-based evaluation of a marketing channel attribution model
CN106504011B (zh) 一种业务对象的展示方法和装置
CN102880688B (zh) 一种用于对网页进行评估的方法、装置和设备
CN106251174A (zh) 信息推荐方法及装置
CN106250532A (zh) 应用推荐方法、装置及服务器
CN105787061A (zh) 信息推送方法
CN105681089A (zh) 网络用户行为聚类方法、装置及终端
CN107341176B (zh) 一种样本权重设置方法及装置,电子设备
US10878058B2 (en) Systems and methods for optimizing and simulating webpage ranking and traffic
TW201401089A (zh) 基於點擊率的搜索排序方法及裝置
CN104281956A (zh) 基于时间信息的适应用户兴趣变化的动态推荐方法
CN109272360B (zh) 一种广告智能推荐方法、***及装置
CN105260477A (zh) 一种信息推送方法及装置
CN105183904A (zh) 一种信息推送方法、装置及电子设备
CN105809473A (zh) 匹配模型参数的训练方法、服务推荐方法及对应装置
KR101860457B1 (ko) 기상 영향 분석 방법 및 이를 수행하기 위한 장치
CN111798280A (zh) 多媒体信息推荐方法、装置和设备及存储介质
CN105488163A (zh) 信息推送方法和装置
CN103455938B (zh) 一种数据处理方法、装置及服务器设备
CN111260416B (zh) 用于确定对象的关联用户的方法及装置
CN101324939A (zh) 基于数据挖掘的新业务市场预测***及其方法
KR20230150239A (ko) 가맹점 추천 정보를 제공하는 방법 및 디바이스
CN113222245A (zh) 居民用户月度电量电费异常核查方法及***、存储介质
CN113778979A (zh) 一种直播点击率的确定方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant