CN113298115A - 基于聚类的用户分组方法、装置、设备和存储介质 - Google Patents
基于聚类的用户分组方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113298115A CN113298115A CN202110418570.2A CN202110418570A CN113298115A CN 113298115 A CN113298115 A CN 113298115A CN 202110418570 A CN202110418570 A CN 202110418570A CN 113298115 A CN113298115 A CN 113298115A
- Authority
- CN
- China
- Prior art keywords
- clustering
- user attribute
- user
- attribute characteristics
- center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004904 shortening Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于聚类的用户分组方法、装置、设备和存储介质,该方法包括:获取用户属性特征以及对应的各个聚类中心,所述各个聚类中心通过离线方式计算得到,所述用户属性特征和用户关联;根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,将所述目标聚类中心对应的分组确定为所述用户的分组;根据所述用户属性特征对所述目标聚类中心进行更新,以用于后续的用户分组。本方案解决了由于参数波动,导致特征分布出现大幅波动时,聚类结果精准度差的问题,实现了对数据的精确分组。
Description
技术领域
本申请实施例涉及计算机领域,尤其涉及一种基于聚类的用户分组方法、装置、设备和存储介质。
背景技术
近年来随着网络传输和音视频技术的不断发展,短视频播放平台吸引了越来越多的用户。由于用户基数庞大,在短视频平台中将用户分组后再进行分别服务成为了一种常用的方式。因此,如何更精确有效并实时地对视频用户进行分组,是优化短视频平台用户观看体验的重要课题。
现有技术中,通常采用聚类的方式对用户进行分组。其中,聚类指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。现有的聚类方式中,针对特征分布波动较大的情况,如由于用户群的网络状况波动导致其特征分布发生较大变化时,其时效性和准确性均显著降低,需要改进。
发明内容
本发明实施例提供了一种基于聚类的用户分组方法、装置、设备和存储介质,解决了由于参数波动,导致特征分布出现大幅波动时,聚类结果精准度差的问题,实现了对数据的精确分组。
第一方面,本发明实施例提供了一种基于聚类的用户分组方法,该方法包括:
获取用户属性特征以及对应的各个聚类中心,所述各个聚类中心通过离线方式计算得到,所述用户属性特征和用户关联;
根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,将所述目标聚类中心对应的分组确定为所述用户的分组;
根据所述用户属性特征对所述目标聚类中心进行更新,以用于后续的用户分组。
第二方面,本发明实施例还提供了一种基于聚类的用户分组装置,该装置包括:
数据获取模块,用于获取用户属性特征以及对应的各个聚类中心,所述各个聚类中心通过离线方式计算得到,所述用户属性特征和用户关联;
数据分组模块,用于根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,将所述目标聚类中心对应的分组确定为所述用户的分组;
聚类更新模块,用于根据所述用户属性特征对所述目标聚类中心进行更新后再用于后续的用户分组。
第三方面,本发明实施例还提供了一种基于聚类的用户分组设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所述的基于聚类的用户分组方法。
第四方面,本发明实施例还提供了一种存储计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例所述的基于聚类的用户分组方法。
本发明实施例中,获取用户属性特征以及对应的各个聚类中心,其中各个聚类中心通过离线方式计算得到,用户属性特征和用户关联,根据用户属性特征以及各个聚类中心确定该用户对应的目标聚类中心,将目标聚类中心对应的分组确定为用户的分组,同时,根据用户属性特征对确定出的目标聚类中心进行更新,以将更新后聚类中心应用于后续的用户分组。该方案解决了由于参数波动,导致特征分布出现大幅波动时,不能很好的对用户设备进行分组的问题,实现了对数据的精确分组。
附图说明
图1为本发明实施例提供的一种基于聚类的用户分组方法的流程图;
图2为本发明实施例提供的另一种基于聚类的用户分组方法的流程图;
图3为本发明实施例提供的另一种基于聚类的用户分组方法的流程图;
图4为本发明实施例提供的另一种基于聚类的用户分组方法的流程图;
图5为本发明实施例提供的另一种基于聚类的用户分组方法的流程图;
图6为本发明实施例提供的另一种基于聚类的用户分组方法的流程图;
图7为本发明实施例提供的一种基于聚类的用户分组装置的结构框图;
图8为本发明实施例提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
图1为本发明实施例提供的一种基于聚类的用户分组方法的流程图,本实施例可适用于对用户进行合理的分组以用于后续执行相应的服务策略,该方法可以由计算设备如台式机、笔记本、服务器等设备来执行,具体包括如下步骤:
步骤S101、获取用户属性特征以及对应的各个聚类中心,所述各个聚类中心通过离线方式计算得到,所述用户属性特征和用户关联。
在一个实施例中,采用聚类的方式对用户进行分组,以针对不同分组下的用户执行不同的服务策略。其中,该用户可以以用户登录标识、用户设备标识或临时用户标识等方式表征。
其中,用户属性特征和用户相关联,以表征用户的不同属性。以视频播放为例,该用户属性特征可以是用户当前的网络带宽、设备解码参数或数据下载速率等。示例性的,服务器提供一视频播放资源,在用户终端设备中安装有一应用程序,使用者通过该应用程序以点播并获取服务器的视频资源在设备本地进行播放。视频播放过程中,用户设备当前的网络带宽、设备解码参数以及数据下载速率作为用户属性特征发送至服务器,服务器在线实时接收到该用户属性特征后,确定该用户属性特征对应用户的分组。
其中,聚类中心为对离线数据计算得到。示例性的,可以是对历史记录的多个用户属性特征进行聚类计算得到的多个聚类中心。聚类中心个数可以预先设定,设定的数目可根据具体的后续分组执行策略的数目而定。使用的聚类计算方式可以是GMM算法、DBSCAN算法或Kmeans算法等。在另一个实施例中,聚类中心的个数采用自动计算生成。
在一个实施例中,在获取到用户属性特征后相应的确定其对应的历史数据计算得到的各个聚类中心,聚类数据可以存储在服务器中,在进行用户分组时将聚类数据加载至服务器内存。其中,针对不同的用户属性特征的维度和用户服务处理策略可以设置不同类型聚类模型。示例性的,以视频播为例,用户属性特征为网络带宽、设备解码参数以及数据下载速率,对应的不同的服务策略可以是视频码率的不同,其中码率是指视频文件在单位时间内使用的数据流量。即针对同一视频播放资源预先设置有多种不同的码率,如设置K中不同的码率,则相应的聚类中心的个数设置为K个,相应的对历史记录的用户属性特征进行聚类得到K个聚类中心,将该聚类模型相关的数据与视频播放相关的用户属性特征进行关联。在另一个实施例中,用户属性特征可以是用户浏览记录、用户搜索记录以及用户点击内容记录,对应的不同的服务策略可以是不同类型的广告内容的推荐。如设置M种不同的广告类型,每种广告类型对应一个或多个广告,通过对历史记录的用户属性特征进行聚类得到M个聚类中心,每个聚类中心对应一种推荐的广告类型。
在另一个实施例中,在离线进行聚类中心的确定时,针对历史记录的离线的用户属性特征,自动确定聚类中心的个数。如采用组内平方误差和算法、围绕中心点的分割算法或层次聚类算法等。
步骤S102、根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,将所述目标聚类中心对应的分组确定为所述用户的分组。
其中,目标聚类中心为确定出的当前用户属性特征与各个聚类中心的距离最近的聚类中心。如当前聚类中心有5个,分别为聚类中心1、聚类中心2、聚类中心3、聚类中心4和聚类中心5,根据当前用户属性特征确定出的距离各个聚类中心的距离依次为距离1a、距离2a、距离3a、距离4a和距离5a。在距离1a、距离2a、距离3a、距离4a和距离5a中最小的距离值假定为距离4a,则相应的聚类中心4确定为目标聚类中心。
在一个实施例中,以利用Kmeans算法为例,用户属性特征以D维向量xn表示,记录为:
xn(xn,1,xn,2,...,xn,D)
其中xn到每个聚类中心距离值的计算公式为:
其中,K代表选择K个聚类中心,mj代表第j个聚类中心的D维特征向量(mj,1,mj,2,...,mj,D),N代表总共有N个用户样本数,xn代表第n个用户即当前用户的用户属性特征。
在一个实施例中,每个聚类中心对应一个分组,每种分组对应不同的处理策略,通过上述计算得到用户属性特征对应的目标聚类中心后,将该目标聚类中心对应的分组确定为用户分组。由此实现了实时在线的基于获取到的用户属性特征对用户进行分组。相应的,在确定用户分组后以输出该用户分组或直接为该用户执行对应分组的处理侧率。示例性的,假定当前共有5个分组,依次为分组1、分组2、分组3、分组4和分组5,每个分组依次对应的策略可以是不同的视频播放模式,示例为4K、2K、蓝光、超清和高清。
步骤S103、根据所述用户属性特征对所述目标聚类中心进行更新。
其中,对当前获取到的用户属性特征对应的用户进行分组后,进一步包括对目标聚类中心的更新。即令聚类中心根据用户属性特征进行自适应调整。在一个实施例中,将调整后的聚类中心对服务器先前存储的聚类中心进行相应更新调整,当后续获取到另一用户属性特征并进行用户分组时,读取更新后存储的各个聚类中心,进行用户分组的确定。
以Kmeans算法为例,用户属性特征以D维向量xn表示(同前),选取前述确定出的距离最近的聚类中心作为目标聚类中心后,通过下述公式确定该目
其中,K代表聚类中心数,mj代表第j个聚类中心的D维特征向量(mj,1,mj,2,...,mj,D),xn代表第n个用户即当前用户的用户属性特征。
目标聚类中心的更新过程为:基于用户属性特征以及学习率参数对目标聚类中心的特征值进行更新。具体计算公式如下:
其中,γ为学习率,优选设置为较小的正数,如取值为0.05。
由上述方案可知,本方案中的用户分组方法对实时在线获取的用户属性特征进行聚类中心的归类,确定出目标聚类中心后相应的将目标聚类中心对应的分组确定为当前用户分组,其分组过程实时性强,针对波动变化的用户特征属性可以实现在线实时的用户分组归类进而执行相应的服务策略。其中,各个聚类中心采用离线计算的方式确定,将在线聚类和离线聚类过程进行有机集合,保证了分组结果的精准度。同时,由于用户属性特征在某些场景下存在大幅波动的情况,根据用户属性特征对聚类中心进行相应的调整,实现了聚类中心的动态调节,能够动态精准的确定每个用户属性特征对应的分组,其解决了普通用户分组方式无法实现动态调节的问题。
图2为本发明实施例提供的另一种基于聚类的用户分组方法的流程图,给出了一种具体的确定多个聚类中心的方法。如图2所示,技术方案具体如下:
步骤S201、获取用户属性特征的历史记录,对所述历史记录中的用户属性特征进行聚类处理得到多个聚类中心。
在一个实施例中,针对历史记录的用户属性特征进行聚类计算以自动得到多个聚类中心。具体的,以评价指标使用误差平方和的方式,计算公式如下:
其中,mj代表第j个聚类中心的D维特征向量(mj,1,mj,2,...,mj,D),N代表用户样本总数,xn代表第n个用户样本的特征;Kmin和Kmax分别代表最小聚类中心数和最大聚类中心数。对于每个K(Kmin<K<Kmax),计算ΔSSE_RatioK=(SSEK-1-SSEK)/(SSEK-SSEK+1),选取使得ΔSSE_RatioK最大的K作为最佳聚类中心数。
步骤S202、获取用户属性特征以及对应的各个聚类中心,所述各个聚类中心通过离线方式计算得到,所述用户属性特征和用户关联。
步骤S203、根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,将所述目标聚类中心对应的分组确定为所述用户的分组。
步骤S204、根据所述用户属性特征对所述目标聚类中心进行更新。
由上述方案可知,通过获取历史记录的用户属性特征,对历史记录的用户属性特征进行聚类处理自动得到多个聚类中心,实现了分组数目的自动的最优的确定,使得该基于聚类的用户分组更加精确。
图3为本发明实施例提供的另一种基于聚类的用户分组方法的流程图,进一步给出了聚类中心进行更新的方法。如图3所示,技术方案具体如下:
步骤S301、获取用户属性特征的历史记录,对所述历史记录中的用户属性特征进行聚类处理得到多个聚类中心。
步骤S302、获取用户属性特征以及对应的各个聚类中心,所述各个聚类中心通过离线方式计算得到,所述用户属性特征和用户关联。
步骤S303、根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,将所述目标聚类中心对应的分组确定为所述用户的分组。
步骤S304、根据所述用户属性特征对所述目标聚类中心进行更新。
步骤S305、确定是否达到聚类结果更新时间,如果是,则执行步骤S306。
在一个实施例中,根据用户属性特征对目标聚类中心进行更新后,进一步确定是否达到聚类结果更新时间,其中该聚类结果更新时间用于指示重新计算最优聚类中心的个数并相应的初始化聚类中心。示例性的,该聚类结果更新时间可以是半天、一天、三天或一周等。
步骤S306、基于所述历史记录的用户属性特征以及新增的用户属性特征重新进行聚类处理得到更新后的多个聚类中心。
当满足聚类结果更新时间时,基于历史记录的用户属性特征以及新增的用户属性特征重新进行聚类处理得到更新后的多个聚类中心。其中,包括对聚类中心个数的确定以及聚类中心的初始化,具体的聚类中心个数的确定可参见步骤S201的解释部分,此处不再赘述。可选的,在聚类中心初始化完毕后将聚类数据存储至服务器的内存中,以用于后续对获取到用户属性特征对用户进行分组时进行计算。
由上述方案可知,通过定期重新确定聚类中心,可根据记录的用户属性特征进行聚类中心个数的动态调整,解决了由于参数波动,导致特征分布出现大幅波动时,聚类结果精准度差的问题,实现了对数据的精确分组。
图4为本发明实施例提供的另一种基于聚类的用户分组方法的流程图,具体限定了一种聚类结果更新时间的确定方式。如图4所示,技术方案具体如下:
步骤S401、获取用户属性特征的历史记录,对所述历史记录中的用户属性特征进行聚类处理得到多个聚类中心。
步骤S402、获取用户属性特征以及对应的各个聚类中心,所述各个聚类中心通过离线方式计算得到,所述用户属性特征和用户关联。
步骤S403、根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,将所述目标聚类中心对应的分组确定为所述用户的分组。
步骤S404、根据所述用户属性特征对所述目标聚类中心进行更新。
步骤S405、确定是否达到聚类结果更新时间,如果是,则执行步骤S406。
步骤S406、基于所述历史记录的用户属性特征以及新增的用户属性特征重新进行聚类处理得到更新后的多个聚类中心。
步骤S407、根据所述目标聚类中心的更新结果动态确定所述聚类结果更新时间。
在一个实施例中,根据目标聚类中心的更新结果以动态更该聚类结果更新时间。具体的,如果目标聚类中心的更新结果中聚类中心的变动较大,则缩短聚类结果更新时间,如由1天缩短至半天;反之则延长聚类结果更新时间,如从1天延长至2天。具体的,确定出的距离最近的聚类中心作为目标聚类中心后,确定该目标聚类中心的特征值k*,相应确定出的与mk*,d的比值如果连续落入区间[0.8,1.2],则相应的延长聚类结果更新时间,反之则缩短聚类结果更新时间。需要说明的是,上述聚类结果更新时间缩短可延长的具体时间值不做限定,仅为示例。
由上述方案可知,本方案中根据目标聚类中心的更新结果动态确定所述聚类结果更新时间,可以有效的提升聚类计算的效率,保证了用户分组结果精确的前提下,降低整体运算功耗。
图5为本发明实施例提供的另一种基于聚类的用户分组方法的流程图,对获取的用户属性特征的过程进行了进一步限定。如图5所示,技术方案具体如下:
步骤S501、接收客户端发送的用户属性特征,其中,所述客户端在检测到视频播放事件触发时,进行所述用户属性特征的发送。
在一个实施例中,服务器接收到的用户属性特征由客户端发送。其中,客户端在运行相应功能时,实时的进行用户属性特征的发送。具体的,以使用者使用客户端设备进行视频播放为例,当检测到视频播放事件时,如检测到视频播放按钮被点击时,确定当前的用户属性特征。如确定当前的网络带宽参数、设备解码参数以及数据下载速率等,其中网络带宽参数可以是客户端运行过程中测试确定出的当前网络带宽大小,数据下载速率可以是客户端记录的历史视频播放时的数据下载速率,设备解码参数可以是记录的设备固有性能参数,也可以实时确定的当前设备的cpu占用率、内存占用率等。
步骤S502、根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,将所述目标聚类中心对应的分组确定为所述用户的分组。
步骤S503、根据所述用户属性特征对所述目标聚类中心进行更新。
步骤S504、确定是否达到聚类结果更新时间,如果是,则执行步骤S505。
步骤S505、基于所述历史记录的用户属性特征以及新增的用户属性特征重新进行聚类处理得到更新后的多个聚类中心。
由上述方案可知,通过在线实时的接收客户端发送的用户属性特征,基于该用户属性特征采用实时可调的聚类方式确定其对应的用户分组,进而为使用者执行相应的服务策略,其分组过程实时性强,针对波动变化的用户特征属性可以实现在线实时的用户分组归类。尤其针对设计网络参量的用户特征属性,由于网络波动通常会变化很大,传统的聚类算法运算时效性和运算效率均不足以实现高效的对用户进行分组。本方案解决了由于参数波动,导致特征分布出现大幅波动时,聚类结果精准度差的问题,实现了对数据的精确分组。
图6为本发明实施例提供的另一种基于聚类的用户分组方法的流程图,对用户分组过程进行了进一步优化。如图6所示,技术方案具体如下:
步骤S601、接收客户端发送的用户属性特征,其中,所述客户端在检测到视频播放事件触发时,进行所述用户属性特征的发送。
步骤S602、确定所述用户属性特征的波动值,如果所述波动值大于预设阈值,则根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心。
在一个实施例中,服务器对实时接收到的用户属性特征进行初步分析,确定该用户属性特征的波动值,如果波动值大于预设阈值,则根据用户属性特征以及各个聚类中心确定用户属性特征对应的目标聚类中心。相应的,反之如果其波动值不大于预设阈值,则采用记录的该用户先前的分组执行后续的处理策略。具体的,以用户属性特征参数包括网络带宽为例,如果网络带宽由100M降低为20M,其波动范围超过了5倍,则相应的确定其波动值大于预设阈值(示例性的,该预设阈值可以是2),则根据用户属性特征以及各个聚类中心确定用户属性特征对应的目标聚类中心,重新确定用户分组。
步骤S603、将所述目标聚类中心对应的分组确定为所述用户的分组。
步骤S604、根据所述用户属性特征对所述目标聚类中心进行更新。
步骤S605、确定是否达到聚类结果更新时间,如果是,则执行步骤S606。
步骤S606、基于所述历史记录的用户属性特征以及新增的用户属性特征重新进行聚类处理得到更新后的多个聚类中心。
由上述方案可知,本方案中确定用户属性特征的波动值,在波动值大于预设阈值的情况下,根据用户属性特征以及各个聚类中心确定用户属性特征对应的目标聚类中心,反之获取上一次的用户分组作为该次用户属性特征对应的用户分组,优化了用户分组的确定方式,提高了整体运算效率。
图7为本发明实施例提供的一种基于聚类的用户分组装置的结构框图,该装置用于执行上述实施例提供的基于聚类的用户分组方法,具备执行方法相应的功能模块和有益效果。如图7所示,该装置具体包括:数据获取模块101、数据分组模块102和聚类更新模块103,其中,
数据获取模块101,用于获取用户属性特征以及对应的各个聚类中心,所述各个聚类中心通过离线方式计算得到,所述用户属性特征和用户关联;
数据分组模块102,用于根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,将所述目标聚类中心对应的分组确定为所述用户的分组;
聚类更新模块103,用于根据所述用户属性特征对所述目标聚类中心进行更新后再用于后续的用户分组。
由上述方案可知,本方案中的用户分组方法对实时在线获取的用户属性特征进行聚类中心的归类,确定出目标聚类中心后相应的将目标聚类中心对应的分组确定为当前用户分组,其分组过程实时性强,针对波动变化的用户特征属性可以实现在线实时的用户分组归类进而执行相应的服务策略。其中,各个聚类中心采用离线计算的方式确定,将在线聚类和离线聚类过程进行有机集合,保证了分组结果的精准度。同时,由于用户属性特征在某些场景下存在大幅波动的情况,根据用户属性特征对聚类中心进行相应的调整,实现了聚类中心的动态调节,能够动态精准的确定每个用户属性特征对应的分组,其解决了普通用户分组方式无法实现动态调节的问题。
在一个可能的实施例中,该装置还包括聚类中心确定模块104,用于:
获取用户属性特征以及对应的各个聚类中心之前,获取用户属性特征的历史记录,对所述历史记录中的用户属性特征进行聚类处理得到多个聚类中心。
在一个可能的实施例中,所述聚类更新模块103还用于:
在将所述目标聚类中心对应的分组确定为所述用户的分组之后,确定是否达到聚类结果更新时间,如果是,则基于所述历史记录的用户属性特征以及新增的用户属性特征重新进行聚类处理得到更新后的多个聚类中心。
在一个可能的实施例中,所述聚类更新模块103还用于:
在根据所述用户属性特征对所述目标聚类中心进行更新之后,根据所述目标聚类中心的更新结果动态确定所述聚类结果更新时间。
在一个可能的实施例中,所述聚类更新模块103具体用于:
基于所述用户属性特征以及学习率参数对所述目标聚类中心的特征值进行更新。
在一个可能的实施例中,所述数据获取模块101具体用于:
接收客户端发送的用户属性特征,其中,所述客户端在检测到视频播放事件触发时,进行所述用户属性特征的发送,所述用户属性特征包括网络带宽参数、设备解码参数以及数据下载速率中的一种或多种。
在一个可能的实施例中,所述数据分组模块还用于:
在根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心之前,确定所述用户属性特征的波动值,如果所述波动值大于预设阈值,则根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,所述波动值包括网络带宽参数波动值。
图8为本发明实施例提供的一种基于聚类的用户分组设备的结构示意图,如图8所示,该设备包括处理器201、存储器202、输入装置203和输出装置204;设备中处理器201的数量可以是一个或多个,图8中以一个处理器201为例;设备中的处理器201、存储器202、输入装置203和输出装置204可以通过总线或其他方式连接,图8中以通过总线连接为例。存储器202作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于聚类的用户分组方法对应的程序指令/模块。处理器201通过运行存储在存储器202中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的基于聚类的用户分组方法。输入装置203可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置204可包括显示屏等显示设备。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种基于聚类的用户分组方法,该方法包括:
获取用户属性特征以及对应的各个聚类中心,所述各个聚类中心通过离线方式计算得到,所述用户属性特征和用户关联;
根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,将所述目标聚类中心对应的分组确定为所述用户的分组;
根据所述用户属性特征对所述目标聚类中心进行更新。
值得注意的是,上述基于聚类的用户分组装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
注意,上述仅为本发明实施例的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明实施例不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明实施例的保护范围。因此,虽然通过以上实施例对本发明实施例进行了较为详细的说明,但是本发明实施例不仅仅限于以上实施例,在不脱离本发明实施例构思的情况下,还可以包括更多其他等效实施例,而本发明实施例的范围由所附的权利要求范围决定。
Claims (10)
1.基于聚类的用户分组方法,其特征在于,包括:
获取用户属性特征以及对应的各个聚类中心,所述各个聚类中心通过离线方式计算得到,所述用户属性特征和用户关联;
根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,将所述目标聚类中心对应的分组确定为所述用户的分组;
根据所述用户属性特征对所述目标聚类中心进行更新,以用于后续的用户分组。
2.根据权利要求1所述的基于聚类的用户分组方法,其特征在于,获取用户属性特征以及对应的各个聚类中心之前,还包括:
获取用户属性特征的历史记录,对所述历史记录中的用户属性特征进行聚类处理得到多个聚类中心。
3.根据权利要求2所述的基于聚类的用户分组方法,其特征在于,在将所述目标聚类中心对应的分组确定为所述用户的分组之后,还包括:
确定是否达到聚类结果更新时间,如果是,则基于所述历史记录的用户属性特征以及新增的用户属性特征重新进行聚类处理得到更新后的多个聚类中心。
4.根据权利要求3所述的基于聚类的用户分组方法,其特征在于,在根据所述用户属性特征对所述目标聚类中心进行更新之后,还包括:
根据所述目标聚类中心的更新结果动态确定所述聚类结果更新时间。
5.根据权利要求1所述的基于聚类的用户分组方法,其特征在于,所述根据所述用户属性特征对所述目标聚类中心进行更新,包括:
基于所述用户属性特征以及学习率参数对所述目标聚类中心的特征值进行更新。
6.根据权利要求1-5中任一项所述的基于聚类的用户分组方法,其特征在于,所述获取用户属性特征,包括:
接收客户端发送的用户属性特征,其中,所述客户端在检测到视频播放事件触发时,进行所述用户属性特征的发送,所述用户属性特征包括网络带宽参数、设备解码参数以及数据下载速率中的一种或多种。
7.根据权利要求6所述的基于聚类的用户分组方法,其特征在于,在根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心之前,还包括:
确定所述用户属性特征的波动值,如果所述波动值大于预设阈值,则根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,所述波动值包括网络带宽参数波动值。
8.基于聚类的用户分组装置,其特征在于,包括:
数据获取模块,用于获取用户属性特征以及对应的各个聚类中心,所述各个聚类中心通过离线方式计算得到,所述用户属性特征和用户关联;
数据分组模块,用于根据所述用户属性特征以及所述各个聚类中心确定所述用户属性特征对应的目标聚类中心,将所述目标聚类中心对应的分组确定为所述用户的分组;
聚类更新模块,用于根据所述用户属性特征对所述目标聚类中心进行更新后再用于后续的用户分组。
9.一种基于聚类的用户分组设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的基于聚类的用户分组方法。
10.一种存储计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一项所述的基于聚类的用户分组方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110418570.2A CN113298115A (zh) | 2021-04-19 | 2021-04-19 | 基于聚类的用户分组方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110418570.2A CN113298115A (zh) | 2021-04-19 | 2021-04-19 | 基于聚类的用户分组方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113298115A true CN113298115A (zh) | 2021-08-24 |
Family
ID=77319911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110418570.2A Pending CN113298115A (zh) | 2021-04-19 | 2021-04-19 | 基于聚类的用户分组方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298115A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115065600A (zh) * | 2022-06-13 | 2022-09-16 | 远景智能国际私人投资有限公司 | 设备分组方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102082718A (zh) * | 2011-02-23 | 2011-06-01 | 中国人民解放军信息工程大学 | 一种面向服务的虚拟网中业务聚类方法 |
WO2015001416A1 (en) * | 2013-07-05 | 2015-01-08 | Tata Consultancy Services Limited | Multi-dimensional data clustering |
CN106604267A (zh) * | 2017-02-21 | 2017-04-26 | 重庆邮电大学 | 一种动态自适应的无线传感器网络入侵检测智能算法 |
CN109819282A (zh) * | 2017-11-22 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 一种视频用户类别识别方法、装置和介质 |
CN110245687A (zh) * | 2019-05-17 | 2019-09-17 | 腾讯科技(上海)有限公司 | 用户分类方法以及装置 |
WO2020233320A1 (zh) * | 2019-05-20 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 提醒任务分配方法、装置、计算机设备和存储介质 |
CN112069485A (zh) * | 2020-06-12 | 2020-12-11 | 完美世界(北京)软件科技发展有限公司 | 基于用户行为的安全处理方法、装置及设备 |
CN112364937A (zh) * | 2020-11-30 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 用户类别确定方法及装置、推荐内容确定方法、电子设备 |
-
2021
- 2021-04-19 CN CN202110418570.2A patent/CN113298115A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102082718A (zh) * | 2011-02-23 | 2011-06-01 | 中国人民解放军信息工程大学 | 一种面向服务的虚拟网中业务聚类方法 |
WO2015001416A1 (en) * | 2013-07-05 | 2015-01-08 | Tata Consultancy Services Limited | Multi-dimensional data clustering |
CN106604267A (zh) * | 2017-02-21 | 2017-04-26 | 重庆邮电大学 | 一种动态自适应的无线传感器网络入侵检测智能算法 |
CN109819282A (zh) * | 2017-11-22 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 一种视频用户类别识别方法、装置和介质 |
CN110245687A (zh) * | 2019-05-17 | 2019-09-17 | 腾讯科技(上海)有限公司 | 用户分类方法以及装置 |
WO2020233320A1 (zh) * | 2019-05-20 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 提醒任务分配方法、装置、计算机设备和存储介质 |
CN112069485A (zh) * | 2020-06-12 | 2020-12-11 | 完美世界(北京)软件科技发展有限公司 | 基于用户行为的安全处理方法、装置及设备 |
CN112364937A (zh) * | 2020-11-30 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 用户类别确定方法及装置、推荐内容确定方法、电子设备 |
Non-Patent Citations (2)
Title |
---|
KOMARASAMY G, DR等: "An optimized k-means clustering technique using bat algorithm", 《EUROPEAN JOURNAL OF SCIENTIFIC RESEARCH》, vol. 84, pages 263 - 273 * |
许家钰: "基于k-means算法的WiFi用户行为分析***设计与实现", 《中国优秀硕士学位论文全文数据库:信息科技辑》, no. 8, pages 1 - 81 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115065600A (zh) * | 2022-06-13 | 2022-09-16 | 远景智能国际私人投资有限公司 | 设备分组方法、装置、设备及存储介质 |
CN115065600B (zh) * | 2022-06-13 | 2024-01-05 | 远景智能国际私人投资有限公司 | 设备分组方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200043471A1 (en) | Voice data processing method, voice interaction device, and storage medium | |
US20220294821A1 (en) | Risk control method, computer device, and readable storage medium | |
CN110012060B (zh) | 移动终端的信息推送方法、装置、存储介质和服务器 | |
WO2019134274A1 (zh) | 兴趣探索方法、存储介质、电子设备及*** | |
CN106095842B (zh) | 在线课程搜索方法和装置 | |
CN105022761A (zh) | 群组查找方法和装置 | |
WO2021169294A1 (zh) | 更新应用识别模型的方法、装置及存储介质 | |
CN108390775B (zh) | 一种基于spice的用户体验质量评价方法及*** | |
CN111708942B (zh) | 多媒体资源推送方法、装置、服务器及存储介质 | |
CN111935025B (zh) | 一种tcp传输性能的控制方法、装置、设备和介质 | |
WO2019085754A1 (zh) | 应用清理方法、装置、存储介质及电子设备 | |
WO2019062404A1 (zh) | 应用程序的处理方法、装置、存储介质及电子设备 | |
CN113556368A (zh) | 用户识别方法、装置、服务器及存储介质 | |
CN113298115A (zh) | 基于聚类的用户分组方法、装置、设备和存储介质 | |
WO2017092255A1 (zh) | 应用的在线调优方法及*** | |
CN111310072B (zh) | 关键词提取方法、装置和计算机可读存储介质 | |
CN111241225B (zh) | 常驻区域变更的判断方法、装置、设备及存储介质 | |
CN111461188A (zh) | 一种目标业务控制方法、装置、计算设备及存储介质 | |
CN106888237B (zh) | 一种数据调度方法及*** | |
CN111598390B (zh) | 服务器高可用性评估方法、装置、设备和可读存储介质 | |
CN110134575B (zh) | 一种服务器集群的服务能力计算方法及装置 | |
CN111143688B (zh) | 一种基于移动新闻客户端的评估方法及其*** | |
CN113660352A (zh) | 一种服务器调度的方法、装置、电子设备及可读存储介质 | |
WO2014117566A1 (en) | Ranking method and system | |
KR20200036173A (ko) | 사용자 그루핑 및 그룹별 선호 기계학습 분석 알고리즘을 추천하는 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |