CN109766913A - 用户分群方法、装置、计算机可读存储介质及电子设备 - Google Patents
用户分群方法、装置、计算机可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN109766913A CN109766913A CN201811512144.XA CN201811512144A CN109766913A CN 109766913 A CN109766913 A CN 109766913A CN 201811512144 A CN201811512144 A CN 201811512144A CN 109766913 A CN109766913 A CN 109766913A
- Authority
- CN
- China
- Prior art keywords
- user
- label
- group
- user group
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000010606 normalization Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种用户分群方法、装置、计算机可读存储介质及电子设备,所述方法包括:根据各个用户关联的标签及标签的标记时间确定各个用户之间的相似度;根据所述相似度对各个所述用户进行分类。在上述技术方案中,根据各个用户关联的标签及标签的标记时间确定各个用户之间的相似度,从而可以有效保证确定出用户之间的相似度的实时性,贴合用户的使用习惯。之后,根据相似度对各个用户进行分类,从而可以保证用户分类结果的准确性,有效避免直接根据标签进行分类时,标签的时效性对分类结果的影响,提升用户使用体验。同时,也可以为后续基于用户分群结果的处理提供准确的数据支持。
Description
技术领域
本公开涉及数据分析领域,具体地,涉及一种用户分群方法、装置、计算机可读存储介质及电子设备。
背景技术
在用户智能分析中,用户分群是极为重要的组成部分。现有技术中,用户分群通常是直接根据用户关联的标签对单个用户进行画像,从而对多个用户进行分群,找到相似的用户群组。然而,在上述方式中,在用户的关联的标签的时效性较低时,会使得直接根据用户关联的标签对用户进行分群的准确度较低。
发明内容
本公开的目的是提供一种准确的用户分群方法、装置、计算机可读存储介质及电子设备。
为了实现上述目的,根据本公开的第一方面,提供一种用户分群方法,所述方法包括:
根据各个用户关联的标签及标签的标记时间确定各个用户之间的相似度;
根据所述相似度对各个所述用户进行分类。
可选地,所述根据所述相似度对各个所述用户进行分类,包括:
根据所述相似度对各个所述用户进行第一分类处理,获得至少一个第一用户群,其中,每个所述第一用户群具有对应的类中心;
将各个所述第一用户群对应的类中心作为待生成的各第二用户群的类中心,对各个所述用户进行第二分类处理,获得与所述第一用户群相同数量的所述第二用户群;
针对每个所述第二用户群,执行以下操作:
根据当前第二用户群中的各个用户关联的标签及标签的标记时间,确定当前第二用户群中的各个用户与当前第二用户群的类中心之间的相似度;
确定当前第二用户群的用户与当前第二用户群的类中心之间的平均相似度;
根据所述平均相似度,确定所述当前第二用户群对应的相似度置信区间;
删除所述当前第二用户群中、与所述当前第二用户群的类中心之间的相似度处于所述相似度置信区间之外的用户。
可选地,通过如下公式确定用户之间的相似度:
其中,cosin(X,Y)表示用户X与用户Y之间的相似度;
n表示用户X与用户Y关联的标签去重后的总个数;
T(xi)表示用户X第i个标签归一化后对应的时间因子;
xi表示用户X第i个标签的权重;
T(yi)表示用户Y第i个标签归一化后对应的时间因子;
yi表示用户Y第i个标签的权重。
可选地,通过如下方式确定标签的时间因子:
其中,t(x)表示所述标签x的时间因子;
tfrom表示所述标签的标记时间;
tend表示当前时间;
tterm表示预设的时间间隔;
t(x)min表示当前用户关联的各个标签的时间因子的最小值;
t(x)max表示当前用户关联的各个标签的时间因子的最大值;
T(x)表示所述标签x归一化后对应的时间因子。
可选地,在所述根据所述相似度对各个所述用户进行分类的步骤之后,所述方法还包括:
针对分类后所得的每个用户群,根据各个用户群所包含的标签对应的文档频率、平均权重和时间因子确定该标签对应目标权重,其中,用户群所包含的标签为该用户群中的各个用户所关联的标签;
根据所述各个标签的目标权重,通过以下中的任一者确定该用户群的群标签:
将所述目标权重大于预设阈值的标签确定为用户群的群标签;
将各个标签按照目标权重由大至小的顺序、排名前N的标签确定为所述用户群的群标签。
可选地,根据各个用户群所包含的标签对应的文档频率、平均权重和时间因子,通过以下公式确定该标签对应目标权重:
其中,W(x)表示所述标签x的目标权重;
表示当前用户群中、标签x的文档频率;
Dx表示当前用户群中、关联标签x的用户数量;
D表示当前用户群中的用户总数;
Wavg表示在当前用户群中、标签x的平均权重;
T(x)avg表示在当前用户群中、标签x的时间因子的平均值。
根据本公开的第二方面,提供一种用户分群装置,所述装置包括:
第一确定模块,用于根据各个用户关联的标签及标签的标记时间确定各个用户之间的相似度;
分类模块,用于根据所述相似度对各个所述用户进行分类。
可选地,所述分类模块包括:
第一分类子模块,用于根据所述相似度对各个所述用户进行第一分类处理,获得至少一个第一用户群,其中,每个所述第一用户群具有对应的类中心;
第二分类子模块,用于将各个所述第一用户群对应的类中心作为待生成的各第二用户群的类中心,对各个所述用户进行第二分类处理,获得与所述第一用户群相同数量的所述第二用户群;
第一确定子模块,用于针对每个所述第二用户群,根据当前第二用户群中的各个用户关联的标签及标签的标记时间,确定当前第二用户群中的各个用户与当前第二用户群的类中心之间的相似度;
第二确定子模块,用于针对每个所述第二用户群,确定当前第二用户群的用户与当前第二用户群的类中心之间的平均相似度;
第三确定子模块,用于针对每个所述第二用户群,根据所述平均相似度,确定所述当前第二用户群对应的相似度置信区间;
删除子模块,用于针对每个所述第二用户群,删除所述当前第二用户群中、与所述当前第二用户群的类中心之间的相似度处于所述相似度置信区间之外的用户。
可选地,所述第一确定模块通过如下公式确定用户之间的相似度:
其中,cosin(X,Y)表示用户X与用户Y之间的相似度;
n表示用户X与用户Y关联的标签去重后的总个数;
T(xi)表示用户X第i个标签归一化后对应的时间因子;
xi表示用户X第i个标签的权重;
T(yi)表示用户Y第i个标签归一化后对应的时间因子;
yi表示用户Y第i个标签的权重。
可选地,所述第一确定模块通过如下方式确定标签的时间因子:
其中,t(x)表示所述标签x的时间因子;
tfrom表示所述标签的标记时间;
tend表示当前时间;
tterm表示预设的时间间隔;
t(x)min表示当前用户关联的各个标签的时间因子的最小值;
t(x)max表示当前用户关联的各个标签的时间因子的最大值;
T(x)表示所述标签x归一化后对应的时间因子。
可选地,所述装置还包括:
第二确定模块,用于在所述分类模块根据所述相似度对各个所述用户进行分类之后,针对分类后所得的每个用户群,根据各个用户群所包含的标签对应的文档频率、平均权重和时间因子确定该标签对应目标权重,其中,用户群所包含的标签为该用户群中的各个用户所关联的标签;
第三确定模块,用于根据所述各个标签的目标权重,通过以下中的任一者确定该用户群的群标签:
将所述目标权重大于预设阈值的标签确定为用户群的群标签;
将各个标签按照目标权重由大至小的顺序、排名前N的标签确定为所述用户群的群标签。
可选地,所述第二确定模块用于根据各个用户群所包含的标签对应的文档频率、平均权重和时间因子,通过以下公式确定该标签对应目标权重:
其中,W(x)表示所述标签x的目标权重;
表示当前用户群中、标签x的文档频率;
Dx表示当前用户群中、关联标签x的用户数量;
D表示当前用户群中的用户总数;
Wavg表示在当前用户群中、标签x的平均权重;
T(x)avg表示在当前用户群中、标签x的时间因子的平均值。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面任一所述方法的步骤。
根据本公开的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面任一所述方法的步骤。
在上述技术方案中,根据各个用户关联的标签及标签的标记时间确定各个用户之间的相似度,从而可以有效保证确定出用户之间的相似度的实时性,贴合用户的使用习惯。之后,根据相似度对各个用户进行分类,从而可以保证用户分类结果的准确性,有效避免直接根据标签进行分类时,标签的时效性对分类结果的影响,提升用户使用体验。同时,也可以为后续基于用户分群结果的处理提供准确的数据支持。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开的一种实施方式提供的用户分群方法的流程图;
图2是根据本公开的一种实施方式提供的根据相似度对各个用户进行分类的一种示例性实现方式的流程图;
图3是根据本公开的一种实施方式提供的用户分群装置的框图;
图4是根据本公开的一种实施方式提供的用户分群装置中分类模块的框图;
图5是根据一示例性实施例示出的一种电子设备的框图;
图6是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1所示,为根据本公开的一种实施方式提供的用户分群方法的流程图,如图1所示,所述方法包括:
在S11中,根据各个用户关联的标签及标签的标记时间确定各个用户之间的相似度。
如背景技术所述,现有技术中,用户分群通常是直接根据用户关联的标签进行的。但是用户关联的标签一般是有时间阶段性的,例如,用户U一年前参加一个培训活动,浏览了与该培训活动相关的多篇书籍。该类书籍对应的标签对于用户当前的画像而言,其权重应该是随时间推移而逐渐降低的。因此,直接根据用户关联的标签对用户进行分群时,其误差较大。而在本公开提供的实施例中,在确定用户之间的相似度时,不仅根据用户关联的标签,同时也根据各个标签的标记时间,保证用户分群的时效性。
在S12中,根据相似度对各个用户进行分类。在确定出用户之间的相似度后,则可以根据该相似度将相似的用户进行聚类。示例地,在对用户进行分类时,可以采用现有的聚类算法进行分类,本公开对此不进行限定。
在上述技术方案中,根据各个用户关联的标签及标签的标记时间确定各个用户之间的相似度,从而可以有效保证确定出的用户之间的相似度的实时性,贴合用户的使用习惯。之后,根据相似度对各个用户进行分类,从而可以保证用户分类结果的准确性,有效避免直接根据标签进行分类时,标签的时效性对分类结果的影响,提升用户使用体验。同时,也可以为后续基于用户分群结果的处理提供准确的数据支持。
为了使本领域技术人员更加理解本发明实施例提供的技术方案,下面对上述步骤进行详细的说明。
如上文所示,由于用户关联的标签一般都有时间阶段性,本公开提供的用户分群方法中,在确定用户之间的相似度时,不仅基于用户关联的标签,同时也基于用户关联的标签的标记时间。具体地,可以通过如下公式确定用户之间的相似度:
其中,cosin(X,Y)表示用户X与用户Y之间的相似度;
n表示用户X与用户Y关联的标签去重后的总个数;
T(xi)表示用户X第i个标签归一化后对应的时间因子;
xi表示用户X第i个标签的权重;
T(yi)表示用户Y第i个标签归一化后对应的时间因子;
yi表示用户Y第i个标签的权重。
在该实施例中,用户关联的标签的权重可以根据用户与该标签之间的关系进行确定。示例地,当用户关联的标签为物品时,可以根据用户对该关联物品的操作对权重进行设置,例如,用户浏览、用户购买、用户购买并好评的物品都可以与用户关联,并且权重是根据上述操作确定的。示例地,对于用户浏览的物品的标签的权重可以设置为0.5,对于用户购买的物品的标签的权重可以设置为0.7,对于用户购买并好评的物品的标签的权重可以设置为0.9。又例如,当用户关联的标签为文本时,可以根据用户对该文本的阅读进度或是阅读次数等对该标签的权重进行设置,用户对该文本阅读进度越大,该文本的标签的权重越大;用户对该文本的阅读次数越多,该文本的标签的权重越大。其他标签的权重设置方式与上述方式类似,在此不再赘述。
其中,在上述实施例中,将用户X和用户Y所关联的标签去重后所得的标签作为用户的向量的维度以对用户X和用户Y进行向量化表示,其中,每个维度对应一个标签。当用户关联的标签中不存在该维度对应的标签时,用户的向量中该维度取值0,当用户关联的标签中存在该维度对应的标签时,用户的向量中该维度取值1。并且,当用户关联的标签中不存在该维度对应的标签时,该用户对应的该标签的权重和时间因子均为0。
在上文中对标签的权重设置进行了详细地说明,以下对标签对应的时间因子进行说明。
可选地,可以通过如下方式确定标签的时间因子:
其中,t(x)表示所述标签x的时间因子;
tfrom表示所述标签的标记时间;
tend表示当前时间;
tterm表示预设的时间间隔,其中,该时间间隔可以根据实际的使用场景进行设置,时间单位一般为天,示例地,该时间间隔可以设置为30天;
t(x)min表示当前用户关联的各个标签的时间因子的最小值;
t(x)max表示当前用户关联的各个标签的时间因子的最大值;
T(x)表示所述标签x归一化后对应的时间因子。
在上述实施例中,在确定标签的对应的时间因子时,通过对用户关联的各个标签对应的时间因子进行归一化,使得各个用户关联的标签的时间因子可以基于同一标准进行评判,从而有效保证计算出的用户之间的相似度的准确性,为用户分群提供准确的数据支持。
在本公开的实施例中,通过计算用户之间的距离以表征用户的相似度,当用户之间的距离越小,用户之间越相似。一般而言,不同用户关联的标签并不会完全相同。但有时会由于数据错误、时间分隔等因素使得本应该具有共有标签的用户之间该标签没有实现共有,而本不应该实现共有的标签却成为了用户之间的共有标签,从而对用户的相似度计算产生影响。因此,在本公开中通过增加惩罚因子以有效避免出现上述问题。示例地,当用户的向量的维度中第i个标签为共有标签时,惩罚因子会大于0,从而使得计算出的用户之间的距离增大;而当用户的向量的维度中第i个标签为非共有标签时,惩罚因子会等于0,对计算出的用户之间的距离无影响。由此,通过上述技术方案,既可以降低用户之间共有标签的对用户相似度的影响,又可以保证用户相似度计算的准确性。
在对用户进行分群时,用户数据中不可避免地会出现一些异常数据,因此,为了进一步提高用户分群的准确度,本公开还提供以下实施例,以对用户群中的异常用户进行过滤。
可选地,所述根据相似度对各个用户进行分类的一种示例性实现方式如图2所示,包括:
在S21中,根据相似度对各个用户进行第一分类处理,获得至少一个第一用户群,其中,每个所述第一用户群具有对应的类中心。其中,第一分类处理可以是层次聚类算法,通过对各个用户基于层次聚类算法进行聚类,可以确定出各个用户可以划分的类簇的总数以及对应的类中心。其中,层次聚类算法为现有技术,在此不再赘述。
在S22中,将各个第一用户群对应的类中心作为待生成的各第二用户群的类中心,对各个用户进行第二分类处理,获得与第一用户群相同数量的第二用户群。
其中,第二分类处理可以是K-means聚类算法,将S21中确定出的类簇的总数确定为K,将S21中确定出的类中心确定为K-means聚类时的类中心以对各个用户进行聚类,从而获得第二用户群。需要进行说明的是,在通过K-means聚类算法进行聚类的过程中,不对类中心进行更改。其中,K-means聚类算法为现有技术,在此不再赘述。
针对每个所述第二用户群,执行以下操作:
在S23中,根据当前第二用户群中的各个用户关联的标签及标签的标记时间,确定当前第二用户群中的各个用户与当前第二用户群的类中心之间的相似度。
其中,类中心对应的向量可以根据其对应的用户群内的各个用户的向量进行确定,对于类中心的各个标签对应的时间因子可以进行默认设置,示例地,类中心的标签的时间因子均默认设置为1。因此,可以将类中心的向量作为一个虚拟用户的向量,可以通过上文所述的确定用户之间的相似度的公式确定用户与类中心之间的相似度,具体相似度确定的方式在此不再赘述。
在S24中,确定当前第二用户群的用户与当前第二用户群的类中心之间的平均相似度。
在确定出第二用户群中的各个用户与该第二用户群的类中心之间的相似度时,可以直接通过确定平均值的方式确定该平均相似度。
在S25中,根据平均相似度,确定当前第二用户群对应的相似度置信区间。
示例地,相似度置信区间可以根据实际使用情况进行设置。例如,对于精度要求一般的用户分群,可以对相似度置信区间取α=0.05的置信区间,对于精度要求较高的用户分群,可以对相似度置信区间取α=0.01的置信区间。其中,确定相似度置信区间的方式为现有技术,在此不再赘述。
在S26中,删除当前第二用户群中、与当前第二用户群的类中心之间的相似度处于相似度置信区间之外的用户。
根据统计学原理,在确定出相似度置信区间时,若用户与对应的类中心之间的相似度在置信区间内,表征该用户为正常用户,若用户与对应的类中心之间的相似度在置信区间外,表征该用户为异常用户,由此,可以将异常用户删除。
在上述技术方案中,基于第一分类处理得出的用户群个数及对应的类中心对用户进行二次分类,一方面,可以保证二次分类时用户群个数和类中心的准确度,另一方面,通过对用户进行二次分类,也可以保证用户分群的准确度。并且,基于统计学原理对用户群中的异常用户进行过滤,从而有效保证用户群的纯度,有效避免异常用户对后续处理的影响,为基于用户群的后续处理提供准确的数据支持。
在进行用户分群后,可以基于各个用户群的群标签生成该用户群的群组画像,从而根据群组画像进行推荐、用户分析、用户图谱等功能。然而,现有技术中,通常是将用户群中的各个用户关联的标签进行汇总作为用户群的群标签。然而,在上述过程中并没有考虑标签的实际使用情况,例如,当前用户群中有且只有用户A关联有标签a,且该用户A关联标签a的时间为1年前,此时,若如现有技术中直接将该标签a确定为当前用户群的群标签,则对用户群的群标签的准确性有较大影响。
由此,本公开还提供以下实施例。可选地,在所述根据所述相似度对各个所述用户进行分类的步骤之后,所述方法还包括:
针对分类后所得的每个用户群,根据各个用户群所包含的标签对应的文档频率、平均权重和时间因子确定该标签对应目标权重,其中,用户群所包含的标签为该用户群中的各个用户所关联的标签。
其中,分类后所得的用户群可以是第一用户群或是第二用户群。
可选地,根据各个用户群所包含的标签对应的文档频率、平均权重和时间因子,通过以下公式确定该标签对应目标权重:
其中,W(x)表示所述标签x的目标权重;
表示当前用户群中、标签x的文档频率,其中,可以以当前用户群中的各个用户关联的标签分别形成为一文档,则每个标签即为文档中的各个分词,以计算标签的文档频率;标签的文档频率则用于表征该标签在该当前用户群中的各个用户关联的标签中所出现的频率,标签的文档频率越大,表示该标签在该当前用户群中的各个用户所关联的标签中所出现的频率越高;
Dx表示当前用户群中、关联标签x的用户数量;
D表示当前用户群中的用户总数;
Wavg表示在当前用户群中、标签x的平均权重;
T(x)avg表示在当前用户群中、标签x的时间因子的平均值。
其中,Wavg可以通过以下公式确定:
wj表示当前用户群中第j个用户对应的标签x的权重。
T(x)avg可以通过以下公式确定:
T(x)j表示当前用户群中第j个用户对应的标签x归一化后对应的时间因子。
根据所述各个标签的目标权重,通过以下中的任一者确定该用户群的群标签:
1)将所述目标权重大于预设阈值的标签确定为用户群的群标签。
示例地,可以根据实际使用情况或是经验对该预设阈值进行设置。在标签的目标权重大于该预设阈值时,表示该标签的综合权重较大,此时,可以将该标签确定为当前用户群的群标签。
2)将各个标签按照目标权重由大至小的顺序、排名前N的标签确定为所述用户群的群标签。
示例地,预先设置群标签的个数。因此,在确定出各个标签的目标权重时,可以按照目标权重由大至小的顺序选取群标签。
在上述技术方案中,在根据用户群中的各个用户关联的标签确定群标签时,通过标签对应的文档频率、平均权重和时间因子等因素综合确定该标签的目标权重,从而可以保证目标权重的全面性。并且,在确定用户群的群标签时,根据标签的目标权重进行选取,一方面,可以避免现有技术中直接确定群标签的片面性,从而有效保证群标签的准确性。另一方面,通过保证群标签的准确性和全面性,以保证基于该群标签进行后续处理的结果的全面性和准确性,进一步提升用户使用体验。
本公开还提供一种用户分群装置,如图3所示,所述装置10包括:
第一确定模块100,用于根据各个用户关联的标签及标签的标记时间确定各个用户之间的相似度;
分类模块200,用于根据所述相似度对各个所述用户进行分类。
可选地,如图4所示,所述分类模块200包括:
第一分类子模块201,用于根据所述相似度对各个所述用户进行第一分类处理,获得至少一个第一用户群,其中,每个所述第一用户群具有对应的类中心;
第二分类子模块202,用于将各个所述第一用户群对应的类中心作为待生成的各第二用户群的类中心,对各个所述用户进行第二分类处理,获得与所述第一用户群相同数量的所述第二用户群;
第一确定子模块203,用于针对每个所述第二用户群,根据当前第二用户群中的各个用户关联的标签及标签的标记时间,确定当前第二用户群中的各个用户与当前第二用户群的类中心之间的相似度;
第二确定子模块204,用于针对每个所述第二用户群,确定当前第二用户群的用户与当前第二用户群的类中心之间的平均相似度;
第三确定子模块205,用于针对每个所述第二用户群,根据所述平均相似度,确定所述当前第二用户群对应的相似度置信区间;
删除子模块206,用于针对每个所述第二用户群,删除所述当前第二用户群中、与所述当前第二用户群的类中心之间的相似度处于所述相似度置信区间之外的用户。
可选地,所述第一确定模块100通过如下公式确定用户之间的相似度:
其中,cosin(X,Y)表示用户X与用户Y之间的相似度;
n表示用户X与用户Y关联的标签去重后的总个数;
T(xi)表示用户X第i个标签归一化后对应的时间因子;
xi表示用户X第i个标签的权重;
T(yi)表示用户Y第i个标签归一化后对应的时间因子;
yi表示用户Y第i个标签的权重。
可选地,所述第一确定模块100通过如下方式确定标签的时间因子:
其中,t(x)表示所述标签x的时间因子;
tfrom表示所述标签的标记时间;
tend表示当前时间;
tterm表示预设的时间间隔;
t(x)min表示当前用户关联的各个标签的时间因子的最小值;
t(x)max表示当前用户关联的各个标签的时间因子的最大值;
T(x)表示所述标签x归一化后对应的时间因子。
可选地,所述装置10还包括:
第二确定模块,用于在所述分类模块根据所述相似度对各个所述用户进行分类之后,针对分类后所得的每个用户群,根据各个用户群所包含的标签对应的文档频率、平均权重和时间因子确定该标签对应目标权重,其中,用户群所包含的标签为该用户群中的各个用户所关联的标签;
第三确定模块,用于根据所述各个标签的目标权重,通过以下中的任一者确定该用户群的群标签:
将所述目标权重大于预设阈值的标签确定为用户群的群标签;
将各个标签按照目标权重由大至小的顺序、排名前N的标签确定为所述用户群的群标签。
可选地,所述第二确定模块用于根据各个用户群所包含的标签对应的文档频率、平均权重和时间因子,通过以下公式确定该标签对应目标权重:
其中,W(x)表示所述标签x的目标权重;
表示当前用户群中、标签x的文档频率;
Dx表示当前用户群中、关联标签x的用户数量;
D表示当前用户群中的用户总数;
Wavg表示在当前用户群中、标签x的平均权重;
T(x)avg表示在当前用户群中、标签x的时间因子的平均值。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备700的框图。如图5所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的用户分群方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的用户分群方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的用户分群方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的用户分群方法。
图6是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图6,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的用户分群方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作***,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的用户分群方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的用户分群方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种用户分群方法,其特征在于,所述方法包括:
根据各个用户关联的标签及标签的标记时间确定各个用户之间的相似度;
根据所述相似度对各个所述用户进行分类。
2.根据权利要求1所述的方法,其特征在于,所述根据所述相似度对各个所述用户进行分类,包括:
根据所述相似度对各个所述用户进行第一分类处理,获得至少一个第一用户群,其中,每个所述第一用户群具有对应的类中心;
将各个所述第一用户群对应的类中心作为待生成的各第二用户群的类中心,对各个所述用户进行第二分类处理,获得与所述第一用户群相同数量的所述第二用户群;
针对每个所述第二用户群,执行以下操作:
根据当前第二用户群中的各个用户关联的标签及标签的标记时间,确定当前第二用户群中的各个用户与当前第二用户群的类中心之间的相似度;
确定当前第二用户群的用户与当前第二用户群的类中心之间的平均相似度;
根据所述平均相似度,确定所述当前第二用户群对应的相似度置信区间;
删除所述当前第二用户群中、与所述当前第二用户群的类中心之间的相似度处于所述相似度置信区间之外的用户。
3.根据权利要求1所述的方法,其特征在于,通过如下公式确定用户之间的相似度:
其中,cosin(X,Y)表示用户X与用户Y之间的相似度;
n表示用户X与用户Y关联的标签去重后的总个数;
T(xi)表示用户X第i个标签归一化后对应的时间因子;
xi表示用户X第i个标签的权重;
T(yi)表示用户Y第i个标签归一化后对应的时间因子;
yi表示用户Y第i个标签的权重。
4.根据权利要求3所述的方法,其特征在于,通过如下方式确定标签的时间因子:
其中,t(x)表示所述标签x的时间因子;
tfrom表示所述标签的标记时间;
tend表示当前时间;
tterm表示预设的时间间隔;
t(x)min表示当前用户关联的各个标签的时间因子的最小值;
t(x)max表示当前用户关联的各个标签的时间因子的最大值;
T(x)表示所述标签x归一化后对应的时间因子。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在所述根据所述相似度对各个所述用户进行分类的步骤之后,所述方法还包括:
针对分类后所得的每个用户群,根据各个用户群所包含的标签对应的文档频率、平均权重和时间因子确定该标签对应目标权重,其中,用户群所包含的标签为该用户群中的各个用户所关联的标签;
根据所述各个标签的目标权重,通过以下中的任一者确定该用户群的群标签:
将所述目标权重大于预设阈值的标签确定为用户群的群标签;
将各个标签按照目标权重由大至小的顺序、排名前N的标签确定为所述用户群的群标签。
6.根据权利要求5所述的方法,其特征在于,根据各个用户群所包含的标签对应的文档频率、平均权重和时间因子,通过以下公式确定该标签对应目标权重:
其中,W(x)表示所述标签x的目标权重;
表示当前用户群中、标签x的文档频率;
Dx表示当前用户群中、关联标签x的用户数量;
D表示当前用户群中的用户总数;
Wavg表示在当前用户群中、标签x的平均权重;
T(x)avg表示在当前用户群中、标签x的时间因子的平均值。
7.一种用户分群装置,其特征在于,所述装置包括:
第一确定模块,用于根据各个用户关联的标签及标签的标记时间确定各个用户之间的相似度;
分类模块,用于根据所述相似度对各个所述用户进行分类。
8.根据权利要求7所述的装置,其特征在于,所述分类模块包括:
第一分类子模块,用于根据所述相似度对各个所述用户进行第一分类处理,获得至少一个第一用户群,其中,每个所述第一用户群具有对应的类中心;
第二分类子模块,用于将各个所述第一用户群对应的类中心作为待生成的各第二用户群的类中心,对各个所述用户进行第二分类处理,获得与所述第一用户群相同数量的所述第二用户群;
第一确定子模块,用于针对每个所述第二用户群,根据当前第二用户群中的各个用户关联的标签及标签的标记时间,确定当前第二用户群中的各个用户与当前第二用户群的类中心之间的相似度;
第二确定子模,用于针对每个所述第二用户群,确定当前第二用户群的用户与当前第二用户群的类中心之间的平均相似度;
第三确定子模块,用于针对每个所述第二用户群,根据所述平均相似度,确定所述当前第二用户群对应的相似度置信区间;
删除子模块,用于针对每个所述第二用户群,删除所述当前第二用户群中、与所述当前第二用户群的类中心之间的相似度处于所述相似度置信区间之外的用户。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811512144.XA CN109766913A (zh) | 2018-12-11 | 2018-12-11 | 用户分群方法、装置、计算机可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811512144.XA CN109766913A (zh) | 2018-12-11 | 2018-12-11 | 用户分群方法、装置、计算机可读存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109766913A true CN109766913A (zh) | 2019-05-17 |
Family
ID=66450477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811512144.XA Pending CN109766913A (zh) | 2018-12-11 | 2018-12-11 | 用户分群方法、装置、计算机可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109766913A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110335070A (zh) * | 2019-06-21 | 2019-10-15 | 北京淇瑀信息科技有限公司 | 一种基于wifi的用户群扩展的方法、装置和电子设备 |
CN110807052A (zh) * | 2019-11-05 | 2020-02-18 | 佳都新太科技股份有限公司 | 用户群分类方法、装置、设备及存储介质 |
CN111159576A (zh) * | 2019-12-31 | 2020-05-15 | 亚信科技(中国)有限公司 | 一种用户分类方法、装置及*** |
CN112001761A (zh) * | 2020-08-31 | 2020-11-27 | 上海博泰悦臻电子设备制造有限公司 | 用户分类方法及相关装置 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080235216A1 (en) * | 2007-03-23 | 2008-09-25 | Ruttenberg Steven E | Method of predicitng affinity between entities |
CN101751448A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 一种基于情景信息的个性化资源信息的推荐方法 |
CN102654860A (zh) * | 2011-03-01 | 2012-09-05 | 北京彩云在线技术开发有限公司 | 一种个性化音乐推荐方法及*** |
US20120330953A1 (en) * | 2011-06-27 | 2012-12-27 | International Business Machines Corporation | Document taxonomy generation from tag data using user groupings of tags |
CN105005587A (zh) * | 2015-06-26 | 2015-10-28 | 深圳市腾讯计算机***有限公司 | 一种用户画像的更新方法、装置和*** |
CN105404698A (zh) * | 2015-12-31 | 2016-03-16 | 海信集团有限公司 | 一种教育视频推荐方法及装置 |
CN106126669A (zh) * | 2016-06-28 | 2016-11-16 | 北京邮电大学 | 基于标签的用户协同过滤内容推荐方法及装置 |
CN106127515A (zh) * | 2016-06-22 | 2016-11-16 | 北京网智天元科技股份有限公司 | 一种旅客画像及数据分析的方法及装置 |
CN106484764A (zh) * | 2016-08-30 | 2017-03-08 | 江苏名通信息科技有限公司 | 基于人群画像技术的用户相似度计算方法 |
CN107247786A (zh) * | 2017-06-15 | 2017-10-13 | 北京小度信息科技有限公司 | 用于确定相似用户的方法、装置和服务器 |
CN107786943A (zh) * | 2017-11-15 | 2018-03-09 | 北京腾云天下科技有限公司 | 一种用户分群方法及计算设备 |
CN108021929A (zh) * | 2017-11-16 | 2018-05-11 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及*** |
CN108108451A (zh) * | 2017-12-27 | 2018-06-01 | 合肥美的智能科技有限公司 | 群体的群体用户画像获取方法和装置 |
CN108230051A (zh) * | 2018-02-12 | 2018-06-29 | 昆山数泰数据技术有限公司 | 一种基于标签权重算法的用户对商品关注度的确定方法 |
CN108334558A (zh) * | 2018-01-02 | 2018-07-27 | 南京师范大学 | 一种结合标签和时间因素的协同过滤推荐方法 |
CN108389113A (zh) * | 2018-03-22 | 2018-08-10 | 广东工业大学 | 一种协同过滤推荐方法和*** |
-
2018
- 2018-12-11 CN CN201811512144.XA patent/CN109766913A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080235216A1 (en) * | 2007-03-23 | 2008-09-25 | Ruttenberg Steven E | Method of predicitng affinity between entities |
CN101751448A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 一种基于情景信息的个性化资源信息的推荐方法 |
CN102654860A (zh) * | 2011-03-01 | 2012-09-05 | 北京彩云在线技术开发有限公司 | 一种个性化音乐推荐方法及*** |
US20120330953A1 (en) * | 2011-06-27 | 2012-12-27 | International Business Machines Corporation | Document taxonomy generation from tag data using user groupings of tags |
CN105005587A (zh) * | 2015-06-26 | 2015-10-28 | 深圳市腾讯计算机***有限公司 | 一种用户画像的更新方法、装置和*** |
CN105404698A (zh) * | 2015-12-31 | 2016-03-16 | 海信集团有限公司 | 一种教育视频推荐方法及装置 |
CN106127515A (zh) * | 2016-06-22 | 2016-11-16 | 北京网智天元科技股份有限公司 | 一种旅客画像及数据分析的方法及装置 |
CN106126669A (zh) * | 2016-06-28 | 2016-11-16 | 北京邮电大学 | 基于标签的用户协同过滤内容推荐方法及装置 |
CN106484764A (zh) * | 2016-08-30 | 2017-03-08 | 江苏名通信息科技有限公司 | 基于人群画像技术的用户相似度计算方法 |
CN107247786A (zh) * | 2017-06-15 | 2017-10-13 | 北京小度信息科技有限公司 | 用于确定相似用户的方法、装置和服务器 |
CN107786943A (zh) * | 2017-11-15 | 2018-03-09 | 北京腾云天下科技有限公司 | 一种用户分群方法及计算设备 |
CN108021929A (zh) * | 2017-11-16 | 2018-05-11 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及*** |
CN108108451A (zh) * | 2017-12-27 | 2018-06-01 | 合肥美的智能科技有限公司 | 群体的群体用户画像获取方法和装置 |
CN108334558A (zh) * | 2018-01-02 | 2018-07-27 | 南京师范大学 | 一种结合标签和时间因素的协同过滤推荐方法 |
CN108230051A (zh) * | 2018-02-12 | 2018-06-29 | 昆山数泰数据技术有限公司 | 一种基于标签权重算法的用户对商品关注度的确定方法 |
CN108389113A (zh) * | 2018-03-22 | 2018-08-10 | 广东工业大学 | 一种协同过滤推荐方法和*** |
Non-Patent Citations (6)
Title |
---|
刘真臻;徐东平;: "微博个性化标签图形化RTM模型Gibbs采样推荐", 微电子学与计算机, no. 12, 5 December 2017 (2017-12-05) * |
卢佳乐;李为相;毛祥宇;: "基于模糊时序分类与加权相似度的推荐算法", 计算机工程, no. 06, 15 June 2018 (2018-06-15) * |
李贵;王爽;李征宇;韩子扬;孙平;孙焕良;: "基于时间加权三部图的分众分类标签推荐算法", 小型微型计算机***, no. 02, 15 February 2016 (2016-02-15) * |
涂海丽;唐晓波;: "基于标签的商品推荐模型研究", 数据分析与知识发现, vol. 2017, no. 09, 25 September 2017 (2017-09-25), pages 29 - 34 * |
蒋胜;王忠群;修宇;皇苏斌;汪千松;: "基于动态社会行为和用户背景的协同推荐方法", 计算机科学, no. 03, 15 March 2015 (2015-03-15) * |
邓娟;: "用户兴趣变化下的协同过滤最优推荐仿真", 计算机仿真, no. 08, 15 August 2016 (2016-08-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110335070A (zh) * | 2019-06-21 | 2019-10-15 | 北京淇瑀信息科技有限公司 | 一种基于wifi的用户群扩展的方法、装置和电子设备 |
CN110335070B (zh) * | 2019-06-21 | 2024-01-26 | 北京淇瑀信息科技有限公司 | 一种基于wifi的用户群扩展的方法、装置和电子设备 |
CN110807052A (zh) * | 2019-11-05 | 2020-02-18 | 佳都新太科技股份有限公司 | 用户群分类方法、装置、设备及存储介质 |
CN111159576A (zh) * | 2019-12-31 | 2020-05-15 | 亚信科技(中国)有限公司 | 一种用户分类方法、装置及*** |
CN111159576B (zh) * | 2019-12-31 | 2023-08-11 | 亚信科技(中国)有限公司 | 一种用户分类方法、装置及*** |
CN112001761A (zh) * | 2020-08-31 | 2020-11-27 | 上海博泰悦臻电子设备制造有限公司 | 用户分类方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766913A (zh) | 用户分群方法、装置、计算机可读存储介质及电子设备 | |
US9922194B2 (en) | Provisioning location-based security policy | |
WO2020147488A1 (zh) | 异常群体识别方法及装置 | |
TW202008237A (zh) | 針對新場景的預測模型訓練方法及裝置 | |
WO2017167123A1 (zh) | 一种移动设备上资源入口的显示方法、装置及移动设备 | |
US20210390471A1 (en) | Risk control event automatic processing method and apparatus | |
CN108027650A (zh) | 用于测量显示器之间的角度的方法和使用该方法的电子设备 | |
EP3690663A1 (en) | Application cleaning method and apparatus, storage medium and electronic device | |
CN107924679A (zh) | 输入理解处理期间在响应选择中的延迟绑定 | |
CN106030455A (zh) | 电子设备及其节电方法 | |
CN108197777A (zh) | 一种调整风控规则的方法、装置及设备 | |
CN108091333A (zh) | 语音控制方法及相关产品 | |
TW202004520A (zh) | 基於多分類器的推薦方法、裝置及電子設備 | |
WO2018188539A1 (zh) | 一种数据处理方法、终端、设备以及存储介质 | |
WO2016197814A1 (zh) | 垃圾文件识别及管理方法、识别装置、管理装置和终端 | |
CN107066518A (zh) | 数据处理方法及*** | |
CN109753372A (zh) | 多维数据异常检测方法、装置、可读存储介质及电子设备 | |
CN109753994A (zh) | 用户画像方法、装置、计算机可读存储介质及电子设备 | |
KR20160004712A (ko) | 비인가 주파수 대역에서 무선 통신하는 방법 및 이를 구현하는 전자장치 | |
CN109739940A (zh) | 联机分析处理方法、装置、存储介质及电子设备 | |
CN109658187A (zh) | 推荐云服务商的方法、装置、存储介质及电子设备 | |
CN109657840A (zh) | 决策树生成方法、装置、计算机可读存储介质及电子设备 | |
CN108804563A (zh) | 一种数据标注方法、装置以及设备 | |
CN108293175A (zh) | 装置和用于提供其切换的方法 | |
CN110837288B (zh) | 应用程序管理方法、装置、移动终端及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |