CN107526741A - 用户标签生成方法及装置 - Google Patents

用户标签生成方法及装置 Download PDF

Info

Publication number
CN107526741A
CN107526741A CN201610454113.8A CN201610454113A CN107526741A CN 107526741 A CN107526741 A CN 107526741A CN 201610454113 A CN201610454113 A CN 201610454113A CN 107526741 A CN107526741 A CN 107526741A
Authority
CN
China
Prior art keywords
client
characteristic attribute
user
classification
weight information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610454113.8A
Other languages
English (en)
Other versions
CN107526741B (zh
Inventor
熊安斌
张锋
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610454113.8A priority Critical patent/CN107526741B/zh
Publication of CN107526741A publication Critical patent/CN107526741A/zh
Application granted granted Critical
Publication of CN107526741B publication Critical patent/CN107526741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用户标签生成方法及装置,涉及通信技术领域,该方法包括:对于同种的用户设备中记录了用户数据的每个客户端,获取与预设的n种特征属性相同的至少一种特征属性;确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息,得到n种特征属性中每种特征属性的权重信息;利用预设的聚类指标k和每种特征属性的权重信息对同种的用户设备中记录了用户数据的所有客户端进行聚类;从得到的k个类别中提取至少一个特征客户端;根据每个客户端记录的用户数据生成第一用户标签,并根据至少一个特征客户端生成第二用户标签,解决了服务器根据较少的用户数据生成用户标签时,生成的用户标签较少的问题,达到了增加生成的用户标签的数量的效果。

Description

用户标签生成方法及装置
技术领域
本发明涉及通信技术领域,特别涉及一种用户标签生成方法及装置。
背景技术
目前,服务器可以通过构建用户画像来确定产品的目标群体。用户画像用于刻画用户的特征,用户的特征包括用户的年龄、性别、兴趣、习惯、位置等特征。由于用户标签可以用来描述至少一种用户的特征,因此,服务器可以通过生成用户标签来得到用户画像。用户标签包括麦霸、文艺女青年、北京人、夜猫子等。
其中,服务器生成用户标签,包括:采集至少一个用户设备中的用户数据;对该用户数据进行分析,得到使用该至少一个用户设备的用户的特征;根据该特征生成用户标签。其中,用户数据可以是用户的位置数据、年龄数据、行为习惯数据、兴趣爱好数据、健康状况数据等。
由于服务器只能根据采集的用户数据生成用户标签,因此,在采集的用户数据较少时,生成的用户标签的数量较少。
发明内容
为了解决采集的用户数据较少时,生成的用户标签的数量较少的问题,本申请提供了一种用户标签生成方法及装置。
第一方面,提供了一种用户标签生成方法,该方法包括:对于同种的用户设备中记录了用户数据的每个客户端,分别从该客户端所具有的特征属性中,获取与预设的n种特征属性相同的至少一种特征属性;根据每个客户端所具有的特征属性的数量,确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息,得到n种特征属性中每种特征属性的权重信息;利用预设的聚类指标k和每种特征属性的权重信息对同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别,每个类别包括至少一个客户端和每个客户端所属的用户设备,k为正整数;从k个类别中提取至少一个特征客户端,特征客户端用于反映用户设备的目标用户群体的共同兴趣;根据每个客户端记录的用户数据生成第一用户标签,并根据至少一个特征客户端生成第二用户标签。其中,用户数据用于反映使用客户端的用户对该客户端所执行的操作,特征属性用于反映客户端的目标用户群体共同具备的特征,n为正整数。
通过确定用户设备中记录了用户数据的每个客户端所具有的每种特征属性的权重信息,得到n种特征属性中每种特征属性的权重信息根据预设的聚类指标k和每种特征属性的权重信息对同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别,从该k个类别中提取至少一个特征客户端,使得服务器不仅可以根据用户数据生成用户标签,还可以根据至少一个特征客户端生成用户标签,解决了服务器仅根据用户数据生成用户标签时,在用户数据较少的情况下,生成的用户标签较少的问题,达到了增加生成的用户标签的数量的效果。
结合第一方面的第一种实现,每个客户端的用户数据包括客户端的运行频率,根据客户端所具有的特征属性的数量,确定客户端具有的至少一种特征属性中每种特征属性的权重信息,得到n种特征属性中每种特征属性的权重信息,包括:根据预设的权重总分和每个客户端所具有的特征属性的数量,设置每个客户端所具有的每种特征属性的权重,权重与客户端所具有的特征属性的数量呈负相关关系;根据每个客户端的运行频率和每个客户端所具有的每种特征属性的权重,确定每个客户端所具有的每种特征属性的权重信息;对于每个用户设备中记录了用户数据的所有客户端,将同种特征属性的权重信息相加,得到n种特征属性的权重信息。
通过为每个客户端所具有的每种特征属性设置权重,该权重与客户端所具有的特征属性的数量呈负相关关系;根据每个客户端的运行频率和每个客户端所具有的每种特征属性的权重,确定每个客户端所具有的每种特征属性的权重信息;对于每个用户设备中记录了用户数据的所有客户端,将同种特征属性的权重信息相加,得到n种特征属性的权重信息,使得服务器得到的n种特征属性的权重信息与客户端的运行频率呈正相关关系,体现出用户使用每个客户端的使用习惯,保证了生成的第二用户标签的准确性。
结合第一方面,在第一方面的第二种实现中,每个客户端的用户数据包括客户端的运行频率和运行时间段,根据每个客户端所具有的特征属性的数量,确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息,得到n种特征属性中每种特征属性的权重信息,包括:根据预设的权重总分和每个客户端所具有的特征属性的数量,设置每个客户端所具有的每种特征属性的权重,权重与客户端所具有的特征属性的数量呈负相关关系;确定每个客户端的运行时间段所属的预设时间段,并确定每个客户端在对应的预设时间段内的运行频率,每个预设时间段对应n种特征属性;对于每个客户端,根据客户端在每个预设时间段内的运行频率和客户端所具有的每种特征属性的权重,确定客户端在每个预设时间段对应的每种特征属性的权重信息;对于每个用户设备中记录了用户数据的所有客户端,将同一预设时间段内的同种特征属性的权重信息相加,得到每个预设时间段对应的n种特征属性的权重信息。
通过为每个客户端所具有的每种特征属性设置权重,该权重与客户端所具有的特征属性的数量呈负相关关系;对于每个客户端,根据客户端在每个预设时间段内的运行频率和客户端所具有的每种特征属性的权重,确定客户端在每个预设时间段对应的每种特征属性的权重信息;对于每个用户设备中记录了用户数据的所有客户端,将同一预设时间段内的同种特征属性的权重信息相加,得到每个预设时间段对应的n种特征属性的权重信息,使得服务器得到的n中特征属性的权重信息更加精确地反映出用户使用每个客户端的习惯,并且服务器可以参考更多类型的用户数据来生成第二用户标签。
结合第一方面的第一种实现或第二种实现,在第一方面的第三种实现中,利用预设的聚类指标k和每种特征属性的权重信息对同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别,包括:当同种的用户设备包括m个用户设备时,根据n种特征属性的权重信息生成m×p维的特征矩阵,当所述用户数据不包括每个客户端的运行时间段时,p=n;当所述用户数据包括每个客户端的运行时间段,且预设时间段的数量为q时,p=n×q;对特征矩阵进行归一化处理,得到m×p维的归一化矩阵;利用聚类指标k对归一化矩阵进行聚类,得到k个类别。
结合第一方面的第三种实现,在第一方面的第四种实现中,利用聚类指标k对归一化矩阵进行聚类,得到k个类别,包括:利用预设的降维算法和预设的降维指标l,对m×p维的归一化矩阵进行降维处理,得到m×l维的降维矩阵;利用聚类指标k对降维矩阵进行聚类,得到k个类别。
通过对归一化矩阵进行降维处理,既降低了服务器利用聚类指标k执行聚类算法时的计算量,提高了服务器执行聚类算法的效率;也删除了归一化矩阵中的冗余数据,提高了服务器进行聚类算法时数据的稳定性。
结合第一方面的第三种实现,在第一方面的第五种实现中,从k个类别中提取至少一个特征客户端,包括:确定k个类别中每个类别的中心客户端,中心客户端所属的用户设备的数量除以类别包括的用户设备的数量的值大于第一预设阈值;在存在中心客户端的j个类别中确定包括的用户设备的数量最大的类别,将确定的类别的至少一个中心客户端确定为至少一个特征客户端,0<j≤k。
通过确定每个类别的中心客户端,并在存在中心客户端的j个类别中确定包括的用户设备的数量最大的聚类,将该类别的至少一个中心客户端确定为至少一个特征客户端,使得服务器得到的至少一个特征客户端是大多数用户都在使用的客户端,能够反映大多数用户的共同兴趣,保证了服务器确定的特征客户端的准确性。
结合第一方面以及第一方面的第一种至第五种实现中的任意一个,在第一方面的第六种实现中,对于同种的用户设备中记录了用户数据的每个客户端,分别从客户端所具有的特征属性中,获取与预设的n种特征属性相同的至少一种特征属性,包括:对于同种的用户设备中记录了用户数据的每个客户端,采集客户端记录的用户数据;按照预设规则对客户端记录的所有用户数据进行过滤,预设规则为记录用户数据的客户端的运行时长小于第二预设阈值,或者,在记录用户数据的客户端的运行时长大于第三预设阈值;当存在过滤后的用户数据时,从客户端具有的特征属性中,获取与预设的n种特征属性相同的至少一种特征属性。
通过对客户端记录的用户数据进行过滤,使得服务器可以过滤掉不符合实际使用情况的用户数据,提高了服务器计算n种特征属性的权重信息的准确性,从而提高了聚类的准确性。
结合第一方面以及第一方面的第一种至第六种实现中的任意一个,在第一方面的第七种实现中,从k个类别中提取至少一个特征客户端之后,还包括:当至少一个特征客户端的数量为r时,获取每个特征客户端的标识,将r个客户端中每个客户端的标识作为一种特征属性,得到n+r种特征属性,r为正整数;将n更新为n+r,触发执行根据每个客户端所具有的特征属性的数量,确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息,得到所述n种特征属性中每种特征属性的权重信息;利用预设的聚类指标k和每种特征属性的权重信息对所述同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别,从k个类别中提取至少一个特征客户端的步骤,直到提取特征客户端失败时停止。
通过将得到的r个特征客户端的标识作为r个特征属性添加到n种特征属性中,将n更新为n+r,循环执行提取至少一个特征客户端的步骤,使得服务器可以不断地提取特征客户端,根据特征客户端生成更多的用户标签,进一步增加了服务器生成的用户标签的数量。
结合第一方面,在第一方面的第八种实现中,在利用预设的聚类指标k和每种特征属性的权重信息对所述同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别之后,包括:对于k个类别中的每个类别,统计该类别中每个客户端所属的用户设备的数量;将所属的用户设备的数量大于第四预设阈值的客户端确定为待推荐客户端;向聚类中未安装待推荐客户端的用户设备推荐待推荐客户端。
通过确定每个类别的待推荐客户端,向类别中未安装待推荐客户端的用户设备推荐待推荐客户端,使得服务器可以向用户推荐用户可能感兴趣的客户端,降低了用户获取该客户端的难度。
第二方面,提供了一种用户标签生成装置,该装置包括至少一个单元,该至少一个单元用于实现上述第一方面或第一方面的至少一种实现中所提供的用户标签生成方法。
第三方面,提供了一种服务器,该装置包括:处理器、以及与处理相连的无线收发器;
该无线收发器被配置为由处理器控制,该处理器用于实现上述第一方面或第一方面的至少一种实现中所提供的用户标签生成方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一示例性实施例提供的通信***结构示意图;
图2是本发明一示例性实施例提供的用户设备的结构示意图;
图3是本发明一示例性实施例提供的用户标签生成方法的流程图;
图4是本发明一示例性实施例提供的用户标签生成装置的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在本文中提及的“单元”是指按照逻辑划分的功能性结构,该“单元”可以由纯硬件实现,或者,软硬件的结合实现。
请参考图1,其示出了本发明一个示例性实施例提供的通信***100的结构示意图。该通信***100包括服务器120和多个用户设备140。
服务器120通过通信网络与每个用户设备140相连,并用于采集每个用户设备140中的客户端记录的用户数据。
用户设备140中安装有至少一个客户端,每个客户端可以记录用户数据,该用户数据用于反映使用该客户端的用户所执行的操作。比如:客户端记录用户启动该客户端的次数、记录运行时间段等。用户设备140可以是机顶盒,移动电话(英文:cellphone),智能手机(英文:smartphone),计算机(英文:computer),平板电脑(英文:tablet computer),可穿戴设备(英文:wearable device),个人数码助理(英文:personal digital assistant,PDA),移动互联网设备(英文:mobileInternet device,MID)和电子书阅读器(英文:e-book reader)等。
本实施例中,多个用户设备140属于同一品种。例如,多个用户设备140都是机顶盒,或者,多个用户设备140都是智能手机等等。
请参考图2,其示出了本发明另一个示例性实施例示出的服务器200的结构示意图。该服务器200可以是图1中所示出的服务器120,该服务器包括:处理器220、与处理器220相连的无线收发器240。
该无线收发器240可由一个或多个天线组成,该天线使得服务器200能够发送或接收无线电信号。
无线收发器240可连接至处理器220。处理器220是服务器的控制中心,该处理器220可以是中央处理器(英文:central processing unit,CPU),网络处理器(英文:network processor,NP)或者CPU和NP的组合。处理器220还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,ASIC),可编程逻辑器件(英文:programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,FPGA),通用阵列逻辑(英文:genericarray logic,GAL)或其任意组合。
可选的,该服务器200还包括存储器260,该存储器260用总线或其它方式与处理器220相连,存储器260可以为易失性存储器(英文:volatile memory),非易失性存储器(英文:non-volatile memory)或者它们的组合。易失性存储器可以为随机存取存储器(英文:random-access memory,RAM),例如静态随机存取存储器(英文:static random access memory,SRAM),动态随机存取存储器(英文:dynamic random access memory,DRAM)。非易失性存储器可以为只读存储器(英文:read only memory image,ROM),例如可编程只读存储器(英文:programmable read only memory,PROM),可擦除可编程只读存储器(英文:erasable programmable read only memory,EPROM),电可擦除可编程只读存储器(英文:electrically erasable programmable read-only memory,EEPROM)。非易失性存储器也可以为快闪存储器(英文:flash memory),磁存储器,例如磁带(英文:magnetic tape),软盘(英文:floppy disk),硬盘。非易失性存储器也可以为光盘。
存储器260中可以存储用户数据。可选地,存储器260可以存储处理器220确定出的特征客户端、第一用户标签和第二用户标签等,具体确定过程可见下述步骤304及步骤305中的描述。
请参考图3,其示出了本发明一示例性实施例提供的用户标签生成方法的流程图。本实施例以该方法用于如图1所示的通信***中来举例说明,由服务器执行下述步骤,该方法包括以下几个步骤:
步骤301,对于同种的用户设备中记录了用户数据的每个客户端,分别从客户端所具有的特征属性中,获取与预设的n种特征属性相同的至少一种特征属性,n为正整数。
用户设备中安装了多个客户端,当用户使用某个客户端时,该客户端中存在记录的用户数据;当用户未使用过某个客户端时,该客户端没有记录的用户数据。其中,用户数据用于反映使用客户端的用户对客户端所执行的操作,比如点击客户端的频率、运行客户端的时间段、利用客户端浏览的网页内容等。
对于同种的用户设备中记录了用户数据的每个客户端,服务器获取该客户端的至少一种特征属性。其中,特征属性用于反映客户端的目标用户群体共同具备的特征,比如:客户端“儿歌大全”的目标用户群体共同具备的特征为儿童,则“儿歌大全”的特征属性为儿童;客户端“广场舞大全”的目标用户群体共同具备的特征为老人,则“广场舞大全”的特征属性为老人。
对于记录了用户数据的客户端,可能该客户端记录的用户数据不符合实际使用情况,比如,运行时间小于1秒或者运行时间大于24小时,此时,若服务器获取了该客户端的特征属性,可能会导致后续的计算结果不能准确反映用户设备的目标用户群体共同的兴趣。本实施例中,服务器对客户端记录的所有用户数据按照预设规则进行过滤,该预设规则为记录用户数据的客户端的运行时长小于第二预设阈值,或者,在记录用户数据的客户端的运行时长大于第三预设阈值;当存在过滤后的用户数据时,获取该客户端的至少一种特征属性。这样,服务器过滤掉了不符合实际使用情况的用户数据,从而提高了后续计算结果的准确性。
由于每个客户端可能具有多种特征属性,但该多种特征属性中只有部分特征属性与预设的n种特征属性相同,因此,服务器需要从该客户端具有的多种特征属性中获取与预设的n种特征属性相同的至少一种。其中,预设的n种特征属性是根据业务目标确定的,比如:业务目标是确定同种的用户设备的目标群体的年龄,则预设的n中特征属性可以为幼儿、青少年、成人、老年。
假设预设的n种特征属性分别为幼儿、青少年、成人、老年,客户端“xx忍者”具有的特征属性为游戏、休闲、成年和青少年,则服务器从游戏、休闲、成年和青少年中获取成年和青少年这两个特征属性作为“xx忍者”的特征属性。
需要说明的是,下文中所述的客户端具有的特征属性均是指与预设的n种特征属性相同的特征属性。
步骤302,根据每个客户端所具有的特征属性的数量,确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息,得到n种特征属性中每种特征属性的权重信息。
其中,每种特征属性的权重信息用于反映用户是否偏爱使用具有该特征属性的客户端,通常该权重信息用数字表示,权重信息越大的特征属性,说明用户越偏爱使用具有该特征属性的客户端。
在一种实现方式中,每个客户端的用户数据包括该客户端的运行频率,服务器根据每个客户端所具有的特征属性的数量,确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息,n种特征属性中每种特征属性的权重信息,包括:根据预设的权重总分和每个客户端所具有的特征属性的数量,设置每个客户端所具有的每种特征属性的权重,权重与客户端所具有的特征属性的数量呈负相关关系;根据每个客户端的运行频率和每个客户端所具有的每种特征属性的权重,确定每个客户端所具有的每种特征属性的权重信息;对于每个用户设备中记录了用户数据的所有客户端,将同种特征属性的权重信息相加,得到n种特征属性的权重信息。
每个客户端的运行频率是指用户使用该客户端的次数。每个客户端可以将预设时长内统计的用户使用该客户端的次数作为该客户端的运行频率,也可以将用户使用该客户端总次数作为该客户端的运行频率,本实施例不对每个客户端的运行频率的确定方式作限定。
其中,根据预设的权重总分和每个客户端所具有的特征属性的数量,设置每个客户端所具有的每种特征属性的权重是指:当存在一个客户端所具有的特征属性的数量为a,且预设的权重总分为b时,则该客户端所具有的每种特征属性的权重为b/a。需要说明的是,算法b/a在实际实现时,可以实现为b×(1/a),本实施例不对服务器计算每种特征属性的权重的计算过程作限定。预设的权重总分可以为任意合理数值,如:1分、2分、100分等,本实施例不对权重权重总分的具体数值作限定。
根据每个客户端的运行频率和每个客户端所具有的每种特征属性的权重,确定每个客户端所具有的每种特征属性的权重信息是指:当存在一个客户端的运行频率为c,且该客户端所具有的每种特征属性的权重为b/a时,则该客户端所具有的每种特征属性的权重信息为c×b/a。
假设预设的4种特征属性分别为幼儿、青少年、成人、老年,且预设的权重总分为1分,对于同一个用户设备记录了用户数据的客户端“xx忍者”和“xxKTV”,服务器获取到“xx忍者”的特征属性为青少年、成年、老年,特征属性的数量为3个,则为该“xx忍者”的青少年特征属性设置的权重为1/3=0.33分;为该“xx忍者”的成年特征属性设置的权重为1/3=0.33分;为该客户端的老年特征属性设置的权为重1/3=0.33分。服务器获取到“xxKTV”的特征属性为青少年和成年,特征属性为两个,则为“xxKTV”的青少年属性设置的权重为1/2=0.5分;则为“xxKTV”的成年属性设置的权重为1/2=0.5分。
若“xx忍者”的运行频率为1次,则“xx忍者”的青少年特征属性的权重信息为1*0.33=0.33分,成年特征属性的权重信息为1*0.33=0.33分,老年特征属性的权重信息为1*0.33=0.33分。
若“xxKTV”的运行频率为2次,则“xxKTV”的青少年特征属性的权重信息为2*0.5=1分,成年特征属性的权重信息为2*0.5=1分。
服务器将每个客户端的幼儿特征属性的权重信息相加,得到幼儿特征属性的权重信息为0分;将每个客户端的青少年特征属性的权重信息相加,得到青少年特征属性的权重信息为0.33+1=1.33分;将每个客户端的成年特征属性的权重信息相加,得到成年特征属性的权重信息为0.33+1=1.33分;将每个客户端的老年特征属性的权重信息相加,得到老年特征属性的权重信息为0.33分。
在另一种实现方式中,每个客户端的用户数据包括该客户端的运行频率和运行时间段,根据每个客户端所具有的特征属性的数量,确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息,得到n种特征属性中每种特征属性的权重信息,包括:根据预设的权重总分和每个客户端所具有的特征属性的数量,设置每个客户端所具有的每种特征属性的权重,权重与客户端所具有的特征属性的数量呈负相关关系;确定每个客户端的运行时间段所属的预设时间段,并确定每个客户端在对应的预设时间段内的运行频率,每个预设时间段对应n种特征属性;对于每个客户端,根据客户端在每个预设时间段内的运行频率和客户端所具有的每种特征属性的权重,确定客户端在每个预设时间段对应的每种特征属性的权重信息;对于每个用户设备中记录了用户数据的所有客户端,将同一预设时间段内的同种特征属性的权重信息相加,得到每个预设时间段对应的n种特征属性的权重信息。
其中,每个客户端的运行时间段可以为该客户端在前台运行时的时间段,也可以为该客户端在从开始运行到结束运行期间的所处的时间段,该时间段包括前台运行时间段和后台运行时间段,本实施例不对每个客户端的运行时间段的确定方式作限定。
假设服务器中的4个预设时间段如下表一所示,预设的4种特征属性分别为幼儿、青少年、成人、老年,且预设的权重为1分,对于同一用户设备中的记录了用户数据的客户端“xx忍者”和“xxKTV”,服务器获取到“xx忍者”的特征属性为青少年、成年、老年,特征属性的数量为3个,且在白天运行了一次;“xxKTV”的特征属性为青少年、成年,特征属性的数量为2个,且在白天和晚上分别运行了一次。服务器分别设置“xx忍者”和“xxKTV”的权重,并根据设置的权重分别得到“xx忍者”和“xxKTV”的权重的权重信息为:“xx忍者”在白天的青少年特征属性的权重信息为1*0.33=0.33分,成年特征属性的权重信息为1*0.33=0.33分,老年特征属性的权重信息为1*0.33=0.33分;“xxKTV”在白天的青少年特征属性的权重信息为1*0.5=0.5分,成年特征属性的权重信息为1*0.5=0.5分;在晚上的青少年特征属性的权重信息为1*0.5=0.5分,成年特征属性的权重信息为1*0.5=0.5分。
服务器将每个客户端白天的幼儿特征属性的权重信息相加,得到白天的幼儿特征属性的权重信息为0分;将每个客户端白天的青少年特征属性的权重信息相加,得到青少年特征属性的权重信息为0.33+0.5=0.83分;将每个客户端白天的成年特征属性的权重信息相加,得到成年特征属性的权重信息为0.33+0.5=0.83分;将每个客户端白天的老年特征属性的权重信息相加,得到老年特征属性的权重信息为0.33分。
服务器将每个客户端晚上的幼儿特征属性的权重信息相加,得到晚上的幼儿特征属性的权重信息为0分;将每个客户端晚上的青少年特征属性的权重信息相加,得到青少年特征属性的权重信息为0.33+0.5=0.83分;将每个客户端晚上的成年特征属性的权重信息相加,得到成年特征属性的权重信息为0.33+0.5=0.83分;将每个客户端晚上的老年特征属性的权重信息相加,得到老年特征属性的权重信息为0.33分。
表一:
凌晨 [0:00,4:00)
白天 [4:00,18:00)
晚上 [18:00,21:00)
深夜 [21:00,0:00)
步骤303,利用预设的聚类指标k和每种特征属性的权重信息对同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别,每个类别包括至少一个客户端和每个客户端所属的用户设备,k为正整数。
服务器利用预设指标k和每种特征属性的权重信息对同种的用户设备中记录了用户数据的所有客户端进行聚类,得到的k个类别可以反映出不同客户端之间的关联性,若不同客户端之间的关联性大,则会在同一个类别中;若不同客户端之间的关联性小,则会在不同的类别中。其中,服务器对同种用户设备中记录了用户数据的所有客户端进行聚类时采用的聚类算法可以为谱聚类(Spectral Clustering,SC)算法或者k-means聚类算法,本实施例不作限定;预设的聚类指标k是在服务器根据不同的聚类指标进行了多次聚类后,从中选择的聚类效果最好的聚类指标。
其中,服务器利用预设指标k和每种特征属性的权重信息对同种的用户设备中记录了用户数据的所有客户端进行聚类,得到的k个类别,包括:当同种的用户设备包括m个用户设备时,根据n种特征属性的权重信息生成m×p维的特征矩阵;当用户数据不包括每个客户端的运行时间段时,p=n;当用户数据包括每个客户端的运行时间段,且预设时间段的数量为q时,p=n×q;对特征矩阵进行归一化处理,得到m×p维的归一化矩阵;利用聚类指标k对归一化矩阵进行聚类,得到所述k个类别。
当用户数据不包括每个客户端的运行时间段时,此时,每个用户设备对应根据n种特征属性的权重信息得到的n个数据,因此,生成的特征矩阵为m×n维;当用户数据包括每个客户端的运行时间段,且预设时间段的数量为q时,由于每个预设时间段都对应了n种特征属性,因此,每个用户设备对应根据每个预设时间段的n种特征属性的权重信息得到的n×q个数据,因此,生成的矩阵应为m×p,其中,p=n×q。
其中,对特征矩阵进行归一化处理是指将特征矩阵中的每个元素统一到[0,1]的区间内。服务器对特征矩阵进行归一化处理时可以采用max-min归一化算法,本实施例不作限定。
假设同种的用户设备中每个用户设备采集的用户数据如下表二所示,每个客户端具有的特征属性如下表三所示,若预设的权重总分为1分,服务器根据表二和表三计算得到每个用户设备对应的n种特征属性的权重信息,如下表四所示,则根据下表四可以得到特征矩阵为:
利用max-min归一化算法对该特征矩阵进行归一化得到的归一化矩阵为:
利用k-means聚类算法和聚类指标k对该归一化矩阵进行聚类,得到k个类别。
表二:
用户设备 客户端 运行频率
用户设备1 儿歌大全 3
用户设备1 xx忍者 1
用户设备2 英雄x 4
用户设备3 xxKTV 2
用户设备3 一键清理 6
用户设备4 xx忍者 2
表三:
表四:
为了提高提取特征客户端的准确性,服务器通常会采集大量用户设备中每个客户端记录的用户数据,比如:23640个用户设备中每个客户端记录的用户数据,这样,生成的归一化矩阵的维数很高,服务器利用聚类算法对该归一化矩阵进行聚类时,计算量很大且该归一化矩阵中存在冗余数据,数据的稳定性不高。本实施例中,服务器在得到归一化矩阵之后,还会利用预设的降维算法和预设的降维指标l,对m×p维的归一化矩阵进行降维处理,得到m×l维的降维矩阵;利用聚类指标k对该降维矩阵进行聚类,得到k个类别。
服务器利用预设的降维算法和降维指标l可以从归一化矩阵中确定出一组能够最大程度代表该归一化矩阵的有效信息的线性不相关的特征向量,该组特征向量的维度比归一化矩阵小,这样,降低了服务器进行聚类时聚类算法的复杂度,且去除了归一化矩阵中的冗余数据,提高了服务器进行聚类时所使用的数据的稳定性。其中,预设的降维算法可以为主元分析(Principal ComponentAnalysis,PCA)算法,也可以为非负矩阵分解(Non-negative Matrix Factorization,NMF),本实施例不作限定;预设的降维指标l是在根据不同的降维指标计算了多次m×p归一化矩阵中m×l维的数据的方差后,从中选择的计算结果达到了该归一化矩阵的方差的90%的降维指标。
假设预设的聚类指标k为12,服务器采用谱聚类方法对降维矩阵进行聚类,得到的聚类结果如下表五所示。
表五:
步骤304,从k个类别中提取至少一个特征客户端,特征客户端用于反映用户设备的目标用户群体的共同兴趣。
其中,服务器从k个类别中提取至少一个特征客户端,包括:确定k个类别中每个类别的中心客户端,中心客户端所属的用户设备的数量除以类别包括的用户设备的数量的值大于第一预设阈值;在存在中心客户端的j个类别中确定包括的用户设备的数量最大的类别,将确定的类别的至少一个中心客户端确定为至少一个特征客户端,0<j≤k。
本实施例中,将所属的用户设备的数量除以类别包括的用户设备的数量的值大于第一预设阈值的客户端作为中心客户端,从中心客户端中确定特征客户端,使得服务器提取出的特征客户端是大多数用户都在使用的客户端,以该特征客户端来反映用户设备的目标用户群体的共同兴趣的准确性较高。
假设第一预设阈值为70%,则服务器将所属的用户设备的数量除以类别包括的用户设备的数量的值大于70%的客户端作为中心客户端。假设从表五所示的各个类别中确定的每个类别的中心客户端如下表六所示,根据表六可知,cluster-5,cluster-6,cluster-10,cluster-11和cluster-12类别中没有中心客户端,即这些类别中不存在所属的用户设备的数量除以类别包括的用户设备的数量超过70%以上的客户端。根据表五可知,在存在中心客户端的类别中,类别cluster-1的用户设备的数量最多为877,则服务器将cluster-1的中心客户端“xxKTV”作为特征客户端。
表六:
类别 中心客户端 类别 中心客户端
cluster-1 xxKTV cluster-9 xx神鹰
cluster-2 x击奇兵2 cluster-9 炸xx之冰河xx
cluster-3 Qxx cluster-9 霸王xx
cluster-4 xx谜题 cluster-9 xx计划
cluster-7 xx一键清理 cluster-9 xx球
cluster-9 xx大战僵尸TV版 cluster-9 xx达人
cluster-9 xx的鱼 cluster-9 xx骑士2
cluster-9 xx忍者 cluster-9 xx世界
cluster-9 xx逃亡
可选的,为了提取更多的特征客户端,在得到至少一个特征客户端后,当至少一个特征客户端的数量为r时,服务器获取每个特征客户端的标识,将r个客户端中每个客户端的标识作为一种特征属性,得到n+r种特征属性,r为正整数;将n更新为n+r,执行步骤302至步骤304,直到步骤304中提取特征客户端失败时停止。
其中,特征客户端的标识可以为特征客户端的名称,还可以为特征客户端的身份标识号(identity,ID),本实施例不作限定。
假设根据表五和表六提取出的特征客户端为“xxKTV”,每个用户设备对应的n种特征属性的权重信息如表四所示,服务器将xxKTV的名称确定为一个特征属性,得到4+1=5个特征属性,服务器根据每个客户端所具有的更新后的特征属性的数量,确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息如下表七所示,其中,使用了xxKTV的用户设备4在白天的xxKTV特征属性中的权重信息为1分。
表七:
可选的,服务器还可以智能分析用户可能感兴趣的客户端,并向用户设备推送分析结果。其中,服务器智能分析用户可能感兴趣的客户端,包括:对于k个类别中的每个类别,统计类别中每个客户端所属的用户设备的数量;将所属的用户设备的数量大于第四预设阈值的客户端确定为待推荐客户端;向类别中未安装待推荐客户端的用户设备推荐待推荐客户端。
假设某个类别中超过50%的用户设备都运行了xx大战僵尸TV版,则服务器向该类别中未安装xx大战僵尸TV版的用户设备推荐xx大战僵尸TV版。
可选的,服务器还可以根据超过预定数量的用户设备运行客户端的时机分析是否需要优化该类用户设备。
假设存在122个用户设备在运行了xxKTV后,运行xx一键清理,服务器根据用户设备运行客户端的时机分析得知用户设备在运行了xxKTV后会产生较多的缓存,需要优化该类用户设备。
可选的,服务器还可以根据超过预定数量的用户设备运行的至少两种客户端,向仅运行了该至少两种客户端中的一部分类型客户端的用户设备推荐剩余类型的客户端。
假设存在153个用户设备运行的客户端包括xx大战僵尸TV版和xx奇兵2,服务器会向仅运行了x大战僵尸TV版的用户设备推荐xx奇兵2。
步骤305,根据每个客户端记录的用户数据生成第一用户标签,并根据至少一个特征客户端生成第二用户标签。
服务器根据每个客户端记录的用户数据生成第一用户标签,比如,夜猫子、北京人等;服务器根据至少一个特征客户端生成第二用户标签,比如,k歌达人、清理达人等。由于第一用户标签是根据每个客户端记录的用户数据生成的,因此,第一用户标签反映同种的用户设备的目标群体之间的关联性的效果较差;而第二用户标签是根据特征客户端生成的,该特征客户端可以反映出同种的用户设备的目标群体之间隐藏的关联性,因此,第二用户标签反映同种的用户设备的目标群体之前的关联性的效果较好。
综上所述,本发明实施例提供的用户标签生成方法,确定用户设备中记录了用户数据的每个客户端所具有的每种特征属性的权重信息,得到n种特征属性中每种特征属性的权重信息根据预设的聚类指标k和每种特征属性的权重信息对同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别,从该k个类别中提取至少一个特征客户端,使得服务器不仅可以根据用户数据生成用户标签,还可以根据至少一个特征客户端生成用户标签,解决了服务器仅根据用户数据生成用户标签时,在用户数据较少的情况下,生成的用户标签较少的问题,达到了增加生成的用户标签的数量的效果。
另外,通过为每个客户端所具有的每种特征属性设置权重,该权重与客户端所具有的特征属性的数量呈负相关关系;根据每个客户端的运行频率和每个客户端所具有的每种特征属性的权重,确定每个客户端所具有的每种特征属性的权重信息;对于每个用户设备中记录了用户数据的所有客户端,将同种特征属性的权重信息相加,得到n种特征属性的权重信息,使得服务器得到的n种特征属性的权重信息与客户端的运行频率呈正相关关系,体现出用户使用每个客户端的使用习惯,保证了生成的第二用户标签的准确性。
另外,通过为每个客户端所具有的每种特征属性设置权重,该权重与客户端所具有的特征属性的数量呈负相关关系;对于每个客户端,根据客户端在每个预设时间段内的运行频率和客户端所具有的每种特征属性的权重,确定客户端在每个预设时间段对应的每种特征属性的权重信息;对于每个用户设备中记录了用户数据的所有客户端,将同一预设时间段内的同种特征属性的权重信息相加,得到每个预设时间段对应的n种特征属性的权重信息,使得服务器得到的n中特征属性的权重信息更加精确地反映出用户使用每个客户端的习惯,并且服务器可以参考更多类型的用户数据来生成第二用户标签。
另外,通过对归一化矩阵进行降维处理,既降低了服务器利用聚类指标k执行聚类算法时的计算量,提高了服务器执行聚类算法的效率;也删除了归一化矩阵中的冗余数据,提高了服务器进行聚类算法时数据的稳定性。
另外,通过确定每个类别的中心客户端,并在存在中心客户端的j个类别中确定包括的用户设备的数量最大的类别,将该类别的至少一个中心客户端确定为至少一个特征客户端,使得服务器得到的至少一个特征客户端是大多数用户都在使用的客户端,能够反映大多数用户的共同兴趣,保证了服务器确定的特征客户端的准确性。
请参考图4,其示出了本发明一个实施例提供的用户标签生成装置的框图。该用户标签生成装置可以通过软件、硬件或者两者的结合实现成为用户设备的全部或者一部分。该用户标签生成装置可以包括:获取单元410、确定单元420、聚类单元430、提取单元440、生成单元450、更新单元460、统计单元470、推荐单元480。
获取单元410,用于实现上述步骤301功能以及步骤304中获取每个特征客户端的标识,将r个客户端中每个客户端的标识作为一种特征属性,得到i+r种特征属性的功能。
确定单元420,用于实现上述步骤302功能,以及,上述步骤304中将所属的用户设备的数量大于第四预设阈值的客户端确定为待推荐客户端的功能。
聚类单元430,用于实现上述步骤303的功能。
提取单元440,用于实现上述步骤304的功能。
生成单元450,用于实现上述步骤305的功能。
更新单元460,用于实现上述步骤304中将n更新为n+r的功能。
统计单元470,用于实现上述步骤304中对于k个类别中的每个类别,统计其中每个客户端所属的用户设备的数量的功能。
推荐单元480,用于实现上述步骤304中向类别中未安装待推荐客户端的用户设备推荐待推荐客户端的功能。
相关细节可结合参考图3所述的方法实施例。
需要说明的是,上述的获取单元410、确定单元420、聚类单元430、提取单元440、生成单元450、更新单元460、统计单元470、推荐单元480可以通过用户设备中的处理器来实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。
本领域普通技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (18)

1.一种用户标签生成方法,其特征在于,所述方法包括:
对于同种的用户设备中记录了用户数据的每个客户端,分别从所述客户端所具有的特征属性中,获取与预设的n种特征属性相同的至少一种特征属性,所述用户数据用于反映使用所述客户端的用户对所述客户端所执行的操作,所述特征属性用于反映所述客户端的目标用户群体共同具备的特征,所述n为正整数;
根据每个客户端所具有的特征属性的数量,确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息,得到所述n种特征属性中每种特征属性的权重信息;
利用预设的聚类指标k和每种特征属性的权重信息对所述同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别,每个类别包括至少一个客户端和每个客户端所属的用户设备,所述k为正整数;
从所述k个类别中提取至少一个特征客户端,所述特征客户端用于反映所述用户设备的目标用户群体的共同兴趣;
根据每个客户端记录的用户数据生成第一用户标签,并根据所述至少一个特征客户端生成第二用户标签。
2.根据权利要求1所述的方法,其特征在于,每个客户端的用户数据包括所述客户端的运行频率,所述根据所述客户端所具有的特征属性的数量,确定所述客户端具有的至少一种特征属性中每种特征属性的权重信息,得到所述n种特征属性中每种特征属性的权重信息,包括:
根据预设的权重总分和每个客户端所具有的特征属性的数量,设置每个客户端所具有的每种特征属性的权重,所述权重与所述客户端所具有的特征属性的数量呈负相关关系;
根据每个客户端的运行频率和每个客户端所具有的每种特征属性的权重,确定每个客户端所具有的每种特征属性的权重信息;
对于每个用户设备中记录了用户数据的所有客户端,将同种特征属性的权重信息相加,得到所述n种特征属性的权重信息。
3.根据权利要求1所述的方法,其特征在于,每个客户端的用户数据包括所述客户端的运行频率和运行时间段,所述根据每个客户端所具有的特征属性的数量,确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息,得到所述n种特征属性中每种特征属性的权重信息,包括:
根据预设的权重总分和每个客户端所具有的特征属性的数量,设置每个客户端所具有的每种特征属性的权重,所述权重与所述客户端所具有的特征属性的数量呈负相关关系;
确定每个客户端的运行时间段所属的预设时间段,并确定每个客户端在对应的预设时间段内的运行频率,每个预设时间段对应所述n种特征属性;
对于每个客户端,根据所述客户端在每个预设时间段内的运行频率和所述客户端所具有的每种特征属性的权重,确定所述客户端在每个预设时间段对应的每种特征属性的权重信息;
对于每个用户设备中记录了用户数据的所有客户端,将同一预设时间段内的同种特征属性的权重信息相加,得到每个预设时间段对应的所述n种特征属性的权重信息。
4.根据权利要求2或3所述的方法,其特征在于,所述利用预设的聚类指标k和每种特征属性的权重信息对所述同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别,包括:
当所述同种的用户设备包括m个用户设备时,根据所述n种特征属性的权重信息生成m×p维的特征矩阵,当所述用户数据不包括每个客户端的运行时间段时,p=n;当所述用户数据包括每个客户端的运行时间段,且预设时间段的数量为q时,p=n×q;
对所述特征矩阵进行归一化处理,得到m×p维的归一化矩阵;
利用所述聚类指标k对所述归一化矩阵进行聚类,得到所述k个类别。
5.根据所述权利要求4所述的方法,其特征在于,所述利用所述聚类指标k对所述归一化矩阵进行聚类,得到所述k个类别,包括:
利用预设的降维算法和预设的降维指标l,对所述m×p维的归一化矩阵进行降维处理,得到m×l维的降维矩阵;
利用所述聚类指标k对所述降维矩阵进行聚类,得到所述k个类别。
6.根据权利要求4所述的方法,其特征在于,所述从所述k个类别中提取至少一个特征客户端,包括:
确定所述k个类别中每个类别的中心客户端,所述中心客户端所属的用户设备的数量除以所述类别包括的用户设备的数量的值大于第一预设阈值;
在存在中心客户端的j个类别中确定包括的用户设备的数量最大的类别,将确定的所述类别的至少一个中心客户端确定为所述至少一个特征客户端,0<j≤k。
7.根据权利要求1至6任一所述的方法,其特征在于,所述对于同种的用户设备中记录了用户数据的每个客户端,分别从所述客户端所具有的特征属性中,获取与预设的n种特征属性相同的至少一种特征属性,包括:
对于同种的用户设备中记录了用户数据的每个客户端,采集所述客户端记录的用户数据;
按照预设规则对所述客户端记录的所有用户数据进行过滤,所述预设规则为记录所述用户数据的客户端的运行时长小于第二预设阈值,或者,在记录所述用户数据的客户端的运行时长大于第三预设阈值;
当存在过滤后的用户数据时,从所述客户端具有的特征属性中,获取与预设的n种特征属性相同的至少一种特征属性。
8.根据权利要求1至7任一所述的方法,其特征在于,所述从所述k个类别中提取至少一个特征客户端之后,还包括:
当所述至少一个特征客户端的数量为r时,获取每个特征客户端的标识,将r个客户端中每个客户端的标识作为一种特征属性,得到n+r种特征属性,所述r为正整数;
将n更新为n+r,触发执行所述根据每个客户端所具有的特征属性的数量,确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息,得到所述n种特征属性中每种特征属性的权重信息;利用预设的聚类指标k和每种特征属性的权重信息对所述同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别,从所述k个类别中提取至少一个特征客户端的步骤,直到提取所述特征客户端失败时停止。
9.根据权利要求1所述的方法,其特征在于,在利用预设的聚类指标k和每种特征属性的权重信息对所述同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别之后,包括:
对于所述k个类别中的每个类别,统计所述类别中每个客户端所属的用户设备的数量;
将所属的用户设备的数量大于第四预设阈值的客户端确定为待推荐客户端;
向所述类别中未安装所述待推荐客户端的用户设备推荐所述待推荐客户端。
10.一种用户标签生成装置,其特征在于,所述装置包括:
获取单元,用于对于同种的用户设备中记录了用户数据的每个客户端,分别从所述客户端所具有的特征属性中,获取与预设的n种特征属性相同的至少一种特征属性,所述用户数据用于反映使用所述客户端的用户对所述客户端所执行的操作,所述特征属性用于反映所述客户端的目标用户群体共同具备的特征,所述n为正整数;
确定单元,用于根据每个客户端所具有的特征属性的数量,确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息,得到所述n种特征属性中每种特征属性的权重信息;
聚类单元,用于利用预设的聚类指标k和所述确定单元得到的每种特征属性的权重信息对所述同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别,每个类别包括至少一个客户端和每个客户端所属的用户设备,所述k为正整数;
提取单元,用于从所述聚类单元得到的所述k个类别中提取至少一个特征客户端,所述特征客户端用于反映所述用户设备的目标用户群体的共同兴趣;
生成单元,用于根据每个客户端记录的用户数据生成第一用户标签,并根据所述提取单元提取的所述至少一个特征客户端生成第二用户标签。
11.根据权利要求10所述的装置,其特征在于,每个客户端的用户数据包括所述客户端的运行频率,所述确定单元,用于:
根据预设的权重总分和每个客户端所具有的特征属性的数量,设置每个客户端所具有的每种特征属性的权重,所述权重与所述客户端所具有的特征属性的数量呈负相关关系;
根据每个客户端的运行频率和每个客户端所具有的每种特征属性的权重,确定每个客户端所具有的每种特征属性的权重信息;
对于每个用户设备中记录了用户数据的所有客户端,将同种特征属性的权重信息相加,得到所述n种特征属性的权重信息。
12.根据权利要求10所述的装置,其特征在于,每个客户端的用户数据包括所述客户端的运行频率和运行时间段,所述确定单元,用于:
根据预设的权重总分和每个客户端所具有的特征属性的数量,设置每个客户端所具有的每种特征属性的权重,所述权重与所述客户端所具有的特征属性的数量呈负相关关系;
确定每个客户端的运行时间段所属的预设时间段,并确定每个客户端在对应的预设时间段内的运行频率,每个预设时间段对应所述n种特征属性;
对于每个客户端,根据所述客户端在每个预设时间段内的运行频率和所述客户端所具有的每种特征属性的权重,确定所述客户端在每个预设时间段对应的每种特征属性的权重信息;
对于每个用户设备中记录了用户数据的所有客户端,将同一预设时间段内的同种特征属性的权重信息相加,得到每个预设时间段对应的所述n种特征属性的权重信息。
13.根据权利要求11或12所述的装置,其特征在于,所述聚类单元,用于:
当所述同种的用户设备包括m个用户设备时,根据所述n种特征属性的权重信息生成m×n维的特征矩阵,当所述用户数据不包括每个客户端的运行时间段时,p=n;当所述用户数据包括每个客户端的运行时间段,且预设时间段的数量为q时,p=n×q;
对所述特征矩阵进行归一化处理,得到m×p维的归一化矩阵;
利用所述聚类指标k对所述归一化矩阵进行聚类,得到所述k个类别。
14.根据所述权利要求13所述的装置,其特征在于,所述聚类单元,用于:
利用预设的降维算法和预设的降维指标l,对所述m×p维的归一化矩阵进行降维处理,得到m×l维的降维矩阵;
利用所述聚类指标k对所述降维矩阵进行聚类,得到所述k个类别。
15.根据权利要求13所述的装置,其特征在于,所述提取单元,用于:
确定所述k个类别中每个类别的中心客户端,所述中心客户端所属的用户设备的数量除以所述类别包括的用户设备的数量的值大于第一预设阈值;
在存在中心客户端的j个类别中确定包括的用户设备的数量最大的类别,将确定的所述类别的至少一个中心客户端确定为所述至少一个特征客户端,0<j≤k。
16.根据权利要求10至15任一所述的装置,其特征在于,所述获取单元,用于:
对于同种的用户设备中记录了用户数据的每个客户端,采集所述客户端记录的用户数据;
按照预设规则对所述客户端记录的所有用户数据进行过滤,所述预设规则为记录所述用户数据的客户端的运行时长小于第二预设阈值,或者,在记录所述用户数据的客户端的运行时长大于第三预设阈值;
当存在过滤后的用户数据时,从所述客户端具有的特征属性中,获取与预设的n种特征属性相同的至少一种特征属性。
17.根据权利要求10至16任一所述的装置,其特征在于,
所述获取单元,用于所述从所述k个类别中提取至少一个特征客户端之后,当所述至少一个特征客户端的数量为r时,获取每个特征客户端的标识,将r个客户端中每个客户端的标识作为一种特征属性,得到n+r种特征属性,所述r为正整数;
所述装置还包括:
更新单元,用于将n更新为n+r,触发执行所述根据每个客户端所具有的特征属性的数量,确定每个客户端所具有的至少一种特征属性中每种特征属性的权重信息,得到所述n种特征属性中每种特征属性的权重信息;利用预设的聚类指标k和每种特征属性的权重信息对所述同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别,从所述k个类别中提取至少一个特征客户端的步骤,直到提取所述特征客户端失败时停止。
18.根据权利要求10所述的装置,其特征在于,所述装置还包括:
统计单元,用于在利用预设的聚类指标k和每种特征属性的权重信息对所述同种的用户设备中记录了用户数据的所有客户端进行聚类,得到k个类别之后,对于所述k个类别中的每个类别,统计所述类别中每个客户端所属的用户设备的数量;
确定单元,用于将所属的用户设备的数量大于第四预设阈值的客户端确定为待推荐客户端;
推荐单元,用于向所述类别中未安装所述待推荐客户端的用户设备推荐所述待推荐客户端。
CN201610454113.8A 2016-06-21 2016-06-21 用户标签生成方法及装置 Active CN107526741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610454113.8A CN107526741B (zh) 2016-06-21 2016-06-21 用户标签生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610454113.8A CN107526741B (zh) 2016-06-21 2016-06-21 用户标签生成方法及装置

Publications (2)

Publication Number Publication Date
CN107526741A true CN107526741A (zh) 2017-12-29
CN107526741B CN107526741B (zh) 2021-05-18

Family

ID=60735282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610454113.8A Active CN107526741B (zh) 2016-06-21 2016-06-21 用户标签生成方法及装置

Country Status (1)

Country Link
CN (1) CN107526741B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214435A (zh) * 2018-08-21 2019-01-15 北京睦合达信息技术股份有限公司 一种数据分类方法及装置
CN111125506A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 兴趣圈主题确定方法、装置、服务器和介质
CN111382343A (zh) * 2018-12-27 2020-07-07 方正国际软件(北京)有限公司 一种标签体系生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6049777A (en) * 1995-06-30 2000-04-11 Microsoft Corporation Computer-implemented collaborative filtering based method for recommending an item to a user
CN103198418A (zh) * 2013-03-15 2013-07-10 北京亿赞普网络技术有限公司 一种应用推荐方法和***
CN103218355A (zh) * 2012-01-18 2013-07-24 腾讯科技(深圳)有限公司 一种为用户生成标签的方法和装置
CN104750789A (zh) * 2015-03-12 2015-07-01 百度在线网络技术(北京)有限公司 标签的推荐方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6049777A (en) * 1995-06-30 2000-04-11 Microsoft Corporation Computer-implemented collaborative filtering based method for recommending an item to a user
CN103218355A (zh) * 2012-01-18 2013-07-24 腾讯科技(深圳)有限公司 一种为用户生成标签的方法和装置
CN103198418A (zh) * 2013-03-15 2013-07-10 北京亿赞普网络技术有限公司 一种应用推荐方法和***
CN104750789A (zh) * 2015-03-12 2015-07-01 百度在线网络技术(北京)有限公司 标签的推荐方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214435A (zh) * 2018-08-21 2019-01-15 北京睦合达信息技术股份有限公司 一种数据分类方法及装置
CN111125506A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 兴趣圈主题确定方法、装置、服务器和介质
CN111382343A (zh) * 2018-12-27 2020-07-07 方正国际软件(北京)有限公司 一种标签体系生成方法及装置
CN111382343B (zh) * 2018-12-27 2023-11-28 方正国际软件(北京)有限公司 一种标签体系生成方法及装置

Also Published As

Publication number Publication date
CN107526741B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
Fawagreh et al. Random forests: from early developments to recent advancements
Sharma et al. Early diagnosis of rice plant disease using machine learning techniques
Vizentin‐Bugoni et al. Including rewiring in the estimation of the robustness of mutualistic networks
CN109960763B (zh) 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
Gomez et al. Evolution of pollination niches and floral divergence in the generalist plant Erysimum mediohispanicum
WO2020224128A1 (zh) 基于用户短期兴趣的新闻推荐方法及装置、电子设备及介质
CN109816535A (zh) 欺诈识别方法、装置、计算机设备及存储介质
CN108021708B (zh) 内容推荐方法、装置与计算机可读存储介质
CN110012060A (zh) 移动终端的信息推送方法、装置、存储介质和服务器
CN104221015B (zh) 图像检索装置、图像检索方法、程序以及计算机可读取的存储介质
CN107526741A (zh) 用户标签生成方法及装置
KR101082589B1 (ko) 매체의 편향 현상을 완화하기 위한 단면수준 뉴스브라우징 서비스 시스템 및 서비스 제공방법
CN109241392A (zh) 目标词的识别方法、装置、***及存储介质
CN107480279A (zh) 一种网络家谱体例的生成方法
CN110083759A (zh) 舆论信息爬取方法、装置、计算机设备及存储介质
Song et al. A non-cooperative game with incomplete information to improve patient hospital choice
CN110309143A (zh) 数据相似度确定方法、装置及处理设备
Athey et al. Contextual bandits in a survey experiment on charitable giving: Within-experiment outcomes versus policy learning
CN109376287B (zh) 房产图谱构建方法、装置、计算机设备及存储介质
Ma et al. An improved SVM model for relevance feedback in remote sensing image retrieval
CN110489175A (zh) 服务处理方法、装置、服务器及存储介质
CN108647739A (zh) 一种基于改进的密度峰值聚类的社交网络社区发现方法
He et al. Multi-objective spatially constrained clustering for regionalization with particle swarm optimization
Zhi et al. Noise-insensitive discriminative subspace fuzzy clustering
CN109657950A (zh) 层次分析方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200210

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Applicant after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 210000 Ande Gate No. 94, Yuhuatai District, Jiangsu, Nanjing

Applicant before: Huawei Technologies Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant