CN110598090B - 兴趣标签的生成方法、装置、计算机设备和存储介质 - Google Patents
兴趣标签的生成方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110598090B CN110598090B CN201910667166.1A CN201910667166A CN110598090B CN 110598090 B CN110598090 B CN 110598090B CN 201910667166 A CN201910667166 A CN 201910667166A CN 110598090 B CN110598090 B CN 110598090B
- Authority
- CN
- China
- Prior art keywords
- behavior
- user
- sample
- type
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及用户画像技术领域,提供了一种兴趣标签的生成方法、装置、计算机设备和存储介质。所述方法包括:获取在指定时间段内的用户行为记录集;根据用户行为记录集,确定各行为类型各自对应的用户行为数据集,用户行为数据集包括彼此对应的用户标识、行为次数和平均属性值;基于各行为类型各自对应的用户行为数据集,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值;按照第一分类阈值和第二分类阈值从用户行为数据集中筛选出目标用户行为数据集,所述目标用户行为数据集包括目标用户标识、目标行为类型和目标行为作用对象的属性值;依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定筛选出的目标用户标识所对应的兴趣标签,减少了生成兴趣标签的计算量。
Description
技术领域
本申请涉及信息处理技术领域,特别是涉及一种兴趣标签的生成方法、装置、计算机设备和存储介质。
背景技术
随着互联网的发展和应用,个性化推荐、多样化营销等差异化服务在人们生活中得到了广泛应用,而这些差异化服务离不开用户画像。用户画像的核心工作是为用户生成标签。通过对用户进行标签化工作,可以从宏观角度对用户行为进行分析和预测,有助于提升企业针对特定用户的营销行为的精准度。
目前,为了保证用户画像的标签准确性,大部分用户画像的标签生成方法都需要获取大量的用户画像数据,然而该方法存在所需用户画像的数据量较多,以及由此引起的计算量较大的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种兴趣标签的生成方法、装置、计算机设备和存储介质。
一种兴趣标签的生成方法,所述方法包括:
获取在指定时间段内的用户行为记录集,所述用户行为记录集中的用户行为记录包括用户标识、行为类型和行为作用对象的属性值;
基于所述用户行为记录集,确定各行为类型对应的用户行为数据集,所述用户行为数据集中的数据用于描述用户标识、行为次数和平均属性值之间的对应关系;
基于所述用户行为数据集,分别确定各行为类型对应的行为次数的第一分类阈值和平均属性值的第二分类阈值;
按照所述第一分类阈值和所述第二分类阈值从所述用户行为数据集中筛选出目标用户行为数据集,所述目标用户行为数据集包括目标用户标识、目标行为类型和目标行为作用对象的属性值;
依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定筛选出的目标用户标识所对应的兴趣标签。
在其中一个实施例中,所述基于所述用户行为数据集,分别确定各行为类型对应的行为次数的第一分类阈值和平均属性值的第二分类阈值包括:
基于所述各行为类型各自对应的用户行为数据集,分别将各行为类型各自对应的行为次数和平均属性值按升序进行排序,得到行为次数的排序结果和平均属性值的排序结果;
根据所述行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数;
依据所述第一分位数和所述第二分位数,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值。
在其中一个实施例中,所述根据所述行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数包括:
根据所述行为次数的排序结果和平均属性值的排序结果,确定各行为类型各自对应的各行为次数在相应排序结果中的第一出现概率,并确定各行为类型各自对应的各平均属性值在相应排序结果中的第二出现概率;
根据所述第一出现概率确定各行为类型各自对应的每个行为次数的第一累积概率,得到各行为类型各自对应的每个行为次数的第一分位数;
根据所述第二出现概率确定各行为类型各自对应的每个平均属性值的第二累积概率,得到各行为类型各自对应的每个平均属性值的第二分位数。
在其中一个实施例中,所述根据所述行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数包括:
获取各行为类型各自对应的每个行为次数在所处排序结果中的排序位、各行为类型各自对应的每个平均属性值在所处排序结果中的排序位和各行为类型各自对应的排序用户数;
将各行为类型各自对应的每个行为次数的排序位除以所述排序用户数,获得各行为类型各自对应的每个行为次数的第一分位数;
将各行为类型各自对应的每个平均属性值的排序位除以所述排序用户数,获得各行为类型各自对应的每个平均属性值的第二分位数。
在其中一个实施例中,所述依据所述第一分位数和所述第二分位数,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值包括:
依据所述第一分位数和所述第二分位数,对应于每个行为类型,分别筛选出大于或等于相应第一预设阈值的第一分位数以及大于或等于相应第二预设阈值的第二分位数;
对应于每个行为类型,根据筛选出的第一分位数和第二分位数,分别计算相邻的第一分位数的第一差值和相邻的第二分位数的第二差值;
获取对应各行为类型计算出的每个最大的第一差值所对应的第一分位数,得到各行为类型各自对应的每个行为次数的第一分类阈值;
获取对应各行为类型计算出的每个最大的第二差值所对应的第二分位数,得到各行为类型各自对应的每个平均属性值的第二分类阈值。
在其中一个实施例中,所述按照所述第一分类阈值和所述第二分类阈值从所述用户行为数据集中筛选出目标用户行为数据集包括:
获取已知兴趣标签的用户行为记录样本集;
根据所述用户行为记录样本集,分别对所述第一分类阈值和所述第二分类阈值进行调整;
根据所述用户行为数据集,并按照所述调整后的第一分类阈值和调整后的第二分类阈值进行条件筛选,以筛选出目标用户行为数据集。
在其中一个实施例中,所述用户行为记录样本集中用户行为记录样本包括样本用户标识、兴趣标签、样本行为类型和样本行为作用对象的样本属性值;
所述根据所述用户行为记录样本集,分别对所述第一分类阈值和所述第二分类阈值进行调整包括:
根据所述用户行为记录样本集,按所述已知兴趣标签确定各样本行为类型各自对应的样本用户行为数据集,所述样本用户行为数据集包括对应的样本用户标识、兴趣标签、样本行为次数和平均样本属性值;
基于各样本行为类型各自对应的已知兴趣标签的样本用户行为数据集,计算各样本行为类型各自对应的每个样本行为次数的第一分位数和每个平均样本属性值的第二分位数;
根据所述已知标签的样本用户行为数据集,按照所述第一分类阈值和所述第二分类阈值从样本用户行为数据集中筛选出目标样本用户行为数据集;所述目标样本用户行为数据集包括目标样本用户标识、目标样本行为类型和目标样本行为作用对象的属性值;
依照筛选出的目标样本用户标识所在样本用户行为数据集所对应的样本行为类型,确定筛选出的目标样本用户标识所对应的预测兴趣标签;
根据所述样本用户行为数据集的预测兴趣标签和已知的相应兴趣标签计算出的每类样本行为类型的查全率,调整所述第一分类阈值和所述第二分类阈值。
一种兴趣标签的生成装置,所述装置包括:
行为记录获取模块,用于获取在指定时间段内的用户行为记录集,所述用户行为记录集中的用户行为记录包括用户标识、行为类型和行为作用对象的属性值;
行为数据集确定模块,用于基于所述用户行为记录集,确定各行为类型对应的用户行为数据集,所述用户行为数据集中的数据用于描述用户标识、行为次数和平均属性值之间的对应关系;
分类阈值确定模块,用于基于所述用户行为数据集,分别确定各行为类型对应的行为次数的第一分类阈值和平均属性值的第二分类阈值;
筛选目标用户标识模块,用于按照所述第一分类阈值和所述第二分类阈值从所述用户行为数据集中筛选出目标用户行为数据集,所述目标用户行为数据集包括目标用户标识、目标行为类型和目标行为作用对象的属性值;
兴趣标签生成模块,用于依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定筛选出的目标用户标识所对应的兴趣标签。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述兴趣标签的生成方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述兴趣标签的生成方法的步骤。
上述兴趣标签的生成方法、装置、计算机设备和存储介质,基于在指定时间段内获取的用户行为记录集,确定各行为类型各自对应的用户行为数据集,由此使用较小的数据和数据维度来表征用户行为,为确定用户的兴趣标签提供更小的数据量。进一步,确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值,按照第一分类阈值和第二分类阈值对用户行为数据集进行条件筛选,筛选出目标用户标识;并依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定该目标用户标识的兴趣标签;进一步减少了生成兴趣标签的计算量,同时保证了生成各行为类型的兴趣标签的准确率。
附图说明
图1为一个实施例中兴趣标签的生成方法的应用场景图;
图2为一个实施例中兴趣标签的生成方法的流程示意图;
图3为一个实施例中兴趣标签的生成装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的兴趣标签的生成方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104通过网络进行通信。
服务器104获取在指定时间段内的用户行为记录集,其中用户行为记录集可以是由终端102触发产生的;服务器104根据用户行为记录集,确定各行为类型各自对应的用户行为数据集,并基于各行为类型各自对应的用户行为数据集,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值;并按照第一分类阈值和第二分类阈值对用户行为数据集进行条件筛选,以筛选出目标用户行为数据集,其中目标用户行为数据集包括目标用户标识、目标行为类型和目标行为作用对象的属性值;服务器104依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定筛选出的目标用户标识所对应的兴趣标签。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种兴趣标签的生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取在指定时间段内的用户行为记录集,用户行为记录集中的用户行为记录包括用户标识、行为类型和行为作用对象的属性值。
其中,用户行为记录集包括各个用户行为记录,每个用户行为记录包括用户标识、行为类型和行为作用对象的属性值。用户标识是区别各个用户的唯一标识,可以是用户ID(Identification)。行为类型是区分用户在指定时间段内的各个不同的活动,比如购买机票类型。行为作用对象的属性值是指用户行为在作用对象上所对应的资源属性;比如用户购买飞机票,相应的飞机票价是1000元,则行为作用对象为购买飞机票,行为作用对象的属性值是1000元。
具体地,终端被触发生成用户行为记录集,并将生成的用户行为记录集通过网络传输给服务器并保存在数据库中。服务器可以直接从终端获取指定时间段内的用户行为记录集,也可以从数据库中获取指定时间段内的用户行为记录集。
例如,小明在2018年1月15日购买了一张飞机票,该飞机票的票价是1000人民币,相应的可通过数组表达该用户行为记录:(小明,购买机票类型,1000人民币,2018年1月15日)。
步骤S204,基于用户行为记录集,确定各行为类型对应的用户行为数据集,用户行为数据集中的数据用于描述用户标识、行为次数和平均属性值之间的对应关系。
其中,用户行为记录集包括各个行为类型对应的用户行为数据集,用户行为数据集包括对应的用户标识、行为次数以及平均属性值。行为次数是用户在指定时间段内,针对同一行为作用对象发生的总次数。平均属性值是指用户在指定时间段内,针对同一行为作用对象的所有属性值之和与该行为作用对象发生的总次数的比值。
具体地,服务器根据获取的用户行为记录集,依照各行为类型对上述用户行为记录集分类,得到各行为类型对应的用户行为数据集。分类方法可采用支持向量机方法(Support Vector Machine,SVM),神经网络方法和深度学习方法。
举例说明,例如,获取小明在一年内的用户行为记录:5月1日购买机票,票价500元;10月1日购买机票,票价900元;12月1日购买火车票,票价200元;9月1日购买火车票,票价300元;则小明在购买机票的平均属性值是700元,行为次数是2次。
步骤S206,基于用户行为数据集,分别确定各行为类型对应的行为次数的第一分类阈值和平均属性值的第二分类阈值。
其中,第一分类阈值是行为次数在所属行为类型的热度区分条件,根据第一分类阈值可以判断行为次数是否符合所属行为类型。同理,第二分类阈值是平均属性值在所属行为类型的热度区分条件,根据第二分类阈值可以判断平均属性值是否符合所属行为类型。两个分类阈值表征了相同行为类型下的个体用户行为在整体用户行为的占比情况。
具体地,服务器根据分类得到的各行为类型各自对应的用户行为数据集,分别确定各个行为类型对应的行为次数的第一分类阈值以及平均属性值的第二分类阈值;通过第一分类阈值可以判断行为次数是否符合所属行为类型,同理,通过第二分类阈值可以判断平均属性值是否符合所属行为类型。
步骤S208,按照第一分类阈值和第二分类阈值从所述用户行为数据集中筛选出目标用户行为数据集,目标用户行为数据集包括目标用户标识、目标行为类型和目标行为作用对象的属性值。
具体地,针对各个行为类型对应的用户行为数据集,服务器基于用户行为数据集,并按照与该用户行为数据集所在行为类型对应的第一分类阈值和第二分类阈值进行条件筛选,以此从所属用户行为数据集中筛选出目标用户行为数据集,其中目标用户行为数据集包括目标用户标识、目标行为类型和目标行为作用对象的属性值。
步骤S210,依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定筛选出的目标用户标识所对应的兴趣标签。
其中,兴趣标签是指区别于用户具有某类行为类型的倾向的标记,比如,用户经常购买机票,相应的该用户的兴趣标签可以是购买机票。
具体地,服务器根据筛选出的各行为数据集中符合条件的目标用户标识,获取该符合条件的目标用户标识所在行为数据集所对应的行为类型,即该目标用户标识的兴趣标签为对应的行为类型。
上述实施例中,基于在指定时间段内获取的用户行为记录集,确定各行为类型各自对应的用户行为数据集,由此使用较小的数据和数据维度来表征用户行为,为确定用户的兴趣标签提供更小的数据量。进一步,确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值,按照第一分类阈值和第二分类阈值对用户行为数据集进行条件筛选,筛选出目标用户标识;并依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定该目标用户标识的兴趣标签;进一步减少了生成兴趣标签的计算量,同时保证了生成各行为类型的兴趣标签的准确率。
在一个实施例中,基于各行为类型各自对应的用户行为数据集,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值,包括以下步骤:基于各行为类型各自对应的用户行为数据集,分别将各行为类型各自对应的行为次数和平均属性值按升序进行排序,得到行为次数的排序结果和平均属性值的排序结果;根据行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数;依据第一分位数和第二分位数,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值。
其中,分位数是指:在离散数据集中,数据a的分位数是满足条件P(X<=a)的所有数据的概率合,即a的分位数是对应a的累积概率。分位数的取值范围为大于0,且小于或等于1。
具体地,基于获取的各个行为类型各自对应的用户行为数据集,服务器分别将各行为类型对应的行为次数和平均属性值按照从小到大的顺序进行排序,从而得到行为次数的排序结果以及平均属性值的排序结果。根据获得的行为次数的排序结果,服务器计算各行为类型各自对应的每个行为次数的第一分位数;并根据第一分位数确定各行为类型各自对应的行为次数的第一分类阈值。同理,根据获得的平均属性值的排序结果,服务器计算各行为类型各自对应的每个平均属性值的第二分位数;并根据计算得到的第一分位数确定各行为类型各自对应平均属性值的第二分类阈值。第一分类阈值和第二分类阈值的取值范围可以是0到1之间,并且可以为1。
在本实施例中,通过对各行为类型各自对应的行为次数和平均属性值按升序进行排序,得到各自对应的排序结果;进一步根据排序结果分别计算各行为类型各自对应的每个行为次数的第一分位数和平均属性值的第二分位数,根据第一分位数和第二分位数确定各行为类型的分类阈值。利用各行为类型的分位数整体分布情况来确定分类阈值,充分考虑了整体分布情况,为后续兴趣标签的生成提供了依据。
在一个实施例中,根据行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数包括:根据行为次数的排序结果和平均属性值的排序结果,确定各行为类型各自对应的各行为次数在相应排序结果中的第一出现概率,并确定各行为类型各自对应的各平均属性值在相应排序结果中的第二出现概率;根据第一出现概率确定各行为类型各自对应的每个行为次数的第一累积概率,得到各行为类型各自对应的每个行为次数的第一分位数;根据第二出现概率确定各行为类型各自对应的每个平均属性值的第二累积概率,得到各行为类型各自对应的每个平均属性值的第二分位数。
其中,第一出现概率是指在某一行为类型对应的用户行为数据集中,该用户行为数据集中每个行为次数出现的概率。同理,第二出现概率是指在某一行为类型对应的用户行为数据集中,该用户行为数据集中每个平均属性值出现的概率。第一累积概率是指在某一行为类型对应的用户行为数据集中,将不超过该行为次数的所有行为次数的第一出现概率相加,所得结果即为第一累积概率;同理,第二累积概率是指在某一行为类型对应的用户行为数据集中,将不超过该平均属性值的每个平均属性值的第二出现概率相加,所得结果即为第二累积概率。
具体地,服务器根据得到的各个行为类型各自对应的行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数在相应排序结果中出现的第一出现概率,以及计算各行为类型各自对应的每个平均属性值在相应排序结果中出现的第二出现概率。基于计算得到的第一出现概率,服务器根据第一出现概率确定各行为类型各自对应的每个行为次数的第一累积概率,即该第一累积概率为相应行为次数的第一分位数。同理,基于计算得到的第二出现概率,服务器根据第二出现概率确定各行为类型各自对应的每个平均属性值的第二累积概率,即该第二累积概率为相应行为次数的第二分位数。
举例说明,例如,对于某一行为类型的用户行为数据集,该用户行为数据集中包括各个行为次数和平均值属性值;分别对行为次数和平均属性值按照升序进行排序,得到行为次数的排序结果和平均属性值的排序结果。若行为次数的排序结果为:1,1,2,2,3,4,5,6,7,8;则对应行为次数为1时的第一出现概率:P(1)=2/10,行为次数为2时的第一出现概率:P(2)=2/10,行为次数为3时的第一出现概率:P(3)=1/10,则行为次数为3时的累积概率是P(1)+P(2)+P(3),即行为次数为3时的分位数是50%。
在本实施例中,基于行为次数的排序结果确定各行为类型各自对应的各行为次数的第一出现概率,进一步根据第一出现概率得到各行为类型各自对应的各行为次数的第一累积概率,从而得出各行为类型各自对应的各行为次数的第一分位数。同理,可得到各行为类型各自对应的平均属性值的第二分位数。利用累积概率计算分位数,从整体上反映出各行为类型的个体占整体比重情况,充分考虑了数据间的关系,进一步减少了数据的计算量。
在一个实施例中,根据行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数,包括以下步骤:获取各行为类型各自对应的每个行为次数在所处排序结果中的排序位、各行为类型各自对应的每个平均属性值在所处排序结果中的排序位和各行为类型各自对应的排序用户数;将各行为类型各自对应的每个行为次数的排序位除以排序用户数,获得各行为类型各自对应的每个行为次数的第一分位数;将各行为类型各自对应的每个平均属性值的排序位除以排序用户数,获得各行为类型各自对应的每个平均属性值的第二分位数。
其中,排序位是指一个数据集内的各个元素按照一定逻辑进行排序,每个元素在数据集中所处的位置。排序用户数是指一个数据集中对应的所有元素的总个数。
具体地,服务器基于计算得到的各行为类型各自对应的每个行为次数的排序结果和平均属性值的排序结果,分别获取到各行为类型对应的每个行为次数在所处行为次数的排序结果中的排序位、各行为类型对应的每个平均属性值在所处的平均属性值的排序结果中的排序位以及各行为类型各自对应的排序用户数。服务器获取到相应数据后,将各行为类型各自对应的每个行为次数的排序位与对应该行为类型的排序用户数相除,即所得的计算结果为各行为类型各自对应的行为次数的第一分位数。同理,服务器还将各行为类型各自对应的每个平均属性值的排序位与对应该行为类型的排序用户数相除,即所得的计算结果为各行为类型各自对应的平均属性值的第二分位数。
例如,对于某一行为类型的用户行为数据集,该用户行为数据集中包括各个行为次数和平均值属性值;分别对行为次数和平均属性值按照升序进行排序,得到行为次数的排序结果和平均属性值的排序结果;若用户行为数据集中的行为次数A在相应的排序结果中排序位是5,同时该行为次数A在所处行为类型的排序用户数是10,则该行为次数的第一分位数为5/10*100%,即第一分位数是50%。例如,行为次数的排序结果为:0,1,2,3,4,5,6,7,8,9;则行为次数为6时对应的第一分位数是70%。
在本实施例中,基于各行为类型各自对应的每个行为次数的在所处排序结果的排序位以及各行为类型各自对应的排序用户数,确定各行为类型各自对应的每个行为次数的第一分位数,同理,可确定各行为类型各自对应的每个平均属性值的第二分位数。通过排序位与排序用户数确定分位数,在计算机层面上可以进一步减少计算量,从而提高计算的速度,提高生成兴趣标签的速率。
在一个实施例中,依据第一分位数和第二分位数,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值,包括以下步骤:依据第一分位数和第二分位数,对应于每个行为类型,分别筛选出大于或等于相应第一预设阈值的第一分位数以及大于或等于相应第二预设阈值的第二分位数;对应于每个行为类型,根据筛选出的第一分位数和第二分位数,分别计算相邻的第一分位数的第一差值和相邻的第二分位数的第二差值;获取对应各行为类型计算出的每个最大的第一差值所对应的第一分位数,得到各行为类型各自对应的每个行为次数的第一分类阈值;获取对应各行为类型计算出的每个最大的第二差值所对应的第二分位数,得到各行为类型各自对应的每个平均属性值的第二分类阈值。
其中,预设阈值是提前设定的判断分位数的界限值,阈值可以存储在数据库中;第一预设阈值是与各应用程序类型对应的第一分位数的界限值,第二预设阈值是与各应用程序类型对应的第二分位数的界限值。差值是指两个数据进行减法运算所得的计算结果;第一差值是指相邻的两个第一分位数进行相减所得的结果,第二差值是指相邻的两个第二分位数进行相减所得的结果。
具体地,根据计算得到的各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数,针对每个行为类型各自对应的第一分位数,服务器从数据库中获取对应行为类型的第一预设阈值,根据第一预设阈值筛选出大于或等于该第一预设阈值的第一分位数;同理,针对每个行为类型各自对应的第二分位数,服务器从数据库中获取对应行为类型的第二预设阈值,根据第二预设阈值筛选出大于或等于该第二预设阈值的第二分位数。对应于每个行为类型,服务器根据筛选出的第一分位数和第二分位数,分别计算两个相邻的第一分位数的第一差值以及两个相邻的第二分位数的第二差值。服务器根据计算得到的每个行为类型各自对应的第一差值,获取最大第一差值所对应的两个第一分位数,将排序位靠后的第一分位数作为对应该行为类型的第一分类阈值。同理,服务器根据计算得到的每个行为类型各自对应第二差值,获取最大第二差值所对应的两个第二分位数,将排序位靠后的第二分位数作为对应该行为类型的第二分类阈值。
在本实施例中,基于第一分位数和第二分位数确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值,选出各行为类型中分布较为明显的第一分位数作为该行为类型的第一分类阈值,同理,可得到第二分类阈值。进一步,充分利用各行为类型数据的整体分布特性,为兴趣标签的准确率提供了保障。
在一个实施例中,按照第一分类阈值和第二分类阈值从用户行为数据集中筛选出目标用户行为数据集,包括以下步骤:获取已知兴趣标签的用户行为记录样本集;根据用户行为记录样本集,分别对第一分类阈值和第二分类阈值进行调整;根据用户行为数据集,并按照调整后的第一分类阈值和调整后的第二分类阈值从用户行为数据集中筛选出目标用户行为数据集。
其中,用户行为记录样本集包括各个用户行为记录样本。用户行为数据集包括彼此对应的用户标识、行为次数和平均属性值。
具体地,服务器从数据库或终端中获取已经兴趣标签的用户行为记录样本集,根据获取到的用户行为记录样本集分别对各个应用程序类型对应的第一分类阈值和第二分类阈值进行调整。进一步,基于用户行为数据集,服务器按照调整后的第一分类阈值对各行为类型各自对应的每个行为次数进行条件筛选,同时按照调整后的第二分类阈值对各行为类型各自对应的每个平均属性值进行条件筛选,以筛选出同时满足上述行为次数的筛选条件和平均属性值的筛选条件的目标用户行为数据集。
在本实施例中,基于已知兴趣标签的用户行为记录样本集,对第一分类阈值和第二分类阈值进行调整,以此得到第一分类阈值和第二分类阈值,利用用户行为记录样本集对分类阈值进行测试,提高了兴趣标签的准确性。
在一个实施例中,用户行为记录样本集中用户行为记录样本包括样本用户标识、兴趣标签、样本行为类型和样本行为作用对象的样本属性值;根据用户行为记录样本集,分别对第一分类阈值和第二分类阈值进行调整包括:根据用户行为记录样本集,按已知兴趣标签确定各样本行为类型各自对应的样本用户行为数据集,样本用户行为数据集包括对应的样本用户标识、兴趣标签、样本行为次数和平均样本属性值;基于各样本行为类型各自对应的已知兴趣标签的样本用户行为数据集,计算各样本行为类型各自对应的每个样本行为次数的第一分位数和每个平均样本属性值的第二分位数;根据已知标签的样本用户行为数据集,按照第一分类阈值和第二分类阈值从样本用户行为数据集中筛选出目标样本用户行为数据集;目标样本用户行为数据集包括目标样本用户标识、目标样本行为类型和目标样本行为作用对象的属性值;依照筛选出的目标样本用户标识所在样本用户行为数据集所对应的样本行为类型,确定筛选出的目标样本用户标识所对应的预测兴趣标签;根据样本用户行为数据集的预测兴趣标签和已知的相应兴趣标签计算出的每类样本行为类型的查全率,调整第一分类阈值和第二分类阈值。
其中,用户行为记录样本集包括各个用户行为记录样本,每个用户行为记录样本包括样本用户标识、兴趣标签、样本行为类型和样本行为作用对象的样本属性值。样本用户标识是区别各个样本用户的唯一标识。样本行为类型是与样本用户的各个行为相对应的类型,样本行为类型与行为类型是对应关系,行为类型包括所有的样本行为类型。样本行为作用对象的样本属性值是指样本用户行为在作用对象上所对应的资源属性;比如样本用户购买飞机票,相应的飞机票价是1000元,则行为作用对象是购买飞机票,样本行为作用对象的样本属性值是1000元。样本行为次数是样本用户针对同一行为作用对象发生的总次数。平均样本属性值是样本用户针对同一行为作用对象的所有属性值之和与总次数的比值。
其中,用户行为记录样本集包括各个行为类型对应的样本用户行为数据集;样本用户行为数据集包括对应的样本用户标识、兴趣标签、样本行为次数和平均样本属性值。
其中,兴趣标签是指区别于用户具有某类行为类型的倾向的标记,比如,用户经常购买机票,相应的该用户的兴趣标签可以是购买机票。预测兴趣标签是根据兴趣标签生成模型生成的预测的兴趣标签。查全率是对应于每类样本行为类型,每个样本用户标识的预测兴趣标签与已知兴趣标签一致的用户数与该类样本行为类型的总用户数的比值。查全率越接近1,说明对应该类样本行为类型的预测兴趣标签和已知兴趣标签的一致性更高,进一步说明该类样本行为类型的第一分类阈值和第二分类阈值选取的较为合适。
具体地,服务器从数据库或终端中获取已经兴趣标签的用户行为记录样本集,根据获取到的用户行为记录样本集按照已知兴趣标签对其进行分类,得到各样本行为类型各自对应的样本用户行为数据集。基于分类得到的各样本行为类型各自对应的样本用户行为数据集,服务器分别计算各样本行为类型各自对应的每个样本行为次数的第一分位数,还计算各样本行为类型各自对应的每个平均样本属性值的第二分位数。
基于上述已知标签的样本用户行为数据集,服务器依照各样本行为类型从数据库中查找对应的第一分类阈值和第二分类阈值,并根据查找到的第一分类阈值和第二分类阈值对样本用户行为数据集进行筛选。当各样本用户行为数据集中样本行为次数和平均样本属性值都满足筛选条件时,得到筛选出的目标样本用户行为数据集,该目标样本用户行为数据集包括目标样本用户标识、目标样本行为类型和目标样本行为作用对象的属性值。其中筛选条件是:对应于每个样本用户行为数据集,样本行为次数大于或等于第一分类阈值,同时平均样本属性值大于或等于第二分类阈值。如果某一样本行为类型的中的某一样本用户标识对应的样本行为次数和平均样本属性值都满足分类条件,即样本行为次数大于或等于对应的第一分类阈值,同时平均样本属性值也大于或等于对应的第二分类阈值。
服务器根据筛选出的目标样本用户标识,从数据库中查找该目标样本用户标识所在样本用户行为数据集所对应的样本行为类型,即目标样本用户标识的预测兴趣标签为对应查找到的样本行为类型。基于样本用户行为数据集的预测兴趣标签和已知的相应的兴趣标签,对应于每类样本行为类型,服务器判断每个目标样本用户标识的预测兴趣标签与已知兴趣标签是否一致,用标识记录判断结果并存储在服务器中。当判断结果一致的,可以标记为1;否则,标记为0。例如,在某一样本行为类型中,某个目标样本用户标识的已知的兴趣标签是电影,若预测兴趣标签也为电影,则记录为1;若该目标样本用户标识的预测兴趣标签为吃饭,则记录为0。
根据记录结果,服务器计算每类样本行为类型的查全率;再根据各类样本行为类型的查全率调整对应的第一分类阈值和第二分类阈值。若查全率不符合调整阈值,则不需对第一分类阈值和第二分类阈值进行调整;若查全率符合调整阈值,则对第一分类阈值和第二分类阈值进行调整,再根据调整后的第一分类阈值和第二分类阈值确定样本用户行为数据集的预测标签,并计算每类样本行为类型的查全率。直至用户使用记录样本集的查全率不符合调整阈值的范围时,则停止对相应分类阈值的调整;调整阈值可以设置为:查全率低于95%。。可选地,调整方法可以是对第一分类阈值和第二分类阈值中的至少一者进行调整。
在本实施例中,基于已知兴趣标签的用户行为记录样本集,对第一分类阈值和第二分类阈值进行调整,根据计算出的各行为类型的查全率对分类阈值进行调整,直至各行为类型的查全率不符合调整阈值。利用用户行为记录样本集对分类阈值进行测试,并通过查全率验证兴趣标签的准确率,进一步提高了兴趣标签的准确性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种兴趣标签的生成装置300,包括:行为记录获取模块302、行为数据集确定模块304、分类阈值确定模块306、筛选目标用户标识模块308以及兴趣标签生成模块310,其中:
行为记录获取模块302,用于获取在指定时间段内的用户行为记录集,用户行为记录集中的用户行为记录包括用户标识、行为类型和行为作用对象的属性值。
行为数据集确定模块304,用于基于用户行为记录集,确定各行为类型对应的用户行为数据集,用户行为数据集中的数据用于描述用户标识、行为次数和平均属性值之间的对应关系。
分类阈值确定模块306,用于基于用户行为数据集,分别确定各行为类型对应的行为次数的第一分类阈值和平均属性值的第二分类阈值。
筛选目标用户标识模块308,用于按照第一分类阈值和第二分类阈值从用户行为数据集中筛选出目标用户行为数据集,目标用户行为数据集包括目标用户标识、目标行为类型和目标行为作用对象的属性值。
兴趣标签生成模块310,用于依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定筛选出的目标用户标识所对应的兴趣标签。
在一个实施例中,上述分类阈值确定模块包括:排序模块、分位数计算模块以及分类阈值计算模块。排序模块,用于基于各行为类型各自对应的用户行为数据集,分别将各行为类型各自对应的行为次数和平均属性值按升序进行排序,得到行为次数的排序结果和平均属性值的排序结果;分位数计算模块,用于根据行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数;分类阈值计算模块,用于依据第一分位数和第二分位数,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值。
在一个实施例中,上述分位数计算模块包括:概率计算模块和累积概率计算模块。概率计算模块,用于根据行为次数的排序结果和平均属性值的排序结果,确定各行为类型各自对应的各行为次数在相应排序结果中的第一出现概率,并确定各行为类型各自对应的各平均属性值在相应排序结果中的第二出现概率;累积概率计算模块,用于根据第一出现概率确定各行为类型各自对应的每个行为次数的第一累积概率,得到各行为类型各自对应的每个行为次数的第一分位数;根据第二出现概率确定各行为类型各自对应的每个平均属性值的第二累积概率,得到各行为类型各自对应的每个平均属性值的第二分位数。
在一个实施例中,上述分位数计算模块包括:数据获取模块和分位数获取模块。数据获取模块,用于获取各行为类型各自对应的每个行为次数在所处排序结果中的排序位、各行为类型各自对应的每个平均属性值在所处排序结果中的排序位和各行为类型各自对应的排序用户数;分位数获取模块,用于将各行为类型各自对应的每个行为次数的排序位除以排序用户数,获得各行为类型各自对应的每个行为次数的第一分位数;将各行为类型各自对应的每个平均属性值的排序位除以排序用户数,获得各行为类型各自对应的每个平均属性值的第二分位数。
在一个实施例中,上述分类阈值确定模块包括:第一筛选模块、差值计算模块以及第二筛选模块。第一筛选模块,用于依据第一分位数和第二分位数,对应于每个行为类型,分别筛选出大于或等于相应第一预设阈值的第一分位数以及大于或等于相应第二预设阈值的第二分位数;差值计算模块,用于对应于每个行为类型,根据筛选出的第一分位数和第二分位数,分别计算相邻的第一分位数的第一差值和相邻的第二分位数的第二差值;第二筛选模块,用于获取对应各行为类型计算出的每个最大的第一差值所对应的第一分位数,得到各行为类型各自对应的每个行为次数的第一分类阈值;获取对应各行为类型计算出的每个最大的第二差值所对应的第二分位数,得到各行为类型各自对应的每个平均属性值的第二分类阈值。
在一个实施例中,上述筛选目标用户标识模块包括:行为记录样本获取模块、分类阈值调整模块和条件筛选模块。行为记录样本获取模块,用于获取已知兴趣标签的用户行为记录样本集;分类阈值调整模块,用于根据用户行为记录样本集,分别对第一分类阈值和第二分类阈值进行调整;条件筛选模块,根据用户行为数据集,按照调整后的第一分类阈值和调整后的第二分类阈值从用户行为数据集中筛选出目标用户行为数据集。
在一个实施例中,用户行为记录样本集中用户行为记录样本包括样本用户标识、兴趣标签、样本行为类型和样本行为作用对象的样本属性值;上述分类阈值调整模块包括:样本用户行为获取模块、样本分位数计算模块、样本用户标识筛选模块、预测兴趣标签生成模块以及查全率计算模块。样本用户行为获取模块,用于根据用户行为记录样本集,按已知兴趣标签确定各样本行为类型各自对应的样本用户行为数据集,样本用户行为数据集包括对应的样本用户标识、兴趣标签、样本行为次数和平均样本属性值;样本分位数计算模块,用于基于各样本行为类型各自对应的已知兴趣标签的样本用户行为数据集,计算各样本行为类型各自对应的每个样本行为次数的第一分位数和每个平均样本属性值的第二分位数;目标样本用户标识筛选模块,用于根据已知标签的样本用户行为数据集,按照第一分类阈值和第二分类阈值从样本用户行为数据集中筛选出目标样本用户行为数据集;目标样本用户行为数据集包括目标样本用户标识、目标样本行为类型和目标样本行为作用对象的属性值;预测兴趣标签生成模块,用于依照筛选出的目标样本用户标识所在样本用户行为数据集所对应的样本行为类型,确定筛选出的目标样本用户标识所对应的预测兴趣标签;查全率计算模块,用于根据样本用户行为数据集的预测兴趣标签和已知的相应兴趣标签计算出的每类样本行为类型的查全率,调整第一分类阈值和第二分类阈值。
关于兴趣标签的生成装置的具体限定可以参见上文中对于兴趣标签的生成方法的限定,在此不再赘述。上述兴趣标签的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户行为记录集、用户行为数据集、第一分类阈值以及第二分类阈值数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种兴趣标签的生成方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取在指定时间段内的用户行为记录集,用户行为记录集中的用户行为记录包括用户标识、行为类型和行为作用对象的属性值;基于用户行为记录集,确定各行为类型对应的用户行为数据集,用户行为数据集中的数据用于描述用户标识、行为次数和平均属性值之间的对应关系;基于用户行为数据集,分别确定各行为类型对应的行为次数的第一分类阈值和平均属性值的第二分类阈值;按照第一分类阈值和第二分类阈值从用户行为数据集中筛选出目标用户行为数据集,目标用户行为数据集包括目标用户标识、目标行为类型和目标行为作用对象的属性值;依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定筛选出的目标用户标识所对应的兴趣标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于各行为类型各自对应的用户行为数据集,分别将各行为类型各自对应的行为次数和平均属性值按升序进行排序,得到行为次数的排序结果和平均属性值的排序结果;根据行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数;依据第一分位数和第二分位数,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据行为次数的排序结果和平均属性值的排序结果,确定各行为类型各自对应的各行为次数在相应排序结果中的第一出现概率,并确定各行为类型各自对应的各平均属性值在相应排序结果中的第二出现概率;根据第一出现概率确定各行为类型各自对应的每个行为次数的第一累积概率,得到各行为类型各自对应的每个行为次数的第一分位数;根据第二出现概率确定各行为类型各自对应的每个平均属性值的第二累积概率,得到各行为类型各自对应的每个平均属性值的第二分位数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取各行为类型各自对应的每个行为次数在所处排序结果中的排序位、各行为类型各自对应的每个平均属性值在所处排序结果中的排序位和各行为类型各自对应的排序用户数;将各行为类型各自对应的每个行为次数的排序位除以排序用户数,获得各行为类型各自对应的每个行为次数的第一分位数;将各行为类型各自对应的每个平均属性值的排序位除以排序用户数,获得各行为类型各自对应的每个平均属性值的第二分位数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:依据第一分位数和第二分位数,对应于每个行为类型,分别筛选出大于或等于相应第一预设阈值的第一分位数以及大于或等于相应第二预设阈值的第二分位数;对应于每个行为类型,根据筛选出的第一分位数和第二分位数,分别计算相邻的第一分位数的第一差值和相邻的第二分位数的第二差值;获取对应各行为类型计算出的每个最大的第一差值所对应的第一分位数,得到各行为类型各自对应的每个行为次数的第一分类阈值;获取对应各行为类型计算出的每个最大的第二差值所对应的第二分位数,得到各行为类型各自对应的每个平均属性值的第二分类阈值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取已知兴趣标签的用户行为记录样本集;根据用户行为记录样本集,分别对第一分类阈值和第二分类阈值进行调整;按照调整后的第一分类阈值和调整后的第二分类阈值从用户行为数据集中筛选出目标用户行为数据集。
在一个实施例中,用户行为记录样本集中用户行为记录样本包括样本用户标识、兴趣标签、样本行为类型和样本行为作用对象的样本属性值;根据用户行为记录样本集,分别对第一分类阈值和第二分类阈值进行调整包括:根据用户行为记录样本集,按已知兴趣标签确定各样本行为类型各自对应的样本用户行为数据集,样本用户行为数据集包括对应的样本用户标识、兴趣标签、样本行为次数和平均样本属性值;基于各样本行为类型各自对应的已知兴趣标签的样本用户行为数据集,计算各样本行为类型各自对应的每个样本行为次数的第一分位数和每个平均样本属性值的第二分位数;根据已知标签的样本用户行为数据集,按照第一分类阈值和第二分类阈值从样本用户行为数据集中筛选出目标样本用户行为数据集;目标样本用户行为数据集包括目标样本用户标识、目标样本行为类型和目标样本行为作用对象的属性值;依照筛选出的目标样本用户标识所在样本用户行为数据集所对应的样本行为类型,确定筛选出的目标样本用户标识所对应的预测兴趣标签;根据样本用户行为数据集的预测兴趣标签和已知的相应兴趣标签计算出的每类样本行为类型的查全率,调整第一分类阈值和第二分类阈值。
在本实施例中,基于在指定时间段内获取的用户行为记录集,确定各行为类型各自对应的用户行为数据集,由此使用较小的数据和数据维度来表征用户行为,为确定用户的兴趣标签提供更小的数据量。进一步,确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值,按照第一分类阈值和第二分类阈值对用户行为数据集进行条件筛选,筛选出目标用户标识;并依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定该目标用户标识的兴趣标签;进一步减少了生成兴趣标签的计算量,同时保证了生成各行为类型的兴趣标签的准确率。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取在指定时间段内的用户行为记录集,用户行为记录集中的用户行为记录包括用户标识、行为类型和行为作用对象的属性值;基于用户行为记录集,确定各行为类型对应的用户行为数据集,用户行为数据集中的数据用于描述用户标识、行为次数和平均属性值之间的对应关系;基于用户行为数据集,分别确定各行为类型对应的行为次数的第一分类阈值和平均属性值的第二分类阈值;按照第一分类阈值和第二分类阈值从用户行为数据集中筛选出目标用户行为数据集,目标用户行为数据集包括目标用户标识、目标行为类型和目标行为作用对象的属性值;依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定筛选出的目标用户标识所对应的兴趣标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于各行为类型各自对应的用户行为数据集,分别将各行为类型各自对应的行为次数和平均属性值按升序进行排序,得到行为次数的排序结果和平均属性值的排序结果;根据行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数;依据第一分位数和第二分位数,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据行为次数的排序结果和平均属性值的排序结果,确定各行为类型各自对应的各行为次数在相应排序结果中的第一出现概率,并确定各行为类型各自对应的各平均属性值在相应排序结果中的第二出现概率;根据第一出现概率确定各行为类型各自对应的每个行为次数的第一累积概率,得到各行为类型各自对应的每个行为次数的第一分位数;根据第二出现概率确定各行为类型各自对应的每个平均属性值的第二累积概率,得到各行为类型各自对应的每个平均属性值的第二分位数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取各行为类型各自对应的每个行为次数在所处排序结果中的排序位、各行为类型各自对应的每个平均属性值在所处排序结果中的排序位和各行为类型各自对应的排序用户数;将各行为类型各自对应的每个行为次数的排序位除以排序用户数,获得各行为类型各自对应的每个行为次数的第一分位数;将各行为类型各自对应的每个平均属性值的排序位除以排序用户数,获得各行为类型各自对应的每个平均属性值的第二分位数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:依据第一分位数和第二分位数,对应于每个行为类型,分别筛选出大于或等于相应第一预设阈值的第一分位数以及大于或等于相应第二预设阈值的第二分位数;对应于每个行为类型,根据筛选出的第一分位数和第二分位数,分别计算相邻的第一分位数的第一差值和相邻的第二分位数的第二差值;获取对应各行为类型计算出的每个最大的第一差值所对应的第一分位数,得到各行为类型各自对应的每个行为次数的第一分类阈值;获取对应各行为类型计算出的每个最大的第二差值所对应的第二分位数,得到各行为类型各自对应的每个平均属性值的第二分类阈值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取已知兴趣标签的用户行为记录样本集;根据用户行为记录样本集,分别对第一分类阈值和第二分类阈值进行调整;根据用户行为数据集,按照调整后的第一分类阈值和调整后的第二分类阈值从用户行为数据集中筛选出目标用户行为数据集。
在一个实施例中,用户行为记录样本集中用户行为记录样本包括样本用户标识、兴趣标签、样本行为类型和样本行为作用对象的样本属性值;根据用户行为记录样本集,分别对第一分类阈值和第二分类阈值进行调整包括:根据用户行为记录样本集,按已知兴趣标签确定各样本行为类型各自对应的样本用户行为数据集,样本用户行为数据集包括对应的样本用户标识、兴趣标签、样本行为次数和平均样本属性值;基于各样本行为类型各自对应的已知兴趣标签的样本用户行为数据集,计算各样本行为类型各自对应的每个样本行为次数的第一分位数和每个平均样本属性值的第二分位数;根据已知标签的样本用户行为数据集,按照第一分类阈值和第二分类阈值从样本用户行为数据集中筛选出目标样本用户行为数据集;目标样本用户行为数据集包括目标样本用户标识、目标样本行为类型和目标样本行为作用对象的属性值;依照筛选出的目标样本用户标识所在样本用户行为数据集所对应的样本行为类型,确定筛选出的目标样本用户标识所对应的预测兴趣标签;根据样本用户行为数据集的预测兴趣标签和已知的相应兴趣标签计算出的每类样本行为类型的查全率,调整第一分类阈值和第二分类阈值。
在本实施例中,基于在指定时间段内获取的用户行为记录集,确定各行为类型各自对应的用户行为数据集,由此使用较小的数据和数据维度来表征用户行为,为确定用户的兴趣标签提供更小的数据量。进一步,确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值,按照第一分类阈值和第二分类阈值对用户行为数据集进行条件筛选,筛选出目标用户标识;并依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定该目标用户标识的兴趣标签;进一步减少了生成兴趣标签的计算量,同时保证了生成各行为类型的兴趣标签的准确率
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种兴趣标签的生成方法,所述方法包括:
获取在指定时间段内的用户行为记录集,所述用户行为记录集中的用户行为记录包括用户标识、行为类型和行为作用对象的属性值;
基于所述用户行为记录集,确定各行为类型对应的用户行为数据集,所述用户行为数据集中的数据用于描述用户标识、行为次数和平均属性值之间的对应关系;
基于所述用户行为数据集,分别确定各行为类型对应的行为次数的第一分类阈值和平均属性值的第二分类阈值;
按照所述第一分类阈值和所述第二分类阈值从所述用户行为数据集中筛选出目标用户行为数据集,所述目标用户行为数据集包括目标用户标识、目标行为类型和目标行为作用对象的属性值;
依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定筛选出的目标用户标识所对应的兴趣标签;
所述基于所述用户行为数据集,分别确定各行为类型对应的行为次数的第一分类阈值和平均属性值的第二分类阈值包括:
基于所述各行为类型各自对应的用户行为数据集,分别将各行为类型各自对应的行为次数和平均属性值按升序进行排序,得到行为次数的排序结果和平均属性值的排序结果;
根据所述行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数;
依据所述第一分位数和所述第二分位数,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数包括:
根据所述行为次数的排序结果和平均属性值的排序结果,确定各行为类型各自对应的各行为次数在相应排序结果中的第一出现概率,并确定各行为类型各自对应的各平均属性值在相应排序结果中的第二出现概率;
根据所述第一出现概率确定各行为类型各自对应的每个行为次数的第一累积概率,得到各行为类型各自对应的每个行为次数的第一分位数;
根据所述第二出现概率确定各行为类型各自对应的每个平均属性值的第二累积概率,得到各行为类型各自对应的每个平均属性值的第二分位数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数包括:
获取各行为类型各自对应的每个行为次数在所处排序结果中的排序位、各行为类型各自对应的每个平均属性值在所处排序结果中的排序位和各行为类型各自对应的排序用户数;
将各行为类型各自对应的每个行为次数的排序位除以所述排序用户数,获得各行为类型各自对应的每个行为次数的第一分位数;
将各行为类型各自对应的每个平均属性值的排序位除以所述排序用户数,获得各行为类型各自对应的每个平均属性值的第二分位数。
4.根据权利要求1所述的方法,其特征在于,所述依据所述第一分位数和所述第二分位数,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值包括:
依据所述第一分位数和所述第二分位数,对应于每个行为类型,分别筛选出大于或等于相应第一预设阈值的第一分位数以及大于或等于相应第二预设阈值的第二分位数;
对应于每个行为类型,根据筛选出的第一分位数和第二分位数,分别计算相邻的第一分位数的第一差值和相邻的第二分位数的第二差值;
获取对应各行为类型计算出的每个最大的第一差值所对应的第一分位数,得到各行为类型各自对应的每个行为次数的第一分类阈值;
获取对应各行为类型计算出的每个最大的第二差值所对应的第二分位数,得到各行为类型各自对应的每个平均属性值的第二分类阈值。
5.根据权利要求1所述的方法,其特征在于,所述按照所述第一分类阈值和所述第二分类阈值从所述用户行为数据集中筛选出目标用户行为数据集包括:
获取已知兴趣标签的用户行为记录样本集;
根据所述用户行为记录样本集,分别对所述第一分类阈值和所述第二分类阈值进行调整;
根据所述用户行为数据集,按照所述调整后的第一分类阈值和调整后的第二分类阈值从用户行为数据集中筛选出目标用户行为数据集。
6.根据权利要求5所述的方法,其特征在于,所述用户行为记录样本集中用户行为记录样本包括样本用户标识、兴趣标签、样本行为类型和样本行为作用对象的样本属性值;
所述根据所述用户行为记录样本集,分别对所述第一分类阈值和所述第二分类阈值进行调整包括:
根据所述用户行为记录样本集,按所述已知兴趣标签确定各样本行为类型各自对应的样本用户行为数据集,所述样本用户行为数据集包括对应的样本用户标识、兴趣标签、样本行为次数和平均样本属性值;
基于各样本行为类型各自对应的已知兴趣标签的样本用户行为数据集,计算各样本行为类型各自对应的每个样本行为次数的第一分位数和每个平均样本属性值的第二分位数;
根据所述已知兴趣标签的样本用户行为数据集,按照所述第一分类阈值和所述第二分类阈值从样本用户行为数据集中筛选出目标样本用户行为数据集;所述目标样本用户行为数据集包括目标样本用户标识、目标样本行为类型和目标样本行为作用对象的属性值;
依照筛选出的目标样本用户标识所在样本用户行为数据集所对应的样本行为类型,确定筛选出的目标样本用户标识所对应的预测兴趣标签;
根据所述样本用户行为数据集的预测兴趣标签和已知的相应兴趣标签计算出的每类样本行为类型的查全率,调整所述第一分类阈值和所述第二分类阈值。
7.一种兴趣标签的生成装置,其特征在于,所述装置包括:
行为记录获取模块,用于获取在指定时间段内的用户行为记录集,所述用户行为记录集中的用户行为记录包括用户标识、行为类型和行为作用对象的属性值;
行为数据集确定模块,用于基于所述用户行为记录集,确定各行为类型对应的用户行为数据集,所述用户行为数据集中的数据用于描述用户标识、行为次数和平均属性值之间的对应关系;
分类阈值确定模块,用于基于所述用户行为数据集,分别确定各行为类型对应的行为次数的第一分类阈值和平均属性值的第二分类阈值;
筛选目标用户标识模块,用于按照所述第一分类阈值和所述第二分类阈值从所述用户行为数据集中筛选出目标用户行为数据集,所述目标用户行为数据集包括目标用户标识、目标行为类型和目标行为作用对象的属性值;
兴趣标签生成模块,用于依照筛选出的目标用户标识所在用户行为数据集所对应的行为类型,确定筛选出的目标用户标识所对应的兴趣标签;
所述分类阈值确定模块,具体用于基于所述各行为类型各自对应的用户行为数据集,分别将各行为类型各自对应的行为次数和平均属性值按升序进行排序,得到行为次数的排序结果和平均属性值的排序结果;
根据所述行为次数的排序结果和平均属性值的排序结果,分别计算各行为类型各自对应的每个行为次数的第一分位数和每个平均属性值的第二分位数;
依据所述第一分位数和所述第二分位数,分别确定各行为类型各自对应的行为次数的第一分类阈值和平均属性值的第二分类阈值。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910667166.1A CN110598090B (zh) | 2019-07-23 | 2019-07-23 | 兴趣标签的生成方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910667166.1A CN110598090B (zh) | 2019-07-23 | 2019-07-23 | 兴趣标签的生成方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598090A CN110598090A (zh) | 2019-12-20 |
CN110598090B true CN110598090B (zh) | 2023-04-11 |
Family
ID=68852890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910667166.1A Active CN110598090B (zh) | 2019-07-23 | 2019-07-23 | 兴趣标签的生成方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598090B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191091A (zh) * | 2019-12-30 | 2020-05-22 | 成都数联铭品科技有限公司 | 一种数据分类方法及*** |
CN113487225B (zh) * | 2021-07-23 | 2024-05-24 | 北京云从科技有限公司 | 一种风险控制方法、***、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700289A (zh) * | 2015-03-17 | 2015-06-10 | 中国联合网络通信集团有限公司 | 广告投放方法和装置 |
CN105677925A (zh) * | 2016-03-30 | 2016-06-15 | 北京京东尚科信息技术有限公司 | 数据库用户数据处理方法和装置 |
CN106503269A (zh) * | 2016-12-08 | 2017-03-15 | 广州优视网络科技有限公司 | 应用推荐的方法、装置及服务器 |
CN109034935A (zh) * | 2018-06-06 | 2018-12-18 | 平安科技(深圳)有限公司 | 产品推荐方法、装置、计算机设备及存储介质 |
-
2019
- 2019-07-23 CN CN201910667166.1A patent/CN110598090B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700289A (zh) * | 2015-03-17 | 2015-06-10 | 中国联合网络通信集团有限公司 | 广告投放方法和装置 |
CN105677925A (zh) * | 2016-03-30 | 2016-06-15 | 北京京东尚科信息技术有限公司 | 数据库用户数据处理方法和装置 |
CN106503269A (zh) * | 2016-12-08 | 2017-03-15 | 广州优视网络科技有限公司 | 应用推荐的方法、装置及服务器 |
CN109034935A (zh) * | 2018-06-06 | 2018-12-18 | 平安科技(深圳)有限公司 | 产品推荐方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110598090A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598845B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN109345374B (zh) | 风险控制方法、装置、计算机设备和存储介质 | |
CN111401609B (zh) | 车流量时间序列的预测方法及预测装置 | |
CN109858737B (zh) | 基于模型部署的评分模型调整方法、装置和计算机设备 | |
CN108711110A (zh) | 保险产品推荐方法、装置、计算机设备和存储介质 | |
CN108876133A (zh) | 基于业务信息的风险评估处理方法、装置、服务器和介质 | |
CN109582876B (zh) | 旅游行业用户画像构造方法、装置和计算机设备 | |
CN108520041B (zh) | 文本的行业分类方法、***、计算机设备和存储介质 | |
CN109245996B (zh) | 邮件推送方法、装置、计算机设备和存储介质 | |
CN109034583A (zh) | 异常交易识别方法、装置及电子设备 | |
CN110781379A (zh) | 信息推荐方法、装置、计算机设备和存储介质 | |
CN110674144A (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
CN109063984B (zh) | 风险旅客方法、装置、计算机设备和存储介质 | |
CN110888911A (zh) | 样本数据处理方法、装置、计算机设备及存储介质 | |
CN112784168B (zh) | 信息推送模型训练方法以及装置、信息推送方法以及装置 | |
CN107622326A (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN110555164A (zh) | 群体兴趣标签的生成方法、装置、计算机设备和存储介质 | |
CN115311042A (zh) | 商品推荐方法、装置、计算机设备和存储介质 | |
CN110598090B (zh) | 兴趣标签的生成方法、装置、计算机设备和存储介质 | |
CN112417315A (zh) | 基于网站注册的用户画像生成方法、装置、设备和介质 | |
CN112508638B (zh) | 数据处理的方法、装置及计算机设备 | |
CN110991538B (zh) | 样本分类方法、装置、存储介质和计算机设备 | |
WO2020253369A1 (zh) | 生成兴趣标签的方法、装置、计算机设备和存储介质 | |
CN112288279A (zh) | 基于自然语言处理和线性回归的业务风险评估方法和装置 | |
CN112685639A (zh) | 活动推荐方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |