CN111382343A - 一种标签体系生成方法及装置 - Google Patents
一种标签体系生成方法及装置 Download PDFInfo
- Publication number
- CN111382343A CN111382343A CN201811613677.7A CN201811613677A CN111382343A CN 111382343 A CN111382343 A CN 111382343A CN 201811613677 A CN201811613677 A CN 201811613677A CN 111382343 A CN111382343 A CN 111382343A
- Authority
- CN
- China
- Prior art keywords
- data
- dimension
- subdata
- target object
- common attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012216 screening Methods 0.000 claims abstract description 22
- 238000007619 statistical method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 230000006399 behavior Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011840 criminal investigation Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种标签体系生成方法及装置,其中方法包括:对第一业务数据划分得到多个共有属性对应的多个第一子数据,从多个第一子数据中分别筛选出目标对象对应的多个第二子数据;针对任一第二子数据,确定第二子数据包括的至少一个维度,并对任一维度对应的数据进行分析,确定该维度对应的标签,进而根据多个共有属性和多个维度对应的标签,生成目标对象的标签体系。本发明实施例针对于目标对象的数据,从多个共有属性和多个共有属性包括的至少一个维度进行分析,能够生成比较准确的标签体系,且无需采用分析人员进行分析和核实的工作,从而可以提高生成标签体系的效率,降低人力成本。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种标签体系生成方法及装置。
背景技术
随着网络技术的发展,越来越多的网络数据(比如,业务数据)产生。以业务数据为例,通常来说,业务数据中可能会包含有多种类型的、多个用户的业务子数据,从而使得基于业务数据的分析和预测变得复杂。在一种可能的实现方式中,可以对海量数据进行分析,从中筛选出海量数据包括的多个类型的关键信息,并可以为每一类型的关键信息分配对应的标签,生成标签体系;相应地,用户可以根据需要搜索与标签相关的内容(比如,关键字),从而标签体系可以根据用户的搜索推送相关的信息。因此,如何生成准确的标签体系,对于提高用户的体验是非常重要的。
现阶段,最常用的生成标签体系的方法为:分析人员预先对海量数据进行分类,得到多个类型的数据,并可以采用多种方式(比如实地走访、网络获取等)对多个类型的数据之间的关系进行核实,进而对多个类型的数据分别进行打标,得到标签体系。采用该种方法,需要分析人员完成数据分类和核实等工作,使得生成标签体系的工作量较大,需要耗费较高的人力成本,效率较低;且通过该方法生成的标签体系包括的标签数量较少,标签之间的关系较为简单。
综上,目前亟需一种标签体系生成方法,用以提高生成标签体系的效率,降低人力成本。
发明内容
本发明实施例提供一种标签体系生成方法及装置,用以提高生成标签体系的效率,降低人力成本。
本发明实施例提供的一种标签体系生成方法,该方法包括:
获取第一业务数据,确定所述第一业务数据包括的多个共有属性,并将所述第一业务数据划分为所述多个共有属性分别对应的多个第一子数据,所述多个共有属性中的任一共有属性对应的第一子数据具有相同的属性信息;
根据目标对象的标识,从所述多个第一子数据中分别筛选出所述目标对象对应的多个第二子数据,针对所述多个第二子数据中的任一第二子数据,确定所述第二子数据包括的至少一个维度,所述至少一个维度中的任一维度用于指示所述目标对象的同一事实信息或者同一行为信息;
针对所述至少一个维度中的任一维度,对所述维度对应的数据进行分析,并根据预设规则确定所述维度对应的标签;
根据所述多个共有属性和所述多个维度对应的标签,生成所述目标对象的标签体系。
可选地,所述多个共有属性包括第一类型共有属性,所述第一类型共有属性包括至少一个固定属性;所述根据预设规则确定所述维度对应的标签,包括:
根据时间限定特征对所述维度对应的数据进行筛选,得到所述维度对应的待打标数据,对所述待打标数据进行统计分析,得到所述维度对应的标签。
可选地,所述多个共有属性包括第二类型共有属性,所述第二类型共有属性包括至少一个非固定属性;所述根据预设规则确定所述维度对应的标签,包括:
获取预设周期内所述维度对应的数据,并根据数据连贯特征对所述数据进行筛选,得到所述维度对应的待打标数据;
对所述待打标数据进行统计分析得到所述目标对象的行为标签和所述行为标签对应的频率,若所述行为标签的频率大于或等于预设阈值,则确定所述行为标签为所述维度对应的标签。
可选地,所述生成所述目标对象的标签体系,包括:
针对于所述多个共有属性中的任一共有属性,将所述共有属性包括的多个维度对应的标签进行组合;所述组合包括以下任意一项或任意组合:对至少两个维度对应的标签取并集、对至少两个维度对应的标签取与集、从一个或多个维度对应的标签中减去一个或多个维度对应的标签、对任一维度对应的标签设置权重。
可选地,所述生成所述目标对象的标签体系后,还包括:
获取第二业务数据,将所述第二业务数据划分为所述多个共有属性分别对应的多个第三子数据,从所述多个第三子数据中分别筛选出所述目标对象对应的多个第四子数据;
使用所述多个第四子数据对所述标签体系更新。
本发明实施例提供一种标签体系生成装置,该装置包括:
处理模块,用于获取第一业务数据,确定所述第一业务数据包括的多个共有属性,并将所述第一业务数据划分为所述多个共有属性分别对应的多个第一子数据,所述多个共有属性中的任一共有属性对应的第一子数据具有相同的属性信息;
根据目标对象的标识,从所述多个第一子数据中分别筛选出所述目标对象对应的多个第二子数据,针对所述多个第二子数据中的任一第二子数据,确定所述第二子数据包括的至少一个维度,所述至少一个维度中的任一维度用于指示所述目标对象的同一事实信息或者同一行为信息;
确定模块,用于针对所述至少一个维度中的任一维度,对所述维度对应的数据进行分析,并根据预设规则确定所述维度对应的标签;
生成模块,用于根据所述多个共有属性和所述多个维度对应的标签,生成所述目标对象的标签体系。
可选地,所述多个共有属性包括第一类型共有属性,所述第一类型共有属性包括至少一个固定属性;所述确定模块具体用于:
根据时间限定特征对所述维度对应的数据进行筛选,得到所述维度对应的待打标数据,对所述待打标数据进行统计分析,得到所述维度对应的标签。
可选地,所述多个共有属性包括第二类型共有属性,所述第二类型共有属性包括至少一个非固定属性;所述确定模块用于:
获取预设周期内所述维度对应的数据,并根据数据连贯特征对所述数据进行筛选,得到所述维度对应的待打标数据;
对所述待打标数据进行统计分析得到所述目标对象的行为标签和所述行为标签对应的频率,若所述行为标签的频率大于或等于预设阈值,则确定所述行为标签为所述维度对应的标签。
可选地,所述生成模块用于:针对于所述多个共有属性中的任一共有属性,将所述共有属性包括的多个维度对应的标签进行组合;所述组合包括以下任意一项或任意组合:对至少两个维度对应的标签取并集、对至少两个维度对应的标签取与集、从一个或多个维度对应的标签中减去一个或多个维度对应的标签、对任一维度对应的标签设置权重。
可选地,所述装置还包括更新模块,所述更新模块用于:
获取第二业务数据,将所述第二业务数据划分为所述多个共有属性分别对应的多个第三子数据,从所述多个第三子数据中分别筛选出所述目标对象对应的多个第四子数据;
使用所述多个第四子数据对所述标签体系更新。
本发明的上述实施例中,通过确定第一业务数据包括的多个共有属性,可以将第一业务数据划分为多个共有属性分别对应的多个第一子数据,并可以从多个第一子数据中分别筛选出目标对象对应的多个第二子数据;针对多个第二子数据中的任一第二子数据,可以确定第二子数据包括的至少一个维度,且可以对至少一个维度中的任一维度对应的数据进行分析,确定该维度对应的标签,进而根据多个共有属性和多个维度对应的标签,生成目标对象的标签体系。本发明实施例针对于目标对象的数据,从多个共有属性和多个共有属性包括的至少一个维度进行分析,能够生成比较准确的标签体系,且无需采用分析人员进行分析和核实的工作,从而可以提高生成标签体系的效率,降低人力成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种标签体系示意图;
图2为本发明实施例中标签体系生成方法对应的流程示意图;
图3为本发明实施例提供的一种标签体系生成装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种标签体系示意图,该标签体系可以为用户A的标签体系,又可以称为用户A的画像。如图1所示,用户A的标签体系可以包括用户A的至少一个标签,比如图1所示意出的标签101~标签106。
本发明实施例中,至少一个标签中可以包括多种类型的标签,比如可以包括固有属性标签和可变属性标签。具体地说,固有属性标签可以用于标识固有属性信息,即固有属性标签不会随着时间的变化而变化,比如性别标签、身份证号标签等;可变属性标签可以用于指示其他属性信息,即可变属性标签可以随着时间的变化而变化,比如爱好标签、年龄标签、消费标签等。
在一个示例中,如图1所示,标签101~标签105为可变属性标签,标签106为固定属性标签,标签101可以为性格标签,用于指示用户A为性格敏感型的用户;标签102、标签104可以为爱好标签,用于指示用户A为喜欢数码设备并喜欢爬山的用户;标签103可以为年龄标签,用于指示用户A为年龄30岁~45岁的用户;标签105可以为消费标签,用于指示用户A的购买周期为2天;标签106可以为性别标签,用于指示用户A为女性。
需要说明的是,图1仅示意出了本发明实施例提供的一种标签体系的标签分类方法,在其他可能的实施例中,标签体系还可以具有其他的标签分类方法,比如,可以将用户的标识属性信息(比如年龄、性别、身份证号等)划分为标识属性标签,或者可以将用户的行为属性信息划分为轨迹属性标签,具体不做限定。
图2为本发明实施例提供的一种标签体系生成方法及装置,如图2所示,该方法包括:
步骤201,获取第一业务数据,确定第一业务数据包括的多个共有属性,并将第一业务数据划分为多个共有属性分别对应的多个第一子数据。
此处,可以预先设置业务数据库,该业务数据库中可以包括多个行业的数据资源,比如,可以包括公安***的刑侦数据、商场运营***的客户数据、政府机关的身份数据等。具体地说,公安***的刑侦数据可以包括嫌疑人的相貌特征、性格特征、行为特征等,商场运营***的客户数据可以包括客户的爱好特征、消费特征等,政府机关的数据可以包括全国的人口信息,比如身份证号、性别、姓名、家庭住址等。相应地,第一业务数据可以为业务数据库中包括的多个行业的数据资源,或者也可以为业务数据库中与待生成的标签***相关的数据资源,具体不作限定。
在一种可能的实现方式中,可以在获取到第一业务数据后,提取第一业务数据中包括的多个数据元信息,并对具有相同数据元信息的数据资源进行共有属性定义。具体实施中,多个共有属性可以通过具有相同内容的数据源信息进行确定,或者也可以通过具有共同属性类别的数据源信息进行确定。在一个示例中,商场运营***的客户数据中可能将用户的姓名称为潜在客户名字,而政府机关的人口信息中可能将用户的姓名称为常驻居民姓名,用户A记录在商场运营***的客户数据中的信息与用户登记在政府机关的人口信息中的信息实质上是相同的;也就是说,商场运营***的客户数据中的潜在客户名字和政府机关的人口信息中的常驻居民姓名(或者也可以为其他的,此处仅为示例)属于共有属性定义,因此可以将该两方面的信息划归为一类共有属性信息。在另一个示例中,用户的姓名、性别、年龄、身份证号等,均可以作为标识该用户身份的信息,因此,可以将这些信息划归为一类共有属性信息。
本发明实施例中,多个共有属性可以包括第一类型共有属性和第二类型共有属性。其中,第一类型共有属性可以包括至少一个固定属性,比如与用户身份相关的信息;第二类型共有属性可以包括至少一个非固定属性,比如用户的爱好、用户的行为信息、用户的消费能力、用户的人际关系等。
进一步地,确定多个共有属性后,可以将第一业务数据划分为多个共有属性分别对应的多个第一子数据,多个共有属性中的任一共有属性对应的第一子数据可以具有相同的属性信息。其中,多个共有属性中的任一共有属性对应的第一子数据中可以包括多个行业中的一个或多个行业的数据资源。
本发明实施例中,通过确定第一业务数据包括的多个共有属性,并将第一业务数据划分为多个共有属性分别对应的多个第一子数据,可以对具有相同属性信息的数据进行分析,从而能够得到比较准确的统计规律,使得计算得到的多个标签具有更强的联系、生成的标签体系更加完整。
步骤202,根据目标对象的标识,从多个第一子数据中分别筛选出目标对象对应的多个第二子数据,针对多个第二子数据中的任一第二子数据,确定第二子数据包括的至少一个维度。
本发明实施例中,多个第一子数据中可以包括多个对象的数据,此处,对象可以是指一个用户,或者也可以是指具有某些联系的多个用户,或者还可以是指一个或多个属性信息,具体不作限定。举个例子,若对象为用户A,则多个第一子数据中可以包括用户A的信息,比如身份信息、轨迹信息等;若对象为字符串属性,则多个第一子数据中可以包括与字符串相关的信息,比如姓名、身份证号、性别等。在其它可能的示例中,对象还可以是指其他的信息,具体不作限定。
具体实施中,针对于多个第一子数据的每一个第一子数据,在获取到目标对象的标识后,可以从该第一子数据中筛选出与目标对象的标识相关的信息,作为第二子数据。比如,若待达标对象的标识为“用户A”,则可以将多个第一子数据中包括的与用户A相关的信息筛选出来,得到多个第二子数据。
进一步地,针对多个第二子数据中的任一第二子数据,可以确定该第二子数据包括的至少一个维度。在一个示例中,第二子数据为第一类型属性对应的子数据,此时,至少一个维度中的任一维度可以用于指示目标对象的同一事实信息,比如,第二子数据包括的维度可以有姓名维度、身份证号维度、性别维度。在另一个示例中,第二子数据为第二类型属性对应的子数据,此时,至少一个维度中的任一维度可以用于指示目标对象的同一行为信息,比如,第二子数据包括的维度可以有电话号码名维度、家庭住址维度、消费维度、常去地点维度等。
本发明实施例采用面向对象的方法生成标签体系,可以使得数据更加有针对性,从而可以提高标签体系生成的效率,使得生成的标签体系更为精确,更加具有规律性和可比性。
步骤203,针对至少一个维度中的任一维度,对维度对应的数据进行分析,并根据预设规则确定维度对应的标签。
此处,预设规则可以由本领域技术人员根据经验进行设置,或者也可以通过实验确定,多个维度可以采用相同的预设规则,可以也可以采用不同的预设规则,具体不作限定。
本发明实施例中,维度对应的标签的确定方式可以有多种,在一种可能的实现方式中,可以根据维度所属的第二子数据的共有属性类型确定维度对应的标签。具体地,若维度所属的第二子数据的属性类型为第一类型属性,则可以通过分析维度包括的内容,直接对目标对象打标。举个例子,某一维度所包括的内容为“用户A的姓名为张三”,则可以确定目标对象为用户A,该维度为姓名维度,所属的第二子数据的属性类型为第一类型属性,因此,可以直接将“张三”标签确定为用户A的姓名维度对应的标签,并可以直接对用户A的姓名维度进行打标。
相应地,若维度所属的第二子数据的属性类型为第二类型属性,则可以获取预设周期内该维度对应的数据,并根据数据连贯特征对数据进行筛选,得到该维度对应的待打标数据;进而对待打标数据进行统计分析得到目标对象的行为标签和行为标签对应的频率,若行为标签的频率大于或等于预设阈值,则确定行为标签为维度对应的标签。在一个示例中,某一维度所包括的内容如表1所示,由表1可知,可以确定目标对象为用户A,该维度为轨迹维度,所属的第二子数据的属性类型为第二类型属性,该维度包括的内容为用户A在11月10日至12月10日的一个月内的轨迹信息。
用户 | 起点 | 终点 | 时间 |
A | B | C | 11.10 |
A | B | C | 11.12 |
A | B | D | 11.25 |
A | D | C | 11.30 |
A | B | C | 12.04 |
A | B | C | 12.10 |
根据表1中包括的内容,通过统计分析可知,用户A在一个月内从位置B运动至位置C的次数为5次,从位置B运动至位置D的次数为1次,从位置D运动至位置C的次数为1次。在一个示例中,若预设阈值为3,则用户A从位置B运动至位置C的次数大于预设阈值,而从位置B运动至位置D的次数小于预设阈值,且从位置D运动至位置C的次数小于预设阈值,因此,可以将轨迹“B-C”确定为用户A的轨迹维度对应的标签,并可以对用户A的轨迹标签进行打标。
本发明实施例中,通过采用不同的规则确定至少一个维度中的任一维度对应的标签,可以使得对不同维度包括的数据进行分析得到的标签更加复符合要求,并使得标签体系的生成过程更加灵活。
步骤204,根据多个共有属性和多个维度对应的标签,生成目标对象的标签体系。
本发明实施例中,标签体系的生成方式可以有多种,在一种可能的实现方式中,可以针对于多个共有属性中的任一共有属性,将共有属性包括的多个维度对应的标签进行组合,得到目标对象的标签体系。具体地说,组合的方式可以为以下任意一项或任意组合:对至少两个维度对应的标签取并集、对至少两个维度对应的标签取与集、从一个或多个维度对应的标签中减去一个或多个维度对应的标签、对任一维度对应的标签设置权重。在一个示例中,维度1对应的标签为“30~45岁”,维度2对应的标签为“女性”,维度3对应的标签为“35~50岁”,此时,可以将维度1和维度3取并集得到标签“35~45岁”,将维度1和维度2取与集得到“30~45岁的女性”。在又一个示例中,维度4设置的权重为“0”,维度5设置的权重为“1”,则维度4可以为公用标签,即所有人均可以看到的标签,比如,公安***已确定的罪犯;维度5可以为个人标签,即仅由设定的一部分人可以看到的标签,比如,公安***认定的嫌疑犯。
在一种可能的实现方式中,还可以对目标对象的标签体系进行更新,具体的更新方式可以为:获取第二业务数据,将第二业务数据划分为多个共有属性分别对应的多个第三子数据,从多个第三子数据中分别筛选出目标对象对应的多个第四子数据。进一步地,可以根据已生成的目标对象的标签体系,获取已打标签对应的多个子数据,将多个第四子数据和已打标签对应的多个子数据结合,并使用结合后的多个子数据重新生成目标对象的标签体系。
本发明实施例中仅描述了针对一个目标对象生成标签体系的实现方式,具体实施中,其它目标对象的标签体系的生成过程可以参照本发明实施例中的方法进行实现,具体不作阐述。
在一个示例中,可以将包含多个对象的标签体系应用到各个行业,比如公安***、商场运营***、政府机关等,并可以采集该标签体系在使用过程中的应用效果和问题,一方面可以对应用效果进行分析,得到比较可靠的应用价值信息;另一方面可以随时根据应用效果进行完善,得到更为准确的标签体系。
本发明的上述实施例中,通过确定第一业务数据包括的多个共有属性,可以将第一业务数据划分为多个共有属性分别对应的多个第一子数据,并可以从多个第一子数据中分别筛选出目标对象对应的多个第二子数据;针对多个第二子数据中的任一第二子数据,可以确定第二子数据包括的至少一个维度,且可以对至少一个维度中的任一维度对应的数据进行分析,确定该维度对应的标签,进而根据多个共有属性和多个维度对应的标签,生成目标对象的标签体系。本发明实施例针对于目标对象的数据,从多个共有属性和多个共有属性包括的至少一个维度进行分析,能够生成比较准确的标签体系,且无需采用分析人员进行分析和核实的工作,从而可以提高生成标签体系的效率,降低人力成本。
针对上述方法流程,本发明实施例还提供一种标签体系生成装置,该装置的具体内容可以参照上述方法实施。
图3为本发明实施例提供的一种标签体系生成装置的结构示意图,该装置包括:
处理模块301,用于获取第一业务数据,确定所述第一业务数据包括的多个共有属性,并将所述第一业务数据划分为所述多个共有属性分别对应的多个第一子数据,所述多个共有属性中的任一共有属性对应的第一子数据具有相同的属性信息;
根据目标对象的标识,从所述多个第一子数据中分别筛选出所述目标对象对应的多个第二子数据,针对所述多个第二子数据中的任一第二子数据,确定所述第二子数据包括的至少一个维度,所述至少一个维度中的任一维度用于指示所述目标对象的同一事实信息或者同一行为信息;
确定模块302,用于针对所述至少一个维度中的任一维度,对所述维度对应的数据进行分析,并根据预设规则确定所述维度对应的标签;
生成模块303,用于根据所述多个共有属性和所述多个维度对应的标签,生成所述目标对象的标签体系。
可选地,所述多个共有属性包括第一类型共有属性,所述第一类型共有属性包括至少一个固定属性。
可选地,所述多个共有属性包括第二类型共有属性,所述第二类型共有属性包括至少一个非固定属性;所述确定模块302用于:
获取预设周期内所述维度对应的数据,并根据数据连贯特征对所述数据进行筛选,得到所述维度对应的待打标数据;
对所述待打标数据进行统计分析得到所述目标对象的行为标签和所述行为标签对应的频率,若所述行为标签的频率大于或等于预设阈值,则确定所述行为标签为所述维度对应的标签。
可选地,所述生成模块303用于:针对于所述多个共有属性中的任一共有属性,将所述共有属性包括的多个维度对应的标签进行组合;所述组合包括以下任意一项或任意组合:对至少两个维度对应的标签取并集、对至少两个维度对应的标签取与集、从一个或多个维度对应的标签中减去一个或多个维度对应的标签、对任一维度对应的标签设置权重。
可选地,所述装置还包括更新模块304,所述更新模块304用于:
获取第二业务数据,将所述第二业务数据划分为所述多个共有属性分别对应的多个第三子数据,从所述多个第三子数据中分别筛选出所述目标对象对应的多个第四子数据;
使用所述多个第四子数据对所述标签体系更新。
从上述内容可以看出:本发明的上述实施例中,通过确定第一业务数据包括的多个共有属性,可以将第一业务数据划分为多个共有属性分别对应的多个第一子数据,并可以从多个第一子数据中分别筛选出目标对象对应的多个第二子数据;针对多个第二子数据中的任一第二子数据,可以确定第二子数据包括的至少一个维度,且可以对至少一个维度中的任一维度对应的数据进行分析,确定该维度对应的标签,进而根据多个共有属性和多个维度对应的标签,生成目标对象的标签体系。本发明实施例针对于目标对象的数据,从多个共有属性和多个共有属性包括的至少一个维度进行分析,能够生成比较准确的标签体系,且无需采用分析人员进行分析和核实的工作,从而可以提高生成标签体系的效率,降低人力成本。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种标签体系生成方法,其特征在于,所述方法包括:
获取第一业务数据,确定所述第一业务数据包括的多个共有属性,并将所述第一业务数据划分为所述多个共有属性分别对应的多个第一子数据,所述多个共有属性中的任一共有属性对应的第一子数据具有相同的属性信息;
根据目标对象的标识,从所述多个第一子数据中分别筛选出所述目标对象对应的多个第二子数据,针对所述多个第二子数据中的任一第二子数据,确定所述第二子数据包括的至少一个维度,所述至少一个维度中的任一维度用于指示所述目标对象的同一事实信息或者同一行为信息;
针对所述至少一个维度中的任一维度,对所述维度对应的数据进行分析,并根据预设规则确定所述维度对应的标签;
根据所述多个共有属性和所述多个维度对应的标签,生成所述目标对象的标签体系。
2.根据权利要求1所述的方法,其特征在于,所述多个共有属性包括第一类型共有属性,所述第一类型共有属性包括至少一个固定属性;所述根据预设规则确定所述维度对应的标签,包括:
根据时间限定特征对所述维度对应的数据进行筛选,得到所述维度对应的待打标数据,对所述待打标数据进行统计分析,得到所述维度对应的标签。
3.根据权利要求1所述的方法,其特征在于,所述多个共有属性包括第二类型共有属性,所述第二类型共有属性包括至少一个非固定属性;所述根据预设规则确定所述维度对应的标签,包括:
获取预设周期内所述维度对应的数据,并根据数据连贯特征对所述数据进行筛选,得到所述维度对应的待打标数据;
对所述待打标数据进行统计分析得到所述目标对象的行为标签和所述行为标签对应的频率,若所述行为标签的频率大于或等于预设阈值,则确定所述行为标签为所述维度对应的标签。
4.根据权利要求1所述的方法,其特征在于,所述生成所述目标对象的标签体系,包括:
针对于所述多个共有属性中的任一共有属性,将所述共有属性包括的多个维度对应的标签进行组合;所述组合包括以下任意一项或任意组合:对至少两个维度对应的标签取并集、对至少两个维度对应的标签取与集、从一个或多个维度对应的标签中减去一个或多个维度对应的标签、对任一维度对应的标签设置权重。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述生成所述目标对象的标签体系后,还包括:
获取第二业务数据,将所述第二业务数据划分为所述多个共有属性分别对应的多个第三子数据,从所述多个第三子数据中分别筛选出所述目标对象对应的多个第四子数据;
使用所述多个第四子数据对所述标签体系更新。
6.一种标签体系生成装置,其特征在于,所述装置包括:
处理模块,用于获取第一业务数据,确定所述第一业务数据包括的多个共有属性,并将所述第一业务数据划分为所述多个共有属性分别对应的多个第一子数据,所述多个共有属性中的任一共有属性对应的第一子数据具有相同的属性信息;以及,根据目标对象的标识,从所述多个第一子数据中分别筛选出所述目标对象对应的多个第二子数据,针对所述多个第二子数据中的任一第二子数据,确定所述第二子数据包括的至少一个维度,所述至少一个维度中的任一维度用于指示所述目标对象的同一事实信息或者同一行为信息;
确定模块,用于针对所述至少一个维度中的任一维度,对所述维度对应的数据进行分析,并根据预设规则确定所述维度对应的标签;
生成模块,用于根据所述多个共有属性和所述多个维度对应的标签,生成所述目标对象的标签体系。
7.根据权利要求6所述的装置,其特征在于,所述多个共有属性包括第一类型共有属性,所述第一类型共有属性包括至少一个固定属性;所述确定模块具体用于:
根据时间限定特征对所述维度对应的数据进行筛选,得到所述维度对应的待打标数据,对所述待打标数据进行统计分析,得到所述维度对应的标签。
8.根据权利要求6所述的装置,其特征在于,所述多个共有属性包括第二类型共有属性,所述第二类型共有属性包括至少一个非固定属性;所述确定模块具体用于:
获取预设周期内所述维度对应的数据,并根据数据连贯特征对所述数据进行筛选,得到所述维度对应的待打标数据;
对所述待打标数据进行统计分析得到所述目标对象的行为标签和所述行为标签对应的频率,若所述行为标签的频率大于或等于预设阈值,则确定所述行为标签为所述维度对应的标签。
9.根据权利要求6所述的装置,其特征在于,所述生成模块具体用于:
针对于所述多个共有属性中的任一共有属性,将所述共有属性包括的多个维度对应的标签进行组合;所述组合包括以下任意一项或任意组合:对至少两个维度对应的标签取并集、对至少两个维度对应的标签取与集、从一个或多个维度对应的标签中减去一个或多个维度对应的标签、对任一维度对应的标签设置权重。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述装置还包括更新模块,所述更新模块用于:
获取第二业务数据,将所述第二业务数据划分为所述多个共有属性分别对应的多个第三子数据,从所述多个第三子数据中分别筛选出所述目标对象对应的多个第四子数据;
使用所述多个第四子数据对所述标签体系更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811613677.7A CN111382343B (zh) | 2018-12-27 | 2018-12-27 | 一种标签体系生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811613677.7A CN111382343B (zh) | 2018-12-27 | 2018-12-27 | 一种标签体系生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382343A true CN111382343A (zh) | 2020-07-07 |
CN111382343B CN111382343B (zh) | 2023-11-28 |
Family
ID=71220975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811613677.7A Active CN111382343B (zh) | 2018-12-27 | 2018-12-27 | 一种标签体系生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382343B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510324A (zh) * | 2022-09-29 | 2022-12-23 | 中电金信软件有限公司 | 一种标签体系的确定方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893407A (zh) * | 2015-11-12 | 2016-08-24 | 乐视云计算有限公司 | 个体用户画像方法和*** |
CN106503015A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的方法 |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的*** |
CN107526741A (zh) * | 2016-06-21 | 2017-12-29 | 华为软件技术有限公司 | 用户标签生成方法及装置 |
CN107633416A (zh) * | 2016-07-18 | 2018-01-26 | 阿里巴巴集团控股有限公司 | 一种业务对象的推荐方法、装置和*** |
CN108021700A (zh) * | 2017-12-25 | 2018-05-11 | 暴风集团股份有限公司 | 一种用户标签生成方法、装置及服务器 |
WO2018099275A1 (zh) * | 2016-11-29 | 2018-06-07 | 阿里巴巴集团控股有限公司 | 一种业务对象属性标识的生成方法、装置和*** |
CN108334625A (zh) * | 2018-02-09 | 2018-07-27 | 深圳壹账通智能科技有限公司 | 用户信息的处理方法、装置、计算机设备和存储介质 |
CN108628866A (zh) * | 2017-03-20 | 2018-10-09 | 大有秦鼎(北京)科技有限公司 | 数据融合的方法和装置 |
-
2018
- 2018-12-27 CN CN201811613677.7A patent/CN111382343B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503015A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的方法 |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的*** |
CN105893407A (zh) * | 2015-11-12 | 2016-08-24 | 乐视云计算有限公司 | 个体用户画像方法和*** |
CN107526741A (zh) * | 2016-06-21 | 2017-12-29 | 华为软件技术有限公司 | 用户标签生成方法及装置 |
CN107633416A (zh) * | 2016-07-18 | 2018-01-26 | 阿里巴巴集团控股有限公司 | 一种业务对象的推荐方法、装置和*** |
WO2018099275A1 (zh) * | 2016-11-29 | 2018-06-07 | 阿里巴巴集团控股有限公司 | 一种业务对象属性标识的生成方法、装置和*** |
CN108628866A (zh) * | 2017-03-20 | 2018-10-09 | 大有秦鼎(北京)科技有限公司 | 数据融合的方法和装置 |
CN108021700A (zh) * | 2017-12-25 | 2018-05-11 | 暴风集团股份有限公司 | 一种用户标签生成方法、装置及服务器 |
CN108334625A (zh) * | 2018-02-09 | 2018-07-27 | 深圳壹账通智能科技有限公司 | 用户信息的处理方法、装置、计算机设备和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510324A (zh) * | 2022-09-29 | 2022-12-23 | 中电金信软件有限公司 | 一种标签体系的确定方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111382343B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20160379268A1 (en) | User behavior data analysis method and device | |
Pereira et al. | Why so many people? explaining nonhabitual transport overcrowding with internet data | |
US9183293B2 (en) | Systems and methods for scalable topic detection in social media | |
CN110472154B (zh) | 一种资源推送方法、装置、电子设备及可读存储介质 | |
CN115002200B (zh) | 基于用户画像的消息推送方法、装置、设备及存储介质 | |
CN107818334A (zh) | 一种移动互联网用户访问模式表征和聚类方法 | |
US11562262B2 (en) | Model variable candidate generation device and method | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN112269805A (zh) | 数据处理方法、装置、设备及介质 | |
CN108153824A (zh) | 目标用户群体的确定方法及装置 | |
CN110727857A (zh) | 针对业务对象识别***的关键特征的方法及装置 | |
JP2021500659A (ja) | 自動化されたアトリビューションモデリングおよび測定 | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN110705998A (zh) | 基于区块链的信息审核方法及装置、电子设备、存储介质 | |
CN113222653A (zh) | 一种程序化广告用户受众扩展方法、***、设备及存储介质 | |
CN110675179A (zh) | 营销信息处理方法、装置、电子设备及可读存储介质 | |
CN111382343B (zh) | 一种标签体系生成方法及装置 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN109241395B (zh) | 一种基于关键词解析的试题网络排重检索办法 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN111222923A (zh) | 一种判断潜在客户的方法及装置、电子设备和存储介质 | |
CN112328779B (zh) | 训练样本构建方法、装置、终端设备及存储介质 | |
Sangaralingam et al. | Predicting age & gender of mobile users at scale-a distributed machine learning approach | |
CN109919811B (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 | |
CN113065892A (zh) | 一种信息推送方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |