CN106204083B - 一种目标用户分类方法、装置及*** - Google Patents

一种目标用户分类方法、装置及*** Download PDF

Info

Publication number
CN106204083B
CN106204083B CN201510219456.1A CN201510219456A CN106204083B CN 106204083 B CN106204083 B CN 106204083B CN 201510219456 A CN201510219456 A CN 201510219456A CN 106204083 B CN106204083 B CN 106204083B
Authority
CN
China
Prior art keywords
user
category
probability
classified
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510219456.1A
Other languages
English (en)
Other versions
CN106204083A (zh
Inventor
王晓磊
王新印
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Shandong Co Ltd
Original Assignee
China Mobile Group Shandong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Shandong Co Ltd filed Critical China Mobile Group Shandong Co Ltd
Priority to CN201510219456.1A priority Critical patent/CN106204083B/zh
Publication of CN106204083A publication Critical patent/CN106204083A/zh
Application granted granted Critical
Publication of CN106204083B publication Critical patent/CN106204083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种目标用户分类方法、装置及***,包括:确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的概率,该每个用户类别下特征属性组的概率为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值,各特征属性组之间相互独立;采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。采用本发明实施例的方案,提高了目标用户分类的准确性。

Description

一种目标用户分类方法、装置及***
技术领域
本发明涉及信息技术领域,尤其涉及一种目标用户分类方法、装置及***。
背景技术
数据挖掘技术近几年得到了广泛应用,分类是数据挖掘技术的主要内容之一,随着相关算法的不断完善,分类算法已经应用在各个领域。银行、运营商、超市等服务行业在进行新产品或相关活动的推介时,会对不同的用户进行针对性的宣传,准确的目标用户是准确营销的基础,只有确定消费群体中的某类目标用户,才能展开有效的具有针对性的营销事务。因此,如何对目标用户进行有效的分类成为各行业关注的重点。
现有的对目标用户进行分类的分类方法主要采用决策树方法和贝叶斯方法。其中,由于贝叶斯方法是无环图和概率理论的有机结合,具有坚实的概率理论基础而被广泛应用。对所有的用户数据来说,特征属性表征了用户的相关信息,以移动电话用户为例:用户的性别、年龄、网龄、月均流量、流量套餐价值、通话次数、通话费等都是特征属性。而向用户推送产品等服务时,会根据不同类别的用户进行推送,例如:可以将年龄大于30岁的用户作为第一目标用户类别,年龄不大于30岁的用户作为第二目标用户类别。在对目标用户进行分类时,首先确定每个类别在数据样本中出现的概率,以及每个特征属性对每个类别的条件概率估计即先验概率,通过贝叶斯算法,使用已确定的条件概率估计,计算待分类目标用户在每个类别的后验概率,将最大后验概率对应的类别作为待分类目标用户的类别。
上述对目标用户分类使用的贝叶斯方法需要假设各个特征属性是相互独立,但实际上用户数据的特征属性之间是具有一定的相关性的,因此这种独立性的假设使得目标用户分类不准确。
发明内容
本发明实施例提供一种目标用户分类方法、装置及***,用以解决现有技术中存在的目标用户分类准确性低的问题。
本发明实施例提供一种目标用户分类方法,包括:
确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的条件概率估计,所述用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,所述每个用户类别下特征属性组的条件概率估计为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值;所述特征属性组包括所述训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,所述特征属性表征训练样本数据的特点;
采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;
将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。
通过本发明实施例提供的上述方法,将具有相关性的特征属性组成特征属性组,且特征属性组之间相互独立,符合使用贝叶斯方法的各参量相互独立的假设条件,因此对目标用户分类时,提高了目标用户分类的准确性。
进一步的,所述待分类目标用户在每个类别的后验概率采用如下公式确定:
Figure BDA0000709384440000021
其中,Ci为第i个用户类别,1≤i≤m,m为用户类别的总数量,P(Xkj|Ci)表示第k个特征属性组的各特征属性在预设条件j时,在用户类别Ci下第k个特征属性组的条件概率估计,n为特征属性组的数量,r为预设条件的个数,P(Ci)表示用户类别Ci出现的概率,P(X|Ci)表示待分类目标用户X在用户类别Ci的后验概率。
进一步的,上述方法,还包括:
在将后验概率最大对应的类别确定为所述待分类目标用户的类别之前,将确定的最大的后验概率与预设的风险控制系数进行比较,并确定所述最大的后验概率大于预设的风险控制系数。
进一步的,上述方法,还包括:
当确定所述最大的后验概率不大于预设的风险控制系数时,舍弃对所述待分类目标用户的分类判定。
这样,将最大的后验概率不大于预设的风险控制系数的待分类目标用户舍弃,降低了营销风险,可以提高营销成功率。
本发明实施例还提供了一种目标用户分类装置,包括:
第一确定单元,用于确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的条件概率估计,所述用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,所述每个用户类别下特征属性组的条件概率估计为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值;所述特征属性组包括所述训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,所述特征属性表征训练样本数据的特点;
第二确定单元,用于采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;
第三确定单元,用于将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。
通过本发明实施例提供的上述装置,将具有相关性的特征属性组成特征属性组,且特征属性组之间相互独立,符合使用贝叶斯方法的各参量相互独立的假设条件,因此对目标用户分类时,提高了目标用户分类的准确性。
进一步的,所述第二确定单元,具体用于采用如下公式确定所述待分类目标用户在每个类别的后验概率:
Figure BDA0000709384440000041
其中,Ci为第i个用户类别,1≤i≤m,m为用户类别的总数量,P(Xkj|Ci)表示第k个特征属性组的各特征属性在预设条件j时,在用户类别Ci下第k个特征属性组的条件概率估计,n为特征属性组的数量,r为预设条件的个数,P(Ci)表示用户类别Ci出现的概率,P(X|Ci)表示待分类目标用户X在用户类别Ci的后验概率。
进一步的,上述装置,还包括:
比较单元,用于在将后验概率最大对应的类别确定为所述待分类目标用户的类别之前,将确定的最大的后验概率与预设的风险控制系数进行比较,并确定所述最大的后验概率大于预设的风险控制系数。
进一步的,上述装置,还包括:
舍弃单元,用于当确定所述最大的后验概率不大于预设的风险控制系数时,舍弃对所述待分类目标用户的分类判定。
这样,将最大的后验概率不大于预设的风险控制系数的待分类目标用户舍弃,降低了营销风险,可以提高营销成功率。
本发明实施例还提供了一种目标用户分类***,包括:
如上述实施例提供的目标用户分类装置。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的目标用户分类方法的流程图;
图2为本发明实施例1提供的目标用户分类方法的流程图;
图3为本发明实施例2提供的目标用户分类装置的结构示意图。
具体实施方式
为了给出提高目标用户分类准确性的实现方案,本发明实施例提供了一种目标用户分类方法、装置及***,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例提供一种目标用户分类方法,如图1所示,包括:
步骤101、确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的概率,该用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,该每个用户类别下特征属性组的概率为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值,该特征属性组包括训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,该特征属性表征训练样本数据的特点。
步骤102、采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的概率,确定待分类目标用户在每个类别的后验概率。
步骤103、将后验概率最大对应的类别确定为该待分类目标用户的用户类别。
本发明实施例中,目标用户的分类方法可以应用在各商家或企业的精确营销服务中,对于一种营销服务,训练样本可以为对该营销服务下的前期已使用过该服务的各用户的基础数据,通过随机抽样的方式获取得到。在该营销服务下,一个用户数据即为一个实例。其中,特征属性表征训练样本的特点,以移动服务为例,训练样本包括前期用户分别使用移动服务的各种数据,特征属性可以包括:用户性别、年龄、网龄、月均流量、流量套餐价值、通话次数、通话费等。
对于一种营销服务的训练样本中所有的特征属性,提取具有相关性的特征属性,将具有相关性的特征属性构成特征属性组,特征属性组之间相互独立。具体的,特征属性组的数量可以根据不同的营销服务进行灵活设置。
其中,用户类别为预先设定的为用户推送具体产品的类型。
下面结合附图,用具体实施例对本发明提供的方法及装置和相应***进行详细描述。
实施例1:
图2为本发明实施例1提供的目标用户分类方法的流程图,具体包括如下处理步骤:
步骤201、构建特征属性组。
本实施例中,针对一种营销服务,将该营销服务下的前期已使用过该服务的各用户的基础数据作为原始样本数据,每个用户的基础数据为一条原始样本数据,随机抽取预设样本数量的原始样本数据作为训练样本。原始样本数据中包括各种特征属性,结合该营销服务的数据特点,在所有的特征属性中选择具有相关性的特征属性构成特征属性组。例如:以移动服务为例,可以将具有相关性的特征属性分为几个组,流量组(包含流量ARPU(Average Revenue Per-User,每用户平均收入)、月均流量、超套餐流量,流量套餐价值),终端组(包含终端制式,机龄),通话组(包含通话次数、通话费),用户费用组(用户月均费用)。上述这种方式是将所有具有相关性的特征属性分为一个特征属性组,进一步的,还可以从具有相关性的所有特征属性中选择部分特征属性作为特征属性组,例如:可以选择流量组(月均流量,流量ARPU),终端组((机龄),通话组(通话次数,通话费),用户费用组(用户月均费用)作为特征属性组。
假设s个特征属性分别为A1,A2,……As,用户类别的数量为m个,分别为C1,C2,……Cm,在训练样本据中,各个特征属性值分别为(X1,X2,……Xs),构建n个特征属性组分别为B1=(A1,A2,A3),B2=(A4,A6),B3=(A5)……Bn。下面以具体训练样本为例,假设将训练样本分为2个用户类别,C1为4G套餐用户,C2为非4G套餐用户,训练样本的数量为5万个用户,其中,5000个用户是4G套餐用户,45000个用户是非4G套餐用户。
步骤202、确定在该训练样本中各用户类别的概率。
本步骤中,用户类别C1出现的概率P(C1)=5000/50000=0.1,用户类别C2出现的概率P(C2)=45000/50000=0.9。
步骤203、确定在每个用户类别下各特征属性组的条件概率估计。
本步骤中,每个用户类别下各特征属性组的条件概率估计,为在每一个用户类别下的训练样本中,针对该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值。其中,特征属性组对应的预设条件可以为多个预设条件。
例如:第k个特征属性组中包括2个特征属性,月均流量-A1和流量APRU-A2,该特征属性组对应的预设条件有4种:(1)A1≤10,A2≤10;(2)A1≤10,A2>10;(3)A1>10,A2≤10;(4)A1>10,A2>10。4G套餐用户的训练样本数据中,分别满足上述4中预设条件的4G套餐用户数量分别为500、2500、1000、1000,那么,第k个特征属性组中各特征属性满足第一种预设条件时,在用户类别C1下第k个特征属性组的条件概率估计P(Xk1|C1)=500/5000=0.1;第k个特征属性组中各特征属性满足第二种预设条件时,在用户类别C1下第k个特征属性组的条件概率估计P(Xk2|C1)=2500/5000=0.5,第k个特征属性组中各特征属性满足第三种预设条件时在用户类别C1下第k个特征属性组的条件概率估计P(Xk3|C1)=1000/5000=0.2;第k个特征属性组中各特征属性满足第四种预设条件时在用户类别C1下第k个特征属性组的条件概率估计P(Xk4|C1)=1000/5000=0.2。类似的,可以确定第k个特征属性组中各特征属性分别满足上述4中预设条件时,在用户类别C2下第k个特征属性组的条件概率估计。
采用上述相同的方式,可以确定其它各特征属性组满足该特征属性组对应的预设条件时,在每一个用户类别下该特征属性组的条件概率估计,确定的条件概率估计即为特征属性组对每个用户类别的先验概率,也就相当于,通过对训练样本数据采用步骤201-步骤203的方式进行训练生成了分类器。
步骤204、采用贝叶斯公式,根据确定的各用户类别出现的概率和条件概率估计,确定待分类目标用户在每个类别的后验概率。
本步骤中,采用如下公式确定待分类目标用户在每个类别的后验概率:
其中,Ci为第i个用户类别,1≤i≤m,m为用户类别的总数量,P(Xkj|Ci)表示第k个特征属性组的各特征属性在预设条件j时,在用户类别Ci下第k个特征属性组的条件概率估计,n为特征属性组的数量,r为预设条件的个数,P(Ci)表示用户类别Ci出现的概率,P(X|Ci)表示待分类目标用户X在用户类别Ci的后验概率。
步骤205、确定最大的后验概率是否大于预设的风险控制系数,如果是,进入步骤206,如果否,进入步骤207。
其中,预设的风险控制系数可以根据实际情况进行灵活设置。
步骤206、将后验概率最大对应的类别确定为该待分类目标用户的类别。
步骤207、舍弃该待分别目标用户的分类判定。
本发明实施例中,由于在进行营销服务时,需要向不同类别的目标用户推送该类别对应的服务,即使确定了最大的后验概率对应的类别,该类别对应的服务也有可能是该待分类目标用户不希望被推送的,因此预设的风险控制系数用来判定该类别具有的风险程度,如果最大的后验概率不大于该风险控制系数,则认为该待分类目标用户的类别是有风险的,该分类也是不准确的,舍弃该待分别目标用户的分类判定,后续不再向该待分类目标用户推送服务。
通过本发明实施例1提供的方法,将具有相关性的特征属性组成特征属性组,且特征属性组之间相互独立,符合使用贝叶斯方法的各参量相互独立的假设条件,因此对目标用户分类时,提高了目标用户分类的准确性。并且,将最大的后验概率不大于预设的风险控制系数的待分类目标用户舍弃,降低了营销风险,可以提高营销成功率。
实施例2:
基于同一发明构思,根据本发明上述实施例提供的目标用户分类方法,相应地,本发明实施例2还提供了一种目标用户分类装置,其结构示意图如图3所示,具体包括:
第一确定单元301,用于确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的条件概率估计,所述用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,所述每个用户类别下特征属性组的条件概率估计为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值;所述特征属性组包括所述训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,所述特征属性表征训练样本数据的特点;
第二确定单元302,用于采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;
第三确定单元303,用于将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。
进一步的,所述确定各特征属性组中的各特征属性满足该特征属性组对应的预设条件时在每一个用户类别的条件概率估计为在每一个用户类别下的训练样本数据中,针对每一个特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与所述用户类别下的训练样本数量的比值。
进一步的,第二确定单元302,具体用于采用如下公式确定所述待分类目标用户在每个类别的后验概率:
Figure BDA0000709384440000101
其中,Ci为第i个用户类别,1≤i≤m,m为用户类别的总数量,P(Xkj|Ci)表示第k个特征属性组的各特征属性在预设条件j时,在用户类别Ci下第k个特征属性组的条件概率估计,n为特征属性组的数量,r为预设条件的个数,P(Ci)表示用户类别Ci出现的概率,P(X|Ci)表示待分类目标用户X在用户类别Ci的后验概率。
进一步的,上述装置,还包括:
比较单元304,用于在将后验概率最大对应的类别确定为所述待分类目标用户的类别之前,将确定的最大的后验概率与预设的风险控制系数进行比较,并确定所述最大的后验概率大于预设的风险控制系数。
进一步的,上述装置,还包括:
舍弃单元305,用于当确定所述最大的后验概率不大于预设的风险控制系数时,舍弃对所述待分类目标用户的分类判定。
本发明实施例2还提供了一种目标用户分类***,包括:
本发明实施例2提供的上述目标用户分类装置。
上述各单元的功能可对应于图1或图2所示流程中的相应处理步骤,在此不再赘述。
综上所述,本发明实施例提供的方案,包括:确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的概率,该用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,该每个用户类别下特征属性组的概率为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值,该特征属性组包括训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,该特征属性表征训练样本数据的特点;采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。采用本发明实施例的方案,提高了目标用户分类的准确性。
本申请的实施例所提供的目标用户分类装置可通过计算机程序实现。本领域技术人员应该能够理解,上述的模块划分方式仅是众多模块划分方式中的一种,如果划分为其他模块或不划分模块,只要目标用户分类装置具有上述功能,都应该在本申请的保护范围之内。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种目标用户分类方法,其特征在于,包括:
确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的条件概率估计,所述用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,所述每个用户类别下特征属性组的条件概率估计为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值;所述特征属性组包括所述训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,所述特征属性表征训练样本数据的特点;
采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;
将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。
2.如权利要求1所述的方法,其特征在于,所述待分类目标用户在每个类别的后验概率采用如下公式确定:
Figure FDA0000709384430000011
其中,Ci为第i个用户类别,1≤i≤m,m为用户类别的总数量,P(Xkj|Ci)表示第k个特征属性组的各特征属性在预设条件j时,在用户类别Ci下第k个特征属性组的条件概率估计,n为特征属性组的数量,r为预设条件的个数,P(Ci)表示用户类别Ci出现的概率,P(X|Ci)表示待分类目标用户X在用户类别Ci的后验概率。
3.如权利要求1所述的方法,其特征在于,在将后验概率最大对应的类别确定为所述待分类目标用户的类别之前,还包括:
将确定的最大的后验概率与预设的风险控制系数进行比较,并确定所述最大的后验概率大于预设的风险控制系数。
4.如权利要求3所述的方法,其特征在于,还包括:
当确定所述最大的后验概率不大于预设的风险控制系数时,舍弃对所述待分类目标用户的分类判定。
5.一种目标用户分类装置,其特征在于,包括:
第一确定单元,用于确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的条件概率估计,所述用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,所述每个用户类别下特征属性组的条件概率估计为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值;所述特征属性组包括所述训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,所述特征属性表征训练样本数据的特点;
第二确定单元,用于采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;
第三确定单元,用于将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。
6.如权利要求5所述的装置,其特征在于,所述第二确定单元,具体用于采用如下公式确定所述待分类目标用户在每个类别的后验概率:
其中,Ci为第i个用户类别,1≤i≤m,m为用户类别的总数量,P(Xkj|Ci)表示第k个特征属性组的各特征属性在预设条件j时,在用户类别Ci下第k个特征属性组的条件概率估计,n为特征属性组的数量,r为预设条件的个数,P(Ci)表示用户类别Ci出现的概率,P(X|Ci)表示待分类目标用户X在用户类别Ci的后验概率。
7.如权利要求5所述的装置,其特征在于,还包括:
比较单元,用于在将后验概率最大对应的类别确定为所述待分类目标用户的类别之前,将确定的最大的后验概率与预设的风险控制系数进行比较,并确定所述最大的后验概率大于预设的风险控制系数。
8.如权利要求7所述的装置,其特征在于,还包括:
舍弃单元,用于当确定所述最大的后验概率不大于预设的风险控制系数时,舍弃对所述待分类目标用户的分类判定。
9.一种目标用户分类***,其特征在于,包括:
如权利要求5-8任一所述的装置。
CN201510219456.1A 2015-04-30 2015-04-30 一种目标用户分类方法、装置及*** Active CN106204083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510219456.1A CN106204083B (zh) 2015-04-30 2015-04-30 一种目标用户分类方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510219456.1A CN106204083B (zh) 2015-04-30 2015-04-30 一种目标用户分类方法、装置及***

Publications (2)

Publication Number Publication Date
CN106204083A CN106204083A (zh) 2016-12-07
CN106204083B true CN106204083B (zh) 2020-02-18

Family

ID=57458538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510219456.1A Active CN106204083B (zh) 2015-04-30 2015-04-30 一种目标用户分类方法、装置及***

Country Status (1)

Country Link
CN (1) CN106204083B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229989B (zh) * 2016-12-14 2020-09-22 北京国双科技有限公司 一种确定用户属性的属性类别的方法及装置
CN109919790A (zh) * 2017-12-13 2019-06-21 腾讯科技(深圳)有限公司 集群类型识别方法、装置、电子设备及存储介质
CN109962956B (zh) * 2017-12-26 2022-06-07 中国电信股份有限公司 用于向用户推荐通信业务的方法和***
CN110580483A (zh) * 2018-05-21 2019-12-17 上海大唐移动通信设备有限公司 一种室内外用户区分方法及装置
CN110442722B (zh) * 2019-08-13 2022-05-13 北京金山数字娱乐科技有限公司 分类模型训练的方法及装置、数据分类的方法及装置
CN111324641B (zh) * 2020-02-19 2022-09-09 腾讯科技(深圳)有限公司 人员估计方法、装置及计算机可读存储介质和终端设备
CN111797942A (zh) * 2020-07-23 2020-10-20 深圳壹账通智能科技有限公司 用户信息的分类方法及装置、计算机设备、存储介质
CN113111284B (zh) * 2021-04-12 2024-07-16 中国铁塔股份有限公司 归类信息展示方法、装置、电子设备和可读存储介质
CN113591018A (zh) * 2021-07-30 2021-11-02 中国联合网络通信集团有限公司 通信客户分类管理方法、***、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685458A (zh) * 2008-09-27 2010-03-31 华为技术有限公司 一种基于协同过滤的推荐方法和***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101577866A (zh) * 2008-05-07 2009-11-11 ***通信集团公司 一种用户分类方法、广告投放方法及装置
US8346689B2 (en) * 2010-01-21 2013-01-01 National Cheng Kung University Recommendation system using rough-set and multiple features mining integrally and method thereof
CN102081655B (zh) * 2011-01-11 2013-06-05 华北电力大学 基于贝叶斯分类算法的信息检索方法
CN103778206A (zh) * 2014-01-14 2014-05-07 河南科技大学 一种网络服务资源的提供方法
CN104281635A (zh) * 2014-03-13 2015-01-14 电子科技大学 基于隐私反馈预测移动用户基础属性的方法
CN104298719B (zh) * 2014-09-23 2018-02-27 新浪网技术(中国)有限公司 基于社交行为进行用户的类别划分、广告投放方法和***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685458A (zh) * 2008-09-27 2010-03-31 华为技术有限公司 一种基于协同过滤的推荐方法和***

Also Published As

Publication number Publication date
CN106204083A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106204083B (zh) 一种目标用户分类方法、装置及***
US8799306B2 (en) Recommendation of search keywords based on indication of user intention
CN104573054B (zh) 一种信息推送方法和设备
CN105824813B (zh) 一种挖掘核心用户的方法及装置
CN107909038B (zh) 一种社交关系分类模型训练方法、装置、电子设备及介质
US11238364B2 (en) Learning from distributed data
US20130268595A1 (en) Detecting communities in telecommunication networks
WO2020082733A1 (zh) 基于业务规则的消息推送请求流量控制方法、装置及介质
WO2018149337A1 (zh) 一种信息投放方法、装置及服务器
CN109509010B (zh) 一种多媒体信息处理方法、终端及存储介质
US20130279672A1 (en) Methods and Systems For Categorizing a Customer of a Service as a Churner or a Non-Churner
WO2015062359A1 (en) Method and device for advertisement classification, server and storage medium
CN116108393B (zh) 电力敏感数据分类分级方法、装置、存储介质及电子设备
CN109271517A (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN109784368A (zh) 一种应用程序分类的确定方法和装置
CN104537118A (zh) 一种微博数据处理方法、装置及***
CN111353554B (zh) 预测缺失的用户业务属性的方法及装置
CN105824818A (zh) 一种信息化管理方法、平台及***
CN106897282B (zh) 一种用户群的分类方法和设备
CN110213660B (zh) 节目的分发方法、***、计算机设备和存储介质
CN111984842B (zh) 银行客户数据处理方法及装置
CN111967973B (zh) 银行客户数据处理方法及装置
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
CN112532692B (zh) 一种信息推送方法及装置、存储介质
CN107784363B (zh) 数据处理方法、装置及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant