CN109101562B - 寻找目标群体的方法、装置、计算机设备及存储介质 - Google Patents

寻找目标群体的方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109101562B
CN109101562B CN201810771080.9A CN201810771080A CN109101562B CN 109101562 B CN109101562 B CN 109101562B CN 201810771080 A CN201810771080 A CN 201810771080A CN 109101562 B CN109101562 B CN 109101562B
Authority
CN
China
Prior art keywords
samples
target
feature
sample
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810771080.9A
Other languages
English (en)
Other versions
CN109101562A (zh
Inventor
周南光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201810771080.9A priority Critical patent/CN109101562B/zh
Publication of CN109101562A publication Critical patent/CN109101562A/zh
Application granted granted Critical
Publication of CN109101562B publication Critical patent/CN109101562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请揭示了一种寻找目标群体的方法,包括:获取多个预选样本;在所述多个预选样本包括的多个特征中获取对所述多个预选样本的信息量影响最大的第一特征;根据所述第一特征对应的第一指定数量的分类分区,将所述多个预选样本划分为第一指定数量的第一样本;从每个所述第一样本中筛选满足第一预设条件的目标第一样本;在所述目标第一样本包括的多个特征中获取对所述目标第一样本的信息量影响最大的第二特征;根据所述第二特征对应的第二指定数量的分类分区,将所述目标第一样本划分为第二指定数量的第二样本;判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本;若存在,则判定目标第二样本为对应的目标群体。

Description

寻找目标群体的方法、装置、计算机设备及存储介质
技术领域
本申请涉及到大数据领域,特别是涉及到寻找目标群体的方法、装置、计算机设备及存储介质。
背景技术
现有客户数据均以大数据的形式存在,要在大数据中查找到所需要的特定群体,还是比较困难。但现有应用中却需要从大数据库中筛选到满足需要的目标群体,以便更直接、有效的针对目标群体展开相应工作,不仅可提高工作效率,且可使工作目标更有针对性、工作效果更明显。因此,在大数据中准确寻找目标群体具有实际应用价值。
发明内容
本申请的主要目的为提供一种寻找目标群体的方法,旨在解决在大数据中查找到所需要的特定群体比较困难的技术问题。
本申请提出一种寻找目标群体的方法,包括:
获取多个预选样本,其中每个预选样本包括用户的多个特征分别对应的用户数据;
在所述多个预选样本包括的多个特征中获取对所述多个预选样本的信息量影响最大的第一特征;
根据所述第一特征对应的第一指定数量的分类分区,将所述多个预选样本划分为第一指定数量的第一样本;
从每个所述第一样本中筛选满足第一预设条件的目标第一样本,其中目标第一样本为一个或多个;
在所述目标第一样本包括的多个特征中获取对所述目标第一样本的信息量影响最大的第二特征,所述第二特征与所述第一特征不同;
根据所述第二特征对应的第二指定数量的分类分区,将所述目标第一样本划分为第二指定数量的第二样本;
判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本;
若存在,则停止对所述目标第二样本的划分,并判定满足第二预设条件的所述目标第二样本为对应的目标群体。
优选地,所述在所述多个预选样本包括的多个特征中获取对所述多个预选样本的信息量影响最大的第一特征的步骤,包括:
计算所述预选样本的总体信息量;
获取各特征分别对所述总体信息量的影响值;
根据各所述影响值的大小对各所述特征进行降序排列;
设定所述降序排列中的排列次序最靠前的第一影响值对应的特征,为所述第一特征。
优选地,所述根据所述第一特征对应的第一指定数量的分类分区,将所述多个预选样本划分为第一指定数量的第一样本的步骤之前,还包括:
获取所述第一特征的属性;
根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区。
优选地,所述第一特征的属性为类别型,所述根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区的步骤,包括:
根据所述第一特征的类别种类,将所述多个预选样本划分为与所述类别种类对应的第一指定数量的第一样本,其中,所述第一指定数量为所述第一特征的类别种类数量。
优选地,所述第一特征的属性为数值型,所述根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区的步骤,包括:
根据表征所述第一特征的连续数据所对应的离散区间,将所述预选样本划分为与所述离散区间对应的第一指定数量的第一样本,其中,所述第一指定数量为所述第一特征的连续数据所对应的离散区间的数量。
优选地,所述判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本的步骤,包括:
通过比较各所述第二样本分别对应的购买率,获得最大购买率对应的指定第二样本;
判断所述指定第二样本对应的最大购买率是否满足第二预设条件对应的购买率;
若满足,则判定存在满足第二预设条件的目标第二样本。
优选地,所述判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本的步骤,包括:
通过比较各所述第二样本分别对应的购买率,获得最大购买率对应的指定第二样本;
判断所述指定第二样本对应的最大购买率是否满足第二预设条件对应的购买率;
若满足,则判断所述指定第二样本的数据总量是否大于预设数量;
若大于预设数量,则判定存在满足第二预设条件的目标第二样本。
本申请还提供了一种寻找目标群体的装置,包括:
第一获取模块,用于获取多个预选样本,其中每个预选样本包括用户的多个特征分别对应的用户数据;
第二获取模块,用于在所述多个预选样本包括的多个特征中获取对所述多个预选样本信息量影响最大的第一特征;
第一划分模块,用于根据所述第一特征对应的第一指定数量的分类分区,将所述多个预选样本划分为第一指定数量的第一样本;
筛选模块,用于从每个所述第一样本中筛选满足第一预设条件的目标第一样本,其中目标第一样本为一个或多个;
第三获取模块,用于在所述目标第一样本包括的多个特征中获取对所述目标第一样本的信息量影响最大的第二特征,所述第二特征与所述第一特征不同;
第二划分模块,用于根据所述第二特征对应的第二指定数量的分类分区,将所述目标第一样本划分为第二指定数量的第二样本;
判断模块,用于判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本;
判定模块,用于若存在,则停止对所述目标第二样本的划分,并判定满足所述第二预设条件的目标第二样本为对应的目标群体。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过决策树模型寻找目标群体的影响最大的重要系数对应的特征,加快了寻找目标群体的效率,且提高了寻找准确性。本申请依据寻找到的影响信息量最大的特征,实现对预选样本的细化、划分,以逐渐查询到目标群体,实现对目标群体的有效利用与管控。本申请通过对寻找目标群体的特征进行汇总成特征集合,形成目标群体以特征集合为标签的用户画像,方便发展具有目标群体特征集合为标签的潜在客户。
附图说明
图1本申请一实施例的寻找目标群体的方法流程示意图;
图2本申请一实施例的寻找目标群体的装置的结构示意图;
图3本申请一实施例的第二获取模块的结构示意图;
图4本申请另一实施例的寻找目标群体的装置的结构示意图;
图5本申请一实施例的第三划分模块的结构示意图;
图6本申请另一实施例的第三划分模块的结构示意图;
图7本申请一实施例的判断模块的结构示意图;
图8本申请另一实施例的判断模块的结构示意图;
图9本申请再一实施例的寻找目标群体的装置的结构示意图;
图10本申请一实施例的计算机设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的寻找目标群体的方法,包括:
S1a:获取多个预选样本,其中每个预选样本包括用户的多个特征分别对应的用户数据。
本实施例的预选样本中包含大量的用户数据,举例地,预选样本包括1000万个用户的数据,每一个用户具有多个特征,选取1000万个用户中具有最多特征的用户,并以该用户的特征以及特征数量为基准,比如预选样本中A用户的特征最多,包括100个维度的特征,则预选样本中的每个用户选择上述的100个维度的特征,比如姓名、年龄、性别、地区、身高、体重、产品购买频率、购买爱好等等。
S1:在所述多个预选样本包括的多个特征中获取对所述多个预选样本的信息量影响最大的第一特征。
本实施例的对预选样本影响最大的第一特征,为影响预选样本的信息量波动最大的特征。以影响预选样本的购买率为例,先将预选样本中100个维度的特征,根据决策树计算方法,分别按照一列为特征,一列为是否购买产品进行数据排布,根据各特征对应的数据排布分别计算各特征对应的购买率取值,按照购买率取值的大小将100个特征按照降序排列,选择降序排列中排序在前端的10个特征对预选样本进行划分,其中降序排列中排序在最前端的特征,为对预选样本信息量影响最大的第一特征。
S2:根据所述第一特征对应的第一指定数量的分类分区,将所述多个预选样本划分为第一指定数量的第一样本。
举例地,每个特征都预先划分了指定数量的分类分区,因此第一特征也对应存在第一指定数量的分类分区,则将预选样本按照第一特征的分类分区划分预选样本,上述第一指定数量与第一特征的分类分区数量一一对应。比如第一特征为性别,性别包括男性和女性两个分类分区,则第一指定数量为二,可将预选样本划分成两个第一样本,一个为女性第一样本,另一个为男性第一样本。再比如,第一特征为年龄,年龄被预先离散为[0,20),[20,40),[40,60),[60,80),[80,100]五个分类分区,则第一指定数量为五,可将预选样本划分成五个第一样本。
S3:从每个所述第一样本中筛选满足第一预设条件的目标第一样本,其中目标第一样本为一个或多个。
例如,本实施例的第一预设条件可以为第一样本的第一平均购买率大于或的等于预设阈值,比如,第一平均购买率为50%,则满足第一平均购买率的第一样本均为目标第一样本。举例地,上述的女性第一样本和男性第一样本均满足第一平均购买率的要求,则女性第一样本和男性第一样本均为目标第一样本,以进入第二次划分的梯队中。
S4:在所述目标第一样本包括的多个特征中获取对所述目标第一样本的信息量影响最大的第二特征,所述第二特征与所述第一特征不同。
本实施例以选中的一个目标第一样本为例,解释对目标第一样本的划分过程,对其他纳入第二次划分梯队的其他目标第一样本作同样的处理。本实施例以女性第一样本为例,根据决策树计算方法寻找对目标第一样本信息量影响最大的第二特征,比如为年龄。因为经过以“性别”作为第一特征对样本划分后,得到的同一个目标第一样本中的性别均为相同,再次对特征重要性进行排序时,“性别”这一特征将不再排序中,比如,此时特征降序排序中,排在第一位的为“年龄”,则第二特征为“年龄”。
S5:根据所述第二特征对应的第二指定数量的分类分区,将所述目标第一样本划分为第二指定数量的第二样本。
举例地,本实施例通过将年龄离散为[0,20),[20,40),[40,60),[60,80),[80,100]五个区间,将目标第一样本对应划分为五个区间分别对应的五个第二样本。相当于对预选样本进行了进一步的细化,以便寻找购买率更高的目标人群。
S6:判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本。
本实施例的预设条件可根据寻找目标人群的需求进行设定,比如预设条件为购买率达到90%以上。本实施例的第二预设条件指经过多个特征之后的预设购买率,不同于单个特征划分样本时对应的第一预设条件,可理解为第一预设条件对应的购买率小于或等于第二预设条件对应的购买率,以实现通过逐渐通过缩小样本范围,找到满足第二预设条件对应的购买率要求的目标群体。
S7:若存在,则停止对所述目标第二样本的划分,并判定满足第二预设条件的目标第二样本为对应的目标群体。
若某个第二样本的购买率达到第二预设条件对应的购买率,比如第二预设条件对应的购买率达到90%以上,则已找到需要寻找的目标人群,若不存在,则对目标第二样本重新设立筛选进入第三次样本划分的第三预设条件,第三预设条件的要求等级大于第一预设条件的要求等级,比如,第三预设条件对应的第三平均购买率大于第一预设条件对应的第一平均购买率,比如第三平均购买率为60%,大于第一平均购买率的50%,以便以聚拢的方式快速找到满足要求的目标群体。
进一步地,本实施例的步骤S1,包括:
S10:计算所述预选样本的总体信息量。
本实施例通过计算预选样本的熵,获取总体信息量。计算方式如下:其中,Pi表示具有购买数据的特定群体占比预选样本的比例,即本实施Pi表示已购买群体占比整个群体的比值;H(x)表示计算总体熵符号,本实施例的预选样本的熵表示为H(D)。
S11:获取各特征分别对所述总体信息量的影响值。
本实施例的各特征分别对所述总体信息量的影响值,通过信息增益算法获得,通过单独计算每个特征加入计算过程后,对整体熵的影响幅度,来获取各影响值。信息增益算法计算如下:g(D,A)=H(D)-H(D|A),其中,g(D,A)表示A特征对整体熵的影响幅度,H(D)表示预选样本的熵,H(DΙA)表示根据A特征划分后的样本的熵。
本申请其他实施例可通过信息增益比获得各特征分别对所述总体信息量的影响值,通过引入对信息增益进行修正的惩罚参数,减少对小样本的较小熵值的影响,即信息增益比=惩罚参数*信息增益。
S12:根据各所述影响值的大小对各所述特征进行降序排列。
本实施例的影响值的数值越大,说明对整体影响越大,相应特征的预测能力越强,特征对于划分样本、寻找目标群体的作用就越重要。本实施例通过根据各所述影响值的大小对各所述特征进行降序排列,更直观、更快速地筛选到划分预选样本的第一特征。
S13:设定所述降序排列中的排列次序最靠前的第一影响值对应的特征,为第一特征。
本实施例通过直接选择述降序排列中的排列次序最靠前的第一影响值对应的特征为第一特征,以准确确定第一特征,实现对预选样本的精准划分,以确保最终找到的目标群体的可靠性。
进一步地,本实施例的步骤S2之前,还包括:
S20:获取所述第一特征的属性。
本实施例的第一特征的属性,包括类别型特征和数值型特征两种属性。比如,性别为类别型特征,年龄为数值型特征。
S21:根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区。
本实施例中,不同属性的第一特征,对预选样本的划分标准不同,划分的处理方法不同。比如类别型特征的划分标准只能根据所包含的类别种类进行样本划分,类别种类的数量决定了分类分区的数量;数值型特征可先根据需要离散成多个接续分布的数据区间,然后根据多个数据区间对样本进行划分,数据区间的数量决定了分类分区的数量。
进一步地,本实施例的第一特征的属性为类别型,步骤S21,包括:
S210:根据所述第一特征的类别种类,将所述多个预选样本划分为与所述类别种类对应的第一指定数量的第一样本,其中,所述第一指定数量为所述第一特征的类别种类的数量。
本实施例是以类别型特征为例,具体说明利用类别型特征划分预选样本的过程。首先判断类别型特征包括几个类别,则将预选样本划分为几个第一样本。第一样本、第二样本等其他样本根据类别型特征划分样本的过程与原理同预选样本。
进一步地,本申请另一实施例的第一特征的属性为数值型,步骤S21,包括:
S211:根据表征所述第一特征的连续数据所对应的离散区间,将所述预选样本划分为与所述离散区间对应的第一指定数量的第一样本,其中,所述第一指定数量为所述第一特征的连续数据所对应的离散区间的数量。
本实施例是以数值型特征为例,具体说明利用数值型特征划分预选样本的过程。首先通过离散算法将数值型特征离散成几个接续排布的离散区间,则将预选样本划分为与各离散区间对应的多个第一样本。第一样本、第二样本等其他样本根据数值型特征划分样本的过程与原理同预选样本。
本实施例首先获取数值型特征的取值范围,即求得数值型特征的最大值和最小值。然后,根据输入的离散化程度参数num,计算多个分位数,如输入num=5,数值型特征以年龄为例,取值范围为0至100,则计算该连续数据中排序后20%,40%,60%,80%位置分别对应的取值,则依次有[0,20),[20,40),[40,60),[60,80),[80,100]五个区间范围,并用区间范围的信息代替原来预选样本中具体确定的数值,完成将数值型特征从点值数值型特征转化为离散区间特征,即上述五个区间范围对应五个离散区间,比如,某用户的年龄为25,则对应的离散区间为[20,40)。本实施例通过离散化处理,避免离群点(异常值)对整体分布造成拟合偏差的影响,如:预选样本中99%的数据都在0至100区间内,但是出现1%的数据取值为1000,那么算法在识别的过程中会因为数值变化过大而过多地去关注异常数据,会给拟合结果带来较大的偏差。而且,特征离散化后具有更强的解释性,数值型特征的取值是无限的,此时无法某个具体值在预选样本中所处的水平,离散化后则很容易计算得到该离散区间的人群占比等特点。
进一步地,本实施例的步骤S6,包括:
S60:通过比较各所述第二样本分别对应的购买率,获得最大购买率对应的指定第二样本。
本实施例以寻找具有指定购买率的目标人群为例,终止对样本继续划分的第二预设条件,为划分后的小样本的购买率满足第二预设条件对应的购买率。本实施例中划分后的小样本为多个,通过比较每个小样本分别对应的购买率,获得购买率最大的小样本,以通过比较最大购买率是否达到第二预设条件对应的购买率,判断是否已找到目标群体。
S61:判断所述指定第二样本对应的最大购买率是否满足第二预设条件对应的购买率。
本实施例通过对预选样本筛选第一特征,并根据第一特征将预选样本划分成各第一样本,然后再分别对各第一样本进行筛选各自对应的第二特征,并根据各自对应的第二特征再分别划分成各第二样本,如此循环划分样本,直到最终的某一个小样本或某几个小样本的购买率达到第二预设条件对应的购买率为止。
S62:若满足,则判定存在满足第二预设条件的目标第二样本。
进一步地,本申请另一实施例的步骤S6,包括:
S63:通过比较各所述第二样本分别对应的购买率,获得最大购买率对应的指定第二样本。
本实施例以对各第一样本划分为各对应的多个第二样本后,找到了符合第二预设条件对应的购买率的第二样本,但需要进一步分析第二样本内的数据量是否具有实际参考价值,若第二样本内的数据量较少,比如几个、几十个,则认为参考价值不大。
S64:判断所述指定第二样本对应的最大购买率是否满足预设购买率。
为避免多次划分的计算量过大,一般达到第二预设条件对应的购买率时,只需要根据6个特征或最多10个特征对样本依次划分下去,即可找到目标群体对应的小样本。
S65:若满足,则判断所述指定第二样本的数据总量是否大于预设数量。
本实施例的目标第二样本不仅要求购买率达到预期,且要求数据量达到要求,即目标群体的用户数量达到预期,以便达到预期购买率的目标群体中所含的用户量过少,而失去特征汇总目标群体的实际应用价值。
S66:若大于预设数量,则判定存在满足第二预设条件的目标第二样本。
进一步地,本实施例的步骤S7之后,包括:
S8:汇总寻找所述目标群体时的第一特征、第二特征,组成特征组合。
本实施例通过将对预选样本多次划分用到的第一特征、第二特征组成特征组合,作为目标群体对应的小样本的身份标签。本申请其他实施例对各第一样本划分为各对应的多个第二样本后,未找到了目标群体,则继续对各第二样本进行再次划分,得到各第二样本分别对应的多个第三样,或者再一直划分直到找到目标群体对应的第n样本出现,则将多次划分预设样本用到的第一特征、第二特征、...第n特征组成特征组合,作为目标群体对应的小样本的身份标签。
S9:将所述特征组合作为所述目标群体的用户画像。
本实施例通过对目标群体形成用户画像,以便更好地识别该目标群体,更方便根据用户画像去拓展具有相同特征的新用户作为客户。
本实施例以寻找具有指定购买率的用户群体为例,预选样本为某产品购买平台的数据库。本申请另一实施例的预选样本为糖尿病等其他病例的特征数据,则可根据上述过程和原理,寻找某种高发疾病的特例人群,以便进行有效管控疾病发作率。
本申请再一实施例的预选样本为借贷人群的特征数据库,则可根据上述过程和原理,寻找具有借贷风险的特例人群,以便进行有效管控借贷风险。
本实施例通过决策树模型寻找目标群体的影响最大的重要系数对应的特征,加快了寻找目标群体的效率,且提高了寻找准确性。本实施例依据寻找到的影响最大的特征,实现对预选样本的细化、划分,以逐渐查询到目标群体,实现对目标群体的有效利用与管控。本实施例通过对寻找目标群体的特征进行汇总成特征集合,形成目标群体以特征集合为标签的用户画像,方便发展具有目标群体特征集合为标签的潜在客户。
参照图2,本申请一实施例的寻找目标群体的装置,其特征在于,包括:
第一获取模块1a,用于获取多个预选样本,其中每个预选样本包括用户的多个特征分别对应的用户数据。
本实施例的预选样本中包含大量的用户数据,举例地,预选样本包括1000万个用户的数据,每一个用户具有多个特征,选取1000万个用户中具有最多特征的用户,并以该用户的特征以及特征数量为基准,比如预选样本中A用户的特征最多,包括100个维度的特征,则预选样本中的每个用户选择上述的100个维度的特征,比如姓名、年龄、性别、地区、身高、体重、产品购买频率、购买爱好等等。
第二获取模块1,用于在所述多个预选样本包括的多个特征中获取对所述多个预选样本的信息量影响最大的第一特征。
本实施例的预选样本中包含大量的用户数据,举例地,预选样本包括1000万个用户的数据,每一个用户具有多个特征,选取1000万个用户中具有最多的特征的用户,并以该用户的特征以及特征数量为基准,比如预选样本中A用户的特征为最多,包括100个维度的特征,则预选样本中的每个用户选择上述的100个维度的特征,比如姓名、年龄、性别、地区、身高、体重、产品购买频率、购买爱好等等。本实施例的对预选样本影响最大的第一特征,为影响预选样本的信息量波动最大的特征。以影响预选样本的购买率为例,先将预选样本中100个维度的特征,根据决策树计算方法,分别按照一列为特征,一列为是否购买产品进行数据排布,根据各特征对应的数据排布分别计算各特征对应的购买率取值,按照购买率取值的大小将100个特征按照降序排列,选择降序排列中排序在前端的10个特征对预选样本进行划分,其中降序排列中排序在最前端的特征,为对预选样本信息量影响最大的第一特征。
第一划分模块2,用于根据所述第一特征对应的第一指定数量的分类分区,将所述多个预选样本划分为第一指定数量的第一样本。
举例地,每个特征都预先划分了指定数量的分类分区,因此第一特征也对应存在第一指定数量的分类分区,则将预选样本按照第一特征的分类分区划分预选样本,上述第一指定数量与第一特征的分类分区数量一一对应。比如第一特征为性别,性别包括男性和女性两个分类分区,则第一指定数量为二,可将预选样本划分成两个第一样本,一个为女性第一样本,另一个为男性第一样本。再比如,第一特征为年龄,年龄被预先离散为[0,20),[20,40),[40,60),[60,80),[80,100]五个分类分区,则第一指定数量为五,可将预选样本划分成五个第一样本。
筛选模块3,用于从每个所述第一样本中筛选满足第一预设条件的目标第一样本,其中目标第一样本为一个或多个。
例如,本实施例的第一预设条件可以为第一样本的第一平均购买率大于或的等于预设阈值,比如,第一平均购买率为50%,则满足第一平均购买率的第一样本均为目标第一样本。举例地,上述的女性第一样本和男性第一样本均满足第一平均购买率的要求,则女性第一样本和男性第一样本均为目标第一样本,以进入第二次划分的梯队中。
第三获取模块4,用于在所述目标第一样本包括的多个特征中获取对所述目标第一样本的信息量影响最大的第二特征,所述第二特征与所述第一特征不同。
本实施例以选中的一个目标第一样本为例,解释对目标第一样本的划分过程,对其他纳入第二次划分梯队的其他目标第一样本作同样的处理。本实施例以女性第一样本为例,根据决策树计算方法寻找对目标第一样本信息量影响最大的第二特征,比如为年龄。因为经过以“性别”作为第一特征对样本划分后,得到的同一个目标第一样本中的性别均为相同,再次对特征重要性进行排序时,“性别”这一特征将不再排序中,比如,此时特征降序排序中,排在第一位的为“年龄”,则第二特征为“年龄”。
第二划分模块5,用于根据所述第二特征对应的第二指定数量的分类分区,将所述目标第一样本划分为第二指定数量的第二样本。
举例地,本实施例通过将年龄离散为[0,20),[20,40),[40,60),[60,80),[80,100]五个区间,将目标第一样本对应划分为五个区间分别对应的五个第二样本。相当于对预选样本进行了进一步的细化,以便寻找购买率更高的目标人群。
判断模块6,用于判断所述第二指定数量的第二样本中是否存在满足预设条件的目标第二样本。
本实施例的预设条件可根据寻找目标人群的需求进行设定,比如预设条件为购买率达到90%以上。本实施例的第二预设条件指经过多个特征之后的预设购买率,不同于单个特征划分样本时对应的第一预设条件,可理解为第一预设条件对应的购买率小于或等于第二预设条件对应的购买率,以实现通过逐渐通过缩小样本范围,找到满足第二预设条件对应的购买率要求的目标群体。
判定模块7,用于若存在,则停止对所述目标第二样本的划分,并判定满足第二预设条件的所述目标第二样本为对应的目标群体。
若某个第二样本的购买率达到第二预设条件对应的购买率,比如第二预设条件对应的购买率达到90%以上,则已找到需要寻找的目标人群,若不存在,则对目标第二样本重新设立筛选进入第三次样本划分的第三预设条件,第三预设条件的要求等级大于第一预设条件的要求等级,比如,第三预设条件对应的第三平均购买率大于第一预设条件对应的第一平均购买率,比如第三平均购买率为60%,大于第一平均购买率的50%,以便以聚拢的方式快速找到满足要求的目标群体。
参照图3,本实施例的第二获取模块1,包括:
计算单元10,用于计算所述预选样本的总体信息量。
本实施例通过计算预选样本的熵,获取总体信息量。计算方式如下:其中,Pi表示具有购买数据的特定群体占比预选样本的比例,即本实施Pi表示已购买群体占比整个群体的比值;H(x)表示计算总体熵符号,本实施例的预选样本的熵表示为H(D)。
第一获取单元11,用于获取各特征分别对所述总体信息量的影响值。
本实施例的各特征分别对所述总体信息量的影响值,通过信息增益算法获得,通过单独计算每个特征加入计算过程后,对整体熵的影响幅度,来获取各影响值。信息增益算法计算如下:g(D,A)=H(D)-H(D|A),其中,g(D,A)表示A特征对整体熵的影响幅度,H(D)表示预选样本的熵,H(DΙA)表示根据A特征划分后的样本的熵。
本申请其他实施例可通过信息增益比获得各特征分别对所述总体信息量的影响值,通过引入对信息增益进行修正的惩罚参数,减少对小样本的较小熵值的影响,即信息增益比=惩罚参数*信息增益。
排列单元12,用于根据各所述影响值的大小对各所述特征进行降序排列。
本实施例的影响值的数值越大,说明对整体影响越大,相应特征的预测能力越强,特征对于划分样本、寻找目标群体的作用就越重要。本实施例通过根据各所述影响值的大小对各所述特征进行降序排列,更直观、更快速地筛选到划分预选样本的第一特征。
设定单元13,用于设定所述降序排列中的排列次序最靠前的第一影响值对应的特征,为第一特征。
本实施例通过直接选择述降序排列中的排列次序最靠前的第一影响值对应的特征为第一特征,以准确确定第一特征,实现对预选样本的精准划分,以确保最终找到的目标群体的可靠性。
参照图4,本申请另一实施例的寻找目标群体的装置,包括:
第四获取模块20,用于获取所述第一特征的属性。
本实施例的第一特征的属性,包括类别型特征和数值型特征两种属性。比如,性别为类别型特征,年龄为数值型特征。
第三划分模块21,用于根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区。
本实施例中,不同属性的第一特征,对预选样本的划分标准不同,划分的处理方法不同。比如类别型特征的划分标准只能根据所包含的类别种类进行样本划分,类别种类的数量决定了分类分区的数量;数值型特征可先根据需要离散成多个接续分布的数据区间,然后根据多个数据区间对样本进行划分,数据区间的数量决定了分类分区的数量。
参照图5,本实施例的第一特征的属性为类别型,第三划分模块21,包括:
第一划分单元210,用于根据所述第一特征的类别种类,将所述多个预选样本划分为与所述类别种类对应的第一指定数量的第一样本,其中,所述第一指定数量为所述第一特征的类别种类的数量。
本实施例是以类别型特征为例,具体说明利用类别型特征划分预选样本的过程。首先判断类别型特征包括几个类别,则将预选样本划分为几个第一样本。第一样本、第二样本等其他样本根据类别型特征划分样本的过程与原理同预选样本。
参照图6,本申请另一实施例的第一特征的属性为数值型,第三划分模块21,包括:
第二划分单元211,用于根据表征所述第一特征的连续数据所对应的离散区间,将所述预选样本划分为与所述离散区间对应的第一指定数量的第一样本,其中,所述第一指定数量为所述第一特征的连续数据所对应的离散区间的数量。
本实施例是以数值型特征为例,具体说明利用数值型特征划分预选样本的过程。首先通过离散算法将数值型特征离散成几个接续排布的离散区间,则将预选样本划分为与各离散区间对应的多个第一样本。第一样本、第二样本等其他样本根据数值型特征划分样本的过程与原理同预选样本。
本实施例首先获取数值型特征的取值范围,即求得数值型特征的最大值和最小值。然后,根据输入的离散化程度参数num,计算多个分位数,如输入num=5,数值型特征以年龄为例,取值范围为0至100,则计算该连续数据中排序后20%,40%,60%,80%位置分别对应的取值,则依次有[0,20),[20,40),[40,60),[60,80),[80,100]五个区间范围,并用区间范围的信息代替原来预选样本中具体确定的数值,完成将数值型特征从点值数值型特征转化为离散区间特征,即上述五个区间范围对应五个离散区间,比如,某用户的年龄为25,则对应的离散区间为[20,40)。本实施例通过离散化处理,避免离群点(异常值)对整体分布造成拟合偏差的影响,如:预选样本中99%的数据都在0至100区间内,但是出现1%的数据取值为1000,那么算法在识别的过程中会因为数值变化过大而过多地去关注异常数据,会给拟合结果带来较大的偏差。而且,特征离散化后具有更强的解释性,数值型特征的取值是无限的,此时无法某个具体值在预选样本中所处的水平,离散化后则很容易计算得到该离散区间的人群占比等特点。
参照图7,本实施例的判断模块6,包括:
第一获得单元60,用于通过比较各所述第二样本分别对应的购买率,获得最大购买率对应的指定第二样本。
本实施例以寻找具有指定购买率的目标人群为例,终止对样本继续划分的第二预设条件,为划分后的小样本的购买率满足第二预设条件对应的购买率。本实施例中划分后的小样本为多个,通过比较每个小样本分别对应的购买率,获得购买率最大的小样本,以通过比较最大购买率是否达到第二预设条件对应的购买率,判断是否已找到目标群体。
第一判断单元61,用于判断所述指定第二样本对应的最大购买率是否满足第二预设条件对应的购买率。
本实施例通过对预选样本筛选第一特征,并根据第一特征将预选样本划分成各第一样本,然后再分别对各第一样本进行筛选各自对应的第二特征,并根据各自对应的第二特征再分别划分成各第二样本,如此循环划分样本,直到最终的某一个小样本或某几个小样本的购买率达到第二预设条件对应的购买率为止。
第一判定单元62,用于若满足,则判定存在满足第二预设条件的目标第二样本。
参照图8,本申请另一实施例的判断模块6,包括:
第二获得单元63,用于通过比较各所述第二样本分别对应的购买率,获得最大购买率对应的指定第二样本。
本实施例以对各第一样本划分为各对应的多个第二样本后,找到了第二预设条件对应的购买率的第二样本,但需要进一步分析第二样本内的数据量是否具有实际参考价值,若第二样本内的数据量较少,比如几个、几十个,则认为参考价值不大。
第二判断单元64,用于判断所述指定第二样本对应的最大购买率是否满足预设购买率。
为避免多次划分的计算量过大,一般达到第二预设条件对应的购买率时,只需要根据6个特征或最多10个特征对样本依次划分下去,即可找到目标群体对应的小样本。
第三判断单元65,用于若满足,则判断所述指定第二样本的数据总量是否大于预设数量。
本实施例的目标第二样本不仅要求购买率达到预期,且要求数据量达到要求,即目标群体的用户数量达到预期,以便达到预期购买率的目标群体中所含的用户量过少,而失去特征汇总目标群体的实际应用价值。
第二判定单元66,用于若大于预设数量,则判定存在满足第二预设条件的目标第二样本。
参照图9,本申请再一实施例的寻找目标群体的装置,包括
汇总模块8,用于汇总寻找所述目标群体时的第一特征、第二特征,组成特征组合。
本实施例通过将对预选样本多次划分用到的第一特征、第二特征组成特征组合,作为目标群体对应的小样本的身份标签。本申请其他实施例对各第一样本划分为各对应的多个第二样本后,未找到了目标群体,则继续对各第二样本进行再次划分,得到各第二样本分别对应的多个第三样,或者再一直划分直到找到目标群体对应的第n样本出现,则将多次划分预设样本用到的第一特征、第二特征、...第n特征组成特征组合,作为目标群体对应的小样本的身份标签。
作为模块9,用于将所述特征组合作为所述目标群体的用户画像。
本实施例通过对目标群体形成用户画像,以便更好地识别该目标群体,更方便根据用户画像去拓展具有相同特征的新用户作为客户。
本实施例以寻找具有指定购买率的用户群体为例,预选样本为某产品购买平台的数据库。本申请另一实施例的预选样本为糖尿病等其他病例的特征数据,则可根据上述过程和原理,寻找某种高发疾病的特例人群,以便进行有效管控疾病发作率。
本申请再一实施例的预选样本为借贷人群的特征数据库,则可根据上述过程和原理,寻找具有借贷风险的特例人群,以便进行有效管控借贷风险。
参照图10,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于寻找目标群体的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现寻找目标群体的方法。
上述处理器执行上述寻找目标群体的方法,包括:获取多个预选样本,其中每个预选样本包括用户的多个特征分别对应的用户数据;在所述多个预选样本包括的多个特征中获取对所述多个预选样本的信息量影响最大的第一特征;根据所述第一特征对应的第一指定数量的分类分区,将所述多个预选样本划分为第一指定数量的第一样本;从每个所述第一样本中筛选满足第一预设条件的目标第一样本,其中目标第一样本为一个或多个;在所述目标第一样本包括的多个特征中获取对所述目标第一样本的信息量影响最大的第二特征,所述第二特征与所述第一特征不同;根据所述第二特征对应的第二指定数量的分类分区,将所述目标第一样本划分为第二指定数量的第二样本;判断所述第二指定数量的第二样本中是否存在满足预设条件的目标第二样本;若存在,则停止对所述目标第二样本的划分,并判定满足预设条件的所述目标第二样本为对应的目标群体;否则对所述目标第二样本的再进行划分。
上述计算机设备,通过决策树模型寻找目标群体影响最大的重要系数对应的特征,加快了寻找目标群体的效率,且提高了寻找准确性。本申请依据寻找到的影响最大的重要系数对应的特征,实现对预选样本的细化、划分,以逐渐查询到目标群体,实现对目标群体的有效利用与管控。本申请通过对寻找目标群体的特征进行汇总成特征集合,形成目标群体以特征集合为标签的用户画像,方便发展具有目标群体特征集合为标签的潜在客户。
在一个实施例中,上述处理器在所述多个预选样本包括的多个特征中获取对所述多个预选样本的信息量影响最大的第一特征的步骤,包括:计算所述预选样本的总体信息量;获取各特征分别对所述总体信息量的影响值;根据各所述影响值的大小对各所述特征进行降序排列;设定所述降序排列中的排列次序最靠前的第一影响值对应的特征,为第一特征。
在一个实施例中,上述处理器根据所述第一特征对应的第一指定数量的分类分区,将所述多个预选样本划分为第一指定数量的第一样本的步骤之前,还包括:获取所述第一特征的属性;根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区。
在一个实施例中,所述第一特征的属性为类别型,所述根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区的步骤,包括:根据所述第一特征的类别种类,将所述多个预选样本划分为与所述类别种类对应的第一指定数量的第一样本,其中,所述第一指定数量为所述第一特征的类别种类数量。
在一个实施例中,所述第一特征的属性为数值型,所述根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区的步骤,包括:根据表征所述第一特征的连续数据所对应的离散区间,将所述预选样本划分为与所述离散区间对应的第一指定数量的第一样本,其中,所述第一指定数量为所述第一特征的连续数据所对应的离散区间的数量。
在一个实施例中,上述处理器判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本的步骤,包括:通过比较各所述第二样本分别对应的购买率,获得最大购买率对应的指定第二样本;判断所述指定第二样本对应的最大购买率是否满足第二预设条件对应的购买率;若满足,则判定存在满足第二预设条件的目标第二样本。
在一个实施例中,上述处理器判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本的步骤,包括:通过比较各所述第二样本分别对应的购买率,获得最大购买率对应的指定第二样本;判断所述指定第二样本对应的最大购买率是否满足第二预设条件对应的购买率;若满足,则判断所述指定第二样本的数据总量是否大于预设数量;若大于预设数量,则判定存在满足第二预设条件的目标第二样本。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现寻找目标群体的方法,包括:获取多个预选样本,其中每个预选样本包括用户的多个特征分别对应的用户数据;在所述多个预选样本包括的多个特征中获取对所述多个预选样本的信息量影响最大的第一特征;根据所述第一特征对应的第一指定数量的分类分区,将所述多个预选样本划分为第一指定数量的第一样本;从每个所述第一样本中筛选满足第一预设条件的目标第一样本,其中目标第一样本为一个或多个;在所述目标第一样本包括的多个特征中获取对所述目标第一样本的信息量影响最大的第二特征,所述第二特征与所述第一特征不同;根据所述第二特征对应的第二指定数量的分类分区,将所述目标第一样本划分为第二指定数量的第二样本;判断所述第二指定数量的第二样本中是否存在满足预设条件的目标第二样本;若存在,则停止对所述目标第二样本的划分,并判定满足预设条件的所述目标第二样本为对应的目标群体;否则对所述目标第二样本的再进行划分。
上述计算机可读存储介质,通过决策树模型寻找目标群体影响最大的重要系数对应的特征,加快了寻找目标群体的效率,且提高了寻找准确性。本申请并依据寻找到的影响最大的重要系数对应的特征,实现对预选样本的细化、划分,以逐渐查询到目标群体,实现对目标群体的有效利用与管控。本申请通过对寻找目标群体的特征进行汇总成特征集合,形成目标群体以特征集合为标签的用户画像,方便发展具有目标群体特征集合为标签的潜在客户。
在一个实施例中,上述处理器在所述多个预选样本包括的多个特征中获取对所述多个预选样本的信息量影响最大的第一特征的步骤,包括:计算所述预选样本的总体信息量;获取各特征分别对所述总体信息量的影响值;根据各所述影响值的大小对各所述特征进行降序排列;设定所述降序排列中的排列次序最靠前的第一影响值对应的特征,为第一特征。
在一个实施例中,上述处理器根据所述第一特征对应的第一指定数量的类别分区,将所述多个预选样本划分为第一指定数量的第一样本的步骤之前,包括:获取所述第一特征的属性;根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区。
在一个实施例中,所述第一特征的属性为类别型,所述根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区的步骤,包括:根据所述第一特征的类别种类,将所述多个预选样本划分为与所述类别种类对应的第一指定数量的第一样本,其中,所述第一指定数量为所述第一特征的类别种类数量。
在一个实施例中,所述第一特征的属性为数值型,所述根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区的步骤,包括:根据表征所述第一特征的连续数据所对应的离散区间,将所述预选样本划分为与所述离散区间对应的第一指定数量的第一样本,其中,所述第一指定数量为所述第一特征的连续数据所对应的离散区间的数量。
在一个实施例中,上述处理器判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本的步骤,包括:通过比较各所述第二样本分别对应的购买率,获得最大购买率对应的所述指定第二样本;判断所述指定第二样本对应的最大购买率是否满足第二预设条件对应的购买率;若满足,则判定存在满足第二预设条件的目标第二样本。
在一个实施例中,上述处理器判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本的步骤,包括:通过比较各所述第二样本分别对应的购买率,获得最大购买率对应的指定第二样本;判断所述指定第二样本对应的最大购买率是否满足第二预设条件对应的购买率;若满足,则判断所述指定第二样本的数据总量是否大于预设数量;若大于预设数量,则判定存在满足第二预设条件的目标第二样本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种寻找目标群体的方法,其特征在于,包括:
获取多个预选样本,其中每个预选样本包括用户的多个特征分别对应的用户数据;
在所述多个预选样本包括的多个特征中获取对所述多个预选样本的信息量影响最大的第一特征;
根据所述第一特征对应的第一指定数量的分类分区,将所述多个预选样本划分为第一指定数量的第一样本;
从每个所述第一样本中筛选满足第一预设条件的目标第一样本,其中目标第一样本为一个或多个;
在所述目标第一样本包括的多个特征中获取对所述目标第一样本的信息量影响最大的第二特征,所述第二特征与所述第一特征不同;
根据所述第二特征对应的第二指定数量的分类分区,将所述目标第一样本划分为第二指定数量的第二样本;
判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本;
若存在,则停止对所述目标第二样本的划分,并判定满足所述第二预设条件的目标第二样本为对应的目标群体;
所述在所述多个预选样本包括的多个特征中获取对所述多个预选样本的信息量影响最大的第一特征,包括:
若为影响预选样本的购买率,则将所述预选样本中100个维度的特征,根据决策树计算方法,分别按照一列为特征,一列为是否购买产品进行数据排布,根据各特征对应的所述数据排布分别计算各特征对应的所述购买率取值,按照所述购买率取值的大小将100个特征按照降序排列,选择所述降序排列中排序在前端的10个特征对预选样本进行划分,其中,所述降序排列中排序在最前端的特征,为对所述预选样本信息量影响最大的所述第一特征。
2.根据权利要求1所述的寻找目标群体的方法,其特征在于,所述在所述多个预选样本包括的多个特征中获取对所述多个预选样本的信息量影响最大的第一特征的步骤,包括:
计算所述预选样本的总体信息量;
获取各特征分别对所述总体信息量的影响值;
根据各所述影响值的大小对各所述特征进行降序排列;
设定所述降序排列中的排列次序最靠前的第一影响值对应的特征,为所述第一特征。
3.根据权利要求1所述的寻找目标群体的方法,其特征在于,所述根据所述第一特征对应的第一指定数量的分类分区,将所述多个预选样本划分为第一指定数量的第一样本的步骤之前,还包括:
获取所述第一特征的属性;
根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区。
4.根据权利要求3所述的寻找目标群体的方法,其特征在于,所述第一特征的属性为类别型,所述根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区的步骤,包括:
根据所述第一特征的类别种类,将所述多个预选样本划分为与所述类别种类对应的第一指定数量的第一样本,其中,所述第一指定数量为所述第一特征的类别种类数量。
5.根据权利要求3所述的寻找目标群体的方法,其特征在于,所述第一特征的属性为数值型,所述根据所述第一特征的属性确定所述第一特征对应的第一指定数量的分类分区的步骤,包括:
根据表征所述第一特征的连续数据所对应的离散区间,将所述预选样本划分为与所述离散区间对应的第一指定数量的第一样本,其中,所述第一指定数量为所述第一特征的连续数据所对应的离散区间的数量。
6.根据权利要求1所述的寻找目标群体的方法,其特征在于,所述判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本的步骤,包括:
通过比较各所述第二样本分别对应的购买率,获得最大购买率对应的指定第二样本;
判断所述指定第二样本对应的最大购买率是否满足第二预设条件对应的购买率;
若满足,则判定存在满足第二预设条件的目标第二样本。
7.根据权利要求1所述的寻找目标群体的方法,其特征在于,所述判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本的步骤,包括:
通过比较各所述第二样本分别对应的购买率,获得最大购买率对应的指定第二样本;
判断所述指定第二样本对应的最大购买率是否满足第二预设条件对应的购买率;
若满足,则判断所述指定第二样本的数据总量是否大于预设数量;
若大于预设数量,则判定存在满足第二预设条件的目标第二样本。
8.一种寻找目标群体的装置,所述的寻找目标群体的装置用于执行根据权利要求1-7中任一项所述的寻找目标群体的方法,其特征在于,包括:
第一获取模块,用于获取多个预选样本,其中每个预选样本包括用户的多个特征分别对应的用户数据;
第二获取模块,用于在所述多个预选样本包括的多个特征中获取对所述多个预选样本信息量影响最大的第一特征;
第一划分模块,用于根据所述第一特征对应的第一指定数量的分类分区,将所述多个预选样本划分为第一指定数量的第一样本;
筛选模块,用于从每个所述第一样本中筛选满足第一预设条件的目标第一样本,其中目标第一样本为一个或多个;
第三获取模块,用于在所述目标第一样本包括的多个特征中获取对所述目标第一样本的信息量影响最大的第二特征,所述第二特征与所述第一特征不同;
第二划分模块,用于根据所述第二特征对应的第二指定数量的分类分区,将所述目标第一样本划分为第二指定数量的第二样本;
判断模块,用于判断所述第二指定数量的第二样本中是否存在满足第二预设条件的目标第二样本;
判定模块,用于若存在,则停止对所述目标第二样本的划分,并判定满足所述第二预设条件的目标第二样本为对应的目标群体。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201810771080.9A 2018-07-13 2018-07-13 寻找目标群体的方法、装置、计算机设备及存储介质 Active CN109101562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810771080.9A CN109101562B (zh) 2018-07-13 2018-07-13 寻找目标群体的方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810771080.9A CN109101562B (zh) 2018-07-13 2018-07-13 寻找目标群体的方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109101562A CN109101562A (zh) 2018-12-28
CN109101562B true CN109101562B (zh) 2023-07-21

Family

ID=64846410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810771080.9A Active CN109101562B (zh) 2018-07-13 2018-07-13 寻找目标群体的方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109101562B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992699B (zh) * 2019-02-28 2023-08-11 平安科技(深圳)有限公司 用户群的优化方法及装置、存储介质、计算机设备
CN110009012B (zh) * 2019-03-20 2023-06-16 创新先进技术有限公司 一种风险样本识别方法、装置及电子设备
US20200410369A1 (en) * 2019-06-28 2020-12-31 Microsoft Technology Licensing, Llc Data-driven cross feature generation

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN105868847A (zh) * 2016-03-24 2016-08-17 车智互联(北京)科技有限公司 一种购物行为的预测方法及装置
CN106227743A (zh) * 2016-07-12 2016-12-14 精硕世纪科技(北京)有限公司 广告目标群体触达比率评估方法及装置
CN107785058A (zh) * 2017-07-24 2018-03-09 平安科技(深圳)有限公司 反欺诈识别方法、存储介质和承载平安脑的服务器
CN107818482A (zh) * 2017-11-22 2018-03-20 用友金融信息技术股份有限公司 目标群体的显著特征的计算方法、***及计算机设备
CN107944481A (zh) * 2017-11-16 2018-04-20 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108153824A (zh) * 2017-12-06 2018-06-12 阿里巴巴集团控股有限公司 目标用户群体的确定方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7203343B2 (en) * 2001-09-21 2007-04-10 Hewlett-Packard Development Company, L.P. System and method for determining likely identity in a biometric database
CN105956122A (zh) * 2016-05-03 2016-09-21 无锡雅座在线科技发展有限公司 对象属性的确定方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN105868847A (zh) * 2016-03-24 2016-08-17 车智互联(北京)科技有限公司 一种购物行为的预测方法及装置
CN106227743A (zh) * 2016-07-12 2016-12-14 精硕世纪科技(北京)有限公司 广告目标群体触达比率评估方法及装置
CN107785058A (zh) * 2017-07-24 2018-03-09 平安科技(深圳)有限公司 反欺诈识别方法、存储介质和承载平安脑的服务器
CN107944481A (zh) * 2017-11-16 2018-04-20 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN107818482A (zh) * 2017-11-22 2018-03-20 用友金融信息技术股份有限公司 目标群体的显著特征的计算方法、***及计算机设备
CN108153824A (zh) * 2017-12-06 2018-06-12 阿里巴巴集团控股有限公司 目标用户群体的确定方法及装置

Also Published As

Publication number Publication date
CN109101562A (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
CN109902708B (zh) 一种推荐模型训练方法及相关装置
CN109101562B (zh) 寻找目标群体的方法、装置、计算机设备及存储介质
CN103116639B (zh) 基于用户-物品二分图模型的物品推荐方法及***
CN109492191B (zh) 计算投保概率的方法、装置、计算机设备和存储介质
US7925991B2 (en) Systems, methods, and articles of manufacture for displaying user-selection controls associated with clusters on a GUI
CN105894183B (zh) 项目评价方法及装置
CN110175895B (zh) 一种物品推荐方法及装置
CN104933100A (zh) 关键词推荐方法和装置
Bettinger et al. Marginal value theorem, patch choice, and human foraging response in varying environments
CN110580278A (zh) 根据用户画像的个性化搜索方法、***、设备及存储介质
CN114419501A (zh) 视频推荐方法、装置、计算机设备及存储介质
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
US20140344293A1 (en) Information providing device, information providing method, program, information storage medium, and information providing system
CN114780606A (zh) 一种大数据挖掘方法及***
US20180150754A1 (en) Data analysis method, system and non-transitory computer readable medium
CN113539457A (zh) 医疗资源的推荐方法及装置、电子设备、存储介质
CN109102164B (zh) 平台评估方法、装置、计算机设备和存储介质
CN112015723A (zh) 数据等级划分方法、装置、计算机设备和存储介质
CN115391666A (zh) 医院在线推荐方法、装置、计算机设备和存储介质
CN116010670A (zh) 一种基于数据血缘关系的数据目录推荐方法、装置及应用
CN113837319B (zh) 基于聚类的客户分类方法、装置、设备及存储介质
Jaffrézic et al. Multivariate character process models for the analysis of two or more correlated function-valued traits
JP6476395B1 (ja) 検索語の評価装置、評価システム、及び評価方法
US20200234149A1 (en) Information processing device, information processing system, information processing method, and storage medium
KR20200046899A (ko) 관심 데이터 추출 방법 및 그 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant