CN113516513B - 数据分析方法、装置、计算机设备和存储介质 - Google Patents

数据分析方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113516513B
CN113516513B CN202110821102.XA CN202110821102A CN113516513B CN 113516513 B CN113516513 B CN 113516513B CN 202110821102 A CN202110821102 A CN 202110821102A CN 113516513 B CN113516513 B CN 113516513B
Authority
CN
China
Prior art keywords
sample
combination
determining
value
sample element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110821102.XA
Other languages
English (en)
Other versions
CN113516513A (zh
Inventor
樊亦杰
范小刚
郭灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Duxiaoman Youyang Technology Co ltd
Original Assignee
Chongqing Duxiaoman Youyang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Duxiaoman Youyang Technology Co ltd filed Critical Chongqing Duxiaoman Youyang Technology Co ltd
Priority to CN202110821102.XA priority Critical patent/CN113516513B/zh
Publication of CN113516513A publication Critical patent/CN113516513A/zh
Application granted granted Critical
Publication of CN113516513B publication Critical patent/CN113516513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种数据分析方法、装置、计算机设备和存储介质。该分析方法包括:使用预设模型对人群数据对应的样本进行训练,以得到模型文件,样本包括多个样本元素,每个样本元素携带有至少一个特征值域;对模型文件进行解析,以得到至少一个树结构,每个树结构包括多个叶节点,每个叶节点对应一个残差值以及至少一个特征值域;根据残差值确定叶节点的极值组合;根据极值组合确定样本的显著特征,以基于显著特征推荐目标人群,从而简化分析复杂度,提高分析效率,且得到的显著特征可解释性强。

Description

数据分析方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种数据分析方法、装置、计算机设备和存储介质。
背景技术
目前,在制定策略前,需要通过实验或者数据收集获取到由众多样本元素组成的样本,之后需要通过数据分析方法找到样本中命中预设标签的样本元素之间共有的显著特征,再根据该显著特征指导后续的策略制定。
比如,针对收集到的被营销人群,其中,每个人均携带有标签,标签为转化或未转化,如果需要通过数据分析方法找到其中转化人群的显著特征,目前有下述几种方式:其一是通过对转化人群的特征进行单维或多维组合分析,之后通过遍历组合找到显著特征组合,然而,由于几个特征就可以遍历出几万个组合,若是几百个特征则无法遍历组合。或者,也可以根据经验进行特征的分箱和组合,然而该方式最多覆盖二/三维组合,导致最终找到的人群准确率和召回率比较低。再或者,使用模型挑选,然而使用模型得到的特征可解释性差,也不便于灵活调整策略。
发明内容
本申请实施例提供一种数据分析方法、装置、计算机设备和存储介质,可以实现对样本进行高效率、低复杂度的分析,且得到的显著特征具有强解释性。
第一方面,本申请实施例提供了一种数据分析方法,包括:
使用预设模型对人群数据对应的样本进行训练,以得到模型文件,所述样本包括多个样本元素,每个所述样本元素携带有至少一个特征值域;
对所述模型文件进行解析,以得到至少一个树结构,每个所述树结构包括多个叶节点,每个所述叶节点对应一个残差值以及至少一个所述特征值域;
根据所述残差值确定所述叶节点的极值组合;
根据所述极值组合确定所述样本的显著特征,以基于所述显著特征推荐目标人群。
在本申请实施例提供的数据分析方法中,所述根据所述残差值所述叶节点的极值组合,包括:
分别对每个所述树结构的叶节点按照残差值从大到小进行排序,以得到第一排序;
取每个所述第一排序中前预设个数的叶节点与其他所述第一排序中前所述预设个数的叶节点进行二维交叉,以得到多个叶节点组合;
将所述多个叶节点组合中,除所述叶节点的特征值域互斥的叶节点组合以外的叶节点组合确定为多个极值组合。
在本申请实施例提供的数据分析方法中,每个所述样本元素还携带有至少一个标签值,所述根据所述极值组合确定所述样本的显著特征,包括:
确定每个所述极值组合内叶节点的特征值域的交集;
将所述样本内,与所述特征值域的交集匹配的样本元素筛选出来,以得到多个样本元素组合;
根据所述样本元素组合内样本元素的标签值确定所述样本的显著特征。
在本申请实施例提供的数据分析方法中,所述根据所述样本元素组合内样本元素的标签值确定所述样本的显著特征,包括:
根据所述样本元素组合内样本元素的标签值计算所述样本元素组合命中预设标签值的第一准确率;
根据所述第一准确率确定所述显著特征。
在本申请实施例提供的数据分析方法中,所述根据所述第一准确率确定所述显著特征,包括:
按照所述第一准确率从高到低的顺序将全部所述样本元素组合进行排序;
在预设准确率之上找到所述第一准确率下降的拐点;
将所述第一准确率为所述拐点的样本元素组合以及在所述拐点之上的样本元素组合的特征阈值做并集聚合,以得到所述显著特征。
在本申请实施例提供的数据分析方法中,所述根据所述第一准确率确定所述显著特征,包括:
按照所述第一准确率由高到低的顺序将所述样本元素组合进行排序,以得到第二排序;
保留所述第二排序中的首个样本元素组合,并按照所述第二排序的排序顺序,使用所述首个样本元素组合向下进行N次合并,每次合并N个所述样本元素组合,以得到多个合并组合,所述N为正整数;
根据所述合并组合确定所述显著特征。
在本申请实施例提供的数据分析方法中,所述根据所述合并组合确定所述显著特征,包括:
计算所述合并组合的第二准确率和召回率;
将所述第二准确率为第一预设值,且所述召回率为第二预设值的合并组合的特征阈值确定为所述显著特征。
第二方面,本申请实施例还提供了一种数据分析装置,包括:
训练模块,用于使用预设模型对人群数据对应的样本进行训练,以得到模型文件,所述样本包括多个样本元素,每个所述样本元素携带有至少一个特征值域;
解析模块,用于对所述模型文件进行解析,以得到至少一个树结构,每个所述树结构包括多个叶节点,每个所述叶节点对应一个残差值以及至少一个所述特征值域;
第一确定模块,用于根据所述残差值确定所述叶节点的极值组合;
第二确定模块,用于根据所述极值组合确定所述样本的显著特征,以基于所述显著特征推荐目标人群。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现如上述方法的步骤。
第四方面,本申请实施例还提供了一种存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述方法的步骤。
本申请实施例提供了一种数据分析方法、装置、计算机设备和存储介质,该分析方法包括:使用预设模型对人群数据对应的样本进行训练,以得到模型文件,样本包括多个样本元素,每个样本元素携带有至少一个特征值域;对模型文件进行解析,以得到至少一个树结构,每个树结构包括多个叶节点,每个叶节点对应一个残差值以及至少一个特征值域;根据残差值确定叶节点的极值组合;根据极值组合确定样本的显著特征,以基于显著特征推荐目标人群,如此,基于模型树的挖掘和极值组合的分析,简化了分析复杂度,提高了分析的效率,且得到的显著特征可解释性强。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据分析方法的流程示意图。
图2是本申请实施例提供的数据分析方法的第一应用场景示意图;
图3是本申请实施例提供的数据分析方法的第二应用场景示意图;
图4是本申请实施例提供的数据分析方法的第三应用场景示意图;
图5是本申请实施例提供的数据分析装置的结构示意图;
图6是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种数据分析方法、装置、计算机设备和存储介质。具体地,本实施例提供适用于数据分析装置的数据分析方法,该数据分析装置可以集成在计算机设备中。
请参阅图1,图1为本申请实施例提供的数据分析方法的流程示意图,主要可以包括步骤101至步骤104,针对各个步骤的说明如下:
步骤101:使用预设模型对人群数据对应的样本进行训练,以得到模型文件,样本包括多个样本元素,每个样本元素携带有至少一个特征值域。
其中,预设模型可以为Xgboost模型。
例如,可以先获取指定时段内的人群数据,然后根据业务需求对该人群数据进行数据预处理,以生成人群数据对应的样本。例如,指定时段可以包括但不限于当前时刻之前的一年、一个季度、一个月、一周或一天等。对该人群数据进行数据预处理可以包括对人群数据设置标签,以及提取出人群数据的特征数据等。例如,该特征数据可以包括但不限于用户画像特征、用户行为特征、用户偏好特征等,比如用户画像特征可以包括用户年龄数据、用户性别数据、用户职业数据、用户所属行业数据、用户收入数据、用户所属区域数据、用户学历数据等。比如,用户行为特征可以包括消费数据、购买数据、点击数据、浏览数据等。比如,用户偏好特征可以包括用户对某个目标对象的偏好信息等。
样本可以为带有标签和特征数据的人群,例如消费者、互联网用户等。比如,奶茶店想要针对3月份消费的人群,通过一定的规则找到4月份的精准用户(目标人群),将广告精准投放,比如,有一些人每天喝奶茶,则可以通过这些人找到共性特征,之后根据共性特征找到精准用户,进行精准的广告投放。在上述举例中,样本即为奶茶店3月份消费的人群,其中,在这个人群内的每个人可以携带标签和特征数据,比如,标签可以为标签值,每天喝奶茶的人为1,否则为0,特征数据可以为年龄,性别,职业,行业,收入,消费水平,消费习惯等,其中特征数据也可以值化,表现为特征值域。
再比如,购物网站想要针对某季度浏览购物网站的人群,找到下一季度的精准用户,将广告精准投放,比如,有一些人通过浏览购物网站后产生了购物行为,则可以通过这些人找到共性特征,之后根据共性特征找到下一季度可能产生购物行为的精准用户,进行精准的广告投放,在本例中,样本即为某季度浏览购物网站的人群,其中,在这个人群内的每个人可以携带标签和特征数据,比如,标签可以为标签值,产生购物行为的人携带的标签值为1,否则为0,特征数据可以为年龄,性别,职业,收入等等,其中,特征数据也可以值化,表现为特征值域。
具体地,可以将样本输入Xgboost模型训练,得到决策树文件,请参阅图 2,示例性的,截取决策树文件中的一段对决策树文件的格式进行说明,其中, booster[x]表示每一棵树,leaf是每一个叶节点,leaf的取值是对应的残差值w,比如,如图2所示,booster[0]表示第一棵树,booster[0]一共有14个叶节点。
步骤102:对模型文件进行解析,以得到至少一个树结构,每个树结构包括多个叶节点,每个叶节点对应一个残差值以及至少一个特征值域。
具体地,对决策树文件进行解析,得到的数据包括n个booster树,如果树的最大深度是4的话,每个树有6至8个叶节点(leaf)不等,需要记录每个叶节点的残差值以及每个叶节点对应的若干特征的值域。
比如,请参阅图3,解析后的数据格式如图3所示,其中,Mac(n)表示共解析出n个树结构,每个树结构对应一个序号,boosteri表示第i个树,每个树结构包含若干leaf(叶节点),每个leaf对应一个残差值w,以及对应一个若干特征的值域。
如图3所示,通过解析模型文件得到Mac(3),即解析出3个树结构, booster1有4个叶节点(leaf),w为残差值,feats_domain标注了经过哪些特征 (比如F1、F2)筛选可以到这个叶节点,其余树结构同理,在此不做赘述。
步骤103:根据残差值确定叶节点的极值组合。
在本实施例中,步骤103主要可以包括:分别对每个树结构的叶节点按照残差值从大到小进行排序,以得到第一排序;取每个第一排序中前预设个数的叶节点与其他第一排序中前预设个数的叶节点进行二维交叉,以得到多个叶节点组合;将多个叶节点组合中,除叶节点的特征值域互斥的叶节点组合以外的叶节点组合确定为多个极值组合。
容易理解的是,残差值越大,则可以认为其贡献越大,因此,可以将残差值排序中前预设个数的叶节点进行二维交叉,得到多个叶节点组合,以供后续进行特征分析。其中,预设个数可以取经验值3,即前三个,也可以用树结构的深度减去一得到预设个数。值得注意的是,在此处,二维交叉为经验值,效果基本可用,三维或三维以上的多维交叉复杂性过高。例如,以对每个第一排序的前三个叶节点进行二维交叉为例,可以得到C(2,n)*3*3的叶节点组合,其中,n表示树结构(第一排序)的总个数,为正整数。
进一步地,将多个叶节点进行组合,得到极值组合的目的是寻找共性显著特征,因此,若两个特征值域互斥的叶节点进行二维交叉组合,应该将其过滤,比如booster1的leaf1对应的特征值域有0.3<F2,与其交叉的booster2的 leaf1对应的特征值域有F2>0.4,则将booster1的leaf1和booster2的leaf1组成的叶节点组合过滤掉,即将多个叶节点组合中,除叶节点的特征值域互斥的叶节点组合以外的叶节点组合确定为多个极值组合。
此外,得到所有的极值组合后,还应该计算每个极值组合的特征值域的交集和残差值和,例如,可以得到如下表1:
Figure BDA0003172014430000071
表1
步骤104:根据极值组合确定所述样本的显著特征,以基于所述显著特征推荐目标人群。
在一些实施例中,每个样本元素还携带有至少一个标签值,步骤104主要可以包括:确定每个极值组合内叶节点的特征值域的交集;将样本内与特征值域的交集匹配的样本元素筛选出来,以得到多个样本元素组合;根据样本元素组合内样本元素的标签值确定样本的显著特征。
容易理解的是,根据每个极值组合对应的特征值域交集可以从样本中筛选出对应的样本元素,将每个特征值域交集筛选出的样本元素组合起来,可以得到对应的样本元素组合,每个样本元素均携带至少一个标签值,可以根据每个样本元素的标签值计算出对应样本元素组合的准确率和召回率,准确率是每个样本元素组合内样本元素命中预设标签的准确率,准确率越高,则可以认为该样本元素组合的可参考价值越高,召回率是每个样本元素组合内命中预设标签的样本元素占整个样本内命中预设标签的样本元素的比例,若占比越多,则可以认为该样本元素组合的可参考价值越高。
具体地,步骤“将样本内与特征值域的交集匹配的样本元素筛选出来,以得到多个样本元素组合”具体可以包括:先通过每个极值组合内的叶节点的特征值域将样本元素筛选出来,再进一步通过特征值域的交集再次筛选。如此,可以减少计算量,将筛选时间减少10%。
进一步地,步骤“根据样本元素组合内样本元素的标签值确定显著特征”主要可以包括:根据样本元素组合内样本元素的标签值计算样本元素组合命中标签人群的第一准确率;根据第一准确率确定显著特征。
容易理解的是,样本元素的标签是用来确定共性特征的重要参考,比如,针对奶茶店3月份消费的人群,想要找到4月份的精准消费者,可以将是否每天喝奶茶作为标签,根据每天喝奶茶的人群之间的共性特征找到精准消费者 (目标人群)。
具体地,步骤“根据样本元素组合内样本元素的标签值计算样本元素组合命中标签人群的第一准确率”,具体可以包括:计算样本元素组合内标签值为预设标签值的样本元素个数和样本元素组合内所有样本元素个数之间的商,作为命中预设标签值的第一准确率。
比如,F为样本元素组合内所有样本元素的个数,FT为样本元素组合内标签值为预设标签值的样本元素的个数,命中预设标签值的准确率即为FT/F。
在本实施例中,步骤“根据第一准确率确定显著特征”具体可以包括:按照第一准确率从高到低的顺序将全部样本元素组合排序;在预设准确率以上找到第一准确率下降的拐点;将第一准确率为拐点的样本元素组合以及在拐点之上的样本元素组合的特征阈值做并集聚合,以得到显著特征。
其中,预设阈值一般设置在70%以上。比如,如图4所示,根据样本元素组合的第一准确率由高到低的顺序绘制了一个折线图,其中,横向为样本组合序号,纵向为准确率,在第一准确率为70%之上,找到第一准确率下降的拐点,如图中的样本元素组合7为拐点,则将样本元素组合7以及样本元素组合7 左侧的样本元素组合(组合1、组合27、组合13等)的特征阈值做取并集聚合,以得到显著特征。
在一些实施例中,步骤“根据第一准确率确定显著特征”主要可以包括:按照第一准确率由高到低的顺序将样本元素组合进行排序,以得到第二排序;保留第二排序中的首个样本元素组合,并按照第二排序的排序顺序,使用首个样本元素组合向下进行N次合并,每次合并N个样本元素组合,以得到多个合并组合,N为正整数;根据合并组合确定显著特征。
比如,共得到五个样本元素组合,A1至A5,按照第一准确率由高到低进行排序后的第二排序为A2、A4、A1、A5、A3,保留第二排序中的A2,之后使用A2依次向下合并,第一次合并一个样本元素组合,第二次合并两个样本元素组合,直至将所有样本元素组合均合并完成,得到五个合并组合,如表2 所示,之后根据合并组合确定显著特征。
在本实施例中,步骤“根据合并组合确定显著特征”具体可以包括:计算合并组合的第二准确率和召回率;将第二准确率为第一预设值,且召回率为第二预设值的合并组合的特征阈值确定为显著特征。
容易理解的是,存在这样一种情况,某样本元素组合仅包括两个样本元素,且两个样本元素组合的标签值均为预设标签值,但由于样本元素数量过少,参考价值不高,因此,可以按照第一准确率由高到低对样本元素组合排序合并后,可以同时参考准确率和召回率,在准确率和召回率均衡下找到显著特征。
具体地,步骤“计算合并组合的召回率”具体可以包括:计算合并组合内标签值为预设标签值的样本元素个数和样本中样本元素标签值为预设标签的样本元素个数的商,作为召回率。
比如,A为样本中所有样本元素的个数,AT为样本中命中预设标签值的样本元素的个数,B为合并组合中所有样本元素的个数,BT为合并组合中命中预设标签之的样本元素的个数,第二准确率为BT/B,召回率即为BT/AT,得到如 下表2。
合并组合 准确率 召回率
A2 100.00% 8.70%
A2,A4 95.00% 25.00%
A2,A4,A1 94.00% 32.00%
A2,A4,A1,A5 94.20% 36.00%
A2,A4,A1,A5,A3 85.00% 45.00% 
表2
根据表2,可以按照经验来进行选择,比如准确率为95%,召回率为25%的合并组合,能精准的定位到目标人群,或者选择召回率为45%,准确率为85%的合并组合,保证覆盖更多的用户,同时准确率也比较高。
得到合并组合后,可以得到合并组合内样本元素的特征阈值组合,并将该特征阈值组合确定为显著特征,后续可以根据显著特征进行广告的精准投放。值得注意的是,目标人群即为符合显著特征的一类人。具体地,根据获取到的样本的显著特征,可以从待检测用户群中选出与用户特征信息与上述显著特征相符合的多个用户作为目标人群。其中,待检测用户群可以为目标应用程序的注册用户,该目标应用程序即广告投放的应用程序,比如,广告投放在某小视频应用程序,显著特征为互联网行业的年轻女性,则小视频应用程序的注册用户即为待检测用户群,目标人群即为注册用户中互联网行业的年轻女性用户。
如前面的示例:针对奶茶店3月份消费的人群中,有一类人每天喝奶茶,通过整个流程确定每天喝奶茶的人群的显著特征是:
一线城市&&IT行业&&收入1w以上&&女性&&下班晚||二三线城市&&金融行业&&女性&&商业中心工作&&收入8k以上。
可见,根据整个流程得到的显著特征可解释性强,并且根据显著特征进行精准投放时,可以灵活的选择城市,行业等等特征维度,非常方便策略调整,进而得到需推荐的目标人群,并基于目标人群进行精准投放。
本申请实施例提供的数据分析方法,通过使用预设模型对人群数据对应的样本进行训练,以得到模型文件,样本包括多个样本元素,每个样本元素携带有至少一个特征值域,之后对模型文件进行解析,以得到至少一个树结构,每个树结构包括多个叶节点,每个叶节点对应一个残差值以及至少一个特征值域,接着根据残差值确定叶节点的极值组合,并根据极值组合确定样本的显著特征,以基于显著特征推荐目标人群,从而简化分析复杂度,提高分析效率,且得到的显著特征可解释性强。
为便于更好的实施本申请实施例的数据分析方法,本申请实施例还提供一种数据分析装置。请参阅图5,图5为本申请实施例提供的数据分析装置的结构示意图。该数据分析装置10可以包括训练模块11,解析模块12,第一确定模块13以及第二确定模块14。
其中,训练模块11,用于使用预设模型对人群数据对应的样本进行训练,以得到模型文件,样本包括多个样本元素,每个样本元素携带有至少一个特征值域。
解析模块12,用于对模型文件进行解析,以得到至少一个树结构,每个树结构包括多个叶节点,每个叶节点对应一个残差值以及至少一个特征值域。
第一确定模块13,用于根据残差值确定叶节点的极值组合。
第二确定模块14,用于根据极值组合确定样本的显著特征,以基于显著特征推荐目标人群。
在一些实施例中,第一确定模块13主要可以用于:分别对每个树结构的叶节点按照残差值从大到小进行排序,以得到第一排序;取每个第一排序中前预设个数的叶节点与其他第一排序中前预设个数的叶节点进行二维交叉,以得到多个叶节点组合;将多个叶节点组合中,除叶节点的特征值域互斥的叶节点组合以外的叶节点组合确定为多个极值组合。
在一些实施例中,每个样本元素还携带有至少一个标签值,第二确定模块14主要可以用于:确定每个极值组合内叶节点的特征值域的交集;将样本内,与特征值域的交集匹配的样本元素筛选出来,以得到多个样本元素组合;根据样本元素组合内样本元素的标签值确定样本的显著特征。
进一步地,第二确定模块14具体可以用于:根据样本元素组合内样本元素的标签值计算样本元素组合命中预设标签值的第一准确率;根据第一准确率确定显著特征。
进一步地,第二确定模块14具体可以用于:按照第一准确率从高到低的顺序将全部样本元素组合进行排序;在预设准确率之上找到第一准确率下降的拐点;将第一准确率为拐点的样本元素组合以及在拐点之上的样本元素组合的特征阈值做并集聚合,以得到显著特征。
在一些实施例中,第二确定模块14具体可以用于:按照第一准确率由高到低的顺序将样本元素组合进行排序,以得到第二排序;保留第二排序中的首个样本元素组合,并按照第二排序的排序顺序,使用首个样本元素组合向下进行N次合并,每次合并N个样本元素组合,以得到多个合并组合,N为正整数;根据合并组合确定显著特征。
在一些实施例中,第二确定模块14具体可以用于:计算合并组合的第二准确率和召回率;将第二准确率为第一预设值,且召回率为第二预设值的合并组合的特征阈值确定为显著特征。
本申请实施例提供的数据分析装置10,通过训练模块11使用预设模型对人群数据对应的样本进行训练,以得到模型文件,样本包括多个样本元素,每个样本元素携带有至少一个特征值域,之后解析模块12对模型文件进行解析,以得到至少一个树结构,每个树结构包括多个叶节点,每个叶节点对应一个残差值以及至少一个特征值域,接着第一确定模块13根据残差值确定叶节点的极值组合,然后第二确定模块14根据极值组合确定样本的显著特征,以基于显著特征推荐目标人群,从而简化分析复杂度,提高分析效率,且得到的显著特征可解释性强。
此外,本申请实施例还提供一种计算机设备,该计算机设备可以为终端,该终端可以为笔记本电脑、个人计算机(PC,PersonalComputer)、个人数字助理(PersonalDigitalAssistant,PDA)等终端设备。如图6所示,图6为本申请实施例提供的计算机设备的结构示意图。该计算机设备2000包括有一个或者一个以上处理核心的处理器2001、有一个或一个以上计算机可读存储介质的存储器2002及存储在存储器2002上并可在处理器上运行的计算机程序。其中,处理器2001与存储器2002电性连接。本领域技术人员可以理解,图中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器2001是计算机设备2000的控制中心,利用各种接口和线路连接整个计算机设备2000的各个部分,通过运行或加载存储在存储器2002内的软件程序和/或模块,以及调用存储在存储器2002内的数据,执行计算机设备2000的各种功能和处理数据,从而对计算机设备2000进行整体监控。
在本申请实施例中,计算机设备2000中的处理器2001会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器2002中,并由处理器2001来运行存储在存储器2002中的应用程序,从而实现各种功能:
使用预设模型对人群数据对应的样本进行训练,以得到模型文件,样本包括多个样本元素,每个样本元素携带有至少一个特征值域;
对模型文件进行解析,以得到至少一个树结构,每个树结构包括多个叶节点,每个叶节点对应一个残差值以及至少一个特征值域;
根据残差值确定叶节点的极值组合;
根据极值组合确定样本的显著特征,以基于显著特征推荐目标人群。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
可选的,如图6所示,计算机设备2000还包括:触控显示屏2003、射频电路2004、音频电路2005、输入单元2006以及电源2007。其中,处理器 2001分别与触控显示屏2003、射频电路2004、音频电路2005、输入单元 2006以及电源2007电性连接。本领域技术人员可以理解,图6示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
触控显示屏2003可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏2003可以包括显示面板和触控面板。其中,显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的,可以采用液晶显示器(LCD, LiquidCrystalDisplay)、有机发光二极管(OLED,OrganicLight- EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并生成相应的操作指令,且操作指令执行对应程序。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器2001,并能接收处理器2001发来的命令并加以执行。触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器2001以确定触摸事件的类型,随后处理器2001 根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中,可以将触控面板与显示面板集成到触控显示屏2003而实现输入和输出功能。但是在某些实施例中,触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏2003也可以作为输入单元2006的一部分实现输入功能。
射频电路2004可用于收发射频信号,以通过无线通信与网络设备或其他计算机设备建立无线通讯,与网络设备或其他计算机设备之间收发信号。
音频电路2005可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路2005可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路2005接收后转换为音频数据,再将音频数据输出处理器2001处理后,经射频电路2004以发送给比如另一计算机设备,或者将音频数据输出至存储器2002以便进一步处理。音频电路2005还可能包括耳塞插孔,以提供外设耳机与计算机设备的通信。
输入单元2006可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
电源2007用于给计算机设备2000的各个部件供电。可选的,电源2007 可以通过电源管理***与处理器2001逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源2007还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管图6中未示出,计算机设备2000还可以包括摄像头、传感器、无线保真模块、蓝牙模块等,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
由上可知,本实施例提供的计算机设备,通过使用预设模型对人群数据对应的样本进行训练,以得到模型文件,样本包括多个样本元素,每个样本元素携带有至少一个特征值域,之后对模型文件进行解析,以得到至少一个树结构,每个树结构包括多个叶节点,每个叶节点对应一个残差值以及至少一个特征值域,接着根据残差值确定叶节点的极值组合,并根据极值组合确定样本的显著特征,以基于显著特征推荐目标人群,从而简化分析复杂度,提高分析效率,且得到的显著特征可解释性强。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种数据分析方法中的步骤。例如,该计算机程序可以执行如下步骤:使用预设模型对人群数据对应的样本进行训练,以得到模型文件,样本包括多个样本元素,每个样本元素携带有至少一个特征值域;对模型文件进行解析,以得到至少一个树结构,每个树结构包括多个叶节点,每个叶节点对应一个残差值以及至少一个特征值域;根据残差值确定叶节点的极值组合;根据极值组合确定样本的显著特征,以基于显著特征推荐目标人群。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,ReadOnlyMemory)、随机存取记忆体(RAM,RandomAccessMemory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种数据分析方法中的步骤,因此,可以实现本申请实施例所提供的任一种数据分析方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种数据分析方法、装置、存储介质及计算机设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种数据分析方法,其特征在于,包括:
使用预设模型对人群数据对应的样本进行训练,以得到模型文件,所述样本包括多个样本元素,每个所述样本元素携带有至少一个特征值域和至少一个标签值;
对所述模型文件进行解析,以得到至少一个树结构,每个所述树结构包括多个叶节点,每个所述叶节点对应一个残差值以及至少一个所述特征值域;
根据所述残差值确定所述叶节点的极值组合,包括:分别对每个所述树结构的叶节点按照残差值从大到小进行排序,以得到第一排序;取每个所述第一排序中前预设个数的叶节点与其他所述第一排序中前所述预设个数的叶节点进行二维交叉,以得到多个叶节点组合;将所述多个叶节点组合中,除所述叶节点的特征值域互斥的叶节点组合以外的叶节点组合确定为多个极值组合;
根据所述极值组合确定所述样本的显著特征,以基于所述显著特征推荐目标人群,其中,所述根据所述极值组合确定所述样本的显著特征,包括:确定每个所述极值组合内叶节点的特征值域的交集;将所述样本内,与所述特征值域的交集匹配的样本元素筛选出来,以得到多个样本元素组合;根据每个样本元素组合内样本元素的标签值计算出每个样本元素组合的准确率和召回率,根据每个样本元素组合的准确率和/或召回率确定所述样本的显著特征。
2.根据权利要求1所述的数据分析方法,其特征在于,所述根据所述样本元素组合内样本元素的标签值确定所述样本的显著特征,包括:
根据所述样本元素组合内样本元素的标签值计算所述样本元素组合命中预设标签值的第一准确率;
根据所述第一准确率确定所述显著特征。
3.根据权利要求2所述的数据分析方法,其特征在于,所述根据所述第一准确率确定所述显著特征,包括:
按照所述第一准确率从高到低的顺序将全部所述样本元素组合进行排序;
在预设准确率之上找到所述第一准确率下降的拐点;
将所述第一准确率为所述拐点的样本元素组合以及在所述拐点之上的样本元素组合的特征阈值做并集聚合,以得到所述显著特征。
4.根据权利要求2所述的数据分析方法,其特征在于,所述根据所述第一准确率确定所述显著特征,包括:
按照所述第一准确率由高到低的顺序将所述样本元素组合进行排序,以得到第二排序;
保留所述第二排序中的首个样本元素组合,并按照所述第二排序的排序顺序,使用所述首个样本元素组合向下进行N次合并,每次合并N个所述样本元素组合,以得到多个合并组合,所述N为正整数;
根据所述合并组合确定所述显著特征。
5.根据权利要求4所述的数据分析方法,其特征在于,所述根据所述合并组合确定所述显著特征,包括:
计算所述合并组合的第二准确率和召回率;
将所述第二准确率为第一预设值,且所述召回率为第二预设值的合并组合的特征阈值确定为所述显著特征。
6.一种数据分析装置,其特征在于,包括:
训练模块,用于使用预设模型对人群数据对应的样本进行训练,以得到模型文件,所述样本包括多个样本元素,每个所述样本元素携带有至少一个特征值域和至少一个标签值;
解析模块,用于对所述模型文件进行解析,以得到至少一个树结构,每个所述树结构包括多个叶节点,每个所述叶节点对应一个残差值以及至少一个所述特征值域;
第一确定模块,用于根据所述残差值确定所述叶节点的极值组合,包括:分别对每个所述树结构的叶节点按照残差值从大到小进行排序,以得到第一排序;取每个所述第一排序中前预设个数的叶节点与其他所述第一排序中前所述预设个数的叶节点进行二维交叉,以得到多个叶节点组合;将所述多个叶节点组合中,除所述叶节点的特征值域互斥的叶节点组合以外的叶节点组合确定为多个极值组合;
第二确定模块,用于根据所述极值组合确定所述样本的显著特征,以基于所述显著特征推荐目标人群,其中,所述根据所述极值组合确定所述样本的显著特征,包括:确定每个所述极值组合内叶节点的特征值域的交集;将所述样本内,与所述特征值域的交集匹配的样本元素筛选出来,以得到多个样本元素组合;根据每个样本元素组合内样本元素的标签值计算出每个样本元素组合的准确率和召回率,根据每个样本元素组合的准确率和/或召回率确定所述样本的显著特征。
7.一种计算机设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
8.一种存储介质,其特征在于,存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN202110821102.XA 2021-07-20 2021-07-20 数据分析方法、装置、计算机设备和存储介质 Active CN113516513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110821102.XA CN113516513B (zh) 2021-07-20 2021-07-20 数据分析方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110821102.XA CN113516513B (zh) 2021-07-20 2021-07-20 数据分析方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113516513A CN113516513A (zh) 2021-10-19
CN113516513B true CN113516513B (zh) 2023-04-07

Family

ID=78068189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110821102.XA Active CN113516513B (zh) 2021-07-20 2021-07-20 数据分析方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113516513B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563429A (zh) * 2017-07-27 2018-01-09 国家计算机网络与信息安全管理中心 一种网络用户群体的分类方法及装置
CN110298212A (zh) * 2018-03-21 2019-10-01 腾讯科技(深圳)有限公司 模型训练方法、情绪识别方法、表情显示方法及相关设备
CN110689093A (zh) * 2019-12-10 2020-01-14 北京同方软件有限公司 一种复杂场景下的图像目标精细分类方法
CN111950622A (zh) * 2020-08-10 2020-11-17 中国平安人寿保险股份有限公司 基于人工智能的行为预测方法、装置、终端及存储介质
CN113408627A (zh) * 2021-06-22 2021-09-17 中国工商银行股份有限公司 目标对象的确定方法、装置和服务器
CN114065641A (zh) * 2021-11-24 2022-02-18 深圳前海微众银行股份有限公司 多分类梯度提升树的构建方法、装置及电子设备
CN114925853A (zh) * 2022-05-25 2022-08-19 京东科技控股股份有限公司 一种梯度提升树模型的构建方法、装置、设备和介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7283982B2 (en) * 2003-12-05 2007-10-16 International Business Machines Corporation Method and structure for transform regression
US10852838B2 (en) * 2014-06-14 2020-12-01 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US20190205465A1 (en) * 2017-12-28 2019-07-04 Salesforce.Com, Inc. Determining document snippets for search results based on implicit user interactions
CN109193703A (zh) * 2018-11-02 2019-01-11 国网四川省电力公司电力科学研究院 考虑类别不均衡性的电力***暂态稳定关键特征选择方法
CN109784365B (zh) * 2018-12-06 2023-12-01 深圳市创梦天地科技有限公司 一种特征选择方法、终端、可读介质及计算机程序
CN110533519A (zh) * 2019-05-16 2019-12-03 杭州排列科技有限公司 基于决策树的特征分箱算法
CN110517154A (zh) * 2019-07-23 2019-11-29 平安科技(深圳)有限公司 数据模型训练方法、***及计算机设备
CN110688429A (zh) * 2019-08-14 2020-01-14 中国平安人寿保险股份有限公司 目标员工筛选方法、装置、计算机设备及存储介质
CN110705683B (zh) * 2019-10-12 2021-06-29 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN111581877A (zh) * 2020-03-25 2020-08-25 中国平安人寿保险股份有限公司 样本模型训练方法、样本生成方法、装置、设备及介质
CN111695593A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 基于XGBoost的数据分类方法、装置、计算机设备及存储介质
CN112035453B (zh) * 2020-08-27 2024-03-12 平安科技(深圳)有限公司 基于gbdt高阶特征组合的推荐方法、装置及存储介质
CN112036476A (zh) * 2020-08-28 2020-12-04 上海冰鉴信息科技有限公司 基于二分类业务的数据特征选择方法、装置及计算机设备
CN112200659A (zh) * 2020-09-28 2021-01-08 深圳索信达数据技术有限公司 建立风控模型的方法、装置及存储介质
CN112199559B (zh) * 2020-12-07 2021-02-19 上海冰鉴信息科技有限公司 数据特征的筛选方法、装置及计算机设备
CN112232951B (zh) * 2020-12-17 2021-04-27 中证信用云科技(深圳)股份有限公司 基于多维度交叉特征的信用评价方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563429A (zh) * 2017-07-27 2018-01-09 国家计算机网络与信息安全管理中心 一种网络用户群体的分类方法及装置
CN110298212A (zh) * 2018-03-21 2019-10-01 腾讯科技(深圳)有限公司 模型训练方法、情绪识别方法、表情显示方法及相关设备
CN110689093A (zh) * 2019-12-10 2020-01-14 北京同方软件有限公司 一种复杂场景下的图像目标精细分类方法
CN111950622A (zh) * 2020-08-10 2020-11-17 中国平安人寿保险股份有限公司 基于人工智能的行为预测方法、装置、终端及存储介质
CN113408627A (zh) * 2021-06-22 2021-09-17 中国工商银行股份有限公司 目标对象的确定方法、装置和服务器
CN114065641A (zh) * 2021-11-24 2022-02-18 深圳前海微众银行股份有限公司 多分类梯度提升树的构建方法、装置及电子设备
CN114925853A (zh) * 2022-05-25 2022-08-19 京东科技控股股份有限公司 一种梯度提升树模型的构建方法、装置、设备和介质

Also Published As

Publication number Publication date
CN113516513A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN106650780B (zh) 数据处理方法及装置、分类器训练方法及***
CN110245213B (zh) 调查问卷生成方法、装置、设备和存储介质
CN110377804A (zh) 培训课程数据的推送方法、装置、***及存储介质
CN111898675B (zh) 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
CN109558541A (zh) 一种信息处理的方法、装置及计算机存储介质
CN109582967B (zh) 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN115271931A (zh) 一种***产品的推荐方法、装置、电子设备和介质
CN110675179A (zh) 营销信息处理方法、装置、电子设备及可读存储介质
CN109062947A (zh) 用户画像标签查询方法、设备及计算机可读存储介质
CN108647714A (zh) 负面标签权重的获取方法、终端设备及介质
CN101893960B (zh) 一种基于方向向量的文字识别方法和识别装置
CN104077288A (zh) 网页内容推荐方法和网页内容推荐设备
CN113516513B (zh) 数据分析方法、装置、计算机设备和存储介质
CN112966916A (zh) 一种基于深度学习的社区空闲资源分享方法和***
CN109919324B (zh) 基于标签比例学习的迁移学习分类方法、***及设备
CN116433324A (zh) 一种产品推荐方法、装置、介质和计算机设备
CN110264311B (zh) 一种基于深度学习的商业推广信息精准推荐方法及***
CN117236999A (zh) 一种活跃度确定方法、装置、电子设备及存储介质
CN116307394A (zh) 产品用户体验评分方法、装置、介质及设备
CN115330522A (zh) 基于聚类的***审批方法、装置、电子设备和介质
CN108776959A (zh) 图像处理方法、装置及终端设备
CN113901901A (zh) 图像处理模型的训练方法、装置、电子设备和介质
CN114155038B (zh) 受疫情影响用户识别方法
CN113837727B (zh) 事件提醒方法、装置、设备及介质
CN104966212A (zh) 用户移动化程度的检测方法及应用方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant