CN105718490A - 一种用于更新分类模型的方法及装置 - Google Patents

一种用于更新分类模型的方法及装置 Download PDF

Info

Publication number
CN105718490A
CN105718490A CN201410737856.7A CN201410737856A CN105718490A CN 105718490 A CN105718490 A CN 105718490A CN 201410737856 A CN201410737856 A CN 201410737856A CN 105718490 A CN105718490 A CN 105718490A
Authority
CN
China
Prior art keywords
decision tree
disaggregated model
newly
training sample
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410737856.7A
Other languages
English (en)
Inventor
沈雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410737856.7A priority Critical patent/CN105718490A/zh
Publication of CN105718490A publication Critical patent/CN105718490A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用于更新分类模型的方法,包括:从提供所述用户行为数据的服务器中,获取预定时间段内的增量数据,作为训练样本集;确定新增决策树的数量;根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树;按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树;汇总所选的决策树,得到更新后的分类模型。本申请同时提供一种用于更新分类模型的装置。采用本申请提供的方法,由于不需要根据全量数据进行训练,而是在原有分类模型的基础上采用增量更新方式,因此可以提高模型训练的效率、实现对业务的快速响应。

Description

一种用于更新分类模型的方法及装置
技术领域
本申请涉及基于决策树的分类模型,具体涉及一种用于更新分类模型的方法。本申请同时涉及一种用于更新分类模型的装置。
背景技术
随着互联网技术的发展,出现了大量的网络应用,例如:网络社交、网络阅读等,网络应用提供方为了向用户推荐更有针对性的信息、或者进行必要的监控管理,通常需要根据用户在网络应用中的操作行为,针对预先设定的目标进行分类预测,例如:用户是否属于活跃群体、用户的操作行为是否存在潜在风险等。为了提高预测效率和准确性,在大多数网络应用中通常采用分类模型进行分类预测。
所谓分类模型(也常常称作分类器),是指根据数据的特点把未知类别的样本映射到给定类别中的某一个。构造分类模型的过程通常分为训练和测试两个阶段。在训练阶段,通过分析由属性描述的训练样本集来构造模型,在测试阶段,使用测试样本集来评估模型的分类准确率,如果分类准确率满足一定的要求,则分类模型就可以投入实际应用,对未知类别的样本进行分类预测。
分类模型的构造过程通常由机器学习过程实现,其中决策树(decisiontree)是通过寻找属性和类别之间的关系来进行类别的预测。为了提升分类的正确性,在决策树的基础上又出现了随机森林分类器,即:由多个决策树组成的分类器,当待分类样本进入随机森林时,其实就是让每一颗决策树进行分类,最后选取被所有决策树选择次数最多的类别作为最终的分类结果。
上述基于决策树的分类模型在互联网领域得到了广泛的应用,针对这类模型的机器学习过程,基本都采用离线学习方式:通过对全量的历史用户行为数据的学习、分析,得出关于分类的知识,从而完成对分类模型的构建并部署上线。随着时间的推移,用户的行为规律通常会发生变化,各个网络应用或者网站向用户呈现的商品、信息等也处于不断地调整之中,导致分类模型的预测结果与实际分类不一致的程度超出了预先设定的范围,即:分类模型退化,其分类的准确率已无法满足要求。针对这种情况,现有技术通常采用人工干预进行离线计算的方式,利用全量历史数据重新训练分类模型,并将训练好的分类模型再次部署上线进行分类预测。
上述更新分类模型的方式,存在以下缺陷:
1)每次都采用全量数据进行分类模型的构建,随着数据量的增大、处理时间会相应延长,导致模型训练效率降低;
2)通常在分类模型退化后才重新进行训练,也就是说分类模型不能实时或者及时地根据数据的变化做出相应的调整,导致业务响应慢,在一些相对比较敏感的业务领域,例如:风险控制领域,不法分子就可能利用这一缺陷通过多次尝试达到绕过分类模型、避免被识别的目的,导致***防控的滞后性。
发明内容
本申请提供一种用于更新分类模型的方法,以解决现有分类模型更新方式训练效率低、以及更新不及时的问题。本申请另外提供一种用于更新分类模型的装置。
本申请提供一种用于更新分类模型的方法,所述分类模型由预定数量的决策树组成,用于根据网络应用中的用户行为数据进行类别预测,所述方法包括:
从提供所述用户行为数据的服务器中,获取预定时间段内的增量数据,作为训练样本集;
确定新增决策树的数量;
根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树;
按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树;
汇总所选的决策树,得到更新后的分类模型。
可选的,所述确定新增决策树的数量是指,使用所述训练样本集对所述分类模型进行验证,并根据验证结果确定新增决策树的数量。
可选的,所述使用所述训练样本集对所述分类模型进行验证,并根据验证结果确定新增决策树的数量,包括:
使用所述训练样本集中的每个样本,验证所述分类模型的正确性;
根据验证结果,计算所述分类模型对所述训练样本集进行分类的正确率;
根据所述正确率确定泊松分布的参数值,使得所述正确率与所述泊松分布的参数值满足反比关系;所述泊松分布是针对训练样本集执行有放回抽样得到新样本集所遵循的离散概率分布;
根据所述泊松分布的参数值确定符合所述离散概率分布的随机数值,并将该随机数值作为所述新增决策树的数量。
可选的,所述使用所述训练样本集中的每个样本,验证所述分类模型的正确性,包括:
根据训练样本包含的属性信息,采用所述分类模型进行类别预测;
判断预测的类别与所述训练样本的实际类别是否一致;
若一致,判定所述分类模型对所述训练样本的分类结果是正确的。
可选的,所述根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树,包括:
根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合;
使用所述bootstrap样本集合,采用在每个节点按照预定策略选取属性、并根据所选属性进行***的方式生成一棵新决策树;所述按照预定策略选取属性是指,从随机选择的样本属性中按照预定策略选取属性;
转到所述根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合的步骤继续执行,直至生成所述新增数量的决策树。
可选的,所述按照预定策略选取属性包括:根据信息增益选取属性、根据信息增益率选取属性、或者根据基尼指标选取属性。
可选的,在所述采用在每个节点按照预定策略选取属性、并根据所选属性进行***的方式生成一棵新决策树之后,执行下述操作:
计算表征所述新决策树的分类效果的指标;
相应的,所述按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树,包括:
针对所述分类模型包含的每棵决策树,计算表征其分类效果的指标;
按照所述指标对所述分类模型包含的决策树和所述新生成的决策树进行排序;
从排序后的决策树中选择序位处于高位的、所述特定数量的决策树。
可选的,所述表征所述新决策树的分类效果的指标是指,袋外数据误差;
相应的,所述针对所述分类模型包含的每棵决策树,计算表征其分类效果的指标包括:
将每棵新决策树的袋外数据汇总得到袋外数据集合;
使用所述袋外数据集合,计算表征所述分类模型包含的每棵决策树的分类效果的袋外数据误差。
可选的,在执行所述确定新增决策树的数量的步骤之前,执行下述操作:
判断是否已创建所述分类模型;
若否,所述确定新增决策树的数量是指,将预先设定的、分类模型包含决策树的数量作为所述新增决策树的数量;相应的,在执行所述采用随机森林算法生成所述新增数量的决策树后,直接执行所述汇总所选的决策树得到更新后的分类模型的步骤,已生成的所述新增数量的决策树即为所选的决策树。
相应的,本申请还提供一种用于更新分类模型的装置,包括:
训练样本集获取单元,用于从提供所述用户行为数据的服务器中,获取预定时间段内的增量数据,作为训练样本集;
新增数量确定单元,用于确定新增决策树的数量;
决策树创建单元,用于根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树;
决策树筛选单元,用于按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树;
分类模型输出单元,用于汇总所选的决策树,得到更新后的分类模型。
可选的,所述新增数量确定单元具体用于,使用所述训练样本集对所述分类模型进行验证,并根据验证结果确定新增决策树的数量。
可选的,所述新增数量确定单元包括:
正确性验证子单元,用于使用所述训练样本集中的每个样本,验证所述分类模型的正确性;
正确率计算子单元,用于根据验证结果,计算所述分类模型对所述训练样本集进行分类的正确率;
泊松分布参数确定子单元,用于根据所述正确率确定泊松分布的参数值,使得所述正确率与所述泊松分布的参数值满足反比关系;所述泊松分布是针对训练样本集执行有放回抽样得到新样本集所遵循的离散概率分布;
随机数确定子单元,用于根据所述泊松分布的参数值确定符合所述离散概率分布的随机数值,并将该随机数值作为所述新增决策树的数量。
可选的,所述正确性验证子单元包括:
第一循环控制子单元,用于针对所述训练样本集中的每个样本,依次触发以下子单元工作;
类别预测子单元,用于根据训练样本包含的属性信息,采用所述分类模型进行类别预测;
判断子单元,用于判断预测的类别与所述训练样本的实际类别是否一致;若一致,判定所述分类模型对所述训练样本的分类结果是正确的。
可选的,所述决策树创建单元包括:
第二循环控制子单元,用于判断创建的决策树是否达到所述新增数量,若否,则依次触发以下子单元创建新的决策树;
bootstrap采样子单元,用于根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合;
创建执行子单元,用于使用所述bootstrap样本集合,采用在每个节点按照预定策略选取属性、并根据所选属性进行***的方式生成一棵新决策树,并触发所述第二循环控制子单元工作;所述按照预定策略选取属性是指,从随机选择的样本属性中按照预定策略选取属性。
可选的,所述创建执行子单元在选取属性时所采用的预定策略包括:根据信息增益选取属性、根据信息增益率选取属性、或者根据基尼指标选取属性。
可选的,所述决策树创建单元还包括:
新建指标计算子单元,用于在所述创建执行子单元创建新决策树后,计算表征所述新决策树的分类效果的指标;
相应的,所述决策树筛选单元包括:
原有指标计算子单元,用于针对所述分类模型包含的每棵决策树,计算表征其分类效果的指标;
排序子单元,用于按照所述指标对所述分类模型包含的决策树和所述新生成的决策树进行排序;
选择子单元,用于从排序后的决策树中选择序位处于高位的、所述特定数量的决策树。
可选的,所述新建指标计算子单元计算的指标是指,袋外数据误差;
相应的,所述原有指标计算子单元包括:
袋外数据获取子单元,用于将每棵新决策树的袋外数据汇总得到袋外数据集合;
误差计算子单元,用于使用所述袋外数据集合,计算表征所述分类模型包含的每棵决策树的分类效果的袋外数据误差。
可选的,所述装置包括:
分类模型判断子单元,用于判断是否已创建所述分类模型;
相应的,所述新增数量确定单元在所述分类模型判断子单元的输出为“否”时,用于将预先设定的、分类模型包含决策树的数量作为所述新增决策树的数量;
相应的,所述决策树创建单元在完成其操作后,直接触发所述分类模型输出单元工作,所述分类模型输出单元具体用于汇总已生成的所述新增数量的决策树,得到更新后的分类模型。
与现有技术相比,本申请具有以下优点:
本申请提供的用于更新分类模型的方法,选取最近一段时间内的增量数据作为训练样本集,根据所述训练样本集采用随机森林算法新生成一定数量的决策树,并从分类模型包含的决策树和新生成的决策树中选择分类效果最好的预定数量的决策树,作为更新后的分类模型。采用上述方法,由于不需要根据全量数据进行训练,而是在原有分类模型的基础上采用增量更新方式,因此可以根据需要对分类模型进行各种时间粒度的更新,例如:按日更新或者近似实时更新,不仅可以提高模型训练的效率、实现对业务的快速响应,而且在分类模型的业务周期内不需要额外的人工干预,减少人工成本。
附图说明
图1是本申请的一种用于更新分类模型的方法实施例的流程图;
图2是本申请实施例提供的确定新增决策树数量的处理过程的流程图;
图3是本申请实施例提供的生成决策树的处理过程的流程图;
图4是本申请实施例提供的筛选决策树的处理过程的流程图;
图5是本申请的一种用于更新分类模型的装置实施例的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,分别提供了一种用于更新分类模型的方法,以及一种用于更新分类模型的装置,在下面的实施例中逐一进行详细说明。
请参考图1,其为本申请的一种用于更新分类模型的方法实施例的流程图。所述方法包括如下步骤:
步骤101:从提供所述用户行为数据的服务器中,获取预定时间段内的增量数据,作为训练样本集。
本申请提供的用于更新分类模型的方法,其核心在于,没有采用基于全量数据重新构建分类模型的传统离线计算方法,而是采用增量数据进行分类模型的更新,从而分类模型能够及时地或者近似实时地根据样本数据的变化做出相应的调整,实现了分类模型与最新样本数据的同步。与传统的离线学习方法相比较而言,本申请提供的方法,可以基于线上生成的最新样本数据对分类模型进行增量改善,因此也可以看作是一种在线学习方法。
为了实现本申请的技术方案,本步骤要从提供用户行为数据的服务器中获取预定时间段内的增量数据作为训练样本集。所述训练样本集,是指由若干个样本组成的样本集合,每个样本都有类似如下所示的形式:(x1,x2,......xn:c),其中xi表示该样本的具体属性值,c则表示该样本的实际类别。例如,在本实施例的一个具体例子中,在互联网交易平台的风险控制业务领域,采用分类模型对用户交易行为是否存在风险进行分类预测,每个样本的属性包括:用户账户、年龄等个人属性信息、交易商品的类别、名称、价位等商品属性信息、以及交易金额等信息,类别则包括黑/白样本两种类别(分别对应有风险和无风险)。
在所述具体例子中,本步骤获取位于当前时间之前的预定时间段内的用户交易数据作为训练样本集。其中,所述预定时间段可以根据具体的需求进行设置,例如可以以天为单位、以小时为单位,甚至以分钟为单位都是可以的,只要所述时间段内的数据已经是可以获取并作为训练样本集使用的即可(即:包含完整的属性信息以及实际类别信息)。
步骤102:确定新增决策树的数量。
本申请的技术方案中,所述分类模型(即:待更新的分类模型)由预定数量的决策树组成,本申请的技术方案在所述分类模型的基础上,根据在步骤101中获取的训练样本集生成若干棵新的决策树,并从所述分类模型的原有决策树和新增决策树中选择分类效果最优的预定数量的决策树,作为更新后的分类模型,从而实现了根据增量数据对分类模型进行更新的目的。
假设训练样本集包含N个样本,在后续步骤103中要从所述训练样本集中通过有放回抽样得到k个样本集合,并使用这k个样本集合分别建立k棵新决策树,因此本步骤的主要目的就是确定需要新增决策树的数量,即:上述k值。
作为一种简单的实施方式,可以参考分类模型具体的应用场景、样本数据的复杂程度、所述分类模型包含的决策树的数量,根据经验设置一个固定值。例如:在上述进行风险控制的互联网应用中,分类模型通常包含200—400棵决策树,因此可以设定新增决策树的数量为10棵。上述仅仅是一个示例,在具体实施中可以综合考虑各种因素进行设置,例如还可以将获取的训练样本集的规模作为参考因素等,训练样本集中包含的样本越多,则可以适当增加新增决策树的数量。
上面描述的方式比较简便易行,但是并没有考虑所述分类模型对已获取的训练样本集的分类效果,本申请的技术方案针对这一问题提供了一种优选实施方式:使用所述训练样本集对所述分类模型进行验证,并根据验证结果确定新增决策树的数量。具体的处理过程包括步骤102-1至102-4,下面结合附图2作进一步说明。
步骤102-1:使用所述训练样本集中的每个样本,验证所述分类模型的正确性。
具体说,针对某一个样本,根据其属性信息,采用所述分类模型中的每棵决策树对其进行分类,选取被所有决策树选择次数最多的类别作为最终的预测类别(该过程通常也称为少数服从多数的投票过程),然后判断预测类别与当前被分类样本的实际类别是否一致,若一致,则认为所述分类模型对当前样本的分类结果是正确的。
对于步骤101中获取的训练样本集中的每一个样本,采用上述方式进行验证,并记录分类结果正确的次数。
步骤102-2:根据验证结果,计算所述分类模型对所述训练样本集进行分类的正确率。
在本步骤中,可以用所述分类模型对训练样本集中的样本进行正确分类的次数,与样本总数的比值,作为所述分类模型对训练样本集进行分类的正确率。该数值就反映了所述分类模型对训练样本集的分类效果,在后续步骤中就可以依据该数值确定新增决策树的数量。
步骤102-3:根据所述正确率确定泊松分布的参数值,使得所述正确率与所述泊松分布的参数值满足反比关系。
由于从包含N个样本的训练样本集中通过有放回抽样得到k个样本集合的过程符合如下所示的二项分布:
P ( K = k ) = N k ( 1 N ) k ( 1 - 1 N ) N - k
并且,当N值很大或者趋向于无穷大时,上述关于k的二项分布趋向泊松分布:
P ( X = k ) = e - λ λ k k !
基于上述离散概率分布的基本原理,可以根据所述分类模型对训练样本集进行分类的正确率,对泊松分布的参数λ进行调整,然后再根据参数λ的值确定符合上述泊松分布的离散数值k。
具体说,如果所述分类模型对训练样本集的分类越正确(正确率高),则相应减小参数λ的值,否则相应增大参数λ的值。在具体实施中,可以在预先设定的范围内对参数λ的值进行调整,例如:预先设置参数λ的取值范围为1~20,如果所述分类正确率达到80%,则可以取λ=10,如果所述分类正确率大于80%,则可以相应地在1~9之间调整λ的取值,如果所述分类正确率小于80%,则可以相应地在11~20之间调整λ的取值。上述例子仅仅是示意性的,在具体实施中可以参照上述思路进行具体的设置,只要使所述正确率与λ值基本满足反比关系就可以。
步骤102-4:根据所述泊松分布的参数值确定符合所述分布的随机数值,并将该随机数值作为所述新增决策树的数量。
在步骤102-3中已经确定了泊松分布参数λ的取值,本步骤根据λ确定符合泊松分布的随机数值k,k就是在后续步骤103中新增决策树的数量。在具体实施中,通常采用如下计算方式:
根据泊松分布的表达式:
可以推导出其前后项的关系为:
因此,初始设置p=exp(-λ),然后对整数k从1到正无穷,每次都通过rand()或者类似函数生成一个小数,如果其小于当前p值则输出k,此时的k即为符合泊松分布的一个值,否则设置p=p*λ/(k+1),循环执行上述步骤,直至输出k值。上述根据泊松分布参数λ的值确定符合泊松分布的随机数值的计算方法,属于现有技术,此处不再赘述。
至此,就根据泊松分布的λ参数得到了具体的k值,在后续步骤103中就可以根据该k值生成相应数量的新决策树。由于本步骤在确定k值时,将所述分类模型对训练样本集的分类效果纳入考量范围之内,所述分类模型的准确率越高,得到的k值就越小,相当于减小后续步骤抽取样本集和新增决策树的数量,即:对所述分类模型仅进行比较细微的调整;所述分类模型的准确率越低,得到的k值就越大,相当于增大后续步骤抽取样本集和新增决策树的数量,即:对所述分类模型进行相对较大的调整。采用这种方式,使得更新后的分类模型能够在原有基础之上比较准确地反映出增量训练数据的变化。
步骤103:根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树。
根据训练样本集,采用随机森林算法依次生成k棵(即:所述新增数量)决策树,其中生成每棵决策树的过程包括如下所示的步骤103-1至103-3,下面结合附图3作进一步说明。
步骤103-1:根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合。
bootstrap抽样方法(也称自举或自助抽样法),是一种有放回的均匀抽样方法,被广泛应用于数理统计、模型计算等领域,在初始样本代表性好的条件下,通过bootstrap抽样方法可以扩大样本量,而且在初始样本足够大的情况下,bootstrap抽样能够无偏地接近样本数据的总体分布。
本步骤从包含N个样本的训练样本集中采用有放回抽样的方式抽取N个样本,在抽取过程中,所述训练样本集合中的部分样本有可能没有被抽到,而部分样本可能被抽取多次,将最终抽取的N个样本组成一个bootstrap样本集合。
采用bootstrap抽样方法构建样本集合,在后续根据所述样本集合生成决策树的时候,由于每一棵树的输入样本都不是训练样本集中的全部样本,含有相对较少的噪声数据,因此可以避免新建决策树出现过拟合的现象。
步骤103-2:使用所述bootstrap样本集合,采用在每个节点按照预定策略选取属性、并根据所选属性进行***的方式生成一棵新决策树。
使用所述bootstrap样本集合,采用逐节点***的方式生成一棵新的决策树,其关键在于每个节点的***属性的选择。具体说,对于包含M个属性的样本,在决策树的每个节点需要***时,首先随机从M个属性中选取出m个属性(通常满足条件m<<M),然后从所选的m个属性中按照预订策略选取1个最优属性作为该节点的***属性,然后按照该属性进行***。在每个节点都重复上述过程,直到某一个节点无法继续***或者其包含的所有样本都属于同一个分类,此时***过程结束,一棵新决策树创建完毕。
在具体实施中,随机选择属性的个数可以采用计算平方根并取整的方式得到,例如:每个样本包含M=100个属性,那么每次可以随机选择m=sqrt(M)=10个属性,当然也可以采用其他方式确定随机选择属性的个数,只要满足m<<M的条件即可。
至于从随机选取的属性中选取最优属性,可以采用基于基尼指标进行***的方式,即,先采用如下所示的公式计算不纯度,然后利用不纯度计算按照各属性进行***的基尼指标,并选择其中基尼指标最小的作为树的分支进行***:
Gini ( D ) = 1 - &Sigma; i = 1 k p i 2
其中,pi是选取某个属性进行***时,各样本属于不同类别的概率。在选取最优属性时,除了根据上述基尼指标,还可以根据信息增益进行选取,或者根据信息增益率进行选取,都同样可以实现本申请的技术方案。采用上述三种方式选取最优属性并进行***生成决策树的过程,属于比较成熟的现有技术,此处不再对详细过程作进一步描述。
步骤103-3:计算表征所述新决策树的分类效果的指标。
为了便于后续步骤104筛选决策树,在每新建一棵决策树之后,可以计算表征该决策树的分类效果的指标。例如,可以采用测试样本集对新建决策树的分类效果进行评估,并计算相应的指标。
由于在本申请的技术方案中,新建决策树采用的输入样本是在训练样本集上通过bootstrap方法进行采样获取的,在训练样本集中的样本数量足够大的情况下,所述训练样本集中通常会有约1/3的样本不会出现在bootstrap样本集合中,这部分样本被称作袋外数据(outofbag—简称oob),通常可以使用这部分数据取代测试样本集对所述新决策树的分类效果进行评估,并使用相应的袋外数据误差(ooberror—简称oobe)作为表征所述新决策树的分类效果的指标。
具体说,首先将包含在所述训练样本集中、而未包含在bootstrap样本集合中的样本筛选出来,组成袋外数据;然后针对袋外数据中的每个样本,用新建的决策树对其进行分类预测,并判断预测结果与该样本的实际分类是否一致,若一致,说明新建决策树对该样本的分类结果是正确的;最后根据每一次的分类结果,计算所述新建决策树的袋外数据误差。
例如,袋外数据中总共包含100个样本,新建决策树对其中90个样本的分类结果是正确的,那么该决策树的袋外数据误差就是:(100-90)/100=10%。
至此,通过上述步骤103-1至步骤103-3,就创建了一棵新的决策树,并得到了表征其分类效果的指标。循环执行步骤103-1至103-3总共k次,就可以生成k(即:所述新增数量)棵决策树。
通过上面的描述可以看出,采用随机森林算法新建k棵决策树的过程中,由于采用bootstrap进行随机采样,而且从随机选取的属性中选择最优属性进行***,这两方面相结合充分体现了随机森林算法的随机性,从而能够保证新创建的决策树不会出现过拟合的现象。
步骤104:按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树。
所述分类模型已经包含了预定数量的决策树,为了便于下文的描述,将所述预定数量记为T,在步骤103中根据获取的增量训练样本集,又生成了k棵新的决策树,这k棵新决策树通常能够对所述训练样本集中的样本进行比较正确的分类(准确率相对比较高)。
考虑到所述训练样本集仅仅是最近一段时间内的增量数据,对数据的变化有一定的代表性,但是通常不具有普遍性,因此用新创建的k棵决策树替代原有的T棵决策树是不合适的;如果单纯地将k棵决策树加入所述分类模型(更新后的分类模型总共包括T+k棵树),那么随着更新次数的增加,分类模型会过于庞大,因此本申请的技术方案采用如下处理方式:从所述分类模型原有的T棵决策树以及新创建的k棵决策树中,选择分类效果最佳的T棵决策树。这样所选的T棵决策树,既能反映出增量样本数据的变化,达到了对所述分类模型进行调整的目的,又可以保证所述分类模型的规模保持不变。
具体说,可以利用测试样本集对所述分类模型原有决策树和新建决策树的分类效果进行评估,并根据分类效果从中筛选T棵决策树。在本实施例中,由于在步骤103新建决策树的过程中已经计算出了表征每棵新决策树的分类效果的指标,即:袋外数据误差,因此本步骤可以针对所述分类模型原有的每棵决策树,也相应地计算表征其分类效果的袋外数据误差,并根据该指标对上述决策树进行排序和筛选。下面结合附图4,进一步说明本步骤的处理过程。
步骤104-1:针对所述分类模型包含的每棵决策树,计算表征其分类效果的袋外数据误差。
首先,将每棵新创建的决策树的袋外数据汇总在一起得到袋外数据集合,然后使用该袋外数据集合中的样本作为输入,计算所述分类模型包含的每棵决策树的袋外数据误差。具体的计算方法与步骤103-3基本相同,请参见步骤103-3的相关描述,此处不再赘述。
步骤104-2:按照所述袋外数据误差对所述分类模型包含的决策树和所述新生成的决策树进行排序。
将所述分类模型包含的T棵决策树和新生成的k棵决策树,按照所述袋外数据误差进行排序,即:将分类效果好(袋外数据误差小)的决策树排在分类效果相对差(袋外数据误差相对比较大)的决策树的前面,从而得到分类效果最好的决策树所处位序最高、分类效果最差的决策树所处位序最低这样一个排序。
步骤104-3:从排序后的决策树中选择序位处于高位的、所述特定数量的决策树。
本步骤的处理相对比较简单,根据步骤104-2得到的排序结果,从T+k棵决策树中选择序位处于高位的T棵决策树,放弃剩余的k棵决策树。
在本实施例的一个具体例子中,用于互联网风险控制领域的分类模型,T的取值通常在200~400范围之内,而每次更新分类模型时新创建的决策树的数量通常在0~20范围之内。每次采用上述步骤筛选决策树的过程,实际上就是对该分类模型中的决策树进行部分更新的过程,即:以分类效果为依据,用新创建的全部或者部分决策树替换该分类模型中的相应数量的决策树。
步骤105:汇总所选的决策树,得到更新后的分类模型。
将步骤104筛选得到的T棵决策树汇总起来,就得到了更新后的分类模型,就可以继续在线上对大规模数据进行分类预测。由于更新后的分类模型中的部分决策树,是根据在步骤101中获取的增量样本数据生成的,也就是说,该分类模型在原有基础上及时地根据最新的样本数据做出了相应的调整,从而保证其分类效果始终能够满足预先设定的要求,通常是不会退化的。
需要说明的是,上述步骤101-105,重点描述了如何采用本申请提供的方法对分类模型进行更新的过程,在具体实施中,如果分类模型尚未创建,也依然可以采用本申请提供的方法,那么所述分类模型的更新过程实际上就是分类模型从无到有的创建过程。
具体说,在执行步骤102确定新增决策树的数量之前,先判断是否已创建分类模型,如果已创建则按照上面描述的过程进行更新;否则,将预先设定的、分类模型包含决策树的数量作为所述新增数量,即:直接设置k=T,并按照步骤103创建k棵决策树,然后直接执行步骤105将k棵决策树(即:T棵决策树)汇总输出,就得到创建好的分类模型。之后,就可以采用本申请的方法根据增量数据对该分类模型进行更新。
在具体实施时,由于模型的更新过程通常涉及较多样本数据的测试以及训练学习过程,为了进一步提高处理效率,达到实时或者近似实时的更新效果,通常可以采用MapReduce技术实现。
例如,在步骤102对分类模型进行验证以确定新增决策树的数量时,可以采用MapReduce编程模型,在Map阶段,每个Map负责用所述分类模型中的单个决策树对训练样本集进行预测,在Reduce阶段则根据Map阶段的结果进行汇总得到泊松分布的参数值,并进一步确定新增决策树的数量;在步骤103生成决策树的过程中,也可以采用MapReduce编程模型,在Map阶段,每个Map负责根据一个bootstrap样本集合生成一棵决策树,而Reduce阶段,则汇总所有决策树并进行筛选。
综上所述,采用本申请提供的用于更新分类模型的方法,不需要根据全量数据训练分类模型,而是选取最近一段时间内的增量数据作为训练样本集,根据训练样本集生成一定数量的决策树,并依据分类效果对所述分类模型原有的部分决策树进行替换,从而实现了对分类模型的增量更新。在具体应用中,可以根据需要对所述分类模型进行各种时间粒度的更新,例如:按日更新、按小时更新或者近似实时更新,不仅可以提高模型训练的效率、实现对业务的快速响应,而且在分类模型的业务周期内不需要额外的人工干预,减少人工成本。
在上述的实施例中,提供了一种用于更新分类模型的方法,与之相对应的,本申请还提供一种用于更新分类模型的装置。请参看图5,其为本申请的一种用于更新分类模型的装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种用于更新分类模型的装置,包括:训练样本集获取单元501,用于从应用所述分类模型的历史数据中获取预定时间段内的增量数据,作为训练样本集;新增数量确定单元502,用于确定新增决策树的数量;决策树创建单元503,用于根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树;决策树筛选单元504,用于按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树;分类模型输出单元505,用于汇总所选的决策树,得到更新后的分类模型。
可选的,所述新增数量确定单元具体用于,使用所述训练样本集对所述分类模型进行验证,并根据验证结果确定新增决策树的数量。
可选的,所述新增数量确定单元包括:
正确性验证子单元,用于使用所述训练样本集中的每个样本,验证所述分类模型的正确性;
正确率计算子单元,用于根据验证结果,计算所述分类模型对所述训练样本集进行分类的正确率;
泊松分布参数确定子单元,用于根据所述正确率确定泊松分布的参数值,使得所述正确率与所述泊松分布的参数值满足反比关系;所述泊松分布是针对训练样本集执行有放回抽样得到新样本集所遵循的离散概率分布;
随机数确定子单元,用于根据所述泊松分布的参数值确定符合所述离散概率分布的随机数值,并将该随机数值作为所述新增决策树的数量。
可选的,所述正确性验证子单元包括:
第一循环控制子单元,用于针对所述训练样本集中的每个样本,依次触发以下子单元工作;
类别预测子单元,用于根据训练样本包含的属性信息,采用所述分类模型进行类别预测;
判断子单元,用于判断预测的类别与所述训练样本的实际类别是否一致;若一致,判定所述分类模型对所述训练样本的分类结果是正确的。
可选的,所述决策树创建单元包括:
第二循环控制子单元,用于判断创建的决策树是否达到所述新增数量,若否,则依次触发以下子单元创建新的决策树;
bootstrap采样子单元,用于根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合;
创建执行子单元,用于使用所述bootstrap样本集合,采用在每个节点按照预定策略选取属性、并根据所选属性进行***的方式生成一棵新决策树,并触发所述第二循环控制子单元工作;所述按照预定策略选取属性是指,从随机选择的样本属性中按照预定策略选取属性。
可选的,所述创建执行子单元在选取属性时所采用的预定策略包括:根据信息增益选取属性、根据信息增益率选取属性、或者根据基尼指标选取属性。
可选的,所述决策树创建单元还包括:
新建指标计算子单元,用于在所述创建执行子单元创建新决策树后,计算表征所述新决策树的分类效果的指标;
相应的,所述决策树筛选单元包括:
原有指标计算子单元,用于针对所述分类模型包含的每棵决策树,计算表征其分类效果的指标;
排序子单元,用于按照所述指标对所述分类模型包含的决策树和所述新生成的决策树进行排序;
选择子单元,用于从排序后的决策树中选择序位处于高位的、所述特定数量的决策树。
可选的,所述新建指标计算子单元计算的指标是指,袋外数据误差;
相应的,所述原有指标计算子单元包括:
袋外数据获取子单元,用于将每棵新决策树的袋外数据汇总得到袋外数据集合;
误差计算子单元,用于使用所述袋外数据集合,计算表征所述分类模型包含的每棵决策树的分类效果的袋外数据误差。
可选的,所述装置包括:
分类模型判断子单元,用于判断是否已创建所述分类模型;
相应的,所述新增数量确定单元在所述分类模型判断子单元的输出为“否”时,用于将预先设定的、分类模型包含决策树的数量作为所述新增决策树的数量;
相应的,所述决策树创建单元在完成其操作后,直接触发所述分类模型输出单元工作,所述分类模型输出单元具体用于汇总已生成的所述新增数量的决策树,得到更新后的分类模型。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (18)

1.一种用于更新分类模型的方法,所述分类模型由预定数量的决策树组成,用于根据网络应用中的用户行为数据进行类别预测,其特征在于,包括:
从提供所述用户行为数据的服务器中,获取预定时间段内的增量数据,作为训练样本集;
确定新增决策树的数量;
根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树;
按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树;
汇总所选的决策树,得到更新后的分类模型。
2.根据权利要求1所述的用于更新分类模型的方法,其特征在于,所述确定新增决策树的数量是指,使用所述训练样本集对所述分类模型进行验证,并根据验证结果确定新增决策树的数量。
3.根据权利要求2所述的用于更新分类模型的方法,其特征在于,所述使用所述训练样本集对所述分类模型进行验证,并根据验证结果确定新增决策树的数量,包括:
使用所述训练样本集中的每个样本,验证所述分类模型的正确性;
根据验证结果,计算所述分类模型对所述训练样本集进行分类的正确率;
根据所述正确率确定泊松分布的参数值,使得所述正确率与所述泊松分布的参数值满足反比关系;所述泊松分布是针对训练样本集执行有放回抽样得到新样本集所遵循的离散概率分布;
根据所述泊松分布的参数值确定符合所述离散概率分布的随机数值,并将该随机数值作为所述新增决策树的数量。
4.根据权利要求3所述的用于更新分类模型的方法,其特征在于,所述使用所述训练样本集中的每个样本,验证所述分类模型的正确性,包括:
根据训练样本包含的属性信息,采用所述分类模型进行类别预测;
判断预测的类别与所述训练样本的实际类别是否一致;
若一致,判定所述分类模型对所述训练样本的分类结果是正确的。
5.根据权利要求1-4任一所述的用于更新分类模型的方法,其特征在于,所述根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树,包括:
根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合;
使用所述bootstrap样本集合,采用在每个节点按照预定策略选取属性、并根据所选属性进行***的方式生成一棵新决策树;所述按照预定策略选取属性是指,从随机选择的样本属性中按照预定策略选取属性;
转到所述根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合的步骤继续执行,直至生成所述新增数量的决策树。
6.根据权利要求5所述的用于更新分类模型的方法,其特征在于,所述按照预定策略选取属性包括:根据信息增益选取属性、根据信息增益率选取属性、或者根据基尼指标选取属性。
7.根据权利要求5所述的用于更新分类模型的方法,其特征在于,在所述采用在每个节点按照预定策略选取属性、并根据所选属性进行***的方式生成一棵新决策树之后,执行下述操作:
计算表征所述新决策树的分类效果的指标;
相应的,所述按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树,包括:
针对所述分类模型包含的每棵决策树,计算表征其分类效果的指标;
按照所述指标对所述分类模型包含的决策树和所述新生成的决策树进行排序;
从排序后的决策树中选择序位处于高位的、所述特定数量的决策树。
8.根据权利要求7所述的用于更新分类模型的方法,其特征在于,所述表征所述新决策树的分类效果的指标是指,袋外数据误差;
相应的,所述针对所述分类模型包含的每棵决策树,计算表征其分类效果的指标包括:
将每棵新决策树的袋外数据汇总得到袋外数据集合;
使用所述袋外数据集合,计算表征所述分类模型包含的每棵决策树的分类效果的袋外数据误差。
9.根据权利要求1所述的用于更新分类模型的方法,其特征在于,在执行所述确定新增决策树的数量的步骤之前,执行下述操作:
判断是否已创建所述分类模型;
若否,所述确定新增决策树的数量是指,将预先设定的、分类模型包含决策树的数量作为所述新增决策树的数量;相应的,在执行所述采用随机森林算法生成所述新增数量的决策树后,直接执行所述汇总所选的决策树得到更新后的分类模型的步骤,已生成的所述新增数量的决策树即为所选的决策树。
10.一种用于更新分类模型的装置,其特征在于,包括:
训练样本集获取单元,用于从提供所述用户行为数据的服务器中,获取预定时间段内的增量数据,作为训练样本集;
新增数量确定单元,用于确定新增决策树的数量;
决策树创建单元,用于根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树;
决策树筛选单元,用于按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树;
分类模型输出单元,用于汇总所选的决策树,得到更新后的分类模型。
11.根据权利要求10所述的用于更新分类模型的装置,其特征在于,所述新增数量确定单元具体用于,使用所述训练样本集对所述分类模型进行验证,并根据验证结果确定新增决策树的数量。
12.根据权利要求11所述的用于更新分类模型的装置,其特征在于,所述新增数量确定单元包括:
正确性验证子单元,用于使用所述训练样本集中的每个样本,验证所述分类模型的正确性;
正确率计算子单元,用于根据验证结果,计算所述分类模型对所述训练样本集进行分类的正确率;
泊松分布参数确定子单元,用于根据所述正确率确定泊松分布的参数值,使得所述正确率与所述泊松分布的参数值满足反比关系;所述泊松分布是针对训练样本集执行有放回抽样得到新样本集所遵循的离散概率分布;
随机数确定子单元,用于根据所述泊松分布的参数值确定符合所述离散概率分布的随机数值,并将该随机数值作为所述新增决策树的数量。
13.根据权利要求12所述的用于更新分类模型的装置,其特征在于,所述正确性验证子单元包括:
第一循环控制子单元,用于针对所述训练样本集中的每个样本,依次触发以下子单元工作;
类别预测子单元,用于根据训练样本包含的属性信息,采用所述分类模型进行类别预测;
判断子单元,用于判断预测的类别与所述训练样本的实际类别是否一致;若一致,判定所述分类模型对所述训练样本的分类结果是正确的。
14.根据权利要求10-13任一所述的用于更新分类模型的装置,其特征在于,所述决策树创建单元包括:
第二循环控制子单元,用于判断创建的决策树是否达到所述新增数量,若否,则依次触发以下子单元创建新的决策树;
bootstrap采样子单元,用于根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合;
创建执行子单元,用于使用所述bootstrap样本集合,采用在每个节点按照预定策略选取属性、并根据所选属性进行***的方式生成一棵新决策树,并触发所述第二循环控制子单元工作;所述按照预定策略选取属性是指,从随机选择的样本属性中按照预定策略选取属性。
15.根据权利要求14所述的用于更新分类模型的装置,其特征在于,所述创建执行子单元在选取属性时所采用的预定策略包括:根据信息增益选取属性、根据信息增益率选取属性、或者根据基尼指标选取属性。
16.根据权利要求14所述的用于更新分类模型的装置,其特征在于,所述决策树创建单元还包括:
新建指标计算子单元,用于在所述创建执行子单元创建新决策树后,计算表征所述新决策树的分类效果的指标;
相应的,所述决策树筛选单元包括:
原有指标计算子单元,用于针对所述分类模型包含的每棵决策树,计算表征其分类效果的指标;
排序子单元,用于按照所述指标对所述分类模型包含的决策树和所述新生成的决策树进行排序;
选择子单元,用于从排序后的决策树中选择序位处于高位的、所述特定数量的决策树。
17.根据权利要求16所述的用于更新分类模型的装置,其特征在于,所述新建指标计算子单元计算的指标是指,袋外数据误差;
相应的,所述原有指标计算子单元包括:
袋外数据获取子单元,用于将每棵新决策树的袋外数据汇总得到袋外数据集合;
误差计算子单元,用于使用所述袋外数据集合,计算表征所述分类模型包含的每棵决策树的分类效果的袋外数据误差。
18.根据权利要求10所述的用于更新分类模型的装置,其特征在于,所述装置包括:
分类模型判断子单元,用于判断是否已创建所述分类模型;
相应的,所述新增数量确定单元在所述分类模型判断子单元的输出为“否”时,用于将预先设定的、分类模型包含决策树的数量作为所述新增决策树的数量;
相应的,所述决策树创建单元在完成其操作后,直接触发所述分类模型输出单元工作,所述分类模型输出单元具体用于汇总已生成的所述新增数量的决策树,得到更新后的分类模型。
CN201410737856.7A 2014-12-04 2014-12-04 一种用于更新分类模型的方法及装置 Pending CN105718490A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410737856.7A CN105718490A (zh) 2014-12-04 2014-12-04 一种用于更新分类模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410737856.7A CN105718490A (zh) 2014-12-04 2014-12-04 一种用于更新分类模型的方法及装置

Publications (1)

Publication Number Publication Date
CN105718490A true CN105718490A (zh) 2016-06-29

Family

ID=56143916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410737856.7A Pending CN105718490A (zh) 2014-12-04 2014-12-04 一种用于更新分类模型的方法及装置

Country Status (1)

Country Link
CN (1) CN105718490A (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法
CN106296282A (zh) * 2016-08-08 2017-01-04 南京大学 一种基于用户评论和历史评分的网购产品评估方法
CN106339593A (zh) * 2016-08-31 2017-01-18 青岛睿帮信息技术有限公司 基于医疗数据建模的川崎病分类预测方法
CN106845537A (zh) * 2017-01-09 2017-06-13 北京邮电大学 一种基于自适应阈值的分类器半径确定方法及装置
CN106874574A (zh) * 2017-01-22 2017-06-20 清华大学 基于决策树的移动应用性能瓶颈分析方法及装置
CN107132268A (zh) * 2017-06-21 2017-09-05 佛山科学技术学院 一种用于识别肺癌组织的数据处理装置及***
CN107132266A (zh) * 2017-06-21 2017-09-05 佛山科学技术学院 一种基于随机森林的水质分类方法及***
CN107203866A (zh) * 2017-06-26 2017-09-26 北京京东尚科信息技术有限公司 订单的处理方法以及装置
CN107330464A (zh) * 2017-06-30 2017-11-07 众安信息技术服务有限公司 数据处理方法和装置
CN107368892A (zh) * 2017-06-07 2017-11-21 无锡小天鹅股份有限公司 基于机器学习的模型训练方法和装置
CN107632995A (zh) * 2017-03-13 2018-01-26 平安科技(深圳)有限公司 随机森林模型训练的方法及模型训练控制***
CN107818344A (zh) * 2017-10-31 2018-03-20 上海壹账通金融科技有限公司 用户行为进行分类和预测的方法和***
CN107894827A (zh) * 2017-10-31 2018-04-10 广东欧珀移动通信有限公司 应用清理方法、装置、存储介质及电子设备
CN108206046A (zh) * 2017-12-28 2018-06-26 新华三大数据技术有限公司 一种数据处理方法及装置
CN108418851A (zh) * 2018-01-12 2018-08-17 阿里巴巴集团控股有限公司 策略发布***、方法、装置及设备
CN108717548A (zh) * 2018-04-10 2018-10-30 中国科学院计算技术研究所 一种面向传感器动态增加的行为识别模型更新方法及***
CN108805416A (zh) * 2018-05-22 2018-11-13 阿里巴巴集团控股有限公司 一种风险防控处理方法、装置及设备
CN109033154A (zh) * 2018-06-12 2018-12-18 佛山欧神诺陶瓷有限公司 一种商品分类管理方法
CN109063722A (zh) * 2018-06-08 2018-12-21 中国科学院计算技术研究所 一种基于机会感知的行为识别方法和***
CN109101562A (zh) * 2018-07-13 2018-12-28 中国平安人寿保险股份有限公司 寻找目标群体的方法、装置、计算机设备及存储介质
CN109218211A (zh) * 2017-07-06 2019-01-15 阿里巴巴集团控股有限公司 数据流的控制策略中阈值的调整方法、装置和设备
CN109325625A (zh) * 2018-09-28 2019-02-12 成都信息工程大学 一种基于二元高斯非齐次泊松过程的单车数量预测方法
WO2019041773A1 (zh) * 2017-08-29 2019-03-07 平安科技(深圳)有限公司 预测模型的更新装置、方法及计算机可读存储介质
CN110033276A (zh) * 2019-03-08 2019-07-19 阿里巴巴集团控股有限公司 一种针对转账的安全策略生成方法、装置及设备
WO2019165673A1 (zh) * 2018-02-27 2019-09-06 平安科技(深圳)有限公司 一种报销单风险预测方法、装置、终端设备及存储介质
CN110321945A (zh) * 2019-06-21 2019-10-11 深圳前海微众银行股份有限公司 扩充样本方法、终端、装置及可读存储介质
CN110377828A (zh) * 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN110688273A (zh) * 2018-07-05 2020-01-14 马上消费金融股份有限公司 分类模型的监控方法、装置、终端以及计算机存储介质
CN110766071A (zh) * 2019-10-21 2020-02-07 北京工业大学 一种基于森林自编码器的脑网络数据增强方法
CN110888668A (zh) * 2018-09-07 2020-03-17 腾讯科技(北京)有限公司 一种模型更新的***、方法、装置、终端设备和介质
CN111259273A (zh) * 2018-11-30 2020-06-09 顺丰科技有限公司 网页分类模型构建方法、分类方法及其装置
CN111309706A (zh) * 2020-01-20 2020-06-19 北京明略软件***有限公司 模型训练方法、装置、可读存储介质及电子设备
WO2020125477A1 (zh) * 2018-12-18 2020-06-25 北京数安鑫云信息技术有限公司 一种提升爬虫识别召回率的方法、装置、介质及设备
CN111353600A (zh) * 2020-02-20 2020-06-30 第四范式(北京)技术有限公司 一种异常行为检测方法及装置
CN111428804A (zh) * 2020-04-01 2020-07-17 广东电网有限责任公司 一种优化加权的随机森林窃电用户检测方法
CN112000872A (zh) * 2019-05-27 2020-11-27 北京地平线机器人技术研发有限公司 基于用户向量的推荐方法、模型的训练方法及装置
CN112598234A (zh) * 2020-12-14 2021-04-02 广东电网有限责任公司广州供电局 一种低压台区线损异常分析方法、装置和设备
WO2021114676A1 (zh) * 2019-12-13 2021-06-17 浪潮电子信息产业股份有限公司 一种硬盘预测模型的更新方法、装置、设备及介质
CN115168577A (zh) * 2022-06-30 2022-10-11 北京百度网讯科技有限公司 模型更新方法、装置、电子设备及存储介质

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296282A (zh) * 2016-08-08 2017-01-04 南京大学 一种基于用户评论和历史评分的网购产品评估方法
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法
CN106339593B (zh) * 2016-08-31 2023-04-18 北京万灵盘古科技有限公司 基于医疗数据建模的川崎病分类预测方法
CN106339593A (zh) * 2016-08-31 2017-01-18 青岛睿帮信息技术有限公司 基于医疗数据建模的川崎病分类预测方法
CN106845537A (zh) * 2017-01-09 2017-06-13 北京邮电大学 一种基于自适应阈值的分类器半径确定方法及装置
CN106845537B (zh) * 2017-01-09 2020-12-04 北京邮电大学 一种基于自适应阈值的分类器半径确定方法及装置
CN106874574A (zh) * 2017-01-22 2017-06-20 清华大学 基于决策树的移动应用性能瓶颈分析方法及装置
CN106874574B (zh) * 2017-01-22 2019-10-29 清华大学 基于决策树的移动应用性能瓶颈分析方法及装置
CN107632995B (zh) * 2017-03-13 2018-09-11 平安科技(深圳)有限公司 随机森林模型训练的方法及模型训练控制***
CN107632995A (zh) * 2017-03-13 2018-01-26 平安科技(深圳)有限公司 随机森林模型训练的方法及模型训练控制***
CN107368892A (zh) * 2017-06-07 2017-11-21 无锡小天鹅股份有限公司 基于机器学习的模型训练方法和装置
CN107368892B (zh) * 2017-06-07 2020-06-16 无锡小天鹅电器有限公司 基于机器学习的模型训练方法和装置
CN107132266A (zh) * 2017-06-21 2017-09-05 佛山科学技术学院 一种基于随机森林的水质分类方法及***
CN107132268A (zh) * 2017-06-21 2017-09-05 佛山科学技术学院 一种用于识别肺癌组织的数据处理装置及***
CN107203866B (zh) * 2017-06-26 2021-02-26 北京京东尚科信息技术有限公司 订单的处理方法以及装置
CN107203866A (zh) * 2017-06-26 2017-09-26 北京京东尚科信息技术有限公司 订单的处理方法以及装置
CN107330464A (zh) * 2017-06-30 2017-11-07 众安信息技术服务有限公司 数据处理方法和装置
WO2019001359A1 (zh) * 2017-06-30 2019-01-03 众安信息技术服务有限公司 数据处理方法和数据处理装置
CN109218211B (zh) * 2017-07-06 2022-04-19 创新先进技术有限公司 数据流的控制策略中阈值的调整方法、装置和设备
CN109218211A (zh) * 2017-07-06 2019-01-15 阿里巴巴集团控股有限公司 数据流的控制策略中阈值的调整方法、装置和设备
WO2019041773A1 (zh) * 2017-08-29 2019-03-07 平安科技(深圳)有限公司 预测模型的更新装置、方法及计算机可读存储介质
CN107818344B (zh) * 2017-10-31 2020-01-07 深圳壹账通智能科技有限公司 用户行为进行分类和预测的方法和***
CN107818344A (zh) * 2017-10-31 2018-03-20 上海壹账通金融科技有限公司 用户行为进行分类和预测的方法和***
CN107894827A (zh) * 2017-10-31 2018-04-10 广东欧珀移动通信有限公司 应用清理方法、装置、存储介质及电子设备
CN108206046B (zh) * 2017-12-28 2021-07-02 新华三大数据技术有限公司 一种数据处理方法及装置
CN108206046A (zh) * 2017-12-28 2018-06-26 新华三大数据技术有限公司 一种数据处理方法及装置
CN108418851A (zh) * 2018-01-12 2018-08-17 阿里巴巴集团控股有限公司 策略发布***、方法、装置及设备
CN108418851B (zh) * 2018-01-12 2020-12-04 创新先进技术有限公司 策略发布***、方法、装置及设备
WO2019165673A1 (zh) * 2018-02-27 2019-09-06 平安科技(深圳)有限公司 一种报销单风险预测方法、装置、终端设备及存储介质
CN108717548A (zh) * 2018-04-10 2018-10-30 中国科学院计算技术研究所 一种面向传感器动态增加的行为识别模型更新方法及***
CN108805416A (zh) * 2018-05-22 2018-11-13 阿里巴巴集团控股有限公司 一种风险防控处理方法、装置及设备
CN109063722A (zh) * 2018-06-08 2018-12-21 中国科学院计算技术研究所 一种基于机会感知的行为识别方法和***
CN109033154A (zh) * 2018-06-12 2018-12-18 佛山欧神诺陶瓷有限公司 一种商品分类管理方法
CN110688273A (zh) * 2018-07-05 2020-01-14 马上消费金融股份有限公司 分类模型的监控方法、装置、终端以及计算机存储介质
CN110688273B (zh) * 2018-07-05 2021-02-19 马上消费金融股份有限公司 分类模型的监控方法、装置、终端以及计算机存储介质
CN109101562B (zh) * 2018-07-13 2023-07-21 中国平安人寿保险股份有限公司 寻找目标群体的方法、装置、计算机设备及存储介质
CN109101562A (zh) * 2018-07-13 2018-12-28 中国平安人寿保险股份有限公司 寻找目标群体的方法、装置、计算机设备及存储介质
CN110888668B (zh) * 2018-09-07 2024-04-16 腾讯科技(北京)有限公司 一种模型更新的***、方法、装置、终端设备和介质
CN110888668A (zh) * 2018-09-07 2020-03-17 腾讯科技(北京)有限公司 一种模型更新的***、方法、装置、终端设备和介质
CN109325625B (zh) * 2018-09-28 2019-12-17 成都信息工程大学 一种基于二元高斯非齐次泊松过程的单车数量预测方法
CN109325625A (zh) * 2018-09-28 2019-02-12 成都信息工程大学 一种基于二元高斯非齐次泊松过程的单车数量预测方法
CN111259273A (zh) * 2018-11-30 2020-06-09 顺丰科技有限公司 网页分类模型构建方法、分类方法及其装置
CN111343127B (zh) * 2018-12-18 2021-03-16 北京数安鑫云信息技术有限公司 一种提升爬虫识别召回率的方法、装置、介质及设备
WO2020125477A1 (zh) * 2018-12-18 2020-06-25 北京数安鑫云信息技术有限公司 一种提升爬虫识别召回率的方法、装置、介质及设备
CN111343127A (zh) * 2018-12-18 2020-06-26 北京数安鑫云信息技术有限公司 一种提升爬虫识别召回率的方法、装置、介质及设备
CN110033276A (zh) * 2019-03-08 2019-07-19 阿里巴巴集团控股有限公司 一种针对转账的安全策略生成方法、装置及设备
CN112000872A (zh) * 2019-05-27 2020-11-27 北京地平线机器人技术研发有限公司 基于用户向量的推荐方法、模型的训练方法及装置
CN110321945A (zh) * 2019-06-21 2019-10-11 深圳前海微众银行股份有限公司 扩充样本方法、终端、装置及可读存储介质
CN110377828A (zh) * 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN110377828B (zh) * 2019-07-22 2023-05-26 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN110766071B (zh) * 2019-10-21 2023-04-28 北京工业大学 一种基于森林自编码器的脑网络数据增强方法
CN110766071A (zh) * 2019-10-21 2020-02-07 北京工业大学 一种基于森林自编码器的脑网络数据增强方法
WO2021114676A1 (zh) * 2019-12-13 2021-06-17 浪潮电子信息产业股份有限公司 一种硬盘预测模型的更新方法、装置、设备及介质
CN111309706A (zh) * 2020-01-20 2020-06-19 北京明略软件***有限公司 模型训练方法、装置、可读存储介质及电子设备
CN111353600A (zh) * 2020-02-20 2020-06-30 第四范式(北京)技术有限公司 一种异常行为检测方法及装置
CN111353600B (zh) * 2020-02-20 2023-12-12 第四范式(北京)技术有限公司 一种异常行为检测方法及装置
CN111428804A (zh) * 2020-04-01 2020-07-17 广东电网有限责任公司 一种优化加权的随机森林窃电用户检测方法
CN112598234A (zh) * 2020-12-14 2021-04-02 广东电网有限责任公司广州供电局 一种低压台区线损异常分析方法、装置和设备
CN115168577B (zh) * 2022-06-30 2023-03-21 北京百度网讯科技有限公司 模型更新方法、装置、电子设备及存储介质
CN115168577A (zh) * 2022-06-30 2022-10-11 北京百度网讯科技有限公司 模型更新方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105718490A (zh) 一种用于更新分类模型的方法及装置
CN106156809A (zh) 用于更新分类模型的方法及装置
Wauters et al. A nearest neighbour extension to project duration forecasting with artificial intelligence
US9984336B2 (en) Classification rule sets creation and application to decision making
CN104679743A (zh) 一种确定用户的偏好模式的方法及装置
CN111815432B (zh) 金融服务风险预测方法及装置
CN112232944B (zh) 一种评分卡创建方法、装置和电子设备
CN110310114A (zh) 对象分类方法、装置、服务器及存储介质
CN111143685A (zh) 一种推荐***的构建方法及装置
CN112288455A (zh) 标签生成方法及装置、计算机可读存储介质、电子设备
CN113674013B (zh) 一种基于商户自定义规则的广告竞价调整方法及***
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN110706015A (zh) 一种面向广告点击率预测的特征选取方法
CN114969528A (zh) 基于能力评测的用户画像和学习路径推荐方法、装置及设备
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN116911994B (zh) 对外贸易风险预警***
CN109977977A (zh) 一种识别***的方法及对应装置
CN106874286B (zh) 一种筛选用户特征的方法及装置
CN116402546A (zh) 店铺风险归因方法及其装置、设备、介质、产品
CN115796548A (zh) 一种资源分配方法、装置、计算机设备、存储介质及产品
CN107092599B (zh) 一种用于为用户提供知识信息的方法与设备
CN108711074A (zh) 业务分类方法、装置、服务器及可读存储介质
CN113869973A (zh) 产品推荐方法、产品推荐***和计算机可读存储介质
Wirawan et al. Application of data mining to prediction of timeliness graduation of students (a case study)
CN108241643A (zh) 关键词的指标数据分析方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160629