CN109754023A - 基于j散度的新型决策树分类方法 - Google Patents

基于j散度的新型决策树分类方法 Download PDF

Info

Publication number
CN109754023A
CN109754023A CN201910082556.2A CN201910082556A CN109754023A CN 109754023 A CN109754023 A CN 109754023A CN 201910082556 A CN201910082556 A CN 201910082556A CN 109754023 A CN109754023 A CN 109754023A
Authority
CN
China
Prior art keywords
sample
node
decision
divergence
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910082556.2A
Other languages
English (en)
Inventor
杨云帆
陈文�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910082556.2A priority Critical patent/CN109754023A/zh
Publication of CN109754023A publication Critical patent/CN109754023A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于J散度的新型决策树分类方法,包括以下步骤:S1、规范化输入样本数据集;S2、设置样本数据集或数据子集的划分终止条件,也即决策树根据当前结点的状态,生成叶子结点不再继续划分的条件;S3、准备对原始样本数据集进行划分,创建决策树的根结点;S4、按照划分准则进行样本数据集的划分、决策树结点的***以及决策规则的产生;S5、采用递归的方式,将每次划分得到的样本子集继续按照步骤S2、S3、S4进行划分,得到新的结点;S6、对未知类别标签值的样本X*进行类别值的判别预测。本方法创新地使用了J散度这一信息度量用于划分准则的产生,使得决策树分类算法的预测准确度得到了提升。

Description

基于J散度的新型决策树分类方法
技术领域
本发明涉及信息论和数据挖掘交叉技术领域,具体地,涉及一种基于J散度的新型决策树分类方法。
背景技术
随着无线移动通信、互联网以及各种智能终端设备等技术的发展与进步,海量数据在呈指数***式地不断地产生和收集。如何从海量大数据中发现和提取有用的知识或规则是一系列值得考虑的问题。这些问题都涉及到大数据技术中的一个关键的技术,即数据挖掘技术。分类问题是数据挖掘所要解决的一个典型问题,广泛应用于垃圾邮件识别、文字和图像识别、金融风险控制和***欺诈、在线广告投放以及推荐***等实际的应用场景中。目前解决分类问题所采用的方法大多是有监督的机器学习方法,包括朴素贝叶斯分类、逻辑回归(Logistic Regression)、支持向量机SVM(Support Vector Machine)、最近邻分类kNN(k-Nearest Neighbor)、神经网络(Neural Network)以及决策树分类算法。其中,决策树分类算法相较于其他分类算法由于其生成的决策树清晰、简洁以及可解释性强,非常方便决策者做出相应决策,广泛实际的应用在生产生活中。
决策树分类算法的研究最早可追溯到上世纪八十年代,Quinlan于1986年首次在“Induction of decision trees”一文中提出基于信息增益的ID3决策树分类算法。此后,他于1993年在著作“C4.5:programs for machine learning”提出基于信息增益率的改进版本的C4.5决策树。而在此期间,几乎是与此同时,Breiman和Friedman等多名统计学家在著作“Classification and regression trees”中介绍并提出了二叉结构的CART决策树分类算法。一时间决策树学***静。
近年来,随着大数据技术以及计算机计算能力的发展与进步,新一轮的人工智能浪潮来临。机器学习算法也再度成为研究热点,然而,近年来机器学习算法的研究大多集中在深度学习,集成学习以及迁移学习等复杂算法或模型的方向,对传统的基本机器学习或数据挖掘的算法鲜有涉及。
经对现有技术的检索,申请号为201110100232.0的中国发明专利公开了一种处理缺失数据的新型决策树分类器方法,包括以下步骤:将待处理的原始样本数据集进行初始化设置,且将所述数据集进行权重值初始化分配;选择一将所述数据集中的节点***为子节点的特征属性;将样本数据根据节点的特征属性分类到各子节点;通过计算出各子节点选择的特征量值将各子节点***出来;根据***出来的各子节点的样本属性确定叶子节点。该方案没有采用J散度作为样本数据集划分以及决策树结点***准则,使得决策树分类算法的预测准确度无法得到进一步提升。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于J散度的新型决策树分类方法,应用于数据样本集的分类,以解决现有的决策树分类方法的分类预测准确度不佳的技术问题。
根据本发明提供的一种基于J散度的新型决策树分类方法,包括以下步骤:
S1、规范化输入样本数据集D={Xj (i);C(i)},i=1,2,...,M,j=1,2,...,N,其中,Xj (i)表示样本X(i)在特征Aj上的特征值,C(i)∈{c1,c2,...,cK}表示样本X(i)对应的类别标签值;
S2、设置样本数据集或数据子集的划分终止条件,也即决策树根据当前结点的状态,生成叶子结点不再继续划分的条件;
S3、准备对原始样本数据集进行划分,创建决策树的根结点;
S4、按照划分准则进行样本数据集的划分、决策树结点的***以及决策规则的产生;
S5、采用递归的方式,将每次划分得到的样本子集继续按照步骤S2、S3、S4进行划分,得到新的结点;
S6、对未知类别标签值的样本X*进行类别值的判别预测。
进一步的,所述步骤S1中,原始样本数据集D中有M个样本,每个样本用X(i),i=1,2,...,M表示,样本数据集D中同样包含了N个特征Aj,j=1,2,...,N,每个特征Aj是类别型特征或者数值型特征,此外,数据集中共有K个类别标签值构成集合C={c1,c2,...,cK},每个样本都由这N个特征所对应的N个特征值和一个类别标签值所描述,其中,对应的特征值描述为Xj (i),i=1,2,...,M,j=1,2,...,N,对应的类别标签值描述为C(i),i=1,2,...,M。
进一步的,所述步骤S2中,划分终止条件有3个,分别为:
a.设置参数决策树最大高度MaxHeight,如果当前结点在树中的高度大于MaxHeight,则直接生成叶子结点,不再继续往下划分;
b.设置叶子结点最小样本个数MinSamples,如果与当前结点相关的样本集或样本子集中的样本个数小于等于MinSamples,则直接生成叶子节点,不再继续往下划分;
c.设置当前结点类别最小不确定度MinUncertainty,其取值范围在[0,1]之间,如果当前结点的不确定度Uc(p)小于MinUncertainty,则直接生成叶子节点,不再继续往下划分。
进一步的,所述当前结点的不确定度Uc(p)的计算方法如下:假设与当前结点相关联的样本集或样本子集为Dc={Xj (i);C(i)},i=1,2,...,Mc,j=1,2,...,N,则计算当前结点的不确定度为:
其中,K表示类别标签值的个数,即数据集样本分为K个不同的类别,p=(p1,p2,...,pK)是当前样本集中样本类别标签值的概率分布向量,每个概率值由pk=|∑(C(i)=ck)|/|Dc|计算,其中|∑(C(i)=ck)|表示与当前结点相关联的样本集或样本子集Dc中类别标签值为ck的样本个数,|Dc|表示样本集或样本子集大小,即Dc中样本总数。
进一步的,所述步骤S3中,判断结点的状态是否满足划分终止条件,若满足其中一个,则不进行划分,该结点即是叶子结点,并标记叶子结点类别标签值为样本集多中数样本所属类别标签值;如果不满足,则继续进行划分。
进一步的,所述步骤S4中,假设与当前结点相关联的样本数据集或样本数据子集为Dc={Xj (i);C(i)},i=1,2,...,Mc,j=1,2,...,N,其样本类别概率分布向量为p=(p1,p2,...,pK),划分就是寻找一个特征Aj=a*将Dc划分成左右两个样本子集Dl以及Dr;其中,如果Dc中样本X(i)在特征Aj上的特征值满足Xj (i)≤a*,则X(i)被划分至左子集Dl中;反之,如果满足Xj (i)>a*则会被划分至右子集Dr中。
进一步的,所述步骤S4中,基于贪心的策略,选择特征及相应的特征值Aj=a*,以使得下列划分准则最大:
其中,pl和pr分别表示左右两个样本子集中关于类别概率分布的向量,J(pl||p)表示pl和p之间的J散度。
进一步的,所述J散度又称作对称形式的KL散度,计算如下:
J(pl||p)=KL(pl||p)+KL(p||pl),
其中,plk和pk分别是样本集或样本子集中样本类别值为cK的概率,如果Aj为类别型特征,则相应地,左右两个子集的划分条件变为Aj=a*和Aj≠a*,由当前结点记录划分所选择的特征及特征值Aj=a*,而相应的左右两个子集划分条件即为生成的决策规则。
进一步的,所述步骤S5中,判断结点的状态是否满足预设的划分终止条件,若满足其中一个,则不进行划分,该结点即是叶子结点,并标记叶子结点类别标签值为与之相关联的样本集或样本子集多数样本所属类别标签值;若不满足,则继续按照步骤S4往下划分,直至生成一棵完整的决策树。
进一步的,所述步骤S6中,从决策树的根结点开始,往下匹配每个结点中的特征以及相应的决策规则,直至落入叶子结点中,叶子结点被标记的类别标签值即是样本X*所属类别值。
与现有技术相比,本发明具有如下的有益效果:
1、本发明采用J散度作为样本数据集划分以及决策树结点***准则,生成的决策树在结构上与现有的决策树分类方法完全不同。
2、本发明的基于J散度的新型决策树分类方法,在分类预测准确度表现上也优于现有的决策树分类方法。
3、本发明的基于J散度的新型决策树分类方法,创新性地选择J散度这一信息度量,用于在根据数据样本集创建决策树过程中的结点***准则以及决策规则的产生,从而根据生成的决策树以及相关决策规则,实现对未知类别标签的样本类别标签值的准确判别预测。
4、本发明的基于J散度的新型决策树分类方法,在应用于中大型复杂数据集分类问题上,综合性能(综合考虑运行效率以及分类准确率)比现有的其他解决数据挖掘分类问题的基本技术表现要好。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为基于J散度决策树分类方法的逻辑流程图;
图2为J散度决策树一般结构的简单示例说明。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本实施例中,本发明的一种基于J散度的新型决策树分类方法,介绍如下:
S1、规范化输入样本数据集D={Xj (i);C(i)},i=1,2,...,M,j=1,2,...,N,其中,Xj (i)表示样本X(i)在特征Aj上的特征值,C(i)∈{c1,c2,...,cK}表示样本X(i)对应的类别标签值;
S2、设置样本数据集或数据子集的划分终止条件,也即决策树根据当前结点的状态,生成叶子结点不再继续划分的条件;
S3、准备对原始样本数据集进行划分,创建决策树的根结点;
S4、按照划分准则进行样本数据集的划分、决策树结点的***以及决策规则的产生;
S5、采用递归的方式,将每次划分得到的样本子集继续按照步骤S2、S3、S4进行划分,得到新的结点;
S6、对未知类别标签值的样本X*进行类别值的判别预测。
接下来对本发明进行详细的描述。
本发明的目的是提供一种基于J散度的新型决策树分类方法,应用于数据样本集的分类,以解决现有的决策树分类方法的分类预测准确度不佳的技术问题。
如图1的逻辑流程图所示,一种基于J散度的决策树分类方法具体过程包括以下步骤:
S1、规范化输入样本数据集,为之后的计算作铺垫。将原始样本数据集用D={Xj (i);C(i)}表示,假设中D有M个样本,每个样本用X(i),i=1,2,...,M表示,每个样本都由N个特征所对应的N个特征值和一个类别标签值所构成,这N个特征分别表示为Aj,j=1,2,...,N,每个特征Aj可能是类别型特征或者数值型特征,样本X(i)对应特征Aj的特征值为Xj (i),此外,数据集中共有K个类别标签值构成集合C={c1,c2,...,cK},则每个样本都对应一个类别标签值样本,样本X(i)对应类别标签值为C(i)
S2、根据样本数据集创建新的结点。初始时,则根据原始样本数据集创建决策树的根结点,结点分为根结点、内部结点以及叶子结点。每个结点中都记录一些信息:与结点相关联的样本(子)集,结点的高度,根结点和内部结点还记录了数据集划分或结点***所选择的特征及特征值,而叶子结点则记录其被标记相应的类别标签值。关于结点类型的信息可以参考图2示出的J散度决策树结构简单示例说明。假设与结点相关的样本集为Dc={Xj (i);C(i)},i=1,2,...,Mc,j=1,2,...,N关于类别标签值的概率分布向量为p=(p1,p2,...,pK),则计算关于类别的不确定度为:
初始化根结点的高度为1,则往后进行***时,子结点的高度等于其父结点的高度加1;
S3、判断结点的状态是否满足划分终止条件,也即判断当前结点是叶子结点还是内部结点。设置了3个划分终止条件分别为:
a.如果当前结点的在树中的高度大于等于预设的决策树最大高度MaxHeight,则直接生成叶子结点,不再继续往下划分;
b.如果与当前结点相关的样本(子)集中的样本个数小于等于预设的叶子结点最小样本个数MinSamples,则直接生成叶子节点,不再继续往下划分;
c.如果当前结点关于类别的不确定度小于等于预设的最小不确定度MinUncertainty,其取值大小范围在[0,1]之间,则直接生成叶子节点,不再继续往下划分;
如果满足划分终止条件,则当前结点为叶子结点,标记其类别标签值为与其相关联的样本子集多数样本所属的类别标签值;
S4、按照划分准则划分数据集,也即结点***以及决策规则的产生。如果当前结点的状态不满足划分终止条件,则需要往下划分。假设与当前结点相关联的样本数据(子)集为Dc={Xj (i);C(i)},i=1,2,...,Mc,j=1,2,...,N,其样本类别概率分布向量为p=(p1,p2,...,pK),若采用一个特征(数值型特征为例)Aj=a*将Dc划分成左右两个样本子集Dl以及Dr,其中,如果Dc中样本X(i)在特征Aj上的特征值满足Xj (i)≤a*,则X(i)被划分至左子集Dl中;反之,如果满足Xj (i)>a*则会被划分至右子集Dr中,左右两个样本子集中关于类别C={c1,c2,...,cK}概率分布的向量分别为pl=(pl1,pl2,...,plK)和pr=(pr1,pr2,...,prK)。基于贪心的策略选择使得下列划分准则最大的特征及相应的特征值Aj=a*
其中,J(pl||p)表示pl和p之间的J散度,J散度又称作对称形式的KL散度,计算如下:
J(pl||p)=KL(pl||p)+KL(p||pl),
S5、采用递归的方式,将每次划分得到左右两个样本子集继续按照步骤S2、S3、S4进行划分,直至所有的划分都停止,生成对应的叶子结点,从而得到一颗完整的基于J散度的决策树。图2即是J散度决策树一般结构的简单示例;
S6、对未知类别标签值的样本进行类别值得判别预测。从根结点开始依次往下匹配相应的特征与特征值,直至其到达某个叶子结点,叶子结点所被标记的类别标签值即是对该未知类别标签值的样本的预测结果。
综上所述,本发明采用J散度作为样本数据集划分以及决策树结点***准则,生成的决策树在结构上与现有的决策树分类方法完全不同;本发明的基于J散度的新型决策树分类方法,在分类预测准确度表现上也优于现有的决策树分类方法;本发明的基于J散度的新型决策树分类方法,创新性地选择J散度这一信息度量,用于在根据数据样本集创建决策树过程中的结点***准则以及决策规则的产生,从而根据生成的决策树以及相关决策规则,实现对未知类别标签的样本类别标签值的准确判别预测;本发明的基于J散度的新型决策树分类方法,在应用于中大型复杂数据集分类问题上,综合性能(综合考虑运行效率以及分类准确率)比现有的其他解决数据挖掘分类问题的基本技术表现要好。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于J散度的新型决策树分类方法,其特征在于,包括以下步骤:
S1、规范化输入样本数据集D={Xj (i);C(i)},i=1,2,...,M,j=1,2,...,N,其中,Xj (i)表示样本X(i)在特征Aj上的特征值,C(i)∈{c1,c2,...,cK}表示样本X(i)对应的类别标签值;
S2、设置样本数据集或数据子集的划分终止条件,也即决策树根据当前结点的状态,生成叶子结点不再继续划分的条件;
S3、准备对原始样本数据集进行划分,创建决策树的根结点;
S4、按照划分准则进行样本数据集的划分、决策树结点的***以及决策规则的产生;
S5、采用递归的方式,将每次划分得到的样本子集继续按照步骤S2、S3、S4进行划分,得到新的结点;
S6、对未知类别标签值的样本X*进行类别值的判别预测。
2.根据权利要求1所述的基于J散度的新型决策树分类方法,其特征在于,所述步骤S1中,原始样本数据集D中有M个样本,每个样本用X(i),i=1,2,...,M表示,样本数据集D中同样包含了N个特征Aj,j=1,2,...,N,每个特征Aj是类别型特征或者数值型特征,此外,数据集中共有K个类别标签值构成集合C={c1,c2,...,cK},每个样本都由这N个特征所对应的N个特征值和一个类别标签值所描述,其中,对应的特征值描述为Xj (i),i=1,2,...,M,j=1,2,...,N,对应的类别标签值描述为C(i),i=1,2,...,M。
3.根据权利要求1所述的基于J散度的新型决策树分类方法,其特征在于,所述步骤S2中,划分终止条件有3个,分别为:
a.设置参数决策树最大高度MaxHeight,如果当前结点在树中的高度大于MaxHeight,则直接生成叶子结点,不再继续往下划分;
b.设置叶子结点最小样本个数MinSamples,如果与当前结点相关的样本集或样本子集中的样本个数小于等于MinSamples,则直接生成叶子节点,不再继续往下划分;
c.设置当前结点类别最小不确定度MinUncertainty,其取值范围在[0,1]之间,如果当前结点的不确定度Uc(p)小于MinUncertainty,则直接生成叶子节点,不再继续往下划分。
4.根据权利要求3所述的基于J散度的新型决策树分类方法,其特征在于,所述当前结点的不确定度Uc(p)的计算方法如下:假设与当前结点相关联的样本集或样本子集为Dc={Xj (i);C(i)},i=1,2,...,Mc,j=1,2,...,N,则计算当前结点的不确定度为:
其中,K表示类别标签值的个数,即数据集样本分为K个不同的类别,p=(p1,p2,...,pK)是当前样本集中样本类别标签值的概率分布向量,每个概率值由pk=|∑(C(i)=ck)|/|Dc|计算,其中|∑(C(i)=ck)|表示与当前结点相关联的样本集或样本子集Dc中类别标签值为ck的样本个数,|Dc|表示样本集或样本子集大小,即Dc中样本总数。
5.根据权利要求1所述的基于J散度的新型决策树分类方法,其特征在于,所述步骤S3中,判断结点的状态是否满足划分终止条件,若满足其中一个,则不进行划分,该结点即是叶子结点,并标记叶子结点类别标签值为样本集多中数样本所属类别标签值;如果不满足,则继续进行划分。
6.根据权利要求1所述的基于J散度的新型决策树分类方法,其特征在于,所述步骤S4中,假设与当前结点相关联的样本数据集或样本数据子集为Dc={Xj (i);C(i)},i=1,2,...,Mc,j=1,2,...,N,其样本类别概率分布向量为p=(p1,p2,...,pK),划分就是寻找一个特征Aj=a*将Dc划分成左右两个样本子集Dl以及Dr;其中,如果Dc中样本X(i)在特征Aj上的特征值满足Xj (i)≤a*,则X(i)被划分至左子集Dl中;反之,如果满足Xj (i)>a*则会被划分至右子集Dr中。
7.根据权利要求6所述的基于J散度的新型决策树分类方法,其特征在于,所述步骤S4中,基于贪心的策略,选择特征及相应的特征值Aj=a*,以使得下列划分准则最大:
其中,pl和pr分别表示左右两个样本子集中关于类别概率分布的向量,J(pl||p)表示pl和p之间的J散度。
8.根据权利要求7所述的基于J散度的新型决策树分类方法,其特征在于,所述J散度又称作对称形式的KL散度,计算如下:
J(pl||p)=KL(pl||p)+KL(p||pl),
其中,plk和pk分别是样本集或样本子集中样本类别值为cK的概率,如果Aj为类别型特征,则相应地,左右两个子集的划分条件变为Aj=a*和Aj≠a*,由当前结点记录划分所选择的特征及特征值Aj=a*,而相应的左右两个子集划分条件即为生成的决策规则。
9.根据权利要求1所述的基于J散度的新型决策树分类方法,其特征在于,所述步骤S5中,判断结点的状态是否满足预设的划分终止条件,若满足其中一个,则不进行划分,该结点即是叶子结点,并标记叶子结点类别标签值为与之相关联的样本集或样本子集多数样本所属类别标签值;若不满足,则继续按照步骤S4往下划分,直至生成一棵完整的决策树。
10.根据权利要求1所述的基于J散度的新型决策树分类方法,其特征在于,所述步骤S6中,从决策树的根结点开始,往下匹配每个结点中的特征以及相应的决策规则,直至落入叶子结点中,叶子结点被标记的类别标签值即是样本X*所属类别值。
CN201910082556.2A 2019-01-28 2019-01-28 基于j散度的新型决策树分类方法 Pending CN109754023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910082556.2A CN109754023A (zh) 2019-01-28 2019-01-28 基于j散度的新型决策树分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910082556.2A CN109754023A (zh) 2019-01-28 2019-01-28 基于j散度的新型决策树分类方法

Publications (1)

Publication Number Publication Date
CN109754023A true CN109754023A (zh) 2019-05-14

Family

ID=66406448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910082556.2A Pending CN109754023A (zh) 2019-01-28 2019-01-28 基于j散度的新型决策树分类方法

Country Status (1)

Country Link
CN (1) CN109754023A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364926A (zh) * 2020-11-17 2021-02-12 苏州大学 基于ResNet-50时间压缩的胃镜图片分类方法、装置和存储介质
CN112580712A (zh) * 2020-12-15 2021-03-30 山东山大电力技术股份有限公司 一种继电保护装置故障处理辅助决策方法及***
CN115687538A (zh) * 2022-11-14 2023-02-03 深圳标普云科技有限公司 一种企业信息采集分析方法及***
CN115905984A (zh) * 2023-03-09 2023-04-04 华东交通大学 基于多模态数据的决策树分类方法与***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364926A (zh) * 2020-11-17 2021-02-12 苏州大学 基于ResNet-50时间压缩的胃镜图片分类方法、装置和存储介质
CN112580712A (zh) * 2020-12-15 2021-03-30 山东山大电力技术股份有限公司 一种继电保护装置故障处理辅助决策方法及***
CN115687538A (zh) * 2022-11-14 2023-02-03 深圳标普云科技有限公司 一种企业信息采集分析方法及***
CN115687538B (zh) * 2022-11-14 2023-04-25 深圳标普云科技有限公司 一种企业信息采集分析方法及***
CN115905984A (zh) * 2023-03-09 2023-04-04 华东交通大学 基于多模态数据的决策树分类方法与***

Similar Documents

Publication Publication Date Title
CN109754023A (zh) 基于j散度的新型决策树分类方法
CN107766929B (zh) 模型分析方法及装置
CN103782309A (zh) 用于机器学习分类器的自动数据清除
CN109582714B (zh) 一种基于时间衰减关联的政务事项数据处理方法
CN110147389A (zh) 帐号处理方法和装置、存储介质及电子装置
CN113297429B (zh) 一种基于神经网络架构搜索的社交网络链路预测方法
WO2020053846A2 (en) A system and method for analysis of smart meter data
WO2020024444A1 (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN111612519A (zh) 一种识别金融产品潜在客户的方法、装置及存储介质
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN113516501A (zh) 一种基于图神经网络的用户通信行为预测方法和装置
CN116701979A (zh) 基于受限k-均值的社交网络数据分析方法及***
CN103929499B (zh) 一种物联网异构标识识别方法和***
CN114549897A (zh) 一种分类模型的训练方法、装置及存储介质
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN113705215A (zh) 一种基于元学习的大规模多标签文本分类方法
Wu et al. A robust inference algorithm for crowd sourced categorization
CN116204647A (zh) 一种目标比对学习模型的建立、文本聚类方法及装置
CN113641705B (zh) 一种基于计算引擎的营销处置规则引擎方法
CN113282686B (zh) 一种不平衡样本的关联规则确定方法及装置
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
Shahoud et al. Descriptive statistics time-based meta features (DSTMF) constructing a better set of meta features for model selection in energy time series forecasting
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN109086373B (zh) 一种构建公平的链接预测评估***的方法
Oner et al. Weakly supervised clustering by exploiting unique class count

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190514