CN105786970A - 不平衡数据的处理方法及装置 - Google Patents

不平衡数据的处理方法及装置 Download PDF

Info

Publication number
CN105786970A
CN105786970A CN201610070500.1A CN201610070500A CN105786970A CN 105786970 A CN105786970 A CN 105786970A CN 201610070500 A CN201610070500 A CN 201610070500A CN 105786970 A CN105786970 A CN 105786970A
Authority
CN
China
Prior art keywords
data
sample
negative sample
point
data point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610070500.1A
Other languages
English (en)
Inventor
周丰丰
姚曌旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201610070500.1A priority Critical patent/CN105786970A/zh
Publication of CN105786970A publication Critical patent/CN105786970A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于数据处理技术领域,提供了不平衡数据的处理方法及装置,包括:在输入的不平衡数据的原始样本数据中查找出负样本的聚类中心;通过yj=xi+rand(0,1)*(Xmid‑xi)生成新的负样本yj,其中,rand(0,1)表示在区间(0,1)之间的一个随机数,xi为一个负样本点,Xmid为所述负样本的聚类中心;将原始样本数据与新的负样本合成后输出。在本发明中,基于改进的SMOTE算法,在不平衡数据中查找到负样本集中分布的区域,并找到该区域的聚类中心,由此产生的新样本也会向聚类中心靠拢,从而减少了噪声的产生,改善了新数据集的分布性能,也由此提升了对不平衡数据的分类性能。

Description

不平衡数据的处理方法及装置
技术领域
本发明属于数据处理技术领域,尤其涉及不平衡数据的处理方法及装置。
背景技术
不平衡数据,即各个类拥有的样本数量之间存在较大差异的数据,对不平衡数据的分类在医疗诊断、入侵检测、预防诈骗、卫星图像辨识等领域都有着广泛应用。通常,在对不平衡数据进行分类之前,需要对数据进行过抽样或者欠抽样处理,所谓过抽样,就是添加或者复制样本,所谓欠抽样,就是减少样本,二者的目的都是为了达到正样本和负样本的数量平衡。
然而,传统的过抽样和欠抽样方法都是简单地改变原始样本的数据分布,以消除或减少小样本的数据不平衡性,然而,上述方法在数据处理过程中往往会引入噪声,或者丢失一些重要信息,影响了对不平衡数据最终的分类性能。
发明内容
有鉴于此,本发明实施例提供了不平衡数据的处理方法及装置,以解决传统的过抽样或者欠抽样方法会影响不平衡数据最终的分类性能的问题。
第一方面,提供了一种不平衡数据的处理方法,包括:
在输入的不平衡数据的原始样本数据中查找出负样本的聚类中心;
通过yj=xi+rand(0,1)*(Xmid-xi)生成新的负样本yi,其中,rand(0,1)表示在区间(0,1)之间的一个随机数,xi为一个负样本点,Xmid为所述负样本的聚类中心;
将原始样本数据与新的负样本合成后输出。
第二方面,提供了一种不平衡数据的处理装置,包括:
查找单元,用于在输入的不平衡数据的原始样本数据中查找出负样本的聚类中心;
生成单元,用于通过yi=xi+rand(0,1)*(Xmid-xi)生成新的负样本yi,其中,rand(0,1)表示在区间(0,1)之间的一个随机数,xi为一个负样本点,Xmid为所述负样本的聚类中心;
输出单元,用于将原始样本数据与新的负样本合成后输出。
在本发明实施例中,基于改进的SMOTE算法,在不平衡数据中查找到负样本集中分布的区域,即“高密度区域”,并找到该区域的聚类中心,由此一来,在为不平衡数据创建样本的过程中,产生的新样本也会向聚类中心靠拢,从而排除了样本合成过程中大量孤立的负样本的干扰,减少了噪声的产生,改善了新数据集的分布性能,也由此提升了对不平衡数据的分类性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的不平衡数据的处理方法的实现流程图;
图2是本发明实施例提供的不平衡数据的处理方法S101的具体实现流程图;
图3是本发明实施例提供的不平衡数据的处理装置的结构框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透切理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
在本发明实施例中,基于改进的SMOTE算法,在不平衡数据中查找到负样本集中分布的区域,即“高密度区域”,并找到该区域的聚类中心,由此一来,在为不平衡数据创建样本的过程中,产生的新样本也会向聚类中心靠拢,从而排除了样本合成过程中大量孤立的负样本的干扰,减少了噪声的产生,改善了新数据集的分布性能,也由此提升了对不平衡数据的分类性能。
图1示出了本发明实施例提供的不平衡数据的处理方法的实现流程,详述如下:
在S101中,在输入的不平衡数据的原始样本数据中查找出负样本的聚类中心。
在本发明实施例中,所述负样本,是指样本数量小的一类样本,在过抽样的过程中,需要增加或复制此类样本的数量,以达到正样本和负样本的数量平衡。对负样本聚类中心进行查找的具体实现如图2所示:
S201,对于所述原始样本数据中的每一个数据点i,计算其局部密度ρi
对数据点i的局部密度ρi的计算如下:
ρi=∑jχ(dij-dc),
其中,若dij-dc<0,χ(dij-dc)=1,否则χ(dij-dc)=0,dij为数据点i到数据点j的距离,dc为一个截断距离,定义为将所有的数据点按照与数据点i的相互距离从小到大排列,在排列的预设百分比的位置上的距离,示例性地,所述预设百分比可以为2%。
在S202中,对于所述原始样本数据中的每一个数据点i,计算数据点i与局部密度比数据点i高的点的最小距离。
对最小距离δi的计算如下:
&delta; i = min j : &rho; j > &rho; i d i j ,
其中,对于最大局部密度的点,其为所有的点与点距离的最大值,
δi=maxjdij
在S203中,筛选出同时满足ρimin和δimin的数据点,将筛选出的数据点确定为负样本的聚类中心,其中,ρmin为预设的局部密度,δmin为预设的最小距离。
在S102中,通过yi=xi+rand(0,1)*(Xmid-xi)生成新的负样本yi,其中,rand(0,1)表示在区间(0,1)之间的一个随机数,xi为一个负样本点,Xmid为所述负样本的聚类中心。
传统的SMOTE(Synthetic Minority Over-Sampling Technique)算法,为一种利用过抽样来合成负样本的技术,其算法特点在于通过原始样本和与该原始样本相关的近邻样本来对原始样本进行过抽样,从而合成更多的负样本,使不平衡数据趋向于平衡。在SMOTE算法的实现中,首先根据所需要的近邻样本来选取原始样本和近邻样本之间的距离;其次,通过给定的算法算出原始样本与近邻样本的特征向量,再寻找二者之间的区别,并对该区别乘以一个0到1之间的随机数,根据这些随机数生成新的负样本。由于合成的新样本会导致分类器创建更大且特异性相对而言更小的区域,而不是更小且特异性更大的区域,因此,上述方法使得负样本更具有普适性,使得感兴趣的样本变得更容易鉴定。SMOTE算法的实现公式如下:
yi=xi+rand(0,1)*(mij-xi),
其中,rand(0,1)表示在区间(0,1)之间的一个随机数,xi为一个负样本点,yi为新合成的一个负样本点,min为点xi的近邻点。
然而,从几何角度上说,SMOTE算法的本质是在负样本和邻近的连线上进行过抽样,但是,由于负样本合成过程是将所有邻近点都归为一类,而不考虑负样本附近正样本的分布和训练样本自身的分布特点,这样的邻近选择具有有一定的盲目性,因此,在本发明实施例中,对SMOTE算法进行了改进,基于密度聚类,找到负样本集中分布的区域及其聚类中心,这样一来,在创建样本的时候,产生的新的负样本也会向聚类中心靠拢,有效地解决了原始的SMOTE算法在合成样本过程中容易出现的边缘化问题。
在S103中,将原始样本数据与新的负样本合成后输出。
这样一来,输出的新样本数据排除了大量孤立的负样本的干扰,减少了噪声,使得新的负样本更具有代表性,改善了样本的数据分布,也由此提升了对不平衡数据的分类性能。
进一步地,作为本发明的一个实施例,在S101之后,S103之前,所述方法还包括:
去除所述原始样本数据中数据量低于预设阈值的负样本。这样一来,只保留原始样本数据中数据量较多的负样本,并将保留下来的负样本与生成的新的负样本合成,更为有效地减少了样本数据中的噪声干扰,进一步地提升了对不平衡数据的分类性能。
以下通过实验来说明未经过本发明方案处理的不平衡数据和经过本发明方案处理的不平衡数据的分类效果,其中,实验数据采用的是UC Irvine MachineLearning Repository上Urban land cover中差异度最小的tree和grass两类数据,其中,正样本数量为90,负样本数量为51,实验结果如表1所示:
表1
查准率 查全率 F值 G-Mean
未经处理 0.7865 0.8333 0.8096 1.6184
本算法处理 0.8315 0.9737 0.8998 1.7940
可以看出,相比于未经过处理的不平衡数据所分类结果,经过本发明方案处理过的不平衡数据的各项评价指标都更优,很好地提升了分类性能。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的不平衡数据的处理方法,图3示出了本发明实施例提供的不平衡数据的处理装置的结构框图,为了便于说明,仅示出了与本实施例相关的部分。
参照图3,该装置包括:
查找单元31,在输入的不平衡数据的原始样本数据中查找出负样本的聚类中心;
生成单元32,通过yi=xi+rand(0,1)*(Xmid-xi)生成新的负样本yi,其中,rand(0,1)表示在区间(0,1)之间的一个随机数,xi为一个负样本点,Xmid为所述负样本的聚类中心;
输出单元33,将原始样本数据与新的负样本合成后输出。
可选地,所述查找单元31包括:
第一计算子单元,对于所述原始样本数据中的每一个数据点i,计算数据点i的局部密度ρi
第二计算子单元,对于所述原始样本数据中的每一个数据点i,计算数据点i与局部密度比数据点i高的点的最小距离δi
筛选子单元,筛选出同时满足ρimin和δimin的数据点,将筛选出的数据点确定为负样本的聚类中心,其中,ρmin为预设的局部密度,δmin为预设的最小距离。
可选地,所述第一计算子单元具体用于:
通过ρi=∑jχ(dij-dc)计算数据点i的局部密度ρi,其中,若dij-dc<0,χ(dij-dc)=1,否则χ(dij-dc)=0,dij为数据点i到数据点j的距离,dc为一个截断距离,定义为将所有的数据点按照与数据点i的相互距离从小到大排列,在排列的预设百分比的位置上的距离。
可选地,所述预设百分比为2%。
可选地,所述装置还包括:
去除单元,去除所述原始样本数据中数据量低于预设阈值的负样本。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的***实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种不平衡数据的处理方法,其特征在于,包括:
在输入的不平衡数据的原始样本数据中查找出负样本的聚类中心;
通过yj=xi+rand(0,1)*(Xmid-xi)生成新的负样本yj,其中,rand(0,1)表示在区间(0,1)之间的一个随机数,xi为一个负样本点,Xmid为所述负样本的聚类中心;
将原始样本数据与新的负样本合成后输出。
2.如权利要求1所述的方法,其特征在于,所述在输入的不平衡数据的原始样本数据中查找出负样本的聚类中心包括:
对于所述原始样本数据中的每一个数据点i,计算数据点i的局部密度ρi
对于所述原始样本数据中的每一个数据点i,计算数据点i与局部密度比数据点i高的点的最小距离δi
筛选出同时满足ρi>ρmin和δi>δmin的数据点,将筛选出的数据点确定为负样本的聚类中心,其中,ρmin为预设的局部密度,δmin为预设的最小距离。
3.如权利要求2所述的方法,其特征在于,所述计算数据点i的局部密度ρi包括:
通过ρi=∑jχ(dij-dc)计算数据点i的局部密度ρi,其中,若dij-dc<0,χ(dij-dc)=1,否则χ(dij-dc)=0,dij为数据点i到数据点j的距离,dc为一个截断距离,定义为将所有的数据点按照与数据点i的相互距离从小到大排列,在排列的预设百分比的位置上的距离。
4.如权利要求3所述的方法,其特征在于,所述预设百分比为2%。
5.如权利要求1所述的方法,其特征在于,所述在输入的不平衡数据的原始样本数据中查找出负样本的聚类中心之后,所述通过yj=xi+rand(0,1)*(Xmid-xi)生成新的负样本yj之前,所述方法还包括:
去除所述原始样本数据中数据量低于预设阈值的负样本。
6.一种不平衡数据的处理装置,其特征在于,包括:
查找单元,用于在输入的不平衡数据的原始样本数据中查找出负样本的聚类中心;
生成单元,用于通过yj=xi+rand(0,1)*(Xmid-xi)生成新的负样本yj,其中,rand(0,1)表示在区间(0,1)之间的一个随机数,xi为一个负样本点,Xmid为所述负样本的聚类中心;
输出单元,用于将原始样本数据与新的负样本合成后输出。
7.如权利要求6所述的装置,其特征在于,所述查找单元包括:
第一计算子单元,用于对于所述原始样本数据中的每一个数据点i,计算数据点i的局部密度ρi
第二计算子单元,用于对于所述原始样本数据中的每一个数据点i,计算数据点i与局部密度比数据点i高的点的最小距离δi
筛选子单元,用于筛选出同时满足ρi>ρmin和δi>δmin的数据点,将筛选出的数据点确定为负样本的聚类中心,其中,ρmin为预设的局部密度,δmin为预设的最小距离。
8.如权利要求7所述的装置,其特征在于,所述第一计算子单元具体用于:
通过ρi=∑jχ(dij-dc)计算数据点i的局部密度ρi,其中,若dij-dc<0,χ(dij-dc)=1,否则χ(dij-dc)=0,dij为数据点i到数据点j的距离,dc为一个截断距离,定义为将所有的数据点按照与数据点i的相互距离从小到大排列,在排列的预设百分比的位置上的距离。
9.如权利要求8所述的装置,其特征在于,所述预设百分比为2%。
10.如权利要求6所述的装置,其特征在于,所述装置还包括:
去除单元,用于去除所述原始样本数据中数据量低于预设阈值的负样本。
CN201610070500.1A 2016-01-29 2016-01-29 不平衡数据的处理方法及装置 Pending CN105786970A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610070500.1A CN105786970A (zh) 2016-01-29 2016-01-29 不平衡数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610070500.1A CN105786970A (zh) 2016-01-29 2016-01-29 不平衡数据的处理方法及装置

Publications (1)

Publication Number Publication Date
CN105786970A true CN105786970A (zh) 2016-07-20

Family

ID=56402337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610070500.1A Pending CN105786970A (zh) 2016-01-29 2016-01-29 不平衡数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN105786970A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875783A (zh) * 2018-05-09 2018-11-23 西安工程大学 一种面向不平衡数据集的极限学习机变压器故障诊断方法
CN109756494A (zh) * 2018-12-29 2019-05-14 ***股份有限公司 一种负样本变换方法及装置
WO2020048048A1 (zh) * 2018-09-03 2020-03-12 平安科技(深圳)有限公司 不平衡样本数据预处理方法、装置和计算机设备
CN112749719A (zh) * 2019-10-31 2021-05-04 北京沃东天骏信息技术有限公司 一种用于样本均衡分类的方法和装置
WO2021185330A1 (zh) * 2020-03-20 2021-09-23 京东方科技集团股份有限公司 数据增强方法和数据增强装置
CN113538423A (zh) * 2021-09-15 2021-10-22 常州微亿智造科技有限公司 基于组合优化算法的工业零部件缺陷检测区间聚类方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875783A (zh) * 2018-05-09 2018-11-23 西安工程大学 一种面向不平衡数据集的极限学习机变压器故障诊断方法
WO2020048048A1 (zh) * 2018-09-03 2020-03-12 平安科技(深圳)有限公司 不平衡样本数据预处理方法、装置和计算机设备
JP2021533499A (ja) * 2018-09-03 2021-12-02 平安科技(深▲せん▼)有限公司Ping An Technology (Shenzhen) Co., Ltd. 不均衡標本データの前処理方法、装置及びコンピュータ機器
JP7058797B2 (ja) 2018-09-03 2022-04-22 平安科技(深▲せん▼)有限公司 不均衡標本データの前処理方法、装置及びコンピュータ機器
US11941087B2 (en) 2018-09-03 2024-03-26 Ping An Technology (Shenzhen) Co., Ltd. Unbalanced sample data preprocessing method and device, and computer device
CN109756494A (zh) * 2018-12-29 2019-05-14 ***股份有限公司 一种负样本变换方法及装置
CN109756494B (zh) * 2018-12-29 2021-04-16 ***股份有限公司 一种负样本变换方法及装置
CN112749719A (zh) * 2019-10-31 2021-05-04 北京沃东天骏信息技术有限公司 一种用于样本均衡分类的方法和装置
WO2021185330A1 (zh) * 2020-03-20 2021-09-23 京东方科技集团股份有限公司 数据增强方法和数据增强装置
CN113538423A (zh) * 2021-09-15 2021-10-22 常州微亿智造科技有限公司 基于组合优化算法的工业零部件缺陷检测区间聚类方法
CN113538423B (zh) * 2021-09-15 2022-01-07 常州微亿智造科技有限公司 基于组合优化算法的工业零部件缺陷检测区间聚类方法

Similar Documents

Publication Publication Date Title
CN105786970A (zh) 不平衡数据的处理方法及装置
CN106096727A (zh) 一种基于机器学习的网络模型构造方法及装置
CN105760889A (zh) 一种高效的不均衡数据集分类方法
CN110659513B (zh) 一种面向多敏感属性数据发布的匿名隐私保护方法
CN105404627A (zh) 一种用于确定搜索结果的方法与设备
CN104484600B (zh) 一种基于改进密度聚类的入侵检测方法及装置
CN105045913A (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN106033425A (zh) 数据处理设备和数据处理方法
CN105046270A (zh) 应用分类模型构建方法、应用分类方法及***
Tabatabaeefar et al. Biomedical image denoising based on hybrid optimization algorithm and sequential filters
Lin et al. An improved clustering method based on k-means
CN105335390A (zh) 对象的分类方法、业务的推送方法及服务器
CN116993513A (zh) 金融风控模型解释方法、装置及计算机设备
CN108491274A (zh) 分布式数据管理的优化方法、装置、存储介质及设备
CN111782904A (zh) 一种基于改进smote算法的非平衡数据集处理方法及***
Sanjana Ad service detection-a comparative study using machine learning techniques
CN111368616B (zh) 从车的识别方法、装置及设备
CN105447183A (zh) Mpp架构数据库集群序列***及序列管理方法
Mishra et al. Efficient intelligent framework for selection of initial cluster centers
Safiri et al. A new algorithm for the elimination of common subexpressions in hardware implementation of digital filters by using genetic programming
Tokuhara et al. Using label information in a genetic programming based method for acquiring block preserving outerplanar graph patterns with wildcards
Li et al. Towards a high robust neural network via feature matching
CN112348583B (zh) 用户偏好生成方法与生成***
Xu et al. A No Parameter Synthetic Minority Oversampling Technique Based on Finch for Imbalanced Data
US20240113699A1 (en) Flexible Circuit for Real and Complex Filter Operations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160720

RJ01 Rejection of invention patent application after publication