CN103971136A - 一种面向大规模数据的并行结构化支持向量机分类方法 - Google Patents

一种面向大规模数据的并行结构化支持向量机分类方法 Download PDF

Info

Publication number
CN103971136A
CN103971136A CN201410185389.1A CN201410185389A CN103971136A CN 103971136 A CN103971136 A CN 103971136A CN 201410185389 A CN201410185389 A CN 201410185389A CN 103971136 A CN103971136 A CN 103971136A
Authority
CN
China
Prior art keywords
sample
sigma
lambda
vector machine
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410185389.1A
Other languages
English (en)
Inventor
杨明
郭丽娜
高阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN201410185389.1A priority Critical patent/CN103971136A/zh
Publication of CN103971136A publication Critical patent/CN103971136A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向大规模数据的并行结构化支持向量机分类方法,具体包括如下步骤:样本归一化;求得大规模训练样本集结构化信息;利用大规模训练样本集训练分类模型;根据分类模型对测试样本进行分类。本发明采用并行结构化支持向量机,利用目前最流行的云计算平台之一Hadoop进行实现,能够有效地处理大规模数据分类问题;此外,并行结构化支持向量机在原始的支持向量机模型中融入了样本的结构信息,使得训练模型更加符合数据的分布,从而提高分类的精度。因此本发明提出的方法具有较高的使用价值。

Description

一种面向大规模数据的并行结构化支持向量机分类方法
技术领域
本发明属于人工智能模式识别分类领域,特别是一种面向大规模数据的并行支持向量机分类方法。
背景技术
分类问题是机器学习的主要研究内容,支持向量机作为主流的分类方法之一,在软件模块缺陷检测、图像识别等领域取得了广泛的应用,倍受研究者的关注。为了获得更好的分类效果,研究者们也相继提出了最小二乘支持向量机、模糊支持向量机等。标准的支持向量机问题的实质是一个二次规划问题,在支持向量机的求解方面,研究者也做了大量的工作,较为常用的方法有牛顿法、分块方法、分解方法、梯度下降的方法等。然而,随着时代的发展,科技的进步,我们所面临的数据规模不断的增大,经典的串行支持向量机主要针对小规模数据,面对大规模数据存在效率低的不足。为此,设计适用于大规模样本的并行支持向量机分类方法成了关键任务。
目前,经典的并行支持向量机的研究主要集中在数据层面,即在原始数据集的多个子数据集上并行训练支持向量机,进而通过合并得到最终分类结果。相对于面向数据层面的并行支持向量机而言,在求解算法上进行并行支持向量机还不多见。
已有的并行支持向量机算法在模型中考虑类分布信息的研究工作还比较少。样本的结构信息往往对大间隔分类器的分类面的确定同样具有指导意义。目前,研究者也提出了很多考虑样本结构信息的大间隔分类器算法,如:最小最大概率机、最大最小间隔机、结构大间隔机、结构支持向量机等。
发明内容
本发明为了能够解决大规模数据的支持向量机分类问题,并且提高分类精度,提出了一种面向大规模数据的并行支持向量机分类方法,在有效处理大规模数据分类问题的同时还提高了分类效果。
本发明采用的技术方案如下:
一种面向大规模数据的并行结构化支持向量机分类方法,包括如下步骤:
步骤1,样本归一化:对训练样本和测试样本分别进行归一化到相同的范围内;
步骤2,求得大规模训练样本集结构化信息:由于协方差矩阵往往可以反映样本的分布信息,因此在Hadoop平台上分别求得正、负类样本的协方差矩阵作为样本的整体结构信息;
步骤3,利用大规模训练样本集训练分类模型;根据并行结构化支持向量机随机次梯度投影并行执行的方法,在Hadoop平台上训练得到并行结构化支持向量机模型;
步骤4,根据分类模型对测试样本进行分类;根据步骤3训练得到的并行结构化支持向量机模型,对测试样本进行分类。
所述步骤2具体包括如下步骤:在Hadoop平台下,大规模训练样本被划分为多个子集,分散地存放在多个数据节点上,求得大规模训练样本的协方差矩阵可以借助一个MapReduce(映射归约)任务完成;
为了方便描述,记给定的大规模训练样本集其中xi∈Rn,yi∈{+1,-1},将训练样本集S分成N个子集,记为i=1,...,N,yj∈{+1,-1};表示Si中的正、负类样本,记Σ为样本的整体协方差, μ i + = Σ x j + ∈ S i x j + , μ i - = Σ x j - ∈ S i x j - , i = 1 , . . . , N ;
Map阶段:依次扫描当前节点i上的样本,求得当前节点上样本分别的 μ i + = Σ x j + ∈ S i x j + N i - , Σ i - = Σ x j - ∈ S i x j - x j - T , μ i - = Σ x j - ∈ S i x j - ;
Reduce阶段:将在Map阶段求得的N节点的i=1,...,N信息在Reduce中进行汇总;根据公式其中分别求得大规模训练样本的正、负类各自的协方差矩阵将正负类样本的协方差矩阵求和得到大规模训练样本集整体的协方差矩阵,Σ=Σ+-
所述步骤3利用大规模训练样本集训练分类模型具体包括如下步骤:
(1)计算出样本的协方差矩阵Σ;
(2)初始化向量w,任取向量w1,使其满足wT1Λ+λ2Σ)w≤1,其中λ1和λ2为正则化参数,Λ为单位矩阵,Σ为样本的协方差矩阵;
(3)记当前循环次数为t,第t次循环得到的向量w记为wt,进行T轮循环:
①从训练集S中选取样本个数为k的子集At∈S,并用新的目标函数 min w &lambda; 1 2 | | w | | 2 + 1 k &Sigma; ( x , y ) &Element; A t max { 0,1 - y < w , x > } + &lambda; 2 2 w T &Sigma;w , 来代替原来的目标函数;
②确定梯度下降法的学习率为
③将子集At中使用wt判断当前损失非零的样本组成一个新的子集目标函数的次梯度方向可以表示为 &dtri; t = &lambda; 1 w t - 1 | A t | &Sigma; ( x i , y i ) &Element; A t + y i x i + &lambda; 2 &Sigma; w t ;
④更新: w t + 1 2 = w t - &eta; t &dtri; t = ( 1 - &eta; t &lambda; 1 ) w t + &eta; t k &Sigma; ( x i , y i ) &Element; A t + y i x i - &eta; t &lambda; 2 &Sigma;w t ;
⑤投影步骤: w t + 1 = min { 1,1 / w t + 1 2 T ( &lambda; 1 &Lambda; + &lambda; 2 &Sigma; ) w t + 1 2 } w t + 1 2 ;
(4)得到最终结果wT+1
所述步骤3随机次梯度投影迭代并行执行的具体包括如下步骤:
随机次梯度投影的每一轮迭代作为一个单独的MapReduce任务;
Map阶段:
①随机抽取k/N个样本;
②定义零向量vj∈Rn
③逐个判断这k/N个样本,如果则vj=vj+yi*xi
④得到当前节点上的 v j = &Sigma; ( x i , y i ) &Element; A t + y i x i , 其中 A t + = { ( x i , y i ) &Element; A t : y i < w t , x i > < 1 } ;
Reduce阶段:
①汇总N个节点上的vj,求和得到
②确定梯度下降法的学习率为
③更新 w t + 1 2 = ( 1 - &eta; t &lambda; 1 ) w t + &eta; t k v - &eta; t &lambda; 2 &Sigma;w t ;
④投影步骤 w t + 1 = min { 1,1 / w t + 1 2 T ( &lambda; 1 &Lambda; + &lambda; 2 &Sigma; ) w t + 1 2 } w t + 1 2 .
本发明是专门针对大规模数据支持向量机分类问题而提出的方法。本发明具有以下特征:
(1)本发明实现了支持向量机这一分类方法的并行化,解决了串行支持向量机解决大规模数据分类问题时,内存不足和时间消耗过长的问题。能够有效地处理大规模数据的支持向量机的分类问题;
(2)本发明在原始的支持向量机的模型中融入样本的结构信息,使训练模型更加符合样本的分布规律,从而有效提高了分类器的分类效果;
(3)本发明提出了在Hadoop平台上实现并行结构化支持向量机的方法,利用Hadoop这一流行的易于使用的云计算平台,本发明具有更高的使用价值。
附图说明
图1为本发明整体流程图。
图2为本发明中求得大规模训练样本集结构化信息步骤子流程图。
图3为本发明中利用大规模训练样本集训练分类模型步骤子流程图。
图4为本发明中随机次梯度投影迭代并行执行步骤子流程图。
具体实施方式:
如图1所示,本发明公开了一种面向大规模数据的并行结构化支持向量机分类方法,包含如下步骤:
步骤1,样本归一化:对训练样本和测试样本分别进行归一化到相同的范围内;
步骤2,求得大规模训练样本集结构化信息:由于协方差矩阵往往可以反映样本的分布信息,因此在Hadoop平台上分别求得正、负类样本的协方差矩阵作为样本的整体结构信息;
步骤3,利用大规模训练样本集训练分类模型;根据并行结构化支持向量机随机次梯度投影的方法,在Hadoop平台上训练得到并行结构化支持向量机模型;
步骤4,根据分类模型对测试样本进行分类;根据步骤3训练得到的并行结构化支持向量机模型,对测试样本进行分类。
步骤1中样本归一化,采用下式将一个数据向量d归一化到[low,high]范围内,得到新的数据向量
d ~ = low + ( upp - low ) * ( d - min ( d ) ) max ( d ) - min ( d )
采用该方式将训练样本和测试样本归一化到相同的数据范围。
如图2所示,求得大规模训练样本集结构化信息的具体实施步骤如下:
步骤5是将训练样本上传到HDFS,HDFS将大规模训练样本集分割成多个数据子集,分别存放在各个数据节点上;
步骤6是Map阶段,各个节点遍历各自的数据子集,得到本节点上正、负类各自的样本数均值每个样本与其转置的乘积的累加矩阵
步骤7是Reduce阶段,将步骤5中各个节点得到的本节点上的有关数据进行汇总。根据公式:
&Sigma; = 1 m &Sigma; i = 1 N &Sigma; i - 1 m 2 &Sigma; i = 1 N &mu; i &Sigma; i = 1 N &mu; i T , 其中 m = &Sigma; i = 1 N N i
分别求得大规模训练样本的正、负类各自的协方差矩阵Σ+和Σ-。将正负类样本的协方差矩阵求和得到大规模训练样本集整体的协方差矩阵,Σ=Σ+-
如图3所示,利用大规模训练样本集训练分类模型的具体实施步骤如下:
步骤8初始化决策面法向量w,可以任意取值,但将其约束在w的范围之内:wT1Λ+λ2Σ)w≤1;
步骤9规定随机次梯度迭代的次数,一共执行T次;
步骤10选择一个样本子集,采用随机抽取的方式,选择出大小为k的数据子集;
步骤11确定学习率,本发明中采用根据迭代次数不断的修改下一轮的学习率;
步骤12计算次梯度投影方向,用当前的w值来一次判断步骤10中随机选择出来的样本,将所有错分的样本乘以其对应的类标进行累加,用来计算本轮次梯度投影迭代的次梯度方向: &dtri; t = &lambda; 1 w t - 1 | A t | &Sigma; ( x i , y i ) &Element; A t + y i x i + &lambda; 2 &Sigma; w t , 其中 A t + = { ( x i , y i ) &Element; A t : y 1 < w t , x i > < 1 } ;
步骤13根据梯度下降公式更新决策面法向量w,
w t + 1 2 = w t - &eta; t &dtri; t = ( 1 - &eta; t &lambda; 1 ) w t + &eta; t k &Sigma; ( x i , y i ) &Element; A t + y i x i - &eta; t &lambda; 2 &Sigma;w t ;
步骤14投影步骤,为了是本轮迭代求得的w更加逼近问题的最优解,因此将其投影到它的最优解的范围之内: w t + 1 = min { 1,1 / w t + 1 2 T ( &lambda; 1 &Lambda; + &lambda; 2 &Sigma; ) w t + 1 2 } w t + 1 2 ;
如图4所示,利用大规模训练样本集训练分类模型中随机次梯度投影迭代并行执行的具体实施步骤如下:
步骤16在Map过程中从各个节点中随机抽取k/N个样本。大规模训练样本集分别存储在N个数据节点上,如果每轮迭代抽取k个样本,那么在每个节点中只需随机抽取k/N个样本。
步骤17在Map过程中用当前的模型来逐个测试这k/N个样本,将所有错分的样本与其对应的类标相乘之后进行累加,该步骤就是将步骤12完成的任务分散到多个数据节点上完成,减少了每个数据节点的数据处理量。
步骤18在Reduce过程中,将N个节点上所有错分的样本与其对应的类标相乘之后的累加进行汇总,得到本轮的迭代的次梯度投影方向。
步骤19在Reduce过程中根据梯度下降公式更新决策面法向量w,
w t + 1 2 = w t - &eta; t &dtri; t = ( 1 - &eta; t &lambda; 1 ) w t + &eta; t k &Sigma; ( x i , y i ) &Element; A t + y i x i - &eta; t &lambda; 2 &Sigma;w t ;
步骤20在Reduce过程中进行投影步骤,使本轮迭代结果更加逼近问题的最优解,
w t + 1 = min { 1,1 / w t + 1 2 T ( &lambda; 1 &Lambda; + &lambda; 2 &Sigma; ) w t + 1 2 } w t + 1 2 ;
实施例:
本实施例包括以下部分:
1.样本归一化;
将数据归一化到[0,1]的范围内,假设d为样本集的某一列属性,根据下式进行归一化可以得到新的一列属性
d ~ = ( d - min ( d ) ) max ( d ) - min ( d )
采用该方式将样本集的每个属性列都进行归一化,可以得到归一化的训练样本集和归一化的测试样本集。
2.在Hadoop平台上求得大规模训练样本集的协方差;
例如大规模训练样本集分散的存储在20个数据节点上,采用一个MapReduce过程即可求得样本的协方差。将样本的协方差公式进行转换,可得到:
&Sigma; = 1 m &Sigma; i = 1 N &Sigma; i - 1 m 2 &Sigma; i = 1 N &mu; i &Sigma; i = 1 N &mu; i T , 其中 m = &Sigma; i = 1 N N i , &Sigma; i = &Sigma; x j &Element; S i x j x j T , &mu; i = &Sigma; x j &Element; S i x j
根据该式,不难发现样本的整体协方差可以通过各个节点上的样本数量、均值、样本与其转置的成绩的累加和,汇总得到。
在Map阶段,各个节点遍历各自的数据子集,得到本节点上正、负类各自的样本数 均值每个样本与其转置的乘积的累加矩阵自定义一个数据类型,将Map阶段得到相关信息传输到Reduce中去。
在Reduce阶段只需将从20个数据节点的Map输出值,进行分类汇总,根据样本协方差的求解公式,即可计算出样本的协方差,并将其转化成一个序列,存储到HDFS文件中去,以方便后续使用。
3.在Hadoop平台上利用大规模训练样本集训练分类模型;
在模型训练过程,使用的是支持向量机的随机次梯度投影算法,关键步骤是交叉执行随机次梯度和投影两个步骤的迭代。在Hadoop平台上实现该算法,将每一次随机次梯度投影的迭代用一个MapReduce的过程来求解。
在主程序中设置随机次梯度投影算法的迭代次数T,每轮迭代需要随机抽取的样本的个数k,以及正则化参数λ12。大规模训练样本集分别存储在N个数据节点上。
接下来,进行T轮迭代步骤用来不断地更新w值,每轮迭代都包含一个Map和一个Reduce过程。
在Map过程中从各个节点中采用随机抽取的方式,选择k/N个样本。用当前的w来逐个测试这k/N个样本,将在当前模型下所有错分的样本与其对应的类标相乘之后进行累加。通过自定义的数据类型将累加的向量输出,传送给Reduce过程。
在Reduce过程中,接收从N个节点传送来的所有错分的样本与其对应的类标相乘之后的累加,对其进行汇总,得到本轮的迭代中的次梯度投影方向:
&dtri; t = &lambda; 1 w t - 1 | A t | &Sigma; ( x i , y i ) &Element; A t + y i x i + &lambda; 2 &Sigma; w t , 其中, A t + = { ( x i , y i ) &Element; A t : y 1 < w t , x i > < 1 } ;
根据迭代次数确定梯度下降的学习率为:再根据梯度下降公式更新决策面法向量w,
w t + 1 2 = w t - &eta; t &dtri; t = ( 1 - &eta; t &lambda; 1 ) w t + &eta; t k &Sigma; ( x i , y i ) &Element; A t + y i x i - &eta; t &lambda; 2 &Sigma;w t ;
最后进行投影步骤,使本轮迭代结果更加逼近问题的最优解,
w t + 1 = min { 1,1 / w t + 1 2 T ( &lambda; 1 &Lambda; + &lambda; 2 &Sigma; ) w t + 1 2 } w t + 1 2 ;
经过T轮MapReduce的过程,将最终求得的w值,以序列的形式保存到HDFS文件中,以供对测试样本进行测试使用。
4.根据分类模型对测试样本进行分类;
如果测试样本的数目较多时,也可利用Hadoop平台,对测试样本进行并行测试。只需在Map过程中读取存放w值的文件,利用该值依次测试每个样本。
以上对本发明所提供的一种面向大规模数据的并行结构化支持向量机方法进行了详细介绍。值得注意的是,具体实现该技术方案的方法和途径有很多,以上所述仅是本发明的优选实施方式,只用于帮助理解本发明的方法及核心思想;同时,对于本领域的一般技术人员,在本发明核心思想的基础上,做出的修改和调整都将视为本发明的保护范围。综上所述,本说明书内容不应理解为对本发明的限制,本发明的保护范围应由所附的权利要求来限定。

Claims (4)

1.一种面向大规模数据的并行结构化支持向量机分类方法,其特征在于,包括如下步骤:
步骤1,样本归一化:对训练样本和测试样本分别进行归一化到相同的范围内;
步骤2,求得大规模训练样本集结构化信息:由于协方差矩阵往往可以反映样本的分布信息,因此在Hadoop平台上分别求得正、负类样本的协方差矩阵作为样本的整体结构信息;
步骤3,利用大规模训练样本集训练分类模型;根据并行结构化支持向量机随机次梯度投影并行执行的方法,在Hadoop平台上训练得到并行结构化支持向量机模型;
步骤4,根据分类模型对测试样本进行分类;根据步骤3训练得到的并行结构化支持向量机模型,对测试样本进行分类。
2.根据权利要求1所述的一种面向大规模数据的并行结构化支持向量机分类方法,其特征在于,所述步骤2具体包括如下步骤:
在Hadoop平台下,大规模训练样本被划分为多个子集,分散地存放在多个数据节点上,求得大规模训练样本的协方差矩阵可以借助一个MapReduce任务完成;
为了方便描述,记给定的大规模训练样本集其中xi∈Rn,yi∈{+1,-1},将训练样本集S分成N个子集,记为i=1,...,N,yj∈{+1,-1};表示Si中的正、负类样本,记Σ为样本的整体协方差, &mu; i + = &Sigma; x j + &Element; S i x j + , &mu; i - = &Sigma; x j - &Element; S i x j - , i = 1 , . . . , N ;
Map阶段:依次扫描当前节点i上的样本,求得当前节点上样本分别的 &mu; i + = &Sigma; x j + &Element; S i x j + N i - , &Sigma; i - = &Sigma; x j - &Element; S i x j - x j - T , &mu; i - = &Sigma; x j - &Element; S i x j - ;
Reduce阶段:将在Map阶段求得的N节点的i=1,...,N信息在Reduce中进行汇总;根据公式其中分别求得大规模训练样本的正、负类各自的协方差矩阵将正负类样本的协方差矩阵求和得到大规模训练样本集整体的协方差矩阵,Σ=Σ+-
3.根据权利要求1所述的一种面向大规模数据的并行结构化支持向量机分类方法,其特征在于,所述步骤3利用大规模训练样本集训练分类模型具体包括如下步骤:
(1)计算出样本的协方差矩阵Σ;
(2)初始化向量w,任取向量w1,使其满足wT1Λ+λ2Σ)w≤1,其中λ1和λ2为正则化参数,Λ为单位矩阵,Σ为样本的协方差矩阵;
(3)记当前循环次数为t,第t次循环得到的向量w记为wt,进行T轮循环:
①从训练集S中选取样本个数为k的子集At∈S,并用新的目标函数 min w &lambda; 1 2 | | w | | 2 + 1 k &Sigma; ( x , y ) &Element; A t max { 0,1 - y < w , x > } + &lambda; 2 2 w T &Sigma;w , 来代替原来的目标函数;
②确定梯度下降法的学习率为
③将子集At中使用wt判断当前损失非零的样本组成一个新的子集目标函数的次梯度方向可以表示为 &dtri; t = &lambda; 1 w t - 1 | A t | &Sigma; ( x i , y i ) &Element; A t + y i x i + &lambda; 2 &Sigma; w t ;
④更新: w t + 1 2 = w t - &eta; t &dtri; t = ( 1 - &eta; t &lambda; 1 ) w t + &eta; t k &Sigma; ( x i , y i ) &Element; A t + y i x i - &eta; t &lambda; 2 &Sigma;w t ;
⑤投影步骤: w t + 1 = min { 1,1 / w t + 1 2 T ( &lambda; 1 &Lambda; + &lambda; 2 &Sigma; ) w t + 1 2 } w t + 1 2 ;
(4)得到最终结果wT+1
4.根据权利要求3所述的一种面向大规模数据的并行结构化支持向量机分类方法,其特征在于,所述步骤3随机次梯度投影迭代并行执行的具体包括如下步骤:
随机次梯度投影的每一轮迭代作为一个单独的MapReduce任务;
Map阶段:
①随机抽取k/N个样本;
②定义零向量vj∈Rn
③逐个判断这k/N个样本,如果则vj=vj+yi*xi
④得到当前节点上的 v j = &Sigma; ( x i , y i ) &Element; A t + y i x i , 其中 A t + = { ( x i , y i ) &Element; A t : y i < w t , x i > < 1 } ;
Reduce阶段:
①汇总N个节点上的vj,求和得到
②确定梯度下降法的学习率为
③更新 w t + 1 2 = ( 1 - &eta; t &lambda; 1 ) w t + &eta; t k v - &eta; t &lambda; 2 &Sigma;w t ;
④投影步骤 w t + 1 = min { 1,1 / w t + 1 2 T ( &lambda; 1 &Lambda; + &lambda; 2 &Sigma; ) w t + 1 2 } w t + 1 2 .
CN201410185389.1A 2014-05-04 2014-05-04 一种面向大规模数据的并行结构化支持向量机分类方法 Pending CN103971136A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410185389.1A CN103971136A (zh) 2014-05-04 2014-05-04 一种面向大规模数据的并行结构化支持向量机分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410185389.1A CN103971136A (zh) 2014-05-04 2014-05-04 一种面向大规模数据的并行结构化支持向量机分类方法

Publications (1)

Publication Number Publication Date
CN103971136A true CN103971136A (zh) 2014-08-06

Family

ID=51240607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410185389.1A Pending CN103971136A (zh) 2014-05-04 2014-05-04 一种面向大规模数据的并行结构化支持向量机分类方法

Country Status (1)

Country Link
CN (1) CN103971136A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751193A (zh) * 2015-04-24 2015-07-01 中国矿业大学(北京) 基于距离约束相似性的煤岩识别方法
CN105184368A (zh) * 2015-09-07 2015-12-23 中国科学院深圳先进技术研究院 一种分布式极限学习机优化集成框架方法***及方法
CN105989374A (zh) * 2015-03-03 2016-10-05 阿里巴巴集团控股有限公司 一种在线训练模型的方法和设备
CN106528771A (zh) * 2016-11-07 2017-03-22 中山大学 一种快速的结构化支持向量机文本分类优化算法
CN107194411A (zh) * 2017-04-13 2017-09-22 哈尔滨工程大学 一种改进的分层级联的支持向量机并行化方法
CN111783577A (zh) * 2020-06-19 2020-10-16 航天信息股份有限公司 一种基于***数据分析的疑似税务异常企业筛选方法
WO2023274213A1 (zh) * 2021-06-29 2023-01-05 华为技术有限公司 一种数据处理方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228783A1 (en) * 2004-04-12 2005-10-13 Shanahan James G Method and apparatus for adjusting the model threshold of a support vector machine for text classification and filtering
CN102567742A (zh) * 2010-12-15 2012-07-11 中国科学院电子学研究所 一种基于自适应核函数选择的支持向量机自动分类方法
CN102609714A (zh) * 2011-12-31 2012-07-25 哈尔滨理工大学 基于信息增益和在线支持向量机的新型分类器及分类方法
CN102750545A (zh) * 2012-06-01 2012-10-24 南京师范大学 一种同时实现聚类、分类和度量学习的模式识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228783A1 (en) * 2004-04-12 2005-10-13 Shanahan James G Method and apparatus for adjusting the model threshold of a support vector machine for text classification and filtering
CN102567742A (zh) * 2010-12-15 2012-07-11 中国科学院电子学研究所 一种基于自适应核函数选择的支持向量机自动分类方法
CN102609714A (zh) * 2011-12-31 2012-07-25 哈尔滨理工大学 基于信息增益和在线支持向量机的新型分类器及分类方法
CN102750545A (zh) * 2012-06-01 2012-10-24 南京师范大学 一种同时实现聚类、分类和度量学习的模式识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭丽娜等: "一种并行结构化支持向量机次梯度投影算法", 《计算机科学》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989374A (zh) * 2015-03-03 2016-10-05 阿里巴巴集团控股有限公司 一种在线训练模型的方法和设备
CN105989374B (zh) * 2015-03-03 2019-12-24 阿里巴巴集团控股有限公司 一种在线训练模型的方法和设备
CN104751193A (zh) * 2015-04-24 2015-07-01 中国矿业大学(北京) 基于距离约束相似性的煤岩识别方法
CN104751193B (zh) * 2015-04-24 2018-02-13 中国矿业大学(北京) 基于距离约束相似性的煤岩识别方法
CN105184368A (zh) * 2015-09-07 2015-12-23 中国科学院深圳先进技术研究院 一种分布式极限学习机优化集成框架方法***及方法
CN105184368B (zh) * 2015-09-07 2018-07-31 中国科学院深圳先进技术研究院 一种分布式极限学习机优化集成框架方法***及方法
CN106528771A (zh) * 2016-11-07 2017-03-22 中山大学 一种快速的结构化支持向量机文本分类优化算法
CN107194411A (zh) * 2017-04-13 2017-09-22 哈尔滨工程大学 一种改进的分层级联的支持向量机并行化方法
CN111783577A (zh) * 2020-06-19 2020-10-16 航天信息股份有限公司 一种基于***数据分析的疑似税务异常企业筛选方法
CN111783577B (zh) * 2020-06-19 2023-11-10 航天信息股份有限公司 一种基于***数据分析的疑似税务异常企业筛选方法
WO2023274213A1 (zh) * 2021-06-29 2023-01-05 华为技术有限公司 一种数据处理方法及相关装置

Similar Documents

Publication Publication Date Title
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
CN106529569B (zh) 基于深度学习的三维模型三角面特征学习分类方法及装置
CN109086722B (zh) 混合车牌识别方法、装置、电子设备
CN109118564A (zh) 一种基于融合体素的三维点云标记方法和装置
CN109522942A (zh) 一种图像分类方法、装置、终端设备和存储介质
CN103116766B (zh) 一种基于增量神经网络和子图编码的图像分类方法
CN105320961A (zh) 基于卷积神经网络和支持向量机的手写数字识别方法
Xiong et al. AI-NET: Attention inception neural networks for hyperspectral image classification
CN102722713B (zh) 一种基于李群结构数据的手写体数字识别方法及***
Mensink et al. Learning structured prediction models for interactive image labeling
CN108090510A (zh) 一种基于间隔优化的集成学习方法及装置
CN107292341A (zh) 基于成对协同正则化和nmf的自适应多视图聚类方法
CN103942571B (zh) 一种基于遗传规划算法的图形图像分类方法
CN103258210A (zh) 一种基于字典学习的高清图像分类方法
CN104484682A (zh) 一种基于主动深度学习的遥感图像分类方法
CN103927550B (zh) 一种手写体数字识别方法及***
CN102915448B (zh) 一种基于AdaBoost的三维模型自动分类方法
CN104392253A (zh) 一种草图数据集的交互式类别标注方法
CN103955628A (zh) 基于子空间融合的蛋白质-维他命绑定位点预测方法
Xiong et al. Diagnose like a pathologist: Transformer-enabled hierarchical attention-guided multiple instance learning for whole slide image classification
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN105844303A (zh) 一种基于局部和全局信息的采样式聚类集成方法
CN105512675B (zh) 一种基于记忆性多点交叉引力搜索的特征选择方法
CN103164631B (zh) 一种智能协同表达基因分析仪
Pichel et al. A new approach for sparse matrix classification based on deep learning techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140806