CN106778795A - 一种基于增量学习的分类方法及装置 - Google Patents

一种基于增量学习的分类方法及装置 Download PDF

Info

Publication number
CN106778795A
CN106778795A CN201510824421.0A CN201510824421A CN106778795A CN 106778795 A CN106778795 A CN 106778795A CN 201510824421 A CN201510824421 A CN 201510824421A CN 106778795 A CN106778795 A CN 106778795A
Authority
CN
China
Prior art keywords
data sample
forgetting factor
sample
grader
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510824421.0A
Other languages
English (en)
Inventor
王堃
杨丽
王元钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Huawei Technologies Co Ltd
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd, Nanjing Post and Telecommunication University filed Critical Huawei Technologies Co Ltd
Priority to CN201510824421.0A priority Critical patent/CN106778795A/zh
Publication of CN106778795A publication Critical patent/CN106778795A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种基于增量学习的分类方法,所述方法包括:构建分类器并确定分类特征向量;根据所述分类器和所述分类特征向量,对新增的数据样本进行训练;根据训练所得到的相关参数,对所述数据样本进行删除和保留。相应的,本发明实施例还公开了一种基于增量学习的分类装置。采用本发明,可以实现在增量学习中,主动删除无用的数据以及保留有用的数据,从而提高认知计算模型的适应性和准确率。

Description

一种基于增量学习的分类方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于增量学习的分类方法及装置。
背景技术
云计算、物联网等新兴技术的快速发展促使数据的规模正以前所未有的速度增长,大数据时代已经到来。如何在海量的复杂数据中及时有效地获取有价值的信息,依赖于一种能够主动学习,并且根据需求自行分析数据中的有价值信息,主动进行数据计算处理的模型——认知计算模型。应理解的,认知计算模型能够快速、准确的发现有价值的信息,提取有效信息并将这些有价值的信息组织起来,给出一个有效的解决方案。
作为一种应用较为普遍的认知计算模型,支持向量机(Support VectorMachine,SVM)分类算法采用的是批量处理算法,由于批量处理算法需要将整个数据集加载到内存之中,而内存的存储量有限,使得该算法不适合于大数据的运算,无法应用于实时性较高的场合。同时,还会使得在构建分类器时需要耗费大量的时间,导致后面到达的数据可能会由于处理不及时导致丢失,造成严重的后果。
发明内容
本发明实施例提供了一种基于增量学习的分类方法及装置,可以实现在增量学习中,主动删除无用的数据以及保留有用的数据,从而提高认知计算模型的适应性和准确率。
本发明实施例第一方面提供了一种基于增量学习的分类方法,包括:
构建分类器并确定分类特征向量;
根据所述分类器和所述分类特征向量,对新增的数据样本进行训练;
根据训练所得到的相关参数,对所述数据样本进行删除和保留。
在第一方面的第一种可能实现方式中,所述构建分类器并确定分类特征向量,包括:
确定待构建的分类器的数量;
构建各个所述分类器;
确定各个所述分类器的分类特征向量。
在第一方面的第二种可能实现方式中,所述根据所述分类器和所述分类特征向量,对新增的数据样本进行训练,包括:
①通过随机梯度下降SGD算法,随机抽取新增的数据样本子集B1进行训练;
②通过初始分类器Γ1判断所述样本子集B1分类的正确性,并根据判断结果将所述样本子集B1划分为测试错误集Berr和测试正确集Bok
③判断所述测试错误集Berr是否为空集,
若是,则通过所述SGD算法抽取新一批数据样本进行训练,
若否,则将原始的数据样本中支持向量SV的集合与所述样本子集B1进行合并以得到新的集合和新的分类器Γ2,以及将所述集合中除所述集合的数据样本外的剩余数据样本与所述测试正确集Bok进行合并以得到所述分类器Γ2的增量数据样本集B1′;
重复执行上述①、②和③三个步骤。
结合第一方面的第二种可能实现方式,在第三种可能实现方式中,所述根据训练所得到的相关参数,对所述数据样本进行删除和保留,包括:
根据公式(1)、公式(2)和公式(3),求得遗忘因子αi,其中,αi表示数据样本经T次训练后第i个数据样本支持向量SV的比率,Ti表示总训练次数,ri表示第i个数据样本经训练后支持向量SV的次数,所述测试错误集Berr内每个数据样本的ri=0,所述测试正确集Bok内每个数据样本的ri=1;
根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留。
结合第一方面的第三种可能实现方式,在第四种可能实现方式中,所述根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留,包括:
设置β、γ和δ三个阈值;
比较所述遗忘因子αi与β、γ和δ的大小关系;
根据比较的结果,对所述数据样本进行删除和保留。
结合第一方面的第四种可能实现方式,在第五种可能实现方式中,所述设置β、γ和δ三个阈值之后,还包括:
每经10次训练后,根据公式(4)求得各个数据样本与所设阈值的误差权值,其中,ei表示误差权值,P表示所设阈值;
ei=P-αi(1≤i≤10) (4)
选择所述误差权值最大的遗忘因子αi作为新的阈值;
根据所述遗忘因子αi,适应调整β、γ和δ的取值。
结合第一方面的第四种可能实现方式,在第六种可能实现方式中,所述根据比较的结果,对所述数据样本进行删除和保留,包括:
当所述遗忘因子αi=0时,保留所述遗忘因子αi对应数据样本;
当所述遗忘因子0<αi<β时,删除所述遗忘因子αi对应数据样本;
当所述遗忘因子β≤αi<δ时,选择大于γ的数据样本作为下一次的数据样本集进行测试;
当所述遗忘因子δ<αi<1时,将所述遗忘因子αi对应数据样本作为下一次的数据样本集进行测试。
本发明实施例第二方面提供了一种基于增量学习的分类装置,包括:
初始化模块,用于构建分类器并确定分类特征向量;
数据训练模块,用于根据所述分类器和所述分类特征向量,对新增的数据样本进行训练;
数据处理模块,用于根据训练所得到的相关参数,对所述数据样本进行删除和保留。
在第二方面的第一种可能实现方式中,所述初始化模块,具体用于:
确定待构建的分类器的数量;
构建各个所述分类器;
确定各个所述分类器的分类特征向量。
在第二方面的第二种可能实现方式中,所述数据训练模块,具体用于:
①通过随机梯度下降SGD算法,随机抽取新增的数据样本子集B1进行训练;
②通过初始分类器Γ1判断所述样本子集B1分类的正确性,并根据判断结果将所述样本子集B1划分为测试错误集Berr和测试正确集Bok
③判断所述测试错误集Berr是否为空集,
若是,则通过所述SGD算法抽取新一批数据样本进行训练,
若否,则将原始的数据样本中支持向量SV的集合与所述样本子集B1进行合并以得到新的集合和新的分类器Γ2,以及将所述集合中除所述集合的数据样本外的剩余数据样本与所述测试正确集Bok进行合并以得到所述分类器Γ2的增量数据样本集B1′;
重复执行上述①、②和③三个步骤。
结合第二方面的第二种可能实现方式,在第三种可能实现方式中,所述数据处理模块包括:
参数计算单元,用于根据公式(1)、公式(2)和公式(3),求得遗忘因子αi,其中,αi表示数据样本经T次训练后第i个数据样本支持向量SV的比率,Ti表示总训练次数,ri表示第i个数据样本经训练后支持向量SV的次数,所述测试错误集Berr内每个数据样本的ri=0,所述测试正确集Bok内每个数据样本的ri=1;
数据处理单元,用于根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留。
结合第二方面的第三种可能实现方式,在第四种可能实现方式中,所述数据处理单元,具体用于:
设置β、γ和δ三个阈值;
比较所述遗忘因子αi与β、γ和δ的大小关系;
根据比较的结果,对所述数据样本进行删除和保留。
结合第二方面的第四种可能实现方式,在第五种可能实现方式中,所述数据处理模块还包括阈值调整单元,用于:
每经10次训练后,根据公式(4)求得各个数据样本与所设阈值的误差权值,其中,ei表示误差权值,P表示所设阈值;
ei=P-αi(1≤i≤10) (4)
选择所述误差权值最大的遗忘因子αi作为新的阈值;
根据所述遗忘因子αi,适应调整β、γ和δ的取值。
结合第二方面的第四种可能实现方式,在第六种可能实现方式中,所述数据处理单元,还具体用于:
当所述遗忘因子αi=0时,保留所述遗忘因子αi对应数据样本;
当所述遗忘因子0<αi<β时,删除所述遗忘因子αi对应数据样本;
当所述遗忘因子β≤αi<δ时,选择大于γ的数据样本作为下一次的数据样本集进行测试;
当所述遗忘因子δ<αi<1时,将所述遗忘因子αi对应数据样本作为下一次的数据样本集进行测试。
由上可见,本发明实施例先构建分类器并确定分类特征向量,再根据分类器和分类特征向量对新增的数据样本进行训练,进而根据训练所得到的相关参数对数据样本进行删除和保留,可以实现在增量学习中,主动删除无用的数据以及保留有用的数据,从而提高认知计算模型的适应性和准确率。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于增量学习的分类方法的流程示意图;
图2是本发明实施例提供的另一种基于增量学习的分类方法的流程示意图;
图3是本发明实施例提供的一种基于增量学习的分类装置的结构示意图;
图4是本发明实施例提供的一种数据处理模块的结构示意图;
图5是本发明实施例提供的另一种基于增量学习的分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于增量学习的分类方法,应用于大数据的学习训练算法,除了可以应用于批量数据处理领域,例如生物识别、信号识别和检测、图像识别等多个领域,还可以应用于海量实时数据流的分类、回归、聚类,例如实时证券交易和电子商务中的经济数据分类分析、物联网***中移动医疗的实时医疗诊断,智慧交通的实时交通流量预测等实时数据流的分析。
图1是本发明实施例中一种基于增量学习的分类方法的流程示意图。如图所示本实施例中的基于增量学习的分类方法的流程可以包括:
S101,构建分类器并确定分类特征向量。
具体的,根据需要处理的数据样本量,确定待构建的分类器的数量,进而构建相应数量的分类器,并确定各个分类器的分类特征向量。其中,训练步骤如下:
①用分类器将所有数据样本集的特征分类;
②根据预先选定的核函数分别计算各个分类器中每个特征向量的有关值;
③根据得到的有关值计算协方差矩阵空间进行Householder变换;
④计算分类特征系数;
⑤获得分类器的模型参数。
S102,根据所述分类器和所述分类特征向量,对新增的数据样本进行训练。
具体的,根据分类器和分类特征向量,对新增的数据样本进行训练的步骤包括:
①通过随机梯度下降SGD算法,随机抽取新增的数据样本子集B1进行训练;
②通过初始分类器Γ1判断所述样本子集B1分类的正确性,并根据判断结果将所述样本子集B1划分为测试错误集Berr和测试正确集Bok
③判断所述测试错误集Berr是否为空集,
若是,则通过所述SGD算法抽取新一批数据样本进行训练,
若否,则将原始的数据样本中支持向量SV的集合与所述样本子集B1进行合并以得到新的集合和新的分类器Γ2,以及将所述集合中除所述集合的数据样本外的剩余数据样本与所述测试正确集Bok进行合并以得到所述分类器Γ2的增量数据样本集B1′;
重复执行上述①、②和③三个步骤。
S103,根据训练所得到的相关参数,对所述数据样本进行删除和保留。
具体的,首先,根据公式(1)、公式(2)和公式(3),求得遗忘因子αi,其中,αi表示数据样本经T次训练后第i个数据样本支持向量SV的比率,Ti表示总训练次数,ri表示第i个数据样本经训练后支持向量SV的次数,所述测试错误集Berr内每个数据样本的ri=0,即该数据样本为正常数据,所述测试正确集Bok内每个数据样本的ri=1,即该数据样本为异常数据。需要指出的是,由改进的KKT(Karush Kuhn Tucker)定理可知,公式(1)和公式(2)是满足最优超平面的条件。
接着,根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留。具体实现过程中,先设置β、γ和δ三个阈值,例如β=0.3,γ=0.4,δ=0.7,再比较遗忘因子αi与β、γ和δ的大小关系,进而根据比较的结果,按预设规则对数据样本进行删除和保留。其中,预设规则如下:
当所述遗忘因子αi=0时,保留所述遗忘因子αi对应数据样本,原因在于,新增的数据样本是错误样本,这些样本不影响原有分类器,但可能会是新的分类,所以保留作为下次训练的测试样本的一个子集;
当所述遗忘因子0<αi<β时,删除所述遗忘因子αi对应数据样本,原因在于,经过多次训练后数据样本SV的比率很低,将该数据样本不是一种新的分类,所以将其删除,减少原始数据的存储的同时提高了入侵检测的训练速度;
当所述遗忘因子β≤αi<δ时,选择大于γ的数据样本作为下一次的数据样本集进行测试,可加速SV搜索的收敛速度;
当所述遗忘因子δ<αi<1时,将所述遗忘因子αi对应数据样本作为下一次的数据样本集进行测试。
进一步可选的,每经10次训练后,根据公式(4)求得各个数据样本与所设阈值的误差权值,选择误差权值最大的遗忘因子αi作为新的阈值,并根据遗忘因子αi,适应调整β、γ和δ的取值。其中,ei表示误差权值,P表示所设阈值
ei=P-αi(1≤i≤10) (4)
由上可见,本发明实施例先构建分类器并确定分类特征向量,再根据分类器和分类特征向量对新增的数据样本进行训练,进而根据训练所得到的相关参数对数据样本进行删除和保留,可以实现在增量学习中,主动删除无用的数据以及保留有用的数据,从而提高认知计算模型的适应性和准确率。
图2是本发明实施例中一种基于增量学习的分类方法的流程示意图,该方法应用于网络信息的入侵检测场景,可以针对海量的网络流量数据进行入侵检测。如图所示本实施例中的基于增量学习的分类方法的流程可以包括:
S201,构建攻击分类器并确定分类特征向量。
具体的,根据需要处理的网络流量数据样本量,确定待构建的攻击分类器的数量,进而构建相应数量的攻击分类器,并确定各个攻击分类器的分类特征向量。其中,训练步骤如下:
①用攻击分类器将所有网络流量数据样本集的特征分类;
②根据预先选定的核函数分别计算各个攻击分类器中每个特征向量的有关值;
③根据得到的有关值计算协方差矩阵空间进行Householder变换;
④计算分类特征系数;
⑤获得攻击分类器的模型参数。
S202,设置β、γ和δ三个阈值。
例如β=0.3,γ=0.4,δ=0.7。
S203,根据所述攻击分类器和所述分类特征向量,对新增的网络流量数据样本进行训练,同时求取遗忘因子。
具体的,根据攻击分类器和分类特征向量,对新增的网络流量数据样本进行训练的步骤包括:
①通过随机梯度下降SGD算法,随机抽取新增的网络流量数据样本子集B1进行训练;
②通过初始攻击分类器Γ1判断所述样本子集B1分类的正确性,并根据判断结果将所述样本子集B1划分为测试错误集Berr和测试正确集Bok
③判断所述测试错误集Berr是否为空集,
若是,则通过所述SGD算法抽取新一批网络流量数据样本进行训练,
若否,则将原始的网络流量数据样本中支持向量SV的集合与所述样本子集B1进行合并以得到新的集合和新的攻击分类器Γ2,以及将所述集合中除所述集合的网络流量数据样本外的剩余网络流量数据样本与所述测试正确集Bok进行合并以得到所述攻击分类器Γ2的增量数据样本集B1′;
重复执行上述①、②和③三个步骤。
进一步的,根据公式(1)、公式(2)和公式(3),求得遗忘因子αi,其中,αi表示网络流量数据样本经T次训练后第i个网络流量数据样本支持向量SV的比率,Ti表示总训练次数,ri表示第i个网络流量数据样本经训练后支持向量SV的次数,所述测试错误集Berr内每个网络流量数据样本的ri=0,即该网络流量数据样本为正常网络流量数据,所述测试正确集Bok内每个网络流量数据样本的ri=1,即该网络流量数据样本为攻击型网络流量数据。需要指出的是,由改进的KKT(Karush Kuhn Tucker)定理可知,公式(1)和公式(2)是满足最优超平面的条件。
S204,求取各个网络流量数据样本与所设阈值的误差权值。
具体的,根据公式(4)求得各个网络流量数据样本与所设阈值的误差权值,其中,ei表示误差权值,P表示所设阈值。
ei=P-αi(1≤i≤10) (4)
S205,选择所述误差权值最大的遗忘因子作为新的阈值。
S206,根据所述遗忘因子,适应调整β、γ和δ的取值。
S207,比较所述遗忘因子与β、γ和δ的大小关系。
S208,根据比较的结果,对所述网络流量数据样本进行删除和保留。
具体的,根据比较的结果,按预设规则对网络流量数据样本进行删除和保留。其中,预设规则如下:
当所述遗忘因子αi=0时,保留所述遗忘因子αi对应网络流量数据样本,原因在于,新增的网络流量数据样本是错误样本,这些样本不影响原有攻击分类器,但可能会是新的分类,即可能是一种新的攻击分类,所以保留作为下次训练的测试样本的一个子集;
当所述遗忘因子0<αi<β时,删除所述遗忘因子αi对应网络流量数据样本,原因在于,经过多次训练后网络流量数据样本SV的比率很低,将该网络流量数据样本不是一种新的攻击分类,所以将其删除,减少原始网络流量数据的存储的同时提高了入侵检测的训练速度;
当所述遗忘因子β≤αi<δ时,选择大于γ的网络流量数据样本作为下一次的网络流量数据样本集进行测试,可加速SV搜索的收敛速度;
当所述遗忘因子δ<αi<1时,将所述遗忘因子αi对应网络流量数据样本作为下一次的网络流量数据样本集进行测试,原因在于,该网络流量数据样本为攻击数据样本。
由上可见,本发明实施例先构建攻击分类器并确定分类特征向量,再根据攻击分类器和分类特征向量对新增的网络流量数据样本进行训练,进而根据训练所得到的相关参数对网络流量数据样本进行删除和保留,可以实现在增量学习中,主动删除无用的网络流量数据以及保留有用的网络流量数据,从而提高认知计算模型的适应性和准确率。
图3是本发明实施例中一种基于增量学习的分类装置的结构示意图。如图所示本发明实施例中的基于增量学习的分类装置至少可以包括初始化模块310、数据训练模块320以及数据处理模块330,其中:
初始化模块310,用于构建分类器并确定分类特征向量。
具体的,根据需要处理的数据样本量,确定待构建的分类器的数量,进而构建相应数量的分类器,并确定各个分类器的分类特征向量。其中,训练步骤如下:
①用分类器将所有数据样本集的特征分类;
②根据预先选定的核函数分别计算各个分类器中每个特征向量的有关值;
③根据得到的有关值计算协方差矩阵空间进行Householder变换;
④计算分类特征系数;
⑤获得分类器的模型参数。
数据训练模块320,用于根据所述分类器和所述分类特征向量,对新增的数据样本进行训练。
具体的,根据分类器和分类特征向量,对新增的数据样本进行训练的步骤包括:
①通过随机梯度下降SGD算法,随机抽取新增的数据样本子集B1进行训练;
②通过初始分类器Γ1判断所述样本子集B1分类的正确性,并根据判断结果将所述样本子集B1划分为测试错误集Berr和测试正确集Bok
③判断所述测试错误集Berr是否为空集,
若是,则通过所述SGD算法抽取新一批数据样本进行训练,
若否,则将原始的数据样本中支持向量SV的集合与所述样本子集B1进行合并以得到新的集合和新的分类器Γ2,以及将所述集合中除所述集合的数据样本外的剩余数据样本与所述测试正确集Bok进行合并以得到所述分类器Γ2的增量数据样本集B1′;
重复执行上述①、②和③三个步骤。
数据处理模块330,用于根据训练所得到的相关参数,对所述数据样本进行删除和保留。具体实现中,数据处理模块330可以如图4所示进一步包括参数计算单元331和数据处理单元332,其中:
参数计算单元331,用于根据公式(1)、公式(2)和公式(3),求得遗忘因子αi,其中,αi表示数据样本经T次训练后第i个数据样本支持向量SV的比率,Ti表示总训练次数,ri表示第i个数据样本经训练后支持向量SV的次数,所述测试错误集Berr内每个数据样本的ri=0,所述测试正确集Bok内每个数据样本的ri=1。
数据处理单元332,用于根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留。具体实现过程中,先设置β、γ和δ三个阈值,例如β=0.3,γ=0.4,δ=0.7,再比较遗忘因子αi与β、γ和δ的大小关系,进而根据比较的结果,按预设规则对数据样本进行删除和保留。其中,预设规则如下:
当所述遗忘因子αi=0时,保留所述遗忘因子αi对应数据样本,原因在于,新增的数据样本是错误样本,这些样本不影响原有分类器,但可能会是新的分类,所以保留作为下次训练的测试样本的一个子集;
当所述遗忘因子0<αi<β时,删除所述遗忘因子αi对应数据样本,原因在于,经过多次训练后数据样本SV的比率很低,将该数据样本不是一种新的分类,所以将其删除,减少原始数据的存储的同时提高了入侵检测的训练速度;
当所述遗忘因子β≤αi<δ时,选择大于γ的数据样本作为下一次的数据样本集进行测试,可加速SV搜索的收敛速度;
当所述遗忘因子δ<αi<1时,将所述遗忘因子αi对应数据样本作为下一次的数据样本集进行测试。
请参阅图4,如图所示数据处理模块330还可以包括阈值调整单元333,用于:
每经10次训练后,根据公式(4)求得各个数据样本与所设阈值的误差权值;
ei=P-αi(1≤i≤10) (4)
选择所述误差权值最大的遗忘因子αi作为新的阈值;
根据所述遗忘因子αi,适应调整β、γ和δ的取值。
图5是本发明实施例中的另一种基于增量学习的分类装置的结构示意图,如图5所示,该基于增量学习的分类装置可以包括:至少一个处理器501,例如CPU,至少一个通信总线502,至少一个网络接口503,存储器504。其中,通信总线502用于实现这些组件之间的连接通信;存储器504可以是高速RAM存储器,也可以是非易失的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器504还可以是至少一个位于远离前述处理器501的存储装置。存储器504中存储一组程序代码,处理器501用于调用存储器x04中存储的程序代码,执行以下操作:
构建分类器并确定分类特征向量;
根据所述分类器和所述分类特征向量,对新增的数据样本进行训练;
根据训练所得到的相关参数,对所述数据样本进行删除和保留。
可选的,处理器501构建分类器并确定分类特征向量的具体操作为:
确定待构建的分类器的数量;
构建各个所述分类器;
确定各个所述分类器的分类特征向量。
又可选的,处理器501根据所述分类器和所述分类特征向量,对新增的数据样本进行训练的具体操作为:
①通过随机梯度下降SGD算法,随机抽取新增的数据样本子集B1进行训练;
②通过初始分类器Γ1判断所述样本子集B1分类的正确性,并根据判断结果将所述样本子集B1划分为测试错误集Berr和测试正确集Bok
③判断所述测试错误集Berr是否为空集,
若是,则通过所述SGD算法抽取新一批数据样本进行训练,
若否,则将原始的数据样本中支持向量SV的集合与所述样本子集B1进行合并以得到新的集合和新的分类器Γ2,以及将所述集合中除所述集合的数据样本外的剩余数据样本与所述测试正确集Bok进行合并以得到所述分类器Γ2的增量数据样本集B1′;
重复执行上述①、②和③三个步骤。
进一步的,处理器501根据训练所得到的相关参数,对所述数据样本进行删除和保留的具体操作为:
根据公式(1)、公式(2)和公式(3),求得遗忘因子αi,其中,αi表示数据样本经T次训练后第i个数据样本支持向量SV的比率,Ti表示总训练次数,ri表示第i个数据样本经训练后支持向量SV的次数,所述测试错误集Berr内每个数据样本的ri=0,所述测试正确集Bok内每个数据样本的ri=1;
根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留。
更进一步的,处理器501根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留的具体操作为:
设置β、γ和δ三个阈值;
比较所述遗忘因子αi与β、γ和δ的大小关系;
根据比较的结果,对所述数据样本进行删除和保留。
可选的,处理器501设置β、γ和δ三个阈值之后,还执行:
每经10次训练后,根据公式(4)求得各个数据样本与所设阈值的误差权值;
ei=P-αi(1≤i≤10) (4)
选择所述误差权值最大的遗忘因子αi作为新的阈值;
根据所述遗忘因子αi,适应调整β、γ和δ的取值。
又可选的,处理器501根据比较的结果,对所述数据样本进行删除和保留的具体操作为:
当所述遗忘因子αi=0时,保留所述遗忘因子αi对应数据样本;
当所述遗忘因子0<αi<β时,删除所述遗忘因子αi对应数据样本;
当所述遗忘因子β≤αi<δ时,选择大于γ的数据样本作为下一次的数据样本集进行测试;
当所述遗忘因子δ<αi<1时,将所述遗忘因子αi对应数据样本作为下一次的数据样本集进行测试。
由上可见,本发明实施例先构建分类器并确定分类特征向量,再根据分类器和分类特征向量对新增的数据样本进行训练,进而根据训练所得到的相关参数对数据样本进行删除和保留,可以实现在增量学习中,主动删除无用的数据以及保留有用的数据,从而提高认知计算模型的适应性和准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (14)

1.一种基于增量学习的分类方法,其特征在于,所述方法包括:
构建分类器并确定分类特征向量;
根据所述分类器和所述分类特征向量,对新增的数据样本进行训练;
根据训练所得到的相关参数,对所述数据样本进行删除和保留。
2.如权利要求1所述的方法,其特征在于,所述构建分类器并确定分类特征向量,包括:
确定待构建的分类器的数量;
构建各个所述分类器;
确定各个所述分类器的分类特征向量。
3.如权利要求1所述的方法,其特征在于,所述根据所述分类器和所述分类特征向量,对新增的数据样本进行训练,包括:
①通过随机梯度下降SGD算法,随机抽取新增的数据样本子集B1进行训练;
②通过初始分类器Γ1判断所述样本子集B1分类的正确性,并根据判断结果将所述样本子集B1划分为测试错误集Berr和测试正确集Bok
③判断所述测试错误集Berr是否为空集,
若是,则通过所述SGD算法抽取新一批数据样本进行训练,
若否,则将原始的数据样本中支持向量SV的集合与所述样本子集B1进行合并以得到新的集合和新的分类器Γ2,以及将所述集合中除所述集合的数据样本外的剩余数据样本与所述测试正确集Bok进行合并以得到所述分类器Γ2的增量数据样本集B′1
重复执行上述①、②和③三个步骤。
4.如权利要求3所述的方法,其特征在于,所述根据训练所得到的相关参数,对所述数据样本进行删除和保留,包括:
根据公式(1)、公式(2)和公式(3),求得遗忘因子αi,其中,αi表示数据样本经T次训练后第i个数据样本支持向量SV的比率,Ti表示总训练次数,ri表示第i个数据样本经训练后支持向量SV的次数,所述测试错误集Berr内每个数据样本的ri=0,所述测试正确集Bok内每个数据样本的ri=1;
ω = Σ i α i y i H ( x i ) - - - ( 1 )
0 ≤ α i ≤ 1 , Σ i α i y i = 0 - - - ( 2 )
α i = r i T i - - - ( 3 )
根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留。
5.如权利要求4所述的方法,其特征在于,所述根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留,包括:
设置β、γ和δ三个阈值;
比较所述遗忘因子αi与β、γ和δ的大小关系;
根据比较的结果,对所述数据样本进行删除和保留。
6.如权利要求5所述的方法,其特征在于,所述设置β、γ和δ三个阈值之后,还包括:
每经10次训练后,根据公式(4)求得各个数据样本与所设阈值的误差权值,其中,ei表示误差权值,P表示所设阈值;
ei=P-αi(1≤i≤10) (4)
选择所述误差权值最大的遗忘因子αi作为新的阈值;
根据所述遗忘因子αi,适应调整β、γ和δ的取值。
7.如权利要求5所述的方法,其特征在于,所述根据比较的结果,对所述数据样本进行删除和保留,包括:
当所述遗忘因子αi=0时,保留所述遗忘因子αi对应数据样本;
当所述遗忘因子0<αi<β时,删除所述遗忘因子αi对应数据样本;
当所述遗忘因子β≤αi<δ时,选择大于γ的数据样本作为下一次的数据样本集进行测试;
当所述遗忘因子δ<αi<1时,将所述遗忘因子αi对应数据样本作为下一次的数据样本集进行测试。
8.一种基于增量学习的分类装置,其特征在于,所述装置包括:
初始化模块,用于构建分类器并确定分类特征向量;
数据训练模块,用于根据所述分类器和所述分类特征向量,对新增的数据样本进行训练;
数据处理模块,用于根据训练所得到的相关参数,对所述数据样本进行删除和保留。
9.如权利要求8所述的装置,其特征在于,所述初始化模块,具体用于:
确定待构建的分类器的数量;
构建各个所述分类器;
确定各个所述分类器的分类特征向量。
10.如权利要求8所述的装置,其特征在于,所述数据训练模块,具体用于:
①通过随机梯度下降SGD算法,随机抽取新增的数据样本子集B1进行训练;
②通过初始分类器Γ1判断所述样本子集B1分类的正确性,并根据判断结果将所述样本子集B1划分为测试错误集Berr和测试正确集Bok
③判断所述测试错误集Berr是否为空集,
若是,则通过所述SGD算法抽取新一批数据样本进行训练,
若否,则将原始的数据样本中支持向量SV的集合与所述样本子集B1进行合并以得到新的集合和新的分类器Γ2,以及将所述集合中除所述集合的数据样本外的剩余数据样本与所述测试正确集Bok进行合并以得到所述分类器Γ2的增量数据样本集B′1
重复执行上述①、②和③三个步骤。
11.如权利要求10所述的装置,其特征在于,所述数据处理模块包括:
参数计算单元,用于根据公式(1)、公式(2)和公式(3),求得遗忘因子αi,其中,αi表示数据样本经T次训练后第i个数据样本支持向量SV的比率,Ti表示总训练次数,ri表示第i个数据样本经训练后支持向量SV的次数,所述测试错误集Berr内每个数据样本的ri=0,所述测试正确集Bok内每个数据样本的ri=1;
ω = Σ i α i y i H ( x i ) - - - ( 1 )
0 ≤ α i ≤ 1 , Σ i α i y i = 0 - - - ( 2 )
α i = r i T i - - - ( 3 )
数据处理单元,用于根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留。
12.如权利要求11所述的装置,其特征在于,所述数据处理单元,具体用于:
设置β、γ和δ三个阈值;
比较所述遗忘因子αi与β、γ和δ的大小关系;
根据比较的结果,对所述数据样本进行删除和保留。
13.如权利要求12所述的装置,其特征在于,所述数据处理模块还包括阈值调整单元,用于:
每经10次训练后,根据公式(4)求得各个数据样本与所设阈值的误差权值,其中,ei表示误差权值,P表示所设阈值;
ei=P-αi(1≤i≤10) (4)
选择所述误差权值最大的遗忘因子αi作为新的阈值;
根据所述遗忘因子αi,适应调整β、γ和δ的取值。
14.如权利要求12所述的装置,其特征在于,所述数据处理单元,还具体用于:
当所述遗忘因子αi=0时,保留所述遗忘因子αi对应数据样本;
当所述遗忘因子0<αi<β时,删除所述遗忘因子αi对应数据样本;
当所述遗忘因子β≤αi<δ时,选择大于γ的数据样本作为下一次的数据样本集进行测试;
当所述遗忘因子δ<αi<1时,将所述遗忘因子αi对应数据样本作为下一次的数据样本集进行测试。
CN201510824421.0A 2015-11-24 2015-11-24 一种基于增量学习的分类方法及装置 Pending CN106778795A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510824421.0A CN106778795A (zh) 2015-11-24 2015-11-24 一种基于增量学习的分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510824421.0A CN106778795A (zh) 2015-11-24 2015-11-24 一种基于增量学习的分类方法及装置

Publications (1)

Publication Number Publication Date
CN106778795A true CN106778795A (zh) 2017-05-31

Family

ID=58964157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510824421.0A Pending CN106778795A (zh) 2015-11-24 2015-11-24 一种基于增量学习的分类方法及装置

Country Status (1)

Country Link
CN (1) CN106778795A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107508866A (zh) * 2017-08-08 2017-12-22 重庆大学 减小移动设备端神经网络模型更新的传输消耗的方法
CN108347430A (zh) * 2018-01-05 2018-07-31 国网山东省电力公司济宁供电公司 基于深度学习的网络入侵检测和漏洞扫描方法及装置
CN108537227A (zh) * 2018-03-21 2018-09-14 华中科技大学 一种基于宽度学习和广角显微图像的商品离线鉴伪方法
CN109784044A (zh) * 2017-11-10 2019-05-21 北京安码科技有限公司 一种基于增量学习的改进SVM的Android恶意软件识别方法
CN110011932A (zh) * 2019-04-18 2019-07-12 清华大学深圳研究生院 一种可识别未知流量的网络流量分类方法和终端设备
CN110070060A (zh) * 2019-04-26 2019-07-30 天津开发区精诺瀚海数据科技有限公司 一种轴承设备的故障诊断方法
CN111092894A (zh) * 2019-12-23 2020-05-01 厦门服云信息科技有限公司 一种基于增量学习的webshell检测方法、终端设备及存储介质
CN111832839A (zh) * 2020-07-24 2020-10-27 河北工业大学 基于充分增量学习的能耗预测方法
CN115774854A (zh) * 2023-01-30 2023-03-10 北京亿赛通科技发展有限责任公司 一种文本分类方法、装置、电子设备和存储介质
CN115952934A (zh) * 2023-03-15 2023-04-11 华东交通大学 基于增量输出分解循环神经网络的交通流预测方法及***

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107508866A (zh) * 2017-08-08 2017-12-22 重庆大学 减小移动设备端神经网络模型更新的传输消耗的方法
CN107508866B (zh) * 2017-08-08 2020-10-02 重庆大学 减小移动设备端神经网络模型更新的传输消耗的方法
CN109784044A (zh) * 2017-11-10 2019-05-21 北京安码科技有限公司 一种基于增量学习的改进SVM的Android恶意软件识别方法
CN108347430B (zh) * 2018-01-05 2021-01-12 国网山东省电力公司济宁供电公司 基于深度学习的网络入侵检测和漏洞扫描方法及装置
CN108347430A (zh) * 2018-01-05 2018-07-31 国网山东省电力公司济宁供电公司 基于深度学习的网络入侵检测和漏洞扫描方法及装置
CN108537227A (zh) * 2018-03-21 2018-09-14 华中科技大学 一种基于宽度学习和广角显微图像的商品离线鉴伪方法
CN110011932A (zh) * 2019-04-18 2019-07-12 清华大学深圳研究生院 一种可识别未知流量的网络流量分类方法和终端设备
CN110011932B (zh) * 2019-04-18 2022-04-05 清华大学深圳研究生院 一种可识别未知流量的网络流量分类方法和终端设备
CN110070060A (zh) * 2019-04-26 2019-07-30 天津开发区精诺瀚海数据科技有限公司 一种轴承设备的故障诊断方法
CN111092894A (zh) * 2019-12-23 2020-05-01 厦门服云信息科技有限公司 一种基于增量学习的webshell检测方法、终端设备及存储介质
CN111832839A (zh) * 2020-07-24 2020-10-27 河北工业大学 基于充分增量学习的能耗预测方法
CN115774854A (zh) * 2023-01-30 2023-03-10 北京亿赛通科技发展有限责任公司 一种文本分类方法、装置、电子设备和存储介质
CN115952934A (zh) * 2023-03-15 2023-04-11 华东交通大学 基于增量输出分解循环神经网络的交通流预测方法及***
CN115952934B (zh) * 2023-03-15 2023-06-16 华东交通大学 基于增量输出分解循环神经网络的交通流预测方法及***

Similar Documents

Publication Publication Date Title
CN106778795A (zh) 一种基于增量学习的分类方法及装置
CN109891508B (zh) 单细胞类型检测方法、装置、设备和存储介质
CN110020592A (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
CN106201871A (zh) 基于代价敏感半监督的软件缺陷预测方法
WO2018072580A1 (zh) 一种非法交易检测方法及装置
CN106897792A (zh) 一种建筑消防风险等级预测方法及***
CN107545038A (zh) 一种文本分类方法与设备
CN109636212B (zh) 作业实际运行时间的预测方法
CN108900622A (zh) 基于物联网的数据融合方法、装置与计算机可读存储介质
CN111191836A (zh) 一种井漏预测方法、装置及设备
CN112596964A (zh) 磁盘故障的预测方法及装置
CN111753461A (zh) 潮汐水位修正方法、目标余水位获取方法、装置和设备
CN106855844A (zh) 一种性能测试方法和***
CN116994077A (zh) 一种复杂风场作用下飞行姿态的回归预测方法
KR20220049573A (ko) 거리 기반 학습 신뢰 모델
CN111461329A (zh) 一种模型的训练方法、装置、设备及可读存储介质
CN108021774B (zh) 数据处理方法以及装置
CN113128598B (zh) 一种传感数据检测方法、装置、设备及可读存储介质
CN115618928A (zh) 一种边坡位移预测方法、装置和电子设备
CN116415836A (zh) 一种面向智能电网信息***的安全性评价方法
CN115392582A (zh) 基于增量模糊粗糙集属性约简的作物产量预测方法
CN115422821A (zh) 用于岩体参数预测的数据处理方法和装置
CN108021900A (zh) 版面分栏方法及装置
CN111882135B (zh) 一种物联网设备入侵检测方法及相关装置
CN107067036A (zh) 一种接地网腐蚀速率预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531