CN1460947A - 融合关键词学习的支持向量机文本分类增量训练学习方法 - Google Patents
融合关键词学习的支持向量机文本分类增量训练学习方法 Download PDFInfo
- Publication number
- CN1460947A CN1460947A CN 03145419 CN03145419A CN1460947A CN 1460947 A CN1460947 A CN 1460947A CN 03145419 CN03145419 CN 03145419 CN 03145419 A CN03145419 A CN 03145419A CN 1460947 A CN1460947 A CN 1460947A
- Authority
- CN
- China
- Prior art keywords
- keyword
- training
- support vector
- incremental
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于智能信息处理技术,具体涉及一种融合关键词学习的支持向量机文本分类增量训练学习方法。现有的方法忽略了随着增量训练而应有的文档关键词的学习问题,使得增量训练效果要低于非增量的一次性训练。本发明针对关键词在训练中的重要作用,提出了同步考虑关键词“增量”学习的方法,在增量训练过程中,同时进行分类关键词的学习与调节,从而消除了增量训练相对于一次性训练的不足。本发明所提出的融合关键词学习的增量训练方法可获得与一次性训练相一致的分类精度,优于没有进行关键词学习的方法。
Description
技术领域
本发明属于智能信息处理技术,更进一步是关于文本的分类处理的技术,具体涉及一种融合关键词学习的支持向量机文本分类增量训练学习方法。
背景技术
随着网络、信息化技术的快速发展,数字化文档信息的极大丰富,对文本、资料、网页等的分类处理已成为信息处理的在重要技术手段。对于文本分类来说,支持向量机方法(support vector machine,SVM)是目前最有效的方法之一,1998年Joachims在文献“Text Categorization with Support VectorMachines:Learning with Many Relevant Features”(In Proceedings of theEuropean Conference on Machine Learning,Berlin,Springer,1998)中验证了其在文本分类中的优异性能,对于支持向量机这一新的机器学习方法来说,相对于其性能的有效性同时,也具有训练过程复杂,对内存等资源占用大等缺点,因此,从其提出开始,人们就研究各种不同改进训练算法来改进其训练过程。
相对于传统一次性训练来说,增量训练技术是对其在应用中的进一步发展,正逐步受到更广泛的研究与关注,增量训练方法将传统的一次性集中训练转化为增量式、渐进式的训练学习,克服了一次性训练对内存资源占用大、没有持续训练学习能力等缺点,因而,增量训练学习方法大大扩展了分类模型的能力,提高了训练的灵活性与适应性,以及在实际应用中的学习能力。并且,相比于其它机器学习技术,支持向量机方法具有更良好的扩展性,及一般模型所不具备的优秀的增量学习的能力,这为支持向量机增量训练技术的研究应用提供了巨大的前景。1999年,Nadeem等在“Incremental Learningwith Support Vector Machines.(In Proc.of the Int.Joint Conf.on ArtificialIntelligence(IJCAI),1999)中采用增量学习方法对两类支持向量机分类进行了研究,在每次增量时将上一次训练获得的支持向量与新增训练文档一起进行训练优化,实验获得了与非增量训练基本相近但略低的分类精度,2001年Cauwenberghs等在“Incremental and Decremental Support Vector MachineLearning,”(Adv.Neural Information Processing Systems,Cambridge MA:MIT Press,Vol.13,2001)从理论上分析了进行增量训练时支持向量全局优化的方法,同年,Ralaivola在“Incremental Support Vector Machine Learning”(a Local Approach.In Proceedings of ICANN′01,Springer,2001)中探讨了一种采用径向基函数(RBF)为核函数的支持向量机进行局部增量训练的优化策略,在该研究中仅仅采用新增训练数据周围数据作为工作子集的方法来进行优化训练,避免对全部数据参数的再学习,以上研究的重点都是集中在支持向量重新优化的问题上,是基于SVM本身的增量训练特性的研究。
发明内容
本方法是针对目前SVM文本分类增量训练中,由于仅仅考虑支持向量本身优化的问题,而导致增量训练效果比一次性训练分类精度略低这一现象,结合增量训练与一次性训练在分类关键词上所存在的差异,提出在增量学习过程中,同时进行文档关键词“增量”学习的方法,以达到消除二者的差异,从而使增量训练达到与一次性训练相一致的分类精度的目的。
为达到以上发明目的,本发明采用的技术内容是:一种融合关键词学习的支持向量机文本分类增量训练学习方法,包括以下步骤:
第一、类别关键词的学习与调整。
将增量训练学习分为分类关键词学习与支持向量优化训练两个方面。在获得用于增量训练的文档后,对它们进行文档切分、关键词提取,然后读取以前的关键词集合,进行相应的关键词学习与调整,步骤如下:
1)若增量训练文档中的关键词tk已存在于原关键词集合中,则将该关键词对应的所出现的训练文档数nk加1;若为新关键词,则将该关键词增加到关键词集合中,并将其相应的所出现的训练文档数置为1。
2)所有用于增量训练文档进行步骤1)的关键词调整完成后,将新增的训练文档数与原总训练文档数相加,作为新的总训练文档数N。
3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算。
第二、支持向量的权重调整
关键词的学习完毕后,接下来在进行支持向量的优化调整前还需要进行原支持向量的权重调整。其原因在于:经过了关键词的学习后,关键词的倒排文档频率(idf)已发生了变化,而支持向量中的关键词权重是通过tf*idf方式获得,因此,也需要进行调整,具体方法是用新的关键词idf′替换旧的关键词idf:
其中,wj代表关键词tj的权重。
第三、支持向量机优化训练
将新增加的增量训练文档向量与调整后的原支持向量集合中的支持向量进行合并,重新进行SVM的二次规划优化训练,以获得新的分类模型及新的支持向量集合,用于新的分类处理。
上述第一步中,根据增量训练文档及其关键词调整分类关键词及其特征,该特征包括关键词的倒排文档频率、训练文档总数,其中,相应的关键词倒排文档频率(idf)进行计算的方法可以为
也可以采用其它不同形式的倒排文档频率计算方法,该计算式中,N为增加了新增量训练文档数的总训练文档数,nk为调整后的关键词tk的所出现的训练文档数。
该方法还可以通过对分类关键词进行一定形式的特征词提取后,用提取后的特征词进行学习调整及分类处理。
本发明的效果在于:通过本方法,使增量训练与一次性训练在分类关键词上保持了一致性,因此也就消除了因关键词的不同或关键词特性的不一致而造成的分类精度上的差异。根据采用本方法所进行的实验也表明:本发明所提出的方法在进行文本分类时,达到了与一次性训练相一致的分类精度,而优于不进行关键词学习的方法。
附图说明图1融合关键词学习的SVM增量分类训练学习流程图;图2实验数据集1的实验结果比较示意图;图3实验数据集2的实验结果比较示意图。
具体实施方式
下面以实施例的方式并结合附图对本发明作进一步的描述:
如图1所示,一种融合关键词学习的支持向量机文本分类增量训练学习方法,包括以下步骤:
第一、通过计算机及相关软件读入增量训练文档,并对文档进行文档切分处理。
第二、根据文档中的词频特性,提取文档的关键词。
第三、进行关键词的学习与调整,对每篇新的增量训练文档,根据新的增量文档中的关键词更新原关键词集合,步骤如下:1)若增量训练文档中的关键词tk已存在于原关键词集合中,则将该关键词对应的所出现的训练文档数nk加1;若为新关键词,则将该关键词增加到关键词集合中,并将其相应的所出现的训练文档数置为1。2)所有用于增量训练文档进行步骤1)的关键词调整完成后,将新增的训练文档数与原总训练文档数相加,作为新的总训练文档数N。3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算,本实施例采取的计算形式为:
其中,N为增加了新增量训练文档数后的总训练文档数,nk为调整后的关键词tk的所出现的训练文档数。当然,还可以采取其他的计算形式来计算。
第四、据更新后的新的关键词集合,生成新的增量训练文档向量。
第五、支持向量权重调整,从分类模型中读取原支持向量,并根据新的关键词的倒排文档频率(idf)进行支持向量权重的更新。
第六、将增量文档向量与进行了权重更新后的支持向量进行合并,作为新的增量训练文档向量集。
第七、在多类分类处理时,需要进行多类两类的转换;
第八、进行两类SVM支持向量优化训练,获得新的分类训练模型。本实施例中实验数据的来源为人民网2001年、2002年新闻分类语料,共一万多篇,分为体育、信息技术、军事、文娱、科教、环保、经济共七大类别,为实验的充分性,分别从中随机抽取2800篇和7700篇分别组成实验数据集1和数据集2;并且,数据在各个类别中均匀分布,通过随机抽取,每个集合内又分为训练集合与测试集合,同时,为了进行增量训练的需要,训练集合部分又随机分别等分成12和9部分,用于增量训练,具体划分情况见表1、表2。
表1实验数据集
体育 | 信息技术 | 军事 | 文娱 | 科教 | 环保 | 经济 | 总计 | ||
数据集1 | 训练集 | 300 | 300 | 300 | 300 | 300 | 300 | 300 | 2800 |
测试集 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | ||
数据集2 | 训练集 | 900 | 900 | 900 | 900 | 900 | 900 | 900 | 7700 |
测试集 | 200 | 200 | 200 | 200 | 200 | 200 | 200 |
表2增量实验训练数据分配
为了验证本发明所提出方法的在实际分类中的效果,分别将本文提出的有关键词学***均值。
初始训练集 | 增量1 | 增量2 | 增量3 | 增量4 | 增量5 | 增量6 | 增量7 | 增量8 | 增量9 | 增量10 | 增量11 | |
数据集1 | 175 | 175 | 175 | 175 | 175 | 175 | 175 | 175 | 175 | 175 | 175 | 175 |
数据集2 | 700 | 700 | 700 | 700 | 700 | 700 | 700 | 700 | 700 |
表3数据集1的实验数据结果
分类精度 | I-SVM-KL | I-SVM | batch-SVM |
初始集 | 79.571 | 79.571 | 79.571 |
增量1增量2增量3增量4增量5增量6增量7增量8增量9增量10增量11 | 85.42985.71486.57187.42987.42988.143888888.14388.71488.714 | 84.42985.71486.28687.14387.42988.14387.57186.7148787.57187.286 | 8585.57186.42987.85787.57188.2868887.85788.42988.42988.714 |
表4数据集2的实验结果
由以上数据可以看出,本发明的效果在于:
分类精度 | I-SVM-KL | I-SVM | batch-SVM |
初始集增量1增量2增量3增量4增量5增量6增量7增量8 | 88.64390.85791.07191.85791.64391.85792.35792.28692.357 | 88.64389.71490.78690.85790.78691.28691.78691.85791.643 | 88.64390.57191.14392.07191.78691.85792.21492.28692.5 |
1、本发明所提出的融合关键词学习与调整的增量学习方法确实进一步提高了增量训练的性能,大大优于不进行关键词学习而仅仅进行支持向量优化选择的方法。
2、本发明与以前研究者的研究结果相一致,即不进行关键词学习的增量训练学习方法,则只获得了略低的性能,并且,随着增量数据集的增加,其局限性逐渐明显。
3、从实验可以看出,在多数实验数据点,本发明所提出的方法与一次性训练获得了完全相同或基本相同的结果;并且,从二者的实验数据及性能曲线中可以明显看出,本文提出的改进的增量训练方法在分类精度上达到了与一次性训练相一致的效果,实现了一次性训练的增量式实现。
Claims (3)
1.一种融合关键词学习的支持向量机文本分类增量训练学习方法,其特征在于包括以下步骤:
第一、类别关键词的学习与调整
将增量训练学习分为分类关键词学习与支持向量优化训练两个方面,在获得用于增量训练的文档后,进行文档切分、关键词提取,然后结合以前的关键词集合,进行相应的关键词学习与调整,步骤如下:
1)若增量训练文档中的关键词tk已存在于原关键词集合中,则将该关键词对应的所出现的训练文档数nk加1;若为新关键词,则将该关键词增加到关键词集合中,并将其相应的所出现的训练文档数置设为1;
2)所有用于增量训练的文档进行步骤1)的关键词调整完成后,将新增的训练文档数与原总训练文档数相加,作为新的总训练文档数N;
3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算;
第二、支持向量的权重调整
关键词的学习完毕后,需要对原支持向量进行权重调整,具体方法是用新的关键词idf′替换旧的关键词idf:
其中,wj代表关键词tj的权重;
第三、支持向量机优化训练
将新增加的增量训练文档向量与调整后的原支持向量集合中的支持向量进行合并,重新进行SVM的二次规划优化训练,以获得新的分类模型及新的支持向量集合,用于新的分类处理。
2.如权利要求1所述的一种融合关键词学习的支持向量机文本分类增量训练学习方法,其特征在于:第一步中,根据增量训练文档及其关键词调整分类关键词及其特征,该特征包括关键词的倒排文档频率、训练文档总数,其中,相应的关键词倒排文档频率(idf)进行计算的方法可以为
也可以采用其它不同形式的倒排文档频率计算方法,该计算式中,N为增加了新增量训练文档数的总训练文档数,nk为调整后的关键词tk的所出现的训练文档数。
3.如权利要求1、2所述的一种融合关键词学习的支持向量机文本分类增量训练学习方法,其特征在于:该方法还可以通过对分类关键词进行一定形式的特征词提取后,用提取后的特征词进行学习调整及分类处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 03145419 CN1245696C (zh) | 2003-06-13 | 2003-06-13 | 融合关键词学习的支持向量机文本分类增量训练学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 03145419 CN1245696C (zh) | 2003-06-13 | 2003-06-13 | 融合关键词学习的支持向量机文本分类增量训练学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1460947A true CN1460947A (zh) | 2003-12-10 |
CN1245696C CN1245696C (zh) | 2006-03-15 |
Family
ID=29591384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 03145419 Expired - Fee Related CN1245696C (zh) | 2003-06-13 | 2003-06-13 | 融合关键词学习的支持向量机文本分类增量训练学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1245696C (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1327376C (zh) * | 2004-04-08 | 2007-07-18 | 上海交通大学 | 基于支持向量机的软测量仪表建模方法 |
CN100353355C (zh) * | 2004-08-12 | 2007-12-05 | 上海交通大学 | 减少支持向量与训练时间的交叉合并方法 |
CN100353361C (zh) * | 2004-07-09 | 2007-12-05 | 中国科学院自动化研究所 | 一种新的面向文本分类的特征向量权重的方法及装置 |
CN101079024B (zh) * | 2006-06-19 | 2010-06-16 | 腾讯科技(深圳)有限公司 | 一种专业词表动态生成***和方法 |
WO2011127655A1 (en) * | 2010-04-14 | 2011-10-20 | Hewlett-Packard Development Company, L.P. | Method for keyword extraction |
CN102710616A (zh) * | 2012-05-18 | 2012-10-03 | 中国科学院信息工程研究所 | 数据流预测方法及装置 |
CN103279761A (zh) * | 2013-05-20 | 2013-09-04 | 浙江大学 | 一种用于支持向量机的在线向量选取方法 |
CN105677769A (zh) * | 2015-12-29 | 2016-06-15 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和*** |
CN106682129A (zh) * | 2016-12-14 | 2017-05-17 | 浙江工业大学 | 个人大数据管理中层次概念向量化增量处理方法 |
CN106815605A (zh) * | 2017-01-23 | 2017-06-09 | 上海上讯信息技术股份有限公司 | 一种基于机器学习的数据分类方法及设备 |
CN109670026A (zh) * | 2018-12-23 | 2019-04-23 | 上海安路信息科技有限公司 | 一种测试数据报告生成方法及报告生成*** |
CN109840534A (zh) * | 2017-11-29 | 2019-06-04 | 北京京东尚科信息技术有限公司 | 处理事件的方法和装置 |
CN115563311A (zh) * | 2022-10-21 | 2023-01-03 | 中国能源建设集团广东省电力设计研究院有限公司 | 一种文档标注和知识库管理方法及知识库管理*** |
CN117216280A (zh) * | 2023-11-09 | 2023-12-12 | 闪捷信息科技有限公司 | 敏感数据识别模型的增量学习方法、识别方法和装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067808B (zh) * | 2007-05-24 | 2010-12-15 | 上海大学 | 文本关键词的提取方法 |
TWI482038B (zh) * | 2012-12-12 | 2015-04-21 | Univ Nat Sun Yat Sen | 近似複本之偵測方法 |
-
2003
- 2003-06-13 CN CN 03145419 patent/CN1245696C/zh not_active Expired - Fee Related
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1327376C (zh) * | 2004-04-08 | 2007-07-18 | 上海交通大学 | 基于支持向量机的软测量仪表建模方法 |
CN100353361C (zh) * | 2004-07-09 | 2007-12-05 | 中国科学院自动化研究所 | 一种新的面向文本分类的特征向量权重的方法及装置 |
CN100353355C (zh) * | 2004-08-12 | 2007-12-05 | 上海交通大学 | 减少支持向量与训练时间的交叉合并方法 |
CN101079024B (zh) * | 2006-06-19 | 2010-06-16 | 腾讯科技(深圳)有限公司 | 一种专业词表动态生成***和方法 |
WO2011127655A1 (en) * | 2010-04-14 | 2011-10-20 | Hewlett-Packard Development Company, L.P. | Method for keyword extraction |
CN103038764A (zh) * | 2010-04-14 | 2013-04-10 | 惠普发展公司,有限责任合伙企业 | 用于关键字提取的方法 |
CN102710616A (zh) * | 2012-05-18 | 2012-10-03 | 中国科学院信息工程研究所 | 数据流预测方法及装置 |
CN102710616B (zh) * | 2012-05-18 | 2015-04-22 | 中国科学院信息工程研究所 | 数据流预测方法及装置 |
CN103279761A (zh) * | 2013-05-20 | 2013-09-04 | 浙江大学 | 一种用于支持向量机的在线向量选取方法 |
CN105677769B (zh) * | 2015-12-29 | 2018-01-05 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和*** |
CN105677769A (zh) * | 2015-12-29 | 2016-06-15 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和*** |
US10685185B2 (en) | 2015-12-29 | 2020-06-16 | Guangzhou Shenma Mobile Information Technology Co., Ltd. | Keyword recommendation method and system based on latent Dirichlet allocation model |
CN106682129A (zh) * | 2016-12-14 | 2017-05-17 | 浙江工业大学 | 个人大数据管理中层次概念向量化增量处理方法 |
CN106682129B (zh) * | 2016-12-14 | 2020-02-21 | 浙江工业大学 | 个人大数据管理中层次概念向量化增量处理方法 |
CN106815605A (zh) * | 2017-01-23 | 2017-06-09 | 上海上讯信息技术股份有限公司 | 一种基于机器学习的数据分类方法及设备 |
CN106815605B (zh) * | 2017-01-23 | 2021-04-13 | 上海上讯信息技术股份有限公司 | 一种基于机器学习的数据分类方法及设备 |
CN109840534A (zh) * | 2017-11-29 | 2019-06-04 | 北京京东尚科信息技术有限公司 | 处理事件的方法和装置 |
CN109840534B (zh) * | 2017-11-29 | 2021-10-01 | 北京京东尚科信息技术有限公司 | 处理事件的方法和装置 |
CN109670026A (zh) * | 2018-12-23 | 2019-04-23 | 上海安路信息科技有限公司 | 一种测试数据报告生成方法及报告生成*** |
CN115563311A (zh) * | 2022-10-21 | 2023-01-03 | 中国能源建设集团广东省电力设计研究院有限公司 | 一种文档标注和知识库管理方法及知识库管理*** |
CN115563311B (zh) * | 2022-10-21 | 2023-09-15 | 中国能源建设集团广东省电力设计研究院有限公司 | 一种文档标注和知识库管理方法及知识库管理*** |
CN117216280A (zh) * | 2023-11-09 | 2023-12-12 | 闪捷信息科技有限公司 | 敏感数据识别模型的增量学习方法、识别方法和装置 |
CN117216280B (zh) * | 2023-11-09 | 2024-02-09 | 闪捷信息科技有限公司 | 敏感数据识别模型的增量学习方法、识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN1245696C (zh) | 2006-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1245696C (zh) | 融合关键词学习的支持向量机文本分类增量训练学习方法 | |
CN102799647B (zh) | 网页去重方法和设备 | |
CN106815310A (zh) | 一种对海量文档集的层次聚类方法及*** | |
CN111859983B (zh) | 基于人工智能的自然语言标注方法及相关设备 | |
CN101079072A (zh) | 一种文本聚类元学习方法及装置 | |
Farhoodi et al. | Applying machine learning algorithms for automatic Persian text classification | |
CN102004796B (zh) | 一种网页文本的无阻滞层次分类方法与装置 | |
CN103577587A (zh) | 一种新闻主题分类方法 | |
CN106599072A (zh) | 一种文本聚类方法及装置 | |
CN103207804B (zh) | 基于集群作业日志的MapReduce负载模拟方法 | |
Wenli | Application research on latent semantic analysis for information retrieval | |
CN112613296A (zh) | 新闻的重要程度获取方法、装置、终端设备及存储介质 | |
CN106951548B (zh) | 基于rm算法提升特写词语搜索精度的方法及*** | |
CN103164491B (zh) | 一种数据处理和检索的方法及设备 | |
CN115098690A (zh) | 一种基于聚类分析的多数据文档分类方法及*** | |
CN114298020A (zh) | 一种基于主题语义信息的关键词向量化方法及其应用 | |
CN102541857A (zh) | 一种网页排序方法和装置 | |
Li et al. | Research on the feature selection techniques used in text classification | |
Liangtu et al. | Web text feature extraction with particle swarm optimization | |
Li et al. | A general feature abstraction method for clustering algorithm | |
CN110348470B (zh) | 用于工业故障信息快速匹配的语义检索方法 | |
Binhong et al. | Research on the clustering algorithm of component based on the grade strategy | |
Lin et al. | Research of web pages categorization | |
Zhang et al. | Improving the classification performance of boolean kernels by applying Occam’s razor | |
Wang et al. | STRUCTURE-EMBEDDED AUC-SVM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060315 |