CN106951466A - 基于knn‑svm的领域文本特征提取方法和*** - Google Patents
基于knn‑svm的领域文本特征提取方法和*** Download PDFInfo
- Publication number
- CN106951466A CN106951466A CN201710115584.0A CN201710115584A CN106951466A CN 106951466 A CN106951466 A CN 106951466A CN 201710115584 A CN201710115584 A CN 201710115584A CN 106951466 A CN106951466 A CN 106951466A
- Authority
- CN
- China
- Prior art keywords
- svm
- knn
- field text
- field
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于领域文本提取的技术领域,具体涉及一种基于KNN‑SVM的领域文本特征提取方法和***;解决的技术问题为:提供一种准确率较高的、提取速度较快的基于KNN‑SVM的领域文本特征提取方法和***;采用的技术方案为:基于KNN‑SVM的领域文本特征提取方法,包括:S101、创建领域文本特征库;S102、建立领域文本训练样本集;S103、采用KNN对领域文本的训练样本进行筛选;S104、采用SVM对筛选后的训练样本进行训练;S105、生成领域文本提取模型。
Description
技术领域
本发明属于领域文本提取的技术领域,具体涉及一种基于KNN-SVM的领域文本特征提取方法。
背景技术
各领域文本特征提取的实质是对文本进行分类,将文本分为某领域的文档或者非领域文档,若是领域文本则提取出来,否则不予提取,若是领域文本,则筛选出来。
领域文本提取的分类器构建直接影响提取效果,当前常采用K近邻算法(Knearest neighbor algorithm,KNN)和支持向量机(support vector machine,SVM)建立领域文本的分类器,对于英文文本,它们获得了理想的提取效果,文本特征提取的虚警率低;然而对于中文文本,单一KNN或者SVM的提取效果很差,这是因为基于某一领域的中文文本样本分布极不平均、特征的维数高,若采用KNN 进行处理,易出现“维数灾”难题,提取速度慢;SVM虽然不存在“维数灾”难题,但是对于大规模领域文本,训练时间长,无法满足领域文本在线提取要求。
发明内容
本发明克服现有技术存在的不足,所要解决的技术问题为:提供一种准确率较高的、提取速度较快的基于KNN-SVM的领域文本特征提取方法和***。
为了解决上述技术问题,本发明采用的技术方案为:基于KNN-SVM的领域文本特征提取方法,其特征在于:包括:S101、创建领域文本特征库;S102、建立领域文本训练样本集;S103、采用KNN对领域文本的训练样本进行筛选;S104、采用SVM对筛选后的训练样本进行训练;S105、生成领域文本提取模型。
优选地,所述创建领域文本特征库,具体包括:提取领域文本的特征;构建文本特征提取模型的输入向量;将领域文本的特征存入文本特征库。
优选地,采用KNN对领域文本的训练样本进行筛选,具体包括:建立KNN 的分类判别函数和决策函数;在训练样本集中,筛选出未知样本的K个邻近样本;统计K个邻近样本所属类别的样本数。
优选地,采用SVM对筛选后的训练样本进行训练,具体包括:建立SVM的分类判别函数;通过分类判别函数对k个领域文本训练样本进行训练。
优选地,建立领域文本提取模型之后,还包括:对领域文本提取模型进行性能测试。
相应地,基于KNN-SVM的文本特征提取***,包括:创建模块:用于创建领域文本特征库;建立模块:用于建立领域文本训练样本集;样本筛选模块:用于采用KNN对领域文本的训练样本进行筛选;样本训练模块:用于采用SVM对筛选后的训练样本进行训练;输出模块:用于生成领域文本提取模型。
优选地,所述创建模块,具体用于:提取领域文本的特征;构建文本特征提取模型的输入向量;将领域文本的特征存入文本特征库。
优选地,所述样本筛选模块,具体用于:建立KNN的分类判别函数和决策函数;在训练样本集中,筛选出未知样本的K个邻近样本;统计K个邻近样本所属类别的样本数。
优选地,具体用于:建立SVM的分类判别函数;通过分类判别函数对k个领域文本训练样本进行训练。
优选地,还包括:测试模块:用于对领域文本提取模型进行性能测试。
本发明与现有技术相比具有以下有益效果:本发明针对领域本文特征提取维数高、样本不平衡的情况,提供了一种基于KNN-SVM的领域文本特征提取方法和***,缩短了建立领域文本特征提取模型的时间,加快了特征信息提取的速度,获得了较为理想的领域文本特征提取结果,提高了特征提取的正确率,可以满足特定的领域文本特征提取的在线要求,实用性极强。
附图说明
下面结合附图对本发明做进一步详细的说明;
图1为本发明实施例一提供的基于KNN-SVM的领域文本特征提取方法的流程示意图;
图2为本发明实施例一提供的基于KNN-SVM的领域文本特征提取方法中描述文本内容的有向图;
图3为本发明实施例二提供的基于KNN-SVM的领域文本特征提取***与基于单一KNN或SVM的建立领域文本特征提取***的正确率对比图;
图4为本发明实施例二提供的基于KNN-SVM的领域文本特征提取***与基于单一KNN或SVM的建立领域文本特征提取***的召回率对比图;
图5为本发明实施例一提供的基于KNN-SVM的领域文本特征提取***的结构示意图;
图6为本发明实施例二提供的基于KNN-SVM的领域文本特征提取***的结构示意图;
图中:101为创建模块,102为建立模块,103为样本筛选模块,104为样本训练模块,105为输出模块,106为测试模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的基于KNN-SVM的领域文本特征提取方法的流程示意图,如图1所示,基于KNN-SVM的领域文本特征提取方法,包括:
S101、创建领域文本特征库;
S102、建立领域文本训练样本集;
S103、采用KNN对领域文本的训练样本进行筛选;
S104、采用SVM对筛选后的训练样本进行训练;
S105、生成领域文本提取模型。
具体地,所述创建领域文本特征库,具体包括:提取领域文本的特征;构建文本特征提取模型的输入向量;将领域文本的特征存入文本特征库。
领域文本包括大量的内容,无法直接对领域文本进行特征提取操作,因此需要对文本内容进行分析,找出一些关键元素,如词、字、或短词等,提取领域特征;图2为本发明实施例一提供的基于KNN-SVM的领域文本特征提取方法中描述文本内容的有向图,如图2所示,本实施例一中,采用有向图描述文本内容,在图中,表示文本中的句子,NP表示文本中的名词,VP表示文本中的动词、JJ、 NN、PP、VBD以及IN均表示文本的不同类型介词短语;设有向图节点gk的权重为:{ω1,ω2,…,ωk},它们的上限分别为则gn权重上限计算公式为
支持度的下界为
设节点总数为n,节点A和B出现次数分别为φA和φB,两者均出现次数为φAB,那么有sup(A)=φA/n、sup(B)=φB/n、sup(A,B)=φAB/n,权重计算公式为
根据向有图的子图及权重就能够提取到该领域文本的特征向量。
进一步地,采用KNN对领域文本的训练样本进行筛选,具体包括:建立KNN 的分类判别函数和决策函数;在训练样本集中,筛选出未知类型样本的K个邻近样本;统计K个邻近样本所属类别的样本数;本实施例一中,训练样本集中假设共有N个样本,共有c种类别,对于未知类型的样本x,从N个样本中选择出它的K个近邻样本,然后统计K个近邻样本属于每一类的样本数,那么KNN的分类判别函数和决策函数分别计算公式为
gi(x)=ki,i=1,2,L,c (4)
式中,Hj表示类别。
更进一步地,采用SVM对筛选后的训练样本进行训练,具体包括:建立SVM 的分类判别函数;通过分类判别函数对k个领域文本训练样本进行训练;本实施例一中,设训练样本集为:{xi,yi},xi∈Rn,i=1,2,…,n,xi为输入向量,yi={1,-1},则支持向量机的分类平面为
y=ωTΦ(x)+b (6)
式中,ω和b为SVM的参数。
要直接找到最优参数ω和b值十分困难,为了简化ω和b的求解过程,引入松弛因子ξi进行变换,得到式(6)的二次优化问题为
s.t.
yi(wgΦ(xi)+b)≥1-ξi
ξ≥0,i=1,2L,n (7)
引入Lagrange乘子αi得到式(7)的对偶形式,从而可以加快问题求解速度,以提高SVM的学习效率,则有
s.t.
根据KKT条件,可到
式中,
ω的值为
ω=∑αiyiΦ(xi)·Φ(x) (10)
对于非线性分类问题,SVM的分类判别函数为
f(x)=sgn(αiyiΦ(xi)·Φ(x)+b) (11)
对于非线性分类问题,直接进行求解比较复杂,常引入核函数k(x,xi)代替点积Φ(xi)gΦ(xj),那么SVM的非线性分类判别函数为
f(x)=sgn(αiyik(x,xi)+b) (12)
选择RBF函数设计SVM,最终得到SVM的非线性分类判别函数
进一步地,建立领域文本提取模型之后,还包括:对领域文本提取模型进行性能测试。
本实施例一种,对领域文本提取模型进行性能测试,可选择Matlab 2014作为实验平台,采用作为Eclipse开发环境,选择标淮中文文本数据库作为领域文本的实验对象,SVM的参数采用“十折交叉验证法”确定;选择正确率(RPrecision)、召回率(RRecall)、训练时间(a)来评价领域文本提取模型性能的优劣,其中 RPrecision和RRecall定义如下:
式中,A表示能够正确识别的垃圾邮件数量;B表示不能正确识别的合法邮件数量;C表示不能正确识别的垃圾邮件数量。
图3为本发明实施例二提供的基于KNN-SVM的领域文本特征提取***与基于单一KNN或SVM的建立领域文本特征提取***的正确率对比图;图4为本发明实施例二提供的基于KNN-SVM的领域文本特征提取***与基于单一 KNN或SVM的建立领域文本特征提取***的召回率对比图;采用KNN-SVM以及单一KNN、SVM对建立邻域文本的训练样本进行学习,然后构建相应的领域文本特征提取模型,最后选择100个测试样本对它们性能进行测试和分析,在不同数量的训练样本条件,测试样本过滤结果的RPrecision和RRecal变化曲线如图3、图4所示,随着训练样本数量的增加,全部领域文本特征提取模型的RPrecision 和RRecal也随之不断地加,这表明训练样本越多,可以提供更多领域文本的信息,在相同训练样本条件下,KNN-SVM的RPrecision和RRecal要远远高于KNN 和SVM,这主要是由于单一KNN或者SVM无法充分描述领域文本内容信息,建立性能差的领域文本特征提取模型,使得大量领域文本没有得到正确识别,无法进行正常特征提取,难以保证信息准确识别,而KNN-SVM充分利用了KNN和SVM 的优势,建立了性能更优的领域文本特征提取模型,获得理想的领域文本特征提取结果,提高了特征提取的正确率。
统计采用KNN-SVM以及单一KNN、SVM的平均训练时间,具体如表1所示,从表1可以发现,KNN-SVMM的训练时间也要小于KNN和SVM,这表明KNN-SVM 花费了更少的时间代价建立了领域文本特征提取模型,加快了特征信息提取的速度,可以满足特定的领域文本特征提取的在线要求。
表1训练时间的对比
本发明针对领域本文特征提取维数高、样本不平衡的情况,提供了一种基于 KNN-SVM的领域文本特征提取方法和***,缩短了建立领域文本特征提取模型的时间,加快了特征信息提取的速度,获得了较为理想的领域文本特征提取结果,提高了特征提取的正确率,可以满足特定的领域文本特征提取的在线要求,实用性极强。
图5为本发明实施例一提供的基于KNN-SVM的领域文本特征提取***的结构示意图,如图5所示,基于KNN-SVM的文本特征提取***,包括:创建模块101:用于创建领域文本特征库;建立模块102:用于建立领域文本训练样本集;样本筛选模块103:用于采用KNN对领域文本的训练样本进行筛选;样本训练模块104:用于采用SVM对筛选后的训练样本进行训练;输出模块105:用于生成领域文本提取模型。
具体地,所述创建模块101,具体用于:提取领域文本的特征;构建文本特征提取模型的输入向量;将领域文本的特征存入文本特征库。
进一步地,所述样本筛选模块103,具体用于:建立KNN的分类判别函数和决策函数;在训练样本集中,筛选出未知样本的K个邻近样本;统计K个邻近样本所属类别的样本数。
更进一步地,所述样本训练模块104,具体用于:建立SVM的分类判别函数;通过分类判别函数对k个领域文本训练样本进行训练。
图6为本发明实施例二提供的基于KNN-SVM的领域文本特征提取***的结构示意图,如图4所示,还可包括:测试模块106:用于对领域文本提取模型进行性能测试。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.基于KNN-SVM的领域文本特征提取方法,其特征在于:包括:
S101、创建领域文本特征库;
S102、建立领域文本训练样本集;
S103、采用KNN对领域文本的训练样本进行筛选;
S104、采用SVM对筛选后的训练样本进行训练;
S105、生成领域文本提取模型。
2.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法,其特征在于:所述创建领域文本特征库,具体包括:
提取领域文本的特征;
构建文本特征提取模型的输入向量;
将领域文本的特征存入文本特征库。
3.根据权利要求1或2所述的基于KNN-SVM的领域文本特征提取方法,其特征在于:采用KNN对领域文本的训练样本进行筛选,具体包括:
建立KNN的分类判别函数和决策函数;
在训练样本集中,筛选出未知类型样本的K个邻近样本;
统计K个邻近样本所属类别的样本数。
4.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法,其特征在于:采用SVM对筛选后的训练样本进行训练,具体包括:
建立SVM的分类判别函数;
通过分类判别函数对k个领域文本训练样本进行训练。
5.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法,其特征在于:建立领域文本提取模型之后,还包括:
对领域文本提取模型进行性能测试。
6.基于KNN-SVM的文本特征提取***,其特征在于:包括:
创建模块(101):用于创建领域文本特征库;
建立模块(102):用于建立领域文本训练样本集;
样本筛选模块(103):用于采用KNN对领域文本的训练样本进行筛选;
样本训练模块(104):用于采用SVM对筛选后的训练样本进行训练;
输出模块(105):用于生成领域文本提取模型。
7.根据权利要求6所述的基于KNN-SVM的领域文本特征提取***,其特征在于:所述创建模块(101),具体用于:提取领域文本的特征;构建文本特征提取模型的输入向量;将领域文本的特征存入文本特征库。
8.根据权利要求6或7所述的基于KNN-SVM的领域文本特征提取***,其特征在于:所述样本筛选模块(103),具体用于:建立KNN的分类判别函数和决策函数;在训练样本集中,筛选出未知样本的K个邻近样本;统计K个邻近样本所属类别的样本数。
9.根据权利要求8所述的基于KNN-SVM的领域文本特征提取***,其特征在于:所述样本训练模块(104),具体用于:建立SVM的分类判别函数;通过分类判别函数对k个领域文本训练样本进行训练。
10.根据权利要求6所述的基于KNN-SVM的领域文本特征提取***,其特征在于:还包括:
测试模块(106):用于对领域文本提取模型进行性能测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710115584.0A CN106951466A (zh) | 2017-03-01 | 2017-03-01 | 基于knn‑svm的领域文本特征提取方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710115584.0A CN106951466A (zh) | 2017-03-01 | 2017-03-01 | 基于knn‑svm的领域文本特征提取方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106951466A true CN106951466A (zh) | 2017-07-14 |
Family
ID=59467691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710115584.0A Pending CN106951466A (zh) | 2017-03-01 | 2017-03-01 | 基于knn‑svm的领域文本特征提取方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106951466A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107911277A (zh) * | 2017-09-29 | 2018-04-13 | 北京明朝万达科技股份有限公司 | 一种基于机器学习的外发邮件审计方法及*** |
CN108154178A (zh) * | 2017-12-25 | 2018-06-12 | 北京工业大学 | 基于改进的svm-knn算法的半监督托攻击检测方法 |
CN108536730A (zh) * | 2018-02-27 | 2018-09-14 | 南京邮电大学 | 一种混合傅里叶核函数支持向量机文本分类方法 |
CN113062734A (zh) * | 2021-05-17 | 2021-07-02 | 上海联创燃气技术发展有限公司 | 基于非开挖泥浆流变参数弱监督机器学习的地层识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
-
2017
- 2017-03-01 CN CN201710115584.0A patent/CN106951466A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
Non-Patent Citations (1)
Title |
---|
王金华 等: "基于KNN+层次SVM的文本自动分类技术", 《计算机应用与软件》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107911277A (zh) * | 2017-09-29 | 2018-04-13 | 北京明朝万达科技股份有限公司 | 一种基于机器学习的外发邮件审计方法及*** |
CN108154178A (zh) * | 2017-12-25 | 2018-06-12 | 北京工业大学 | 基于改进的svm-knn算法的半监督托攻击检测方法 |
CN108536730A (zh) * | 2018-02-27 | 2018-09-14 | 南京邮电大学 | 一种混合傅里叶核函数支持向量机文本分类方法 |
CN108536730B (zh) * | 2018-02-27 | 2020-04-07 | 南京邮电大学 | 一种混合傅里叶核函数支持向量机文本分类方法 |
CN113062734A (zh) * | 2021-05-17 | 2021-07-02 | 上海联创燃气技术发展有限公司 | 基于非开挖泥浆流变参数弱监督机器学习的地层识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104331498B (zh) | 一种对互联网用户访问的网页内容自动分类的方法 | |
Tiedemann et al. | Efficient discrimination between closely related languages | |
US9779085B2 (en) | Multilingual embeddings for natural language processing | |
CN103902570B (zh) | 一种文本分类特征提取方法、分类方法及装置 | |
Lum et al. | Extracting insights from the shape of complex data using topology | |
CN107122340B (zh) | 一种基于同义词分析的科技项目申报书的相似度检测方法 | |
CN106951466A (zh) | 基于knn‑svm的领域文本特征提取方法和*** | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN106095928A (zh) | 一种事件类型识别方法及装置 | |
Bonato et al. | Mining and modeling character networks | |
CN106407406A (zh) | 一种文本处理方法和*** | |
CN107273500A (zh) | 文本分类器生成方法、文本分类方法、装置及计算机设备 | |
CN106570109A (zh) | 一种通过文本分析自动生成题库知识点的方法 | |
CN110084609B (zh) | 一种基于表征学习的交易欺诈行为深度检测方法 | |
CN109960727A (zh) | 针对非结构化文本的个人隐私信息自动检测方法及*** | |
CN113094596A (zh) | 一种基于双向传播图的多任务谣言检测方法 | |
CN105975518A (zh) | 基于信息熵的期望交叉熵特征选择文本分类***及方法 | |
Mestry et al. | Automation in social networking comments with the help of robust fasttext and cnn | |
Bo et al. | Malicious URLs detection based on a novel optimization algorithm | |
CN109918648A (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
Chandra et al. | Anti social comment classification based on kNN algorithm | |
CN109299251A (zh) | 一种基于深度学习算法的异常垃圾短信识别方法及*** | |
Wang et al. | Sentiment analysis of MOOC reviews via ALBERT-BiLSTM model | |
Yana et al. | Sentiment analysis of facebook comments on indonesian presidential candidates using the naïve bayes method | |
CN109583208A (zh) | 基于移动应用评论数据的恶意软件识别方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170714 |
|
RJ01 | Rejection of invention patent application after publication |