CN106951466A

CN106951466A - 基于knn‑svm的领域文本特征提取方法和***

Info

Publication number: CN106951466A
Application number: CN201710115584.0A
Authority: CN
Inventors: 林荫; 张竹清; 朱莹莹
Original assignee: Huaide College of Changzhou University
Current assignee: Huaide College of Changzhou University
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2017-07-14

Abstract

本发明属于领域文本提取的技术领域，具体涉及一种基于KNN‑SVM的领域文本特征提取方法和***；解决的技术问题为：提供一种准确率较高的、提取速度较快的基于KNN‑SVM的领域文本特征提取方法和***；采用的技术方案为：基于KNN‑SVM的领域文本特征提取方法，包括：S101、创建领域文本特征库；S102、建立领域文本训练样本集；S103、采用KNN对领域文本的训练样本进行筛选；S104、采用SVM对筛选后的训练样本进行训练；S105、生成领域文本提取模型。

Description

基于KNN-SVM的领域文本特征提取方法和***

技术领域

本发明属于领域文本提取的技术领域，具体涉及一种基于KNN-SVM的领域文本特征提取方法。

背景技术

各领域文本特征提取的实质是对文本进行分类，将文本分为某领域的文档或者非领域文档，若是领域文本则提取出来，否则不予提取，若是领域文本，则筛选出来。

领域文本提取的分类器构建直接影响提取效果，当前常采用K近邻算法(Knearest neighbor algorithm，KNN)和支持向量机(support vector machine，SVM)建立领域文本的分类器，对于英文文本，它们获得了理想的提取效果，文本特征提取的虚警率低；然而对于中文文本，单一KNN或者SVM的提取效果很差，这是因为基于某一领域的中文文本样本分布极不平均、特征的维数高，若采用KNN 进行处理，易出现“维数灾”难题，提取速度慢；SVM虽然不存在“维数灾”难题，但是对于大规模领域文本，训练时间长，无法满足领域文本在线提取要求。

发明内容

本发明克服现有技术存在的不足，所要解决的技术问题为：提供一种准确率较高的、提取速度较快的基于KNN-SVM的领域文本特征提取方法和***。

为了解决上述技术问题，本发明采用的技术方案为：基于KNN-SVM的领域文本特征提取方法，其特征在于：包括：S101、创建领域文本特征库；S102、建立领域文本训练样本集；S103、采用KNN对领域文本的训练样本进行筛选；S104、采用SVM对筛选后的训练样本进行训练；S105、生成领域文本提取模型。

优选地，所述创建领域文本特征库，具体包括：提取领域文本的特征；构建文本特征提取模型的输入向量；将领域文本的特征存入文本特征库。

优选地，采用KNN对领域文本的训练样本进行筛选，具体包括：建立KNN 的分类判别函数和决策函数；在训练样本集中，筛选出未知样本的K个邻近样本；统计K个邻近样本所属类别的样本数。

优选地，采用SVM对筛选后的训练样本进行训练，具体包括：建立SVM的分类判别函数；通过分类判别函数对k个领域文本训练样本进行训练。

优选地，建立领域文本提取模型之后，还包括：对领域文本提取模型进行性能测试。

相应地，基于KNN-SVM的文本特征提取***，包括：创建模块：用于创建领域文本特征库；建立模块：用于建立领域文本训练样本集；样本筛选模块：用于采用KNN对领域文本的训练样本进行筛选；样本训练模块：用于采用SVM对筛选后的训练样本进行训练；输出模块：用于生成领域文本提取模型。

优选地，所述创建模块，具体用于：提取领域文本的特征；构建文本特征提取模型的输入向量；将领域文本的特征存入文本特征库。

优选地，所述样本筛选模块，具体用于：建立KNN的分类判别函数和决策函数；在训练样本集中，筛选出未知样本的K个邻近样本；统计K个邻近样本所属类别的样本数。

优选地，具体用于：建立SVM的分类判别函数；通过分类判别函数对k个领域文本训练样本进行训练。

优选地，还包括：测试模块：用于对领域文本提取模型进行性能测试。

本发明与现有技术相比具有以下有益效果：本发明针对领域本文特征提取维数高、样本不平衡的情况，提供了一种基于KNN-SVM的领域文本特征提取方法和***，缩短了建立领域文本特征提取模型的时间，加快了特征信息提取的速度，获得了较为理想的领域文本特征提取结果，提高了特征提取的正确率，可以满足特定的领域文本特征提取的在线要求，实用性极强。

附图说明

下面结合附图对本发明做进一步详细的说明；

图1为本发明实施例一提供的基于KNN-SVM的领域文本特征提取方法的流程示意图；

图2为本发明实施例一提供的基于KNN-SVM的领域文本特征提取方法中描述文本内容的有向图；

图3为本发明实施例二提供的基于KNN-SVM的领域文本特征提取***与基于单一KNN或SVM的建立领域文本特征提取***的正确率对比图；

图4为本发明实施例二提供的基于KNN-SVM的领域文本特征提取***与基于单一KNN或SVM的建立领域文本特征提取***的召回率对比图；

图5为本发明实施例一提供的基于KNN-SVM的领域文本特征提取***的结构示意图；

图6为本发明实施例二提供的基于KNN-SVM的领域文本特征提取***的结构示意图；

图中：101为创建模块，102为建立模块，103为样本筛选模块，104为样本训练模块，105为输出模块，106为测试模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一提供的基于KNN-SVM的领域文本特征提取方法的流程示意图，如图1所示，基于KNN-SVM的领域文本特征提取方法，包括：

S101、创建领域文本特征库；

S102、建立领域文本训练样本集；

S103、采用KNN对领域文本的训练样本进行筛选；

S104、采用SVM对筛选后的训练样本进行训练；

S105、生成领域文本提取模型。

具体地，所述创建领域文本特征库，具体包括：提取领域文本的特征；构建文本特征提取模型的输入向量；将领域文本的特征存入文本特征库。

领域文本包括大量的内容，无法直接对领域文本进行特征提取操作，因此需要对文本内容进行分析，找出一些关键元素，如词、字、或短词等，提取领域特征；图2为本发明实施例一提供的基于KNN-SVM的领域文本特征提取方法中描述文本内容的有向图，如图2所示，本实施例一中，采用有向图描述文本内容，在图中，表示文本中的句子，NP表示文本中的名词，VP表示文本中的动词、JJ、 NN、PP、VBD以及IN均表示文本的不同类型介词短语；设有向图节点gk的权重为：{ω1,ω2,…,ωk}，它们的上限分别为则gn权重上限计算公式为

支持度的下界为

设节点总数为n，节点A和B出现次数分别为φ_A和φ_B，两者均出现次数为φ_AB，那么有sup(A)＝φ_A/n、sup(B)＝φ_B/n、sup(A,B)＝φ_AB/n，权重计算公式为

根据向有图的子图及权重就能够提取到该领域文本的特征向量。

进一步地，采用KNN对领域文本的训练样本进行筛选，具体包括：建立KNN 的分类判别函数和决策函数；在训练样本集中，筛选出未知类型样本的K个邻近样本；统计K个邻近样本所属类别的样本数；本实施例一中，训练样本集中假设共有N个样本，共有c种类别，对于未知类型的样本x，从N个样本中选择出它的K个近邻样本，然后统计K个近邻样本属于每一类的样本数，那么KNN的分类判别函数和决策函数分别计算公式为

g_i(x)＝k_i,i＝1,2,L,c (4)

式中，Hj表示类别。

更进一步地，采用SVM对筛选后的训练样本进行训练，具体包括：建立SVM 的分类判别函数；通过分类判别函数对k个领域文本训练样本进行训练；本实施例一中，设训练样本集为：{xi,yi}，xi∈Rn，i＝1,2,…,n，xi为输入向量，yi＝{1,-1}，则支持向量机的分类平面为

y＝ω^TΦ(x)+b (6)

式中，ω和b为SVM的参数。

要直接找到最优参数ω和b值十分困难，为了简化ω和b的求解过程，引入松弛因子ξi进行变换，得到式(6)的二次优化问题为

s.t.

y_i(wgΦ(x_i)+b)≥1-ξ_i

ξ≥0，i＝1，2L，n (7)

引入Lagrange乘子αi得到式(7)的对偶形式，从而可以加快问题求解速度，以提高SVM的学习效率，则有

s.t.

根据KKT条件，可到

式中，

ω的值为

ω＝∑α_iy_iΦ(x_i)·Φ(x) (10)

对于非线性分类问题，SVM的分类判别函数为

f(x)＝sgn(α_iy_iΦ(x_i)·Φ(x)+b) (11)

对于非线性分类问题，直接进行求解比较复杂，常引入核函数k(x，x_i)代替点积Φ(x_i)gΦ(x_j)，那么SVM的非线性分类判别函数为

f(x)＝sgn(α_iy_ik(x，x_i)+b) (12)

选择RBF函数设计SVM，最终得到SVM的非线性分类判别函数

进一步地，建立领域文本提取模型之后，还包括：对领域文本提取模型进行性能测试。

本实施例一种，对领域文本提取模型进行性能测试，可选择Matlab 2014作为实验平台，采用作为Eclipse开发环境，选择标淮中文文本数据库作为领域文本的实验对象，SVM的参数采用“十折交叉验证法”确定；选择正确率(RPrecision)、召回率(RRecall)、训练时间(a)来评价领域文本提取模型性能的优劣，其中 RPrecision和RRecall定义如下：

式中，A表示能够正确识别的垃圾邮件数量；B表示不能正确识别的合法邮件数量；C表示不能正确识别的垃圾邮件数量。

图3为本发明实施例二提供的基于KNN-SVM的领域文本特征提取***与基于单一KNN或SVM的建立领域文本特征提取***的正确率对比图；图4为本发明实施例二提供的基于KNN-SVM的领域文本特征提取***与基于单一 KNN或SVM的建立领域文本特征提取***的召回率对比图；采用KNN-SVM以及单一KNN、SVM对建立邻域文本的训练样本进行学习，然后构建相应的领域文本特征提取模型，最后选择100个测试样本对它们性能进行测试和分析，在不同数量的训练样本条件，测试样本过滤结果的RPrecision和RRecal变化曲线如图3、图4所示，随着训练样本数量的增加，全部领域文本特征提取模型的RPrecision 和RRecal也随之不断地加，这表明训练样本越多，可以提供更多领域文本的信息，在相同训练样本条件下，KNN-SVM的RPrecision和RRecal要远远高于KNN 和SVM，这主要是由于单一KNN或者SVM无法充分描述领域文本内容信息，建立性能差的领域文本特征提取模型，使得大量领域文本没有得到正确识别，无法进行正常特征提取，难以保证信息准确识别，而KNN-SVM充分利用了KNN和SVM 的优势，建立了性能更优的领域文本特征提取模型，获得理想的领域文本特征提取结果，提高了特征提取的正确率。

统计采用KNN-SVM以及单一KNN、SVM的平均训练时间，具体如表1所示，从表1可以发现，KNN-SVMM的训练时间也要小于KNN和SVM，这表明KNN-SVM 花费了更少的时间代价建立了领域文本特征提取模型，加快了特征信息提取的速度，可以满足特定的领域文本特征提取的在线要求。

表1训练时间的对比

本发明针对领域本文特征提取维数高、样本不平衡的情况，提供了一种基于 KNN-SVM的领域文本特征提取方法和***，缩短了建立领域文本特征提取模型的时间，加快了特征信息提取的速度，获得了较为理想的领域文本特征提取结果，提高了特征提取的正确率，可以满足特定的领域文本特征提取的在线要求，实用性极强。

图5为本发明实施例一提供的基于KNN-SVM的领域文本特征提取***的结构示意图，如图5所示，基于KNN-SVM的文本特征提取***，包括：创建模块101：用于创建领域文本特征库；建立模块102：用于建立领域文本训练样本集；样本筛选模块103：用于采用KNN对领域文本的训练样本进行筛选；样本训练模块104：用于采用SVM对筛选后的训练样本进行训练；输出模块105：用于生成领域文本提取模型。

具体地，所述创建模块101，具体用于：提取领域文本的特征；构建文本特征提取模型的输入向量；将领域文本的特征存入文本特征库。

进一步地，所述样本筛选模块103，具体用于：建立KNN的分类判别函数和决策函数；在训练样本集中，筛选出未知样本的K个邻近样本；统计K个邻近样本所属类别的样本数。

更进一步地，所述样本训练模块104，具体用于：建立SVM的分类判别函数；通过分类判别函数对k个领域文本训练样本进行训练。

图6为本发明实施例二提供的基于KNN-SVM的领域文本特征提取***的结构示意图，如图4所示，还可包括：测试模块106：用于对领域文本提取模型进行性能测试。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.基于KNN-SVM的领域文本特征提取方法，其特征在于：包括：

S101、创建领域文本特征库；

S102、建立领域文本训练样本集；

S103、采用KNN对领域文本的训练样本进行筛选；

S104、采用SVM对筛选后的训练样本进行训练；

S105、生成领域文本提取模型。

2.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法，其特征在于：所述创建领域文本特征库，具体包括：

提取领域文本的特征；

构建文本特征提取模型的输入向量；

将领域文本的特征存入文本特征库。

3.根据权利要求1或2所述的基于KNN-SVM的领域文本特征提取方法，其特征在于：采用KNN对领域文本的训练样本进行筛选，具体包括：

建立KNN的分类判别函数和决策函数；

在训练样本集中，筛选出未知类型样本的K个邻近样本；

统计K个邻近样本所属类别的样本数。

4.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法，其特征在于：采用SVM对筛选后的训练样本进行训练，具体包括：

建立SVM的分类判别函数；

通过分类判别函数对k个领域文本训练样本进行训练。

5.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法，其特征在于：建立领域文本提取模型之后，还包括：

对领域文本提取模型进行性能测试。

6.基于KNN-SVM的文本特征提取***，其特征在于：包括：

创建模块(101)：用于创建领域文本特征库；

建立模块(102)：用于建立领域文本训练样本集；

样本筛选模块(103)：用于采用KNN对领域文本的训练样本进行筛选；

样本训练模块(104)：用于采用SVM对筛选后的训练样本进行训练；

输出模块(105)：用于生成领域文本提取模型。

7.根据权利要求6所述的基于KNN-SVM的领域文本特征提取***，其特征在于：所述创建模块(101)，具体用于：提取领域文本的特征；构建文本特征提取模型的输入向量；将领域文本的特征存入文本特征库。

8.根据权利要求6或7所述的基于KNN-SVM的领域文本特征提取***，其特征在于：所述样本筛选模块(103)，具体用于：建立KNN的分类判别函数和决策函数；在训练样本集中，筛选出未知样本的K个邻近样本；统计K个邻近样本所属类别的样本数。

9.根据权利要求8所述的基于KNN-SVM的领域文本特征提取***，其特征在于：所述样本训练模块(104)，具体用于：建立SVM的分类判别函数；通过分类判别函数对k个领域文本训练样本进行训练。

10.根据权利要求6所述的基于KNN-SVM的领域文本特征提取***，其特征在于：还包括：

测试模块(106)：用于对领域文本提取模型进行性能测试。