CN102324038B

CN102324038B - 一种基于数字图像的植物种类识别方法

Info

Publication number: CN102324038B
Application number: CN201110262117.3A
Authority: CN
Inventors: 曹卫群; 裴勇
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2011-09-06
Filing date: 2011-09-06
Publication date: 2014-04-16
Anticipated expiration: 2031-09-06
Also published as: CN102324038A

Abstract

本发明提供一种基于数字图像的植物种类识别方法，包括：采集植物器官数字图像作为测试样本，提取特征向量；将所述特征向量输入第一级分类器，获得投票数排名前n名的n个类别，3＜n＜10；第一级分类器通过如下方式获得：基于全部训练样本的特征集进行分类器训练；将所述特征向量输入第二级分类器，获得识别结果；第二级分类器通过如下方式获得：从所述全部训练样本的特征集中，提取所述n个类别所对应的特征集进行分类器训练。本发明通过分级SVM分类器，有效降低了分类器对样本种类数量的敏感性，消除了样本类别增加对识别准确率的影响，克服了SVM分类器对大样本量识别准确率低的问题，进而提高植物识别的准确率。

Description

一种基于数字图像的植物种类识别方法

技术领域

本发明涉及图像识别技术，特别是涉及一种基于数字图像的植物种类识别方法。

背景技术

植物分类学是植物科学体系的基础学科，在农业、林业以及其他相关产业中起着重要的作用。植物分类学依据植物的多种外观性状特征对其进行鉴别和分类。对于这些性状特征的获得，在传统的方式中往往采用人工实地测量的方式进行作业。根据获得的数据对植物进行鉴别，确定其所属类别。整个工作过程不但耗费较多的人力物力，而且对工作人员的专业知识和经验提出很高的要求。随着信息技术和自动识别理论的发展，数字图像采集设备(如数码相机)的逐渐普及，人们可以很方便地采集植物的数字图像，从而精确地获得其外观特征信息，然后运用数字图像处理技术和模式识别技术对采集到的样本做识别分析，从而使植物分类的自动化程度大大提高。并且通过计算机进行分类识别，使得植物分类的效率和准确率有了显著提高。

花卉品种分类学是植物分类学的一个分支，目前的花卉品种分类，一般是通过计算机对花卉的数字图像进行分析得到分类结果，采用的一般为模式识别***，模式识别***通常由多个环节组成，一般来说包括信息采集、数据处理、特征提取和选择、分类识别或者类型匹配。模式识别***的设计的关键之处在于选取适当的模式定义、有代表性的样本集、和样本隶属度较高的特征以及有效的分类器等。而其中，分类器技术决定了***对样本空间的分类能力的好坏，影响了模式识别***的最终性能。

现有的分类器技术包括相似性度量方法、贝叶斯决策方法、线性判别函数、人工神经网络以及支持向量机等，以下分别具体介绍如下：

(一)相似性度量

相似性度量方法分析样本的特征向量在特征空间中的距离，根据其与特定类别在样本空间中的位置的接近程度对其进行分类。

相似性度量方法具有算法简单直观易懂，计算速度快的优点。但是该方法仅仅考虑两个特征向量之间的距离，没有分析一个类别在特征空间中的整体分布情况，不能够解决复杂的分类问题。

(二)贝叶斯决策理论

贝叶斯决策理论方法属于统计模式识别理论，统计决策理论是模式分类理论中最基本的理论之一，对模式分析和分类器的设计有着实际的指导意义。使用此贝叶斯决策理论构造分类器时，要求各类别总体的分布概率已知，且决策分类的类别数是有限的。

因此，贝叶斯决策的结果取决于是先验知识，先验概率在决策过程中起了主导作用。但是在实际应用中，先验概率和类条件概率密度的正确估计往往比较复杂，而且对于类别数并非已知的情况下，贝叶斯决策也无法计算。

(三)人工神经网络

上世纪50年代末，提出了感知机的数学模型来对人脑的功能进行简化模拟，初步形成了人工神经网络的理论基础。

人工神经网络模拟人脑的结构和功能，由大量的彼此广泛相连的处理单元组成，每个处理单元的结构和功能十分简单，取得了令人惊异的效果。在神经网络方法中，采用反向传播法(BP)的多层感知器的应用最为广泛和成功。该方法直接从训练样本数据中学习，并利用非线性规划的最快下降法使权值收敛，具有简便有效的优点。模式识别的神经网络分类器与其他方法相比具有以下几个明显的优势：具有较强的容错性，能够识别带有噪声或变形的输入模式；具有很强的自适应学习能力；并行分布式信息存储与处理，识别速度快；能把识别处理和若干预处理融为一体进行。

但是，人工神经网络算法根据不同的神经元模型和网络拓扑结构及学习方法，具有不同的特性和能力。这需要根据样本的情况调整其学习方式，以取得更好的效果。因此这也使得神经网络方法的效果对于使用者的经验过于依赖，使用起来过于复杂，这对于初次接触神经网络分类器的用户来说很难取得最优效果。

(四)支持向量机(SVM)介绍

支持向量机的理论基础是统计学习理论，是统计学习理论的最新成果和新一代的机器学习方法。机器学习研究计算机模拟人的学习行为，根据已有的训练样本推测***的判别法则，对新输入样本作出尽可能真实的预测。支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以期获得最好的推广能力。以下对支持向量机进行详细介绍。

1)支持向量机有两个主要的理论基础

支持向量机在统计学习理论的基础之上发展而来，算法的主要思想是：对于输入的线性不可分的样本，通过将其特征空间变换到更高维数的空间，使其线性可分，然后再计算最优线性分类面。这种变换是通过内积函数实现的非线性变换。支持向量机有两个主要的理论基础：(1.1)结构风险最小化原理；(1.2)VC维理论。

(1.1)结构风险最小化原理

通过对不同类型的函数集进行***的研究，统计学习理论总结了函数集的经验风险和实际风险之间的关系。其中，对于二分类问题的函数集，经验风险R_emp(α)和实际风险R(α)之间满足如下关系的概率大于或等于1-η：

R (α) \leq R_{emp} (α) + \sqrt{\frac{h [\ln (2 n / h) + 1 - \ln (η / 4)]}{n}} - - - (2 - 13)

其中，h是函数的VC维，n是样本数。

从中可以看出，机器学习的实际风险R(α)包括两个组成部分，即经验风险R_emp(α)和由VC维数决定的置信风险。传统的训练方式通过选择不同的算法模型来影响置信风险的范围大小，当模型与样本契合度较高时就能得到较好的识别结果。但由于算法的选择取决于训练样本的情况等先验知识和已有的使用经验，而没有建立***的理论化方法，使得算法的使用效果依赖于使用者的经验和技巧，推广性较差。SRM(结构风险最小化，Structural RiskMinimization)准则在按照VC维数大小进行排序的函数子集序列中寻找最小经验风险，综合考虑经验风险和置信风险，有效的解决了这个问题。与传统方法相比，SRM准则更加科学。在此基础上，发展出了支持向量机。

(1.2)VC维理论

VC维是统计学***面内所有直线的集合，那么所有两点集合都是可以被打散的，大部分三点集合也可以被打散(如图1所示)，但是四点集合不能够被打散，因此其VC维为3。一般的，在r维欧式空间中的线性函数集(即超平面集)的VC维为r+1。

2)支持向量机分类原理

支持向量机是统计模式识别理论最新的部分，并得到了广泛的应用。支持向量机可以看做是一种广义线性分类器，其理论基础包括线性分类方法、结构风险最小化原则、最优核函数等。支持向量机最初设计为二分类问题的学***面，将样本空间中的两组样本点分开，并且所选分类超平面与样本点的距离应该最远。对于线性不可分的样本分布，使用核函数将特征空间向高维空间映射，使线性不可分问题变为线性可分问题。支持向量机正是基于这种思想，将特征空间向高维空间映射，然后构造最优分类超平面将样本分类。

(a)线性可分情况

从线性可分两类问题分析，此类问题的主要问题是找出最优分类超平面，也称为最优线性判别函数。先给出训练样本集{x_i，i＝1，…，n}，令该样本集中的样本分为两类ω₁和ω₂，并分别标记为y_i＝+1或-1。则线性判别函数为

g(x)＝w^Tx+w₀ (2-14)

式中w被称为权向量，w₀被称为阈权值。

当方程g(x)＝0时为分类超平面A，将样本点分为两类。但是实际上存在着多个分类超平面能够将样本点分开，需要寻找使样本点分类间隔最大的分类超平面：g(x)可以看作是点x到分类超平面A的距离的度量。引入间隔余量b＞0，令

y_i(w^Tx_i+w₀)≥b (2-15)

使得所有样本点到分类超平面的距离都大于b/|w|。不失一般性，取b＝1，则使分类间隔最大的问题转化为在满足约束条件下，使w最小化的问题：

\min \frac{1}{2} {| | w | |}^{2}

(2-16)

s.t. y_i[<w，x_i>+b]-1≥0，i＝1，2，…，n

拉格朗日乘子法是解决带有等式和不等式约束的优化问题的标准化方法。根据拉格朗日乘子法和Karush-Kuhn-Tucker定理对问题进行求解，得到最优解的充要条件为

y_{i} (x_{i}^{T} w + w_{0}) - 1 &GreaterEqual; 0

α_i≥0 (2-17)

α_{i} [y_{i} (x_{i}^{T} w + w_{0}) - 1] = 0,

i＝1，2，…，n

其中，{α_i，i＝1，…，n；α_i≥0}为拉格朗日乘子。

进行分类计算时，重新将带有约束的优化问题写成对偶形式，一旦获得拉格朗日乘子α_i，w₀的值即可由下式得到：

α_{i} (y_{i} (x_{i}^{T} w + w_{0}) - 1) = 0 - - - (2 - 18)

支持向量定义了分类超平面。对于新的样本x，根据式w^Tx+w₀进行分类，替换w和w₀，代入后计算结果根据是否大于0得出判别分类。

(b)线性不可分情况

当样本集数据在原始特征空间上线性不可分时，通过核函数将原始空间映射到高维空间，使其线性可分。经过非线性映射φ之后，原表达式中的x_i需相应地替换为φ(x_i)，判别函数变为：

g(x)＝w^Tφ(x)+w₀ (2-19)

此时的拉格朗日函数为：

L (w, w_{0}, a) = \frac{1}{2} {| | w | |}^{2} - Σ_{i = 1}^{n} α_{i} [< w, φ (x_{i}) > + w_{0} - y_{i}] - - - (2 - 20)

最后得到了相应的判别函数：

g (x) = Σ_{i = 1}^{n} α_{i}^{*} y_{i} φ^{T} (x_{i}) φ (x) + w_{0} - - - (2 - 21)

可以看出，经过变换之后的样本分类仅仅取决于变化后的特征向量之间的点积，因此用核函数K(x，x′)来代替点积：

K(x，y)＝φ^T(x)φ(y) (2-22)

这样可以避免直接计算变化φ(x)，只需要核函数就可以写成内积形式，甚至不需要明确知道φ。

核函数的选择会影响SVM的性能，如何选择与构造合适的核函数一直是SVM的关键问题。但是目前尚没有统一的理论来解决核函数的选取问题，就连参数的选取也往往采用大量实验来筛选。下面给出常见的几种核函数，其中高斯函数的应用最为广泛。

表2-1常用核函数

3)多类分类问题

从前面的内容可知支持向量机的分类原理是基于二分类问题的。对于多类样本分类问题，往往需要将其分解为若干个二分类问题进行。不同的分解方式对应不同的多类分类器策略。最为常用的多类分类策略有两类：

(3.1)一对一(One-against-one)多类分类器

假设共有N类样本，将其中任意两个类都构造一个子分类器，共构造N(N-1)/2个分类器，对于输入样本使用所有分类器进行分类，哪个类别胜出的次数最多，则判定输入样本属于哪个类别。

(3.2)一对多(One-against-rest)多类分类器

假设共有N类样本，共需要构造N个分类器。每个分类器由一个类别的样本作为正样本，除该类以外的所有类别的样本作为负样本进行训练。对于一个输入样本，其分类结果是各个子分类器中输出最大值的类别。

因此，SVM分类器在进行多类分类时，随着样本类别数量的增加，相似类别出现的可能性也随之增加，传统SVM分类器投票法出现错误结果的概率也在增加。此外，投票法对于任意两个类别都会构建一个分类器。即当样本类别为N时，传统SVM分类器投票法将构建N*(N-1)/2个分类器。若其中一分类器的两类训练样本都不属于被测试样本的类别，那么该分类器投出的一票一定不是该测试样本的真实类别，定义该分类器为本次识别过程中的干扰分类器；

其数目可由分类器总数减去包含目标类别的分类器个数N-1来计算，即为占总的分类器个数的比例为随着样本类别数量的增加，干扰分类器的数目和所占的比例会快速增加，进而对识别的准确性产生影响。

综上，现有的分类器技术存在着以下缺点或不足：

1)相似性度量方法，仅仅考虑两个特征向量之间的距离，没有分析一个类别在特征空间中的整体分布情况，不能够解决复杂的分类问题。

2)贝叶斯决策，其结果取决于是先验知识，先验概率在决策过程中起了主导作用。但是在实际应用中，先验概率和类条件概率密度的正确估计往往比较复杂，而且对于类别数并非已知的情况下，贝叶斯决策也无法计算。

3)人工神经网络，需要根据样本的情况调整其学习方式，使得神经网络方法的效果对于使用者的经验过于依赖，对于初次接触神经网络分类器的用户来说很难取得最优效果。

4)支持向量机技术，虽然其优于相似性度量、贝叶斯决策和人工神经网络，但在进行多类分类时，随着样本类别数量的增加，相似类别出现的可能性也随之增加，干扰分类器的数目和所占的比例会快速增加，进而对识别的准确性产生影响。

因此，现有分类器技术还存在着很多不完善的地方，难以适应植物分类所需要的以下要求：不能因样本类别数量的增加而影响准确性、能够解决复杂的分类、不依赖使用者的经验等等。

发明内容

本发明实施例的目的是提供一种基于数字图像的植物种类识别方法，通过分级SVM分类器，有效降低了分类器对样本种类数量的敏感性，消除了样本类别增加对识别准确率的影响，克服了SVM分类器对大样本量识别准确率低的问题，进而提高植物识别的准确率。

为了实现上述目的，本发明提供了一种基于数字图像的植物种类识别方法，包括：

步骤一，采集植物器官数字图像作为测试样本，提取所述测试样本的特征向量；

步骤二，将所述特征向量输入第一级分类器，获得投票数排名前n名的n个类别，3＜n＜10；所述第一级分类器通过如下方式获得：基于全部训练样本的特征集进行分类器训练，获得基于支持向量机的所述第一级分类器；

步骤三，将所述特征向量输入第二级分类器，获得识别结果；所述第二级分类器通过如下方式获得：从所述全部训练样本的特征集中，提取所述n个类别所对应的特征集进行分类器训练，获得基于支持向量机的所述第二级分类器。

优选地，上述的植物种类识别方法中，n＝5。

优选地，上述的植物种类识别方法中，还包括：步骤四，显示所述识别结果。

优选地，上述的植物种类识别方法中，

在所述步骤一中，通过现场拍摄的方式或者通过输入的方式采集所述植物器官数字图像；

在所述步骤二中，从本机或通过无线传输，将所述测试样本输入所述第一级分类器。

优选地，上述的植物种类识别方法中，所述训练样本为花朵数字图像；

在所述步骤一之前，还包括：

根据花朵的中心对称和放射性的结构特点，将所述花朵数字图像分割为特征环区域，对所述特征环区域进行特征提取，获得所述花朵数字图像的图像特征；对训练样本库中的所有花朵数字图像进行特征提取，获得所述全部训练样本的特征集。

本发明还提供一种基于数字图像的植物种类识别装置，包括：

测试样本采集模块，用于：采集植物器官数字图像作为测试样本，提取所述测试样本的特征向量；

第一级分类器，用于：输入所述特征向量进行分类，获得投票数排名前n名的n个类别，3＜n＜10；所述第一级分类器通过如下方式获得：基于全部训练样本的特征集进行分类器训练，获得基于支持向量机的所述第一级分类器；

第二级分类器，用于：输入所述特征向量进行分类，获得识别结果；所述第二级分类器通过如下方式获得：从所述全部训练样本的特征集中，提取所述n个类别所对应的特征集进行分类器训练，获得基于支持向量机的所述第二级分类器。

优选地，上述的植物种类识别装置中，n＝5。

优选地，上述的植物种类识别装置中，还包括：

结果显示模块，用于：显示所述识别结果。

优选地，上述的植物种类识别装置中，所述测试样本采集模块用于：通过现场拍摄的方式或者通过输入的方式采集所述植物器官数字图像；从本机或通过无线传输的方式将所述测试样本输入所述第一级分类器和所述第二级分类器。

优选地，上述的植物种类识别装置中，所述训练样本为花朵数字图像；还包括：

特征集获取模块，用于：根据花朵的中心对称和放射性的结构特点，将所述花朵数字图像分割为特征环区域，对所述特征环区域进行特征提取，获得所述花朵数字图像的图像特征；对训练样本库中的所有花朵数字图像进行特征提取，获得所述全部训练样本的特征集。

与现有技术相比，本发明实施例至少存在以下技术效果：

1)本发明通过建立分级分类器，在第一级分类的基础上，将样本类别减小到3-10个，得到第二级分类器，在很大程度上消除了样本类别增加对识别准确率的影响。

2)本发明中测试样本采集模块可以是数码相机等，在野外直接采集植物数字图像，通过无线的方式发给远端的服务器上的两级分类器进行识别，然后把识别结果通过无线传输发回到野外终端，使现场的操作人员能立即知道所拍摄植物的种类和价值。

3)本发明中，两级分类器可以作为远端服务器，远程接受测试样本并返回识别结果，也可以将两级分类器与测试样本采集模块做在一个终端内，现场采集现场识别。

4)本发明实施例中，让n＝5，取前五个类别，可以同时保证较高的准确率和运算速度。

5)因为特征环更适合描述花朵的中心对称和放射性的生长特征，因此，本发明实施例中所提取的花朵图像特征能建立有效区分花朵的特征体系，基于该特征提取方法所进行的花卉种类识别可达到较高的准确率。

附图说明

图1为现有技术2维空间线性函数集的VC维的示意图；

图2为本发明实施例提供的方法的步骤流程图；

图3为本发明实施例提供的装置的结构图。

图4为本发明实施例提供的植物种类识别装置的分级SVM分类器方案的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对具体实施例进行详细描述。

图2为本发明实施例提供的方法的步骤流程图，如图2所示，基于数字图像的植物种类识别方法，其包括：

步骤101，采集植物器官数字图像作为测试样本，提取所述测试样本的特征向量；

步骤102，将所述特征向量输入第一级分类器，获得投票数排名前n名的n个类别，3＜n＜10；所述第一级分类器通过如下方式获得：基于全部训练样本的特征集进行分类器训练，获得基于支持向量机的所述第一级分类器；

步骤103，将所述特征向量输入第二级分类器，获得识别结果；所述第二级分类器通过如下方式获得：从所述全部训练样本的特征集中，提取所述n个类别所对应的特征集进行分类器训练，获得基于支持向量机的所述第二级分类器。

还可以包括：步骤104，显示所述识别结果。

可见，本发明通过建立分级分类器，在第一级分类的基础上，将样本类别减小到3-10个，得到第二级分类器，在很大程度上消除了样本类别增加对识别准确率的影响。

本发明实施例中，n越大，所取类别就越多，得到正确类别在其中的可能性越大，但是取的太多会导致计算量的增加，同时太多的类别也会影响第二次分类的正确性。因此，可以让n＝5，取前五个类别，可以保证较高的准确率和运算速度。

所述测试样本可以为现场拍摄的植物数字图像，通过无线传输给远端服务器，远端服务器采用所述测试样本输入所述第一级分类器和所述第二级分类器，获得识别结果后在返回给拍摄现场的终端设备，使工作人员在现场就可以马上知道所拍摄植物的种类和价值，大大方便了野外科考人员的工作。当然，也可以不用远端服务器，把相机和服务器作为一个装置，直接在现场进行种类识别。

所述测试样本还可以是通过输入的方式获得的所述植物数字图像。

本发明实施例中，所述训练样本为花朵数字图像；在所述步骤101之前，还包括：

因为特征环更适合描述花朵的中心对称和放射性的生长特征，因此，本发明实施例中所提取的花朵图像特征能建立有效区分花朵的特征体系，基于该特征提取方法所进行的花卉种类识别可达到较高的准确率。

此外，本发明实施例还提供了一种基于数字图像的植物种类识别装置，图3为本发明实施例提供的装置的结构图，如图3所示，植物种类识别装置包括：

测试样本采集模块301，用于：采集植物器官数字图像作为测试样本，提取所述测试样本的特征向量；

第一级分类器302，用于：输入所述特征向量进行分类，获得投票数排名前n名的n个类别，3＜n＜10；所述第一级分类器通过如下方式获得：基于全部训练样本的特征集进行分类器训练，获得基于支持向量机的所述第一级分类器；

第二级分类器303，用于：输入所述特征向量进行分类，获得识别结果；所述第二级分类器通过如下方式获得：从所述全部训练样本的特征集中，提取所述n个类别所对应的特征集进行分类器训练，获得基于支持向量机的所述第二级分类器。

还可以包括：结果显示模块304，用于：显示所述识别结果。

测试样本采集模块301可以是数码相机等，在野外直接采集植物数字图像，通过无线的方式发给远端的服务器进行两级分类器的识别，然后把识别结果在直接无线传输回拍摄现场的终端设备，使现场的操作人员能立即知道所拍摄植物的种类和价值。

当然，测试样本采集模块301也可以通过调用或输入的方式取得测试样本。

因此，在实际应用中，植物种类识别装置可以是利用现有的相机采集后，通过无线信号发送到服务器进行识别后，返回给终端一个结果；也可以是整合入现有终端里的一个软件，直接在本地完成采集、识别和输出结果；也可以是自己做一个新的终端。

其中，本发明的植物种类识别装置的关键是提出了一个分级SVM分类器方案。该方案将分类过程分为三部分(如图4)：

首先采用基于全部样本特征集训练的支持向量机(SVM1，第一级支持向量机)进行第一次分类，将测试样本输入SVM1，获得投票数排名前五的五个类别。所取类别越多，得到正确类别在其中的可能性越大，但是取的太多会导致计算量的增加，同时太多的类别也会影响二次分类的正确性。取前五个类别，可以保证较高的准确率和运算速度。

第二步：使用该五个类别的训练样本的特征集提取出来，用来训练得到第二级支持向量机(SVM2)。

第三步：将原测试样本输入，获得分类结果，作为最终结果输出。

该方案通过建立分级分类器，在一级分类的基础上，将样本类别减小到5个，在很大程度上消除了样本类别增加对识别准确率的影响。

本发明的植物种类识别装置中，n越大，所取类别就越多，得到正确类别在其中的可能性越大，但是取的太多会导致计算量的增加，同时太多的类别也会影响第二次分类的正确性。因此，可以让n＝5或n＝6，取前五个或前6个类别，可以保证较高的准确率和运算速度。

所述训练样本为花朵数字图像；植物种类识别装置还包括：特征集获取模块，用于：根据花朵的中心对称和放射性的结构特点，将所述花朵数字图像分割为特征环区域，对所述特征环区域进行特征提取，获得所述花朵数字图像的图像特征；对训练样本库中的所有花朵数字图像进行特征提取，获得所述全部训练样本的特征集。

本发明实施例所采用的样本库与实验结果如下：本发明实施例所提出的方法已被应用于花卉种类识别原型***。通过为期一年的实地拍摄，建立了包括矮牵牛、迎春、连翘、郁金香、多花蔷薇、三色堇、月季、孔雀草、金盏菊、南非万寿菊、白晶菊、雏菊、茉莉、蝴蝶兰、膜叶秋海棠、鸢尾、棣棠、华北漏斗菜、月季、藤本月季、芍药等50种花卉(1030张图像)在内的样本库。使用本发明所定义的基于花卉生长特性的特征定义对样本库进行特征提取，建立了训练特征集，并输入SVM分类器进行训练。使用训练出的支持向量机建立了基于SVM的分级多类分类器。并使用该分类器对测试样本库进行了识别测试。其中将样本集中的780张图像(每类不少于10张)用作训练集，250张图像(每类5张图像)用作测试集进行实验。最终识别率为90.8％。实验数据如表2-2所示。

表2-2，50种花卉识别结果

类别号

识别率

类别号

识别率

类别号

识别率

类别号

识别率

类别号

识别率

1

80％

11

60％

21

80％

31

100％

41

100％

2	100％	12	100％	22	100％	32	80％	42	100％
										3	100％	13	100％	23	100％	33	40％	43	100％
4	20％	14	100％	24	100％	34	40％	44	60％
										5	100％	15	100％	25	80％	35	100％	45	100％
6	100％	16	100％	26	100％	36	100％	46	100％
										7	100％	17	100％	27	100％	37	100％	47	100％
8	100％	18	100％	28	100％	38	80％	48	100％
										9	80％	19	100％	29	100％	39	100％	49	100％
10	60％	20	100％	30	80％	40	100％	50	100％

以上数据为使用自建的花卉图片样本库进行的实验结果，其中三类样本识别准确率偏低，一方面是由于样本拍摄条件有限，出现了花朵残缺、明显的阴影等干扰条件，另一方面，由于一类样本的测试样本数较小，不良样本对于识别准确率的影响过大造成。

目前已有的采用自建样本库进行的花卉种类识别的研究实验结果如下：Takeshi Saitoh等使用十个特征对其拍摄的30类花卉进行识别，达到了91％的识别准确率；

本发明方法与其他方法对此图像库的的识别准确率对比如表2-3，表中其他方法的实验数据来自Tzu-Hsiang Hsu等的论文(Tzu-Hsiang Hsu等，2010)。

其中Zou和Nagy等方法的交互是指其在识别过程中，采用了一个曲线模型拟合花朵区域形状。对于错误的识别结果，允许用户对于拟合的曲线进行多次修正，重新计算识别结果，因而得到了较高的识别率(George Nagy和Jie Zou，2004)。

表2-3 对Zou和Nage的图像库的实验识别准确率对比

方法	识别准确率
		HongA等方法	39.5％
Zou和Nagy等方法(无交互)	52％
		Zou和Nagy等方法(有交互)	93％
Saitoh等方法	65.5％

Tzu-Hsiang Hsu等方法	77.8％
		本文方法(1∶1分配训练样本集)	76.4％
本发明方法(2∶1分配训练样本集)	82.5％

与其他方法相比，本发明方法在更多的样本类别数下，达到了较高的准确率。实验证明本发明的特征对于花卉图像更具有针对性和区别性，能够有效的反应花卉特征。实验证明本发明提出的分类器方案提高了***的识别准确率和健壮性。

由上可知，本发明实施例具有以下优势：

2)本发明中测试样本采集模块可以是数码相机等，在野外直接采集植物数字图像，通过无线的方式发给远端的服务器上的分类器进行识别，然后把识别结果通过无线传输发回到野外终端，使现场的操作人员能立即知道所拍摄植物的种类和价值。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于数字图像的植物种类识别方法，其特征在于，包括：

步骤一，通过终端设备采集植物器官数字图像作为测试样本，并通过无线传输的方式将所述测试样本传输给远端服务器，提取所述测试样本的特征向量；

步骤二，所述远端服务器基于全部训练样本的特征集进行分类器训练，获得基于支持向量机的第一级分类器；

步骤三，所述远端服务器将所述特征向量输入所述第一级分类器，获得投票数排名前n名的n个类别，3<n<10；

步骤四，所述远端服务器从所述全部训练样本的特征集中，提取所述n个类别所对应的特征集进行分类器训练，获得基于支持向量机的第二级分类器；

步骤五，所述远端服务器将所述特征向量输入所述第二级分类器，获得识别结果；

步骤六，将所述识别结果通过无线传输的方式返回给所述终端设备，并显示所述识别结果。

2.根据权利要求1所述的植物种类识别方法，其特征在于，n=5。

3.根据权利要求1或2所述的植物种类识别方法，其特征在于，

在所述步骤一中，通过终端设备现场拍摄的方式或者通过输入的方式采集所述植物器官数字图像。

4.根据权利要求1或2所述的植物种类识别方法，其特征在于，所述训练样本为花朵数字图像；

在所述步骤一之前，还包括：

5.一种基于数字图像的植物种类识别装置，其特征在于，包括终端设备及远端服务器，其中，

所述终端设备，包括：

测试样本采集模块，用于采集植物器官数字图像作为测试样本，并通过无线传输的方式将所述测试样本传输给所述远端服务器；

结果显示模块，用于显示识别结果；

所述远端服务器，用于提取所述测试样本的特征向量，输入该远端服务器中基于支持向量机的第一级分类器和第二级分类器，获得识别结果，并通过无线传输的方式返回给所述终端设备，其中，所述第一级分类器基于全部训练样本的特征集进行分类器训练而获得，并在输入特征向量后获得投票数排名前n名的n个类别，3<n<10；所述第二级分类器从所述全部训练样本的特征集中，提取所述n个类别所对应的特征集进行分类器训练而获得。

6.根据权利要求5所述的植物种类识别装置，其特征在于，n=5。

7.根据权利要求5或6所述的植物种类识别装置，其特征在于，

所述测试样本采集模块用于：通过终端设备现场拍摄的方式或者通过输入的方式采集所述植物器官数字图像。

8.根据权利要求5或6所述的植物种类识别装置，其特征在于，所述训练样本为花朵数字图像；

还包括：