CN104715254A

CN104715254A - 一种基于2d和3d sift特征融合的一般物体识别方法

Info

Publication number: CN104715254A
Application number: CN201510117991.6A
Authority: CN
Inventors: ***; 刘苗苗; 徐叶帆
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2015-03-17
Filing date: 2015-03-17
Publication date: 2015-06-17
Anticipated expiration: 2035-03-17
Also published as: CN104715254B

Abstract

本发明公开了一种基于2D和3D SIFT特征融合的一般物体识别方法。为了提高一般物体识别的识别正确率，本发明在尺度不变特征变换(Scale Invariant Feature Transform,SIFT)即2D SIFT的基础上，提出了基于点云模型的3D SIFT特征描述子，进而提出一种基于2D和3D SIFT特征融合的一般物体识别算法。步骤如下：(1)分别提取物体2维图像和3维点云的2D和3D SIFT特征描述子；(2)利用BoW(Bag of Words)模型得到物体特征向量；(3)根据特征级融合将两个特征向量进行融合实现物体描述；(4)运用有监督分类器支持向量机(Support Vector Machine,SVM)实现分类识别，给出最终识别结果。

Description

一种基于2D和3D SIFT特征融合的一般物体识别方法

技术领域

本发明涉及一种基于2D和3D SIFT特征融合的一般物体识别方法，属于识别方法的技术领域。

背景技术

一般物体识别是近年来国内外研究的热点问题，不同于特定物体识别(Specific Object Recognition)，如人脸识别等，可以通过海量的训练样本进行训练，仅仅处理某种物体或某类物体；一般物体识别困难的多，因为必须使用物体类间通用的一般特征，而不能为某个特定类别定义特征，并且该特征需要尽可能的表达出类内共性和类间差异，它必须能处理多类分类及增量学习，在此前提下无法使用给定类别的海量样本进行训练。

目前一般物体识别的主要研究方法是提取物体特征实现物体描述，利用一定的机器学习算法进行物体类型学习，最后进行物体分类，实现物体识别。基于图像局部特征的一般物体识别方法是长久以来的研究重点，并且是目前相对成熟的研究领域，但是基于二维图像识别主要是针对数字化灰度图像的识别，丢失了实际物体的三维信息，且容易受到光照等外界条件的影响。点云模型是由物体深度图像经过一定处理得到的物体模型，因为深度信息仅依赖于物体的几何形状，与物体的亮度和反射等特性无关，不存在使用灰度图像时的阴影或表面投影问题，所以基于物体点云模型识别物体的过程，比使用灰度图像更为容易。

在识别目标类内差异大、类间相似度高的情况下单一的特征并不能很好的反应出类间差异和类内共性。为了解决这个问题，很多研究者提出了基于多特征融合的目标识别方法，在飞机目标识别、人脸识别、物体识别中都有广泛应用。

然而，在真实环境中的一般物体识别研究是人工智能重要部分，在智能监控、遥测遥感、机器人、医学图像处理等方面有重要作用。不同于特定物体识别，真实环境中一般物体种类繁多，存在类间相似度高、类内差异性小的问题，使一般物体识别变得尤其困难。现有技术中，常采用二维特征方法，但其在物体空间局部特性描述这一方面却是存在缺失的技术问题。怎么选择合适的特征表示一般物体类间差异和类内共性至关重要，提取稳定而有效的特征才能在有限的训练样本下得到最好的识别结果，提高识别率。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于2D和3D SIFT特征融合的一般物体识别方法，结合二维和三维特征的方法融合多种物体信息，可以有效降低基于单特征的识别算法识别率低下的问题，在类间相似度高、类内差异小的情况下仍然有较高的识别正确率。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于2D和3D SIFT特征融合的一般物体识别方法，包括以下步骤：

1)特征提取和表示：

对于样本物体，提取所述样本物体的特征描述，所述特征描述包括物体图像和物体点云；首先提取物体图像2D SIFT特征，完成物体图像特征表示；然后提取物体点云3DSIFT特征，完成物体点云特征表示；即得到样本物体的2D和3D SIFT特征描述子；

2)物体描述：

利用KMeans++聚类的方法得到样本聚类中心即对应的视觉单词库，再利用BoW模型，采用多维向量进行物体描述，得到样本物体的对应的2D和3D SIFT特征向量；

3)特征融合：

将样本物体的对应的2D和3D SIFT特征向量利用特征级融合的方法进行特征融合，得到样本物体的串行融合特征向量；

4)分类器设计和训练：

利用支持向量机即SVM学习所述样本物体的目标类型并实现目标分类，训练分类器以构建多类分类器；

5)待识别物体识别：

将待识别物体的串行融合特征向量输入经所述步骤4)训练好的多类分类器，得到所述待识别物体属于各个类别的概率，最大概率值所对应的样本物体类别即为所述待识别物体的识别结果。

进一步的，在本发明中，所述物体点云3D SIFT特征的提取方法包括以下步骤：

1-1)关键点检测：

物体的点云模型中点坐标表示为P(x,y,z)，为实现尺度不变性，定义3D点云的尺度空间为L(x,y,z,σ)：

L(x,y,z,σ)＝G(x,y,z,σ)*P(x,y,z) (1)

其中σ是尺度空间因子，变化尺度的三维高斯核函数为：

G (x, y, z, σ) = \frac{1}{{(\sqrt{2 π} σ)}^{3}} e^{- (x^{2} + y^{2} + z^{2}) / 2 σ^{2}} - - - (2)

利用乘法因子kⁱ得到不同尺度，若每组金字塔组内层数为s，则设置k^s＝2；构建点云高斯金字塔，利用高斯差分DoG函数进行极值检测，得到DoG函数的极值点即为关键点；其中，DoG算子计算公式为：

D(x,y,z,kⁱσ)＝L(x,y,z,kⁱ⁺¹σ)-L(x,y,z,kⁱσ) (3)

其中，i∈[0,s+2]；

1-2)关键点方向分配：

对于每一个检测到的关键点，需要为所述关键点计算一个向量描述该关键点局部特征，该向量称为关键点处的描述子；为了使描述子具有旋转不变性，利用点云的局部特征为关键点分配一个基准方向，所述关键点的方向分配方法如下：

1-2-1)计算关键点P的k邻域，邻域点记为P_ki，i＝{1,2…n}表示邻域点序号,其中n表示邻域点个数；

1-2-2)计算关键点P的k邻域的中心点P_c；

1-2-3)计算向量和得到向量幅值d和两个角度其中(x,y,z)为向量坐标；

1-2-4)使用直方图统计k邻域内根据所述步骤1-2-3)中计算出来的向量幅值d和角度即方向，分别将分为18个子区间(bins)和36个子区间，每个子区间为10°；将幅值d作为权值，统计角度时进行高斯加权其中R_max表示关键点邻域最大半径，忽略超过该距离的点；

1-2-5)直方图的峰值代表了该关键点邻域的方向，将该方向作为所述关键点的主方向，为了增强匹配的鲁棒性，只保留峰值大于主方向峰值80％的方向作为该关键点的辅方向，定义对应主方向为(α,β)；

1-3)关键点特征描述：

关键点的特征描述子的生成过程如下：

1-3-1)计算关键点P的k邻域，邻域点记为P_ki，i＝{1,2…n}表示邻域点序号，n表示邻域点个数，该k邻域与关键点方向分配时所述邻域选择范围相同；

1-3-2)将直方图的坐标轴旋转至关键点主方向，保证旋转不变性，邻域点坐标变换公式为：

{(x^{'}, y^{'}, z^{'})}^{T} = (\begin{matrix} \cos α_{p} \cos β_{p} & - \sin α_{p} & - \cos α_{p} \sin β_{p} \\ \sin α_{p} \cos β_{p} & \cos α_{p} & - \sin α_{p} \sin β_{p} \\ \sin β_{p} & 0 & \cos β_{p} \end{matrix}) \cdot {(x, y, z)}^{T} - - - (5)

其中(x,y,z)和(x',y',z')分别是旋转前后邻域点的坐标，

1-3-3)计算关键点P的k邻域在点P处的法向量

1-3-4)计算向量利用所述公式(4)计算向量幅值和两个角度，同时计算法向量和向量夹角δ为：

δ = \cos^{- 1} (\overset{&RightArrow;}{{PP}_{ki}} \cdot \overset{&RightArrow;}{n} / | \overset{&RightArrow;}{{PP}_{ki}} | | \overset{&RightArrow;}{n} |) - - - (6)

1-3-5)关键点及邻域的特征用得到的四元组表示，按照45°一个柱，分别将分为8个、4个和4个子区间，并统计落在每个子区间的点数目；将幅值d作为权值，统计区间点数目的时候进行高斯加权由此得到一个128维的特征向量为F＝{f₁,f₂,L f₁₂₈}；

1-3-6)归一化特征向量：对于特征向量F＝{f₁,f₂,L f₁₂₈}，归一化之后为

L＝{l₁,l₂,L l₁₂₈}，其中至此，生成关键点的3D SIFT特征描述子。

进一步的，在本发明中，所述步骤2)中物体描述的具体方法为：

利用KMeans++聚类方法，得到样本聚类中心即对应的视觉单词库，记为center＝{center_l,l＝1,2,K k}，其中k表示聚类中心数目，center_l代表视觉单词库中的第l个视觉单词；再利用BoW模型方法，用一个多维向量进行物体描述；

进一步的，在本发明中，所述步骤4)中，目标分类的方法为：通过训练若干个两类分类器的方法构建多类分类器，具体的训练过程如下：将第i类训练样本与剩余的n-1类训练样本分别进行两两SVM训练，得到多个1V1SVM分类器，则n类训练样本共有个1V1SVM分类器。

进一步的，在本发明中，所述步骤1)中，得到所述DoG函数的极值点即关键点的方法为：

所述物体的点云模型中的每一个点P(x,y,z)与其他所有的相邻点进行比较，判断是否为该邻域范围内的极大值或极小值；其中，中间的检测点不仅要与所述监测点同尺度的26个点比较，还要与上下相邻尺度对应的27×2个点比较，由此检测出来的极值点即为关键点；设置阈值τ＝1.0，小于该阈值的关键点为低对比度的关键点，剔除。

进一步的，在本发明中，所述步骤3)中，对于样本O_ξ∈O，其中O是样本空间，所述样本O_ξ对应的2D和3D SIFT特征向量分别为Vec_2D和Vec_3D，得到所述样本O_ξ的串行融合特征向量为Vec_3D2D＝(Vec_3D,Vec_2D)^T，利用所述串行融合特征向量实现物体描述。

进一步的，在本发明中，所述步骤5)中，得到所述待识别物体的识别结果的具体方法为：

5-1)提取待识别物体的2D和3D SIFT特征向量，得到待识别物体的2D和3D SIFT特征描述子；利用BoW模型统计待识别物体的特征向量分布，分别表示为Vec_2D和Vec_3D；

5-2)对所述待识别物体的两个特征向量进行特征级融合，形成新的串行融合特征向量为Vec_3D2D＝(Vec_3D,Vec_2D)^T，实现物体描述；

5-3)将所述串行融合特征向量输入训练好的1V1SVM多类分类器，判别函数得到对应的判别结果，通过投票得到该物体属于第i类的概率记为P(i)，i∈[1,n]，其中n表示物体总类数；

5-4)通过概率最大的值判定所述待识别物体对应的类class，数学公式为:

class = \arg \max_{1 \leq i \leq n} {P (i)} - - - (7)

有益效果：本发明提供的一种基于2D和3D SIFT特征融合的一般物体识别方法，对于任一物体的二维图像和三维点云，提取其局部特征2D和3D SIFT描述子，作为该物体特征表示，基于“词袋”(Bag of Words，BoW)模型得到物体特征向量，然后利用特征级融合完成2D和3D SIFT对应BoW特征向量融合，实现物体描述，最后利用支持向量机(Support Vector Machine，SVM)实现物体识别。本发明提出的3D SIFT特征描述子能够很好的描述物体空间局部特性，有效的解决了二维特征这一方面缺失的问题。2D和3D SIFT特征融合的方法弥补了单特征识别算法的不足，更加丰富的表征了物体特性，显著的提高了一般物体识别方法的正确识别率。

本方法从两个方面着手解决一般物体识别中物体特征提取与表示的难题，提出了一种基于2D和3D SIFT特征融合的一般物体识别方法，首先针对基于二维图像的物体识别存在的问题，三维点云模型的迅速发展，以及3D SIFT特征在基于体素模型的物体识别中的良好性能，本方法将2D SIFT扩展至物体三维点云模型，提出一种基于3D SIFT描述子的一般物体识别方法。其次为了解决单一特征不能很好表示物体特性这一问题，结合2D SIFT在图像识别中的优良性能，本方法在提出3D SIFT算法的基础上，提出一种基于2D和3D SIFT特征融合的一般物体识别方法。综上，该方法的创新性在于：

(1)将3D SIFT特征描述子进行改进，应用于点云模型特征表示中，统计点云局部特征直方图，加入点云模型中描述局部特性至关重要的法向量，实现物体点云模型特征提取与表示；

(2)将改进3D SIFT应用于一般物体识别中，实现一般物体识别功能；

(3)将2D和3D SIFT特征进行特征级融合，实现了基于多特征融合的一般物体识别算法，解决了单一特征识别率低下的问题。

附图说明

图1为本发明基于2D和3D SIFT特征融合的一般物体识别方法的框架示意图；

图2为本发明基于2D和3D SIFT特征融合的一般物体识别方法的流程示意图；

图3为多类物体不同特征融合方法正确识别率示意图；

图4为各类物体正确识别率示意图；

图5为多视角正确识别率示意图；

图6为尺寸缩放正确识别率示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明提出的基于2D和3D SIFT特征融合的一般物体识别方法的框架如图1所示，首先提取物体特征，建立一般物体的描述，然后利用机器学习方法学习物体类型，最后由已知的物体类型对未知物体进行识别。通过前期一定数量的样本训练和学习，在较简单环境下，机器视觉技术可以实现对观察到的环境进行检测、分割，并在观察到从属于旧类别的新物体时，给出相对应的识别结果。图1给出的算法框架主要包括以下4个方面：

1)特征提取与表示：提取物体点云和图像对应的3D和2D SIFT特征，实现物体特征表示；

2)物体BoW模型：用经典的统计学模型BoW(Bag of Words)模型得到物体对应的3D和2D SIFT两个特征对应的BoW特征向量；

3)特征融合：将3D和2D SIFT对应的BoW特征向量进行特征级融合，实现物体描述；

4)物体类型学习和分类：对于多类物体，分别两两训练构建1V1SVM，识别过程中利用投票给出待识别物体属于第i类的概率，根据概率分布，给出最终识别结果。

实施例1识别算法框架

一种基于2D和3D SIFT特征融合的一般物体识别方法，主要包括以下步骤：

1)特征提取和表示：

特征提取和表示是物体识别的基础，怎么提取稳定而有效的特征是特征提取研究中的重点和难点，选择好的特征才能在有限的训练样本条件下得到最好的识别结果。一般物体数量众多，不可能为每一个物体建立模型库，同时，每一类各个物体形状颜色等差异也很大，所以提取的物体特征必须满足以下条件：1)使类间差异最大，即最能表征每类物体区别于其他类物体的特征；2)使类内差异最小，即最能表征每类物体的共性特征。这就需要在一定的语义层次上对每类物体进行抽象和合理表达，用有限的训练物体数量来表征该类物体。本发明提出基于点云模型的3D SIFT特征，与图像的2D SIFT特征一起作为物体特征，实现物体识别，具体如下：

a)2D SIFT特征提取

利用图像与不同尺度的高斯核函数卷积生成尺度空间，将高斯差分函数(Differenceof Gaussian，DoG)尺度空间中检测到的局部极值点作为关键点，DoG算子计算公式如下：

D(x,y,σ)＝L(x,y,kσ)-L(x,y,σ) (1-1)

L(x,y,σ)＝G(x,y,σ)*I(x,y) (1-2)

其中L代表了尺度空间，I(x,y)代表图像在(x,y)处的像素值，σ是尺度空间因子，值越小表示图像被平滑的越少，相应的尺度也就越小，二维高斯核函数为：

G (x, y, σ) = \frac{1}{2 {πσ}^{2}} e^{- (x^{2} + y^{2}) / 2 σ^{2}} - - - (1 - 3)

由于DoG算子会产生较强的边缘响应，为了增强识别的稳定性和增加抗噪声的能力，需剔除低对比度的关键点和不稳定的边缘响应点。设置阈值τ＝0.02，凡是小于该阈值的关键点都需要被剔除。然后利用2×2的Hessian矩阵剔除边界点，因为即使是很小的噪声，也会使其产生不稳定的描述子。

利用关键点邻域像素的梯度方向分布特性为每个关键点确定主方向和辅助方向，由公式(1-4)得到梯度幅值和方向，将每个关键点的邻域点分配到4×4的子区域中，计算影响子区域的采样点的梯度和方向，分配到8个方向上，即每个关键点形成一个128维的特征向量。

\begin{matrix} m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}} \\ θ (x, y) = \tan^{- 1} ((L (x, y + 1) - L (x, y - 1)) / (L (x + 1, y) - L (x - 1, y))) \end{matrix} - - - (1 - 4)

b)3D SIFT特征提取

由于二维图像丢失了重要的三维信息以及容易受到光照等外界条件影响，所以本发明将SIFT扩展至3D SIFT，继承了2D SIFT的以上特点，同时由于深度信息的加入，使3D SIFT描述子能更加准确的描述物体的局部空间关系。本发明提出的3D SIFT特征提取算法主要步骤如下：关键点检测、关键点方向分配及关键点特征描述，具体如下：

1-1)关键点检测：

物体的点云模型中点坐标表示为P(x,y,z)，为实现尺度不变性，定义3D点云的尺度空间为L(x,y,z,σ)，由一个变化尺度的高斯核函数G(x,y,z,σ)与输入点云P(x,y,z)卷积得到：

L(x,y,z,σ)＝G(x,y,z,σ)*P(x,y,z) (1-5)

其中σ是尺度空间因子，三维高斯核函数为：

G (x, y, z, σ) = \frac{1}{{(\sqrt{2 π} σ)}^{3}} e^{- (x^{2} + y^{2} + z^{2}) / 2 σ^{2}} - - - (1 - 6)

利用乘法因子kⁱ得到不同尺度，若每组金字塔组内层数为s，则设置k^s＝2；构建点云高斯金字塔，用更高效的高斯差分函数(difference-of-Gaussian，DoG)代替尺度归一化的高斯拉普拉斯算子进行极值检测，得到DoG函数的极值点即为关键点；其中，DoG算子计算公式为：

D(x,y,z,kⁱσ)＝L(x,y,z,kⁱ⁺¹σ)-L(x,y,z,kⁱσ) (1-7)

其中，i∈[0,s+2]。

关键点是由DoG空间的局部极值点组成的，得到DoG函数的极值点即关键点的方法为：物体的点云模型中的每一个点P(x,y,z)与其他所有的相邻点进行比较，判断是否为该邻域范围内的极大值或极小值；其中，中间的检测点不仅要与监测点同尺度的26个点比较，还要与上下相邻尺度对应的27×2个点比较，由此检测出来的极值点即为关键点；设置阈值τ＝1.0，小于该阈值的关键点为低对比度的关键点，剔除。利用Rusu等在文献“Towards 3D object maps for autonomous household robots”(Rusu R B,Blodow N,Marton Z,Soos A,Beetz M.Towards 3D object maps for autonomous household robots.In:Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems.SanDiego,CA:IEEE,2007.3191-3198)中提出的方法判断关键点是否为边界点，若是，则剔除。

1-2)关键点方向分配：

对于每一个检测到的关键点，需要为其计算一个向量描述该关键点局部特征，该向量称为关键点处的描述子；为了使描述子具有旋转不变性，利用点云的局部特征为关键点分配一个基准方向，关键点的方向分配方法如下：

1-2-2)计算关键点P的k邻域的中心点P_c；

1-2-4)使用直方图统计k邻域内根据步骤2-3)中计算出来的向量幅值d和角度即方向，分别将分为18个子区间(bins)和36个子区间，每个子区间为10°；将幅值d作为权值，统计角度时进行高斯加权其中R_max表示关键点邻域最大半径，忽略超过该距离的点；

1-2-5)直方图的峰值代表了该关键点邻域的方向，将该方向作为关键点的主方向，为了增强匹配的鲁棒性，只保留峰值大于主方向峰值80％的方向作为该关键点的辅方向，定义对应主方向为(α,β)；

至此，检测出的含有位置、尺度和方向的关键点即是该点云的3D SIFT特征点。

1-3)关键点特征描述：

通过以上步骤，对于每一个关键点，拥有三个信息：位置、尺度以及方向。接下来就是为每个关键点建立一个描述子，用一组向量将这个关键点描述出来，使其不随各种变化而改变，比如光照变化、视角变化等；这个描述子不但包括关键点，也包含关键点周围对其有贡献的点，并且描述符应该有较高的独特性，以便于提高关键点正确匹配的概率。

2D SIFT描述子是关键点邻域高斯图像梯度统计结果的一种表示，对于三维点云模型，则是统计关键点邻域局部空间关系，计算邻域内各角度直方图，生成3D SIFT特征向量，唯一的表示此点云。表面法线是几何体表面的重要属性，法向量分布可以表达物体表面的3D几何特征，所以本发明计算3D SIFT特征向量时在步骤1-2)中计算出的向量的基础上加入法向量，更加全面的表达物体的局部空间特征。

关键点的特征描述子的生成过程如下：

1-3-1)计算关键点P的k邻域，邻域点记为P_ki，i＝{1,2…n}表示邻域点序号,n表示邻域点个数，该k邻域与关键点方向分配时邻域选择范围相同；

{(x^{'}, y^{'}, z^{'})}^{T} = (\begin{matrix} \cos α_{p} \cos β_{p} & - \sin α_{p} & - \cos α_{p} \sin β_{p} \\ \sin α_{p} \cos β_{p} & \cos α_{p} & - \sin α_{p} \sin β_{p} \\ \sin β_{p} & 0 & \cos β_{p} \end{matrix}) \cdot {(x, y, z)}^{T} - - - (1 - 9)

其中(x,y,z)和(x',y',z')分别是旋转前后邻域点的坐标，

1-3-3)计算关键点P的k邻域在点P处的法向量

1-3-4)计算向量利用公式(1-8)计算向量幅值和两个角度，同时计算法向量和向量夹角δ为：

δ = \cos^{- 1} (\overset{&RightArrow;}{{PP}_{ki}} \cdot \overset{&RightArrow;}{n} / | \overset{&RightArrow;}{{PP}_{ki}} | | \overset{&RightArrow;}{n} |) - - - (1 - 10)

2)物体描述：

本发明采用经典的BoW(Bag of Words)模型统计物体特征向量分布，用一个多维向量实现物体描述；不同于经典BoW模型利用KMeans进行聚类，本发明利用KMeans++聚类算法得到物体视觉单词库。与KMeans聚类算法相比，KMeans++聚类算法对初始聚类中心进行了改进，使得算法无论在聚类结果准确度还是运行时间上都有提升。先利用KMeans++聚类的方法得到样本聚类中心即对应的视觉单词库，再利用BoW模型，采用多维向量进行物体描述，得到样本物体的对应的2D和3D SIFT特征向量；

其中，物体描述的具体方法为：

多维向量计算方法具体为：统计在视觉单词库中，样本物体对应的2D和3D SIFT特征向量中的视觉单词出现的次数，记为(y₀y₁K y_k-2y_k-1)，其中y_l表示视觉单词center_l出现的次数，是描述物体的多维向量中的一维；其中，视觉单词出现次数的统计方法具体为：计算样本物体对应的2D和3D SIFT特征向量到center的距离，到相应center_l的距离最小的样本物体，相对应的次数y_l加1。

KMeans++聚类算法初始聚类中心的选取的基本思想是：初始的聚类中心之间的相互距离要尽可能的远。初始聚类中心选择步骤如下所示：

2-1)聚类中心集合记为center，从输入的向量集合X＝{x₁,x₂,x₃L x_n-1,x_n}中随机选择一个向量x_i∈X作为第一个聚类中心；

2-2)对于满足{x_j|x_j∈_Xcenter}的任意向量，计算其与最近聚类中心(指已选择的聚类中心)的距离D(x_j)²；

2-3)选择一个向量作为新的聚类中心，每个向量被选为聚类中心的概率P(x_j)由式(1-12)计算得到，P(x_j)最大时对应的向量即新的聚类中心；

P (x_{j}) = D {(x_{j})}^{2} / Σ_{x_{j} &Element; X^{center}} D {(x_{j})}^{2} - - - (1 - 11)

2-4)重复步骤2-2)和2-3)直到K个初始聚类中心被选出来。

得到K个初始聚类中心后执行标准的KMeans算法。通过选取不同K值进行试验对比，本发明实施例选取K＝300。

3)特征融合：

特征融合方式主要包括：数据级融合，特征级融合和决策级融合。特征级融合是针对提取的特征向量进行融合，丰富了目标物体特征，与具有庞大数据量处理的数据级融合相比，识别效果有稍微降低，但数据量大大降低，能够实现实时处理。另外一方面通过特征级融合，最能表征物体本质的有效信息能够保留，比决策级融合的有效信息丰富。但是直接针对物体不同特征描述子进行融合存在不同特征描述子个数不同，难以处理的问题，所以本方法将特征描述子利用BoW模型统计后，得到一个多维的特征向量，然后进行特征级融合，可以有效解决上述问题。

利用特征级融合的方法实现基于多特征融合的一般物体识别；对于样本O_ξ∈O，其中O是样本空间，样本O_ξ对应的2D和3D SIFT特征向量分别为Vec_2D和Vec_3D，利用特征级融合的方法进行特征融合，得到样本O_ξ的串行融合特征向量为Vec_3D2D＝(Vec_3D,Vec_2D)^T，利用串行融合特征向量实现物体描述；

4)分类器设计和训练：

目标描述完成后，利用支持向量机(Support Vector Machine,SVM)学习样本的目标类型并实现目标分类，训练分类器以构建多类分类器；SVM是一种性能良好的有监督、判别式机器学习方法，通过前期有限个样本的离线训练，在模型的复杂度和学习能力之间寻求折中，最终求得一个判别函数。

SVM是典型的两类分类器，而更多时候需要实现的是多类分类问题，本方法通过训练多个两类分类器的方法构建多类分类器解决上诉问题。目标分类的方法为：通过训练若干个两类分类器的方法构建多类分类器，具体的训练过程如下：将第i类训练样本与剩余的n-1类训练样本分别进行两两SVM训练，得到多个1V1SVM分类器，则n类训练样本共有个1V1SVM分类器。

5)基于多特征融合的一般物体的识别方法如下：

5-2)对待识别物体的两个特征向量进行特征级融合，形成新的串行融合特征向量为Vec_3D2D＝(Vec_3D,Vec_2D)^T，实现物体描述；

5-3)将串行融合特征向量输入训练好的1V1SVM多类分类器，判别函数得到对应的判别结果，通过投票得到该物体属于第i类的概率记为P(i)，i∈[1,n]，其中n表示物体总类数；

5-4)通过概率最大的值判定待识别物体对应的类class，数学公式为:

class = \arg \max_{1 \leq i \leq n} {P (i)} - - - (1 - 12)

实施例2算法流程

如图2所示为基于2D和3D SIFT特征融合的一般物体识别算法流程示意图，本发明提出的一般物体识别过程主要包括离线训练和在线识别两个阶段。下面针对流程图中训练环节和识别环节进行详细阐述。

1.训练算法流程：

1.1离线训练阶段：

1.1.1离线训练开始后，针对物体图像库中的第i类物体对应的图像p_i和物体点云库中第i类物体对应的点云pc_i,i＝1,2,K n，n表示训练样本类别数，首先提取n类训练样本对应的2D和3D SIFT特征，记为F_R＝{f_i_R,i＝1,2,K n},R∈(2D,3D)，其中，f_i_2D是m_i*128的特征向量集，f_i_3D是mc_i*128的特征向量集，其中m_i和mc_i表示对应物体2D和3D SIFT关键点数目，完成2D和3D SIFT特征提取与表示。

1.1.2利用KMeans++聚类，得到样本聚类中心即对应的视觉单词库即图像视觉单词库和点云视觉单词库，记为center＝{center_l,l＝1,2,K k}，其中k表示聚类中心数目，center_l代表视觉单词库第l个视觉单词；2D和3D SIFT特征描述子对应的聚类中心为center_2D和center_3D。

1.1.3利用BoW模型方法，得到第i类物体BoW模型，用一个多维向量描述物体。统计各训练样本特征向量中视觉单词出现的次数，记为(y₀y₁K y_k-2y_k-1)，其中y_l表示视觉单词center_l出现的次数。统计方法为：计算训练样本特征向量到center的距离，若到center_l的距离最小，则对应的y_l加1。2D和3D SIFT特征描述子对应的BoW模型特征向量为Vec_2D和Vec_3D。

1.1.4利用特征级融合实现物体描述，融合后物体特征向量为

Vec_3D2D＝(Vec_3D,Vec_2D)^T。

1.1.5最后对训练样本进行1V1SVM训练，得到对应的判别函数。本发明选择线性核SVM实现多类分类器，具体训练过程如下：对于第i类物体，令其与剩余(n-1)类物体分别进行两两SVM训练，得到多个1V1SVM分类器，则n类训练样本共有个1V1SVM分类器。

2.识别算法流程

在线识别阶段部分，对于待识别物体的图像和点云，首先完成2D和3D SIFT特征提取与表示，分别得到对应的物体图像BoW模型和点云BoW模型，然后利用特征级融合实现物体描述，最后利用训练得到的n(n-1)/2个分类器逐一预测识别结果，通过投票得到待识别物体属于第i类的概率P(i)，则最终识别类别class由式(1-12)计算得到。

实施例3实验结果

本发明实验采用的点云模型和RGB图像来自于K.lai等(RGB-D dataset.http://rgbd-dataset.cs.washington.edu/dataset.html,2011-03-05.对应的文献为K.Lai,L.-F.～Bo,X.-F～Ren,D.～Fox,A Large-Scale Hierarchical Multi-View RGB-D Object Dataset,Proc.of IEEE Int.Conf.on Robotics and Autom.,pp:1817--1824,Shanghai,China,2011.)建立的大型点云数据库，该数据库包含51类共300个物体的点云模型和RGB图像，每一个物体点云和图像都包含3个视角。实验方法：随机选取每一类中的一个物体作为测试样本，剩余物体则作为训练样本，每类训练样本选择100个，测试样本为60个，均从数据库中随机抽取。为了评估本文提出算法的性能，该部分进行了多个实验，统计多种情况下正确识别率，正确识别率计算方法：

P = \frac{n_{r}}{N} - - - (1 - 13)

其中，P表示正确识别率，n_r表示测试样本中正确识别个数，N表示总测试样本个数。

3.1实验1：3D SIFT正确识别率

本实验选取类内差异明显、类间相似度高的6类物体进行实验，分别为apple,tomato,banana,pitcher,cereal_box,kleenex。在本实验中，先对6类训练样本进行训练，然后用测试样本进行测试。在已有的众多点云特征中，PFHRGB和PFH是识别率较好的特征[Alexandre L A.3D Descriptors for Object and Category Recognition:a ComparativeEvaluation.In:Proceedings of IEEE International Conference on Intelligent Robotic Systems.Vilamoura,Portugal:IEEE,2012.Vol.Workshop on Color-Depth Camera Fusion in Robotics,1-6]。为了验证本文提出的3D SIFT特征在物体识别中的优势，在同样的条件下进行了3种特征描述子的对比试验，每种特征描述子都采用SIFTKeypoint模块检测关键点，然后分别计算关键点处不同特征描述子的特征向量，统计正确识别率，实验结果见表1。

表1各特征描述子正确识别率

PFHRGB将颜色信息融入到PFH特征描述子，由表1可知，颜色信息的引入丰富了特征信息，提升了物体正确识别率。本方法提出的3D SIFT特征描述子在识别率方面比PFH和PFHRGB分别提升了9.72％和6.94％，验证了3D SIFT特征描述子在基于点云模型的一般物体识别中的有效性。

3.2实验2：基于2D和3D SIFT特征融合的正确识别率

为了克服点云模型不能较好的表示出类间相似物体的差异性这一问题，提出了基于2D和3D SIFT特征级融合的一般物体识别方法，实验2在同样的条件下详细对比了2DSIFT、3D SIFT及两者特征级融合的正确识别率，训练样本和测试样本与实验1相同，实验结果见表2。

表2特征融合算法正确识别率

为了表示方便，用2D+3D SIFT表示2D和3D SIFT特征级融合。由表2可知，与2D SIFT相比，3D SIFT识别率提高了3.05％，可见深度信息的引入有益于实现物体识别。由于物体的多变性，单一特征提供的信息存在不精确、不确定和不完全的问题，使得单一特征算法识别率较低，2D和3D SIFT经过平均加权融合后的识别率为93.06％，比单一特征描述子的识别率有较大提升，说明本发明提出的一般物体识别算法在识别率方面有明显的优势。

3.3实验3：多种特征融合算法正确识别率

本实验给出了多种融合算法识别结果，选取类内差异明显、类间相似度高的10类物体，对2-10类进行识别实验，分别为apple,tomato,banana,pitcher,cereal_box,kleenex,camera,coffee_mug,calculator,cell_phone。共对比了4种融合算法的正确识别率，分别为：特征级融合及决策级融合中的平均加权融合、DSmT理论和Murphy规则。实验结果如图3所示。

图3中，ave表示平均加权融合，横坐标表示类别数，比如，“6”表示该次实验共包括6类物体，统计这6类物体的正确识别率。由图3可知，物体类别数增加时，(1)特征融合算法比单一特征算法有更高的正确识别率和更强的鲁棒性。4种融合算法中，平均加权融合和DSmT理论融合结果比较接近，低于另外两种融合方法；与特征级融合相比，将2D和3D SIFT及两者特征级融合的结果共3个证据源按照Murphy规则融合后的结果并没有提高，所以本文采用特征级融合的方法完成一般物体识别的任务。(2)本发明提出的3D SIFT特征描述子相对PFHRGB和2D SIFT特征描述子有更好的识别效果；(3)每种识别算法识别率都有所下降，部分原因在于分类器的设计，本发明采用的多类分类器是由多个1V1SVM分类器构造的，每一个分类器的误差都会累积到最终投票结果中。随着物体类别数的增加，1V1SVM分类器个数迅速增加，如10类物体共有45个分类器，45个分类器的判断失误累加到最终投票结果中将会造成很大程度上的识别错误。

3.4实验4：算法鲁棒性实验

为了验证本发明提出的一般物体识别算法在类内差异性大、类间相似度高的情况下仍然能够有较高的正确识别率和很好的鲁棒性，本实验对比了不同类但高相似(比如，apple和tomato)，以及同类但高差异(比如，pitcher)的物体在不同特征表示情况下的正确识别率，实验结果如图4所示。

选取pitcher类内3个不同的物体，分别为345mm高的圆形陶瓷水壶、230mm高的圆形不锈钢水壶和130mm高的圆形陶瓷水壶，该类类内差异巨大，利用PFHRGB识别pitcher类，只有70％的识别率，但此时3D SIFT能够实现96.67％的识别率。另选取apple类和tomato类样本，这两类类间相似度高，当采用其它单一特征对apple类进行识别时，其识别率较差，但3D SIFT能够实现71.67％的识别率。对比各种特征对应的识别率曲线，可以验证在类间相似度高、类内差异大的条件下，本文提出的3D SIFT特征描述子较其他特征描述子有更高的识别率，且基于2D和3D SIFT特征级融合的方法比单一特征有更好的鲁棒性。

3.5实验5：多视角实验

为了验证本方法对于视角变化的鲁棒性，对每类物体的3个视角30°、45°和60°进行对比实验，训练样本与实验1相同，从每一类测试样本的每个视角中随机选择60个作为新的测试样本，即每个视角均包含6类共360个测试样本，实验结果如图5所示。

由图5可知，与PFHRGB特征描述子相比，3D SIFT识别效果相对准确和稳定；与单一特征相比，提出的特征融合算法在视角变化时识别率维持在90％以上，验证了本方法对于视角变化的有效性和鲁棒性。

3.6实验6：尺寸缩放

该实验的目的是考察本方法对于尺度缩放的有效性，训练样本库与实验1相同，测试样本库在实验1的基础上进行缩放，分别缩放至1/2，1/3，1/4，统计此时物体识别率，

实验结果见图6。

由图6可以看出，对物体进行缩放时，本发明提出的融合算法优于单一特征识别算法。但是每一种特征描述子对应的识别正确率都有所下降，尤其是缩放至1/4时，2D SIFT特征描述子正确识别率只有49.54％，主要原因在于部分图像如苹果原始尺寸只有84*82，经过缩放后，基本上不能检测到有效关键点。而此时本文提出的特征级融合算法仍然有63.05％的正确识别率。

3.7实验7：时间复杂度

在i7-37703.4GHz CPU,64位Win7操作***的实验平台下，本实验统计了利用不同特征描述子完成识别过程耗费的时间，与实验1测试样本相同，计算平均一个物体识别所需时间，实验结果见表3。

表3不同特征描述子时间比较

点云模型相对图像来说，信息更为丰富，包含的数据量大的多，所以处理时间比较长。对本发明提出的识别算法进行时间复杂度分析，整个识别过程耗时比例最大的是特征提取和表示部分。3D SIFT特征描述子包括关键点检测和关键点特征描述两部分，若待识别物体点云数量为n，关键点检测部分时间复杂度为O(octaves·scale·k·n)，由于金字塔层数octaves、每一层的尺度scale及关键点邻域k都是常数，所以关键点检测部分时间复杂度为O(n)；计算检测到的m(m<n)个关键点的特征描述向量，时间复杂度为O(mn)，所以3D SIFT特征描述子算法时间复杂度为O(mn+n)，忽略低阶项，3D SIFT的时间复杂度为O(mn)。由表3可知，与PFHRGB相比，本发明提出的3D SIFT识别算法及融合2D和3D SIFT的识别算法平均每个测试样本耗时减少了34.75％和22.01％，提高了基于点云模型的识别算法性能。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于2D和3D SIFT特征融合的一般物体识别方法，其特征在于：包括以下步骤：

1)特征提取和表示：

2)物体描述：

3)特征融合：

4)分类器设计和训练：

5)待识别物体识别：

2.根据权利要求1所述的基于2D和3D SIFT特征融合的一般物体识别方法，其特征在于：所步骤1)中述物体点云3D SIFT特征的提取方法包括以下步骤：

1-1)关键点检测：

L(x,y,z,σ)＝G(x,y,z,σ)*P(x,y,z) (1)其中σ是尺度空间因子，变化尺度的三维高斯核函数为：

G (x, y, z, σ) = \frac{1}{{(\sqrt{2 π} σ)}^{3}} e^{- (x^{2} + y^{2} + z^{2}) / 2 σ^{2}} - - - (2)

利用乘法因子k得到不同尺度，构建点云高斯金字塔，若每组金字塔组内层数为s，则设置k^s＝2；利用高斯差分DoG函数进行极值检测，得到DoG函数的极值点即为关键点；DoG算子计算公式为：

D(x,y,z,kⁱσ)＝L(x,y,z,kⁱ⁺¹σ)-L(x,y,z,kⁱσ) (3)

其中，i∈[0,s+2]；

1-2)关键点方向分配：

1-2-1)计算关键点P的k邻域，邻域点记为P_ki，i＝{1,2…n}表示邻域点序号，其中n表示邻域点个数；

1-2-2)计算关键点P的k邻域的中心点P_c；

d = \sqrt{x^{2} + y^{2} + z^{2}}

θ＝sin^-1(z/d) (4)

1-2-4)使用直方图统计k邻域内根据所述步骤1-2-3)中计算出来的向量幅值d和角度即方向，分别将分为18个子区间和36个子区间，每个子区间为10°；将幅值d作为权值，统计角度时进行高斯加权其中R_max表示关键点邻域最大半径，忽略超过该距离的点；

1-3)关键点特征描述：

关键点的特征描述子的生成过程如下：

{(x^{'}, y^{'}, z^{'})}^{T} = (\begin{matrix} \cos α_{p} \cos β_{p} & - \sin α_{p} & - \cos α_{p} \sin β_{p} \\ \sin α_{p} \cos β_{p} & \cos α_{p} & - \sin α_{p} \sin β_{p} \\ \sin β_{p} & 0 & \cos β_{p} \end{matrix}) \cdot {(x, y, z)}^{T} - - - (5)

其中(x,y,z)和(x',y',z')分别是旋转前后邻域点的坐标，

1-3-3)计算关键点P的k邻域在点P处的法向量

δ = \cos^{- 1} (\overset{&RightArrow;}{{PP}_{ki}} \cdot \overset{&RightArrow;}{n} / | \overset{&RightArrow;}{{PP}_{ki}} | | \overset{&RightArrow;}{n} |) - - - (6)

1-3-6)归一化特征向量：对于特征向量F＝{f₁,f₂,L f₁₂₈}，归一化之后为L＝{l₁,l₂,L l₁₂₈}，其中至此，生成关键点的3D SIFT特征描述子。

3.根据权利要求1所述的基于2D和3D SIFT特征融合的一般物体识别方法，其特征在于：所述步骤2)中物体描述的具体方法为：

利用KMeans++聚类方法，得到样本聚类中心即对应的视觉单词库，记为center＝{center_l,l＝1,2,K k}，其中k表示聚类中心数目，center_l代表视觉单词库中的第l个视觉单词；再利用BoW模型方法，用一个多维向量进行物体描述。

4.根据权利要求1所述的基于2D和3D SIFT特征融合的一般物体识别方法，其特征在于：所述步骤4)中，目标分类的方法为：通过训练若干个两类分类器的方法构建多类分类器，具体的训练过程如下：将第i类训练样本与剩余的n-1类训练样本分别进行两两SVM训练，得到多个1V1SVM分类器，则n类训练样本共有个1V1SVM分类器。

5.根据权利要求2所述的基于2D和3D SIFT特征融合的一般物体识别方法，其特征在于：所述步骤1)中，得到所述DoG函数的极值点即关键点的方法为：

6.根据权利要求1所述的基于2D和3D SIFT特征融合的一般物体识别方法，其特征在于：所述步骤3)中，对于样本O_ξ∈O，其中O是样本空间，所述样本O_ξ对应的2D和3D SIFT特征向量分别为Vec_2D和Vec_3D，得到所述样本O_ξ的串行融合特征向量为Vec_3D2D＝(Vec_3D,Vec_2D)^T，利用所述串行融合特征向量实现物体描述。

7.根据权利要求1所述的基于2D和3D SIFT特征融合的一般物体识别方法，其特征在于：所述步骤5)中，得到所述待识别物体的识别结果的具体方法为：

5-4)通过概率最大的值判定所述待识别物体对应的类class，数学公式为：

class = \arg \max_{1 \leq i \leq n} {P (i)} - - - (7)