CN103049763B

CN103049763B - 一种基于上下文约束的目标识别方法

Info

Publication number: CN103049763B
Application number: CN201210524038.XA
Authority: CN
Inventors: 王岳环; 刘畅; 陈君灵; 王军; 宋萌萌; 颜小运
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2012-12-07
Filing date: 2012-12-07
Publication date: 2015-07-01
Anticipated expiration: 2032-12-07
Also published as: CN103049763A

Abstract

本发明公开了一种基于上下文约束的目标识别方法，属于遥感图像处理领域，用于遥感图像场景分类及目标的检测识别。该方法首先对图像进行滤波处理，然后进行区域分割，将图像分割为多个连通域，并对每个连通域进行标记，其次，计算每个连通域的特征向量，并输入到事先训练好的分类器中进行场景分类计算，输出类别标记图，接着，在此基础上，根据需要识别的目标，在标记图上划定目标可能存在的局部区域范围，并对该局部区域进行预处理操作，在该区域内计算感兴趣区域，最后，提取特征，并输入到分类器中进行识别。本发明提供了一种快速、有效的场景分类方法，旨在为目标识别提供有效的上下文约束，提高识别效率和准确率。

Description

一种基于上下文约束的目标识别方法

技术领域

本发明属于遥感图像处理领域，更具体地，涉及一种基于上下文约束的目标识别方法。

背景技术

遥感图像的目标检测及识别以其重要的军事和民用价值，在近几年来得到了飞速发展。然而由于卫星遥感图像数据量大，利用人工逐一分析并提取感兴趣信息是一项艰苦且耗时的任务，这就迫切需要我们利用计算机辅助技术来对遥感图像进行分析。

自动目标识别是其中一个重要且具有挑战性的研究方向。目前针对这一问题，研究方法主要是以提供目标模板或建立目标模型，在全图范围内进行搜索匹配为主，这类方法在图像较小时通常比较适用且效果良好，但是对于大尺度的遥感图像来说，其计算量大，速度慢。而对遥感图像进行场景分类则是一种十分有效地解决目标识别问题的方法。

遥感图像存储了大量丰富的信息，图像结构复杂，既包括地形、植被、水纹等自然特征，有包括了建筑物和道路等这样的人工地物，为目标识别造成了一定的困难。此外，在目标识别任务中，我们可以发现，感兴趣目标往往依赖于特定的地物类型，因此，通过事先对遥感图像进行场景分类，可以为目标识别提供上下文信息，缩小感兴趣区域范围，提高识别效率和准确率。

近年来，随着模式识别技术的发展，用于场景分类的新的理论和方法技术相继涌现。如神经网络和决策树的分类精度一般都高于最大似然法，然而它们都不是稳定的分类器；如将模糊理论引入神经网络的方法，可以通过构造遥感模糊分类模型，根据隶属度大小划分类别，但是关于隶属度函数的确定，至今没有成熟的理论和法则，往往需要专家经验，具有主观性，是模糊分类方法最大的缺点。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于上下文约束的目标识别方法，针对的目标为自然场景中的人造建筑物，通过对遥感图像进行基于mean-shift与改进LBP特征的快速场景分类，为目标识别提供有效的上下文约束信息，并根据目标在场景中与背景的空间位置依存关系，在特定场景区域内提取特征，识别感兴趣目标，提高目标识别效率和准确率。

为实现上述目的，本发明提供了一种基于上下文约束的目标识别方法，包括以下步骤：

(1)接收遥感目标图像，利用RGB将其转化为灰度图像，并利用mean-shift方法对灰度图像进行区域分割，以生成初始分割图像：

(2)采用区域生长法对初始分割图像进行标记，使得输出结果中所有的点都是由1～N中的某个值进行标记，该值表示该点所在连通域的序号，同一个连通域内使用相同的标记值，不同连通域使用不同的标记值，其中N表示输出连通域的个数；

(3)根据步骤(2)的标记结果采用改进LBP算法对灰度图像进行场景分类；

(4)根据步骤(3)获得的场景类别标记图，采用基于场景上下文约束的方法计算感兴趣区域。

(5)根据步骤(4)中的感兴趣区域结果，计算每个感兴趣区域内的特征向量。

(6)将上述步骤(5)中得到的特征向量输入到预先训练好的分类模型中，输出分类结果，识别目标。

步骤(1)具体包括以下子步骤：

(1-1)对灰度图像进行mean-shift滤波，并存储滤波后灰度图像的所有n个像素点(z₁,z₂,...z_n)在d维空间的收敛点(y_1,c,z_2,c,...z_n,c)，其中d为正整数；

(1-2)选取像素点集合(z₁,z₂,...z_n)中在空间域中小于阈值h_s且在频域中小于阈值h_r的m个像素点，生成一个联合域集合(C₁,C₂,...C_m)，其中h_s为正整数，表示在图像平滑时采用的空间域带宽大小，h_r为正的浮点数类型，表示图像平滑时采用的值域带宽；

(1-3)为n个像素点分别分配标记值(L₁,L₂,...L_n)，对于n个像素点中的第i个像素点，须满足当L_i等于(1,2…m)中的一个元素p时，有z_i∈C_p；

(1-4)去除空间域上图像区域大小小于M的图像区域，并将其合并至相邻区域中，以形成N个连通域，N个连通域形成初始分割图像I_Seg；其中M值表示初始分割图像中每个区域的最小像素个数，且N≤m；

(1-5)输出初始分割图像I_Seg及连通域个数N。

步骤(2)具体包括以下子步骤：

(2-1)为初始分割图像I_Seg建立二维标记矩阵M_h×w，大小为h×w，初始化二维标记矩阵M_h×w中的每个元素为0，并初始化二维标记矩阵中的连通域标记号k＝0，其中h表示初始分割图像I_Seg的高度，w表示初始分割图像I_Seg的宽度，且0＜k≤N；

(2-2)对二维标记矩阵M_h×w进行逐行逐列扫描，以判断是否查找到一个零元素，其在矩阵M中的行列号分别为i和j，若查找到则表示在初始分割图像I_Seg中存在有未标记的像素点，并进入步骤(2-3)，否则继续扫描，当扫描到最后一个元素时，进入步骤(2-6)；

(2-3)设置k＝k+1，并设置M(i,j)＝k；

(2-4)在二维标记矩阵M_h×w中以(i，j)为中心点进行8邻域搜索，以判断是否查找到一个零元素，其在矩阵M中的行列号分别为x和y，如果有则进入步骤(2-5)，否则继续搜索，若搜索结束，则返回步骤(2-2)；

(2-5)在初始分割图像I_Seg中判断坐标为(x，y)的像素点的值是否和坐标为(i，j)的像素点的值相等，如果相等，则设置M(x,y)＝k，返回步骤(2-4)；

(2-6)最终生成一个由1～N中的值标记的二维矩阵M，M中每个元素(i,j)的值p表示在原灰度图像中像素点(i,j)属于第p个连通域Region_p，其中1≤p≤N。

步骤(3)具体包括以下子步骤：

(3-1)以模板窗口的方式遍历灰度图像，以计算该窗口内的LBP值，即LBP_u,v，其中u,v为该3×3窗口内中心像素点的位置，并计算全图中所有像素点的LBP值；

(3-2)统计步骤(2)中获得的初始分割图像I_Seg中每个连通域Region_p内的LBP直方图Hist_LBP，横坐标x为LBP值，范围为0～255，纵坐标为该连通域Region_p内LBP＝x出现的次数；

(3-3)对LBP直方图进行归一化，使得设

Total = Σ_{x = 0}^{255} Hist (x),

执行

Hist (x) = \frac{Hist (x)}{Total} 100 %,

其中x表示该LBP直方图的横坐标，Hist(x)为该LBP直方图的纵坐标；

(3-4)统计步骤(2)中获得的初始分割图像I_Seg中每个连通域Region_p内的灰度直方图Hist_Gray，其中该直方图Hist_Gray的横坐标为原灰度图像的灰度值，范围在0～255之间，纵坐标为当前连通域内该灰度值出现的次数，并以步骤(3-3)中的方式将其归一化至0～1之间；

(3-5)合并直方图Hist_LBP和Hist_Gray，组成为Hist_LBP-Gray，0～255之间为原Hist_LBP中归一化后的统计频次，256～511之间为原Hist_Gray中归一化后的统计频次；

(3-6)将Hist_LBP-Gray转化为512维特征向量Vec_Rp，表示该连通域Region_p内的特征表达式，其中每一维的值对应于原直方图中的y值；

(3-7)将特征向量输入至事先训练好的分类模型M中，预测并输出当前区域的场景类别；

(3-8)使用对应的场景类别号标记该区域Region_p内的所有像素点；

(3-9)根据上述步骤计算所有的连通域获得每个区域的场景类别，并输出最终的场景类别标记图。

步骤(4)具体包括以下子步骤：

(4-1)将待识别目标可能存在的场景类别区域作为前景区域，其他场景类别区域作为背景区域，分割步骤(3)中获得的标记图，将前景区域内的像素值使用灰度值255替换，背景区域的像素值采用灰度值0替换，获得二值图I_Thresh；

(4-2)对上述步骤(4-1)中的获得的二值图I_Thresh进行预处理操作；具体为对二值图I_Thresh中的255所在的局部区域进行先膨胀后腐蚀的操作，并获得新的二值图I_Thresh-new；

(4-3)根据步骤(4-2)中得到的二值图I_Thresh-new，对原始灰度图像进行感兴趣区域计算，即在二值图I_Thresh-new中灰度值为255对应的区域，找到原始灰度图像中对应的位置区域，并计算该区域内的边缘线段特征，得到线特征图I_line；

(4-4)根据二值图I_Thresh-new中灰度值为255的区域，在线特征图I_line对应区域内滑动一定的矩形框大小，以50个像素为步长，计算线段长度，统计每个矩形框内的线段密度分布。

步骤(5)具体为，对步骤(5)中提取的感兴趣区域，根据空间关系计算每个感兴趣区域内的线段特征，构成几何结构，并采用特征袋方式组合产生特征向量。

步骤(6)具体为，以步骤(5)中的特征提取算法计算得到特征向量，并输入到SVM分类器中进行训练，生成分类模型，然后，再将当前计算得到的特征向量输入到该分类模型中，计算得到目标类别。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下的有益效果：

1、目标识别准确率高：由于采用了步骤(3)和步骤(4)，在场景分类的基础上，获得目标可能存在的局部范围，并在局部范围内进行感兴趣区域计算和特征表达，因此可以有效地降低虚警率，并快速定位目标。

2、目标识别效率高：由于采用了步骤(1)、(2)、(3)，采用了先进行区域分割后计算LBP特征向量的方法对图像进行场景分类，这是一种面向对象的场景分类方法，相比于基于像素的场景分类方法算法效率更高，计算速度更快，并且LBP纹理特征提取算法简单，计算复杂度低。因此本发明中的场景分类方法效率较高，在此基础上也有效地提高了目标识别的效率。

附图说明

图1是本发明基于上下文约束的目标识别方法的总体流程示意图。

图2是本发明场景分类算法流程图。

图3是本发明方法中图像标记算法流程图。

图4是四类自然场景的LBP纹理特征提取图及直方图统计示意图。

图5是结合灰度信息的改进LBP直方图统计示意图。

图6是桥梁测试样本的识别过程及中间结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下首先对本发明用到的术语进行解释和说明。

Mean-shift分割算法：即均值漂移法，一般指一个迭代的步骤，即先算出当前点的偏移均值，移动该点到其偏移均值，然后以此为新的起始点，继续移动，直到满足一定的条件结束。在图像平滑和分割中，运用了图像像素信息，分割图像的具体空间坐标。一幅图像可以表示成一个二维网格点上p维向量，每个网格点代表一个像素，p＝1表示这是一个灰度图，p＝3表示彩色图，p>3表示一个多谱图，网格点的坐标表示图像的空间信息。统一考虑图像的空间信息和色彩(或灰度)信息，组成一个p+2维的向量，x＝(x^s,x^r)，其中x^s表示网格点的坐标，x^r表示该网格点上p维向量特征。

用核函数来估计x的分布，它具有如下形式：

K_{h_{s}, h_{r}} = \frac{C}{{h_{s}}^{2} {h_{r}}^{p}} k ({| | \frac{x^{s}}{h_{s}} | |}^{2}) k ({| | \frac{x^{r}}{h_{r}} | |}^{2})

其中h_s,h_r控制着平滑的解析度，C是一个归一化常数。分别用x_i和z_i,i＝1,…,n表示原始和平滑后代图像，用mean-shift算法进行图像平滑的具体步骤如下：

对每一个像素点，首先初始化j＝1，并且使y_i,1＝x_i；然后运用mean-shift算法计算y_i,j+1，直到收敛，记收敛后的值为y_i,c；最后，赋值

在mean-shift的图像平滑中，h_s,h_r是非常重要的参数，人们可以根据解析度的要求而直接给定，不同h_s,h_r会对最终的平滑结果有一定的影响。基于mean-shift的图像分割与平滑非常相似，只要把收敛到同一点的起始点归为一类，然后把这一类的标号赋给这些起始点，在图像分割中有时还需要把包含像素点太少的类去掉。

LBP算法：Local Binary Pattern，局部二值模式，是一种用来描述图像纹理特征的算子，可以归类到统计分析方法中。它是一种在灰度范围内有效的纹理描述算子，原始LBP算子定义在3×3窗口中，以窗口中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0，并将得到的8位二进制数转化为十进制数，得到该窗口内中心像素点的LBP值计算得到每个像素点的LBP值后，统计得到相应的LBP直方图，来表示该区域的纹理分布特征。

SVM分类器：Support Vector Machine，支持向量机，原理是将低维空间中的点映射到高维空间中，使它们成为线性可分的。再使用线性划分的原理来判断分类边界，并从最优化问题(寻找某个目标的最优解)的角度来考虑的。实例中，通过SVM分类器的训练和分类，可以将具有不同特征的场景类别或目标类型有效地分类。

BOF：Bag of Feature，即特征袋，一种高级特征向量表述方式，将各类目标所表现出来的复杂模式分解成一些简单基本子模式的组合，称这些基本的子模式为原始基元；组合原始基元构成特征袋的码书，统计原始基元即码字的频数得到特征向量。这种方法能保证目标的特征向量表达不受到平移变换和旋转变换的影响。

如图1所示，本发明基于上下文约束的目标识别方法包括以下步骤：

具体包括以下子步骤：

(1-2)选取像素点集合(z₁,z₂,...z_n)中在空间域中小于阈值h_s且在频域中小于阈值h_r的m个像素点，生成一个联合域集合(C₁,C₂,...C_m)，其中h_s为正整数，表示在图像平滑时采用的空间域带宽大小，空间域带宽越大，参与运算的采样点越多，被平滑的像素值距离原始值的偏离也越大，而h_r为正的浮点数类型，表示图像平滑时采用的值域带宽，值域带宽越大，图像平滑程度越高，平滑图像与原始图像的颜色偏差越大，这两个值可根据经验或多次实验选取；

(1-4)去除空间域上图像区域大小小于预设的最小像素数M的图像区域，并将其合并至相邻区域中，以形成N个连通域，N个连通域形成初始分割图像I_Seg；其中M值表示初始分割图像中每个区域的最小像素个数，可根据使用需要选取其大小，且N≤m；

(1-5)输出初始分割图像I_Seg及连通域个数N；

本发明中的场景分类算法，是为目标识别提供上下文信息的，因此更关注的是大范围的、用户感兴趣的场景区域，而对那些零散的、碎小的，包含在其他大区域中的小区域可以忽略。在使用mean-shift进行图像区域分割时，使用了较大的阈值参数进行计算，不仅提高了效率，也有利用后续计算。在本实例中，设定空间域带宽h_s为7，频域带宽h_r为6.5，预设的最小像素数M为6000。

(2)采用区域生长法对初始分割图像进行标记；

经过mean-shift算法计算后，可获得有多个连通域组成的灰度图，同一连通域内具有相同的灰度值，相邻连通域之间使用不同的像素值标记，同时输出连通域个数N。在本实施方式中，采用8邻域区域生长法对分割结果的连通域进行标记，使得输出结果中所有的点都是由1～N中的某个值进行标记，该值表示该点所在连通域的序号，同一个连通域内使用相同的标记值，不同连通域使用不同的标记值。

如图3所示，本步骤包括以下子步骤：

(2-3)设置k＝k+1，并设置M(i,j)＝k；

本发明中，主要考虑了与感兴趣目标关联较大的四类场景：植被区、建筑区、水域、沙地，分别使用标记号0、1、2、3来表示。

如图2所示，本步骤包括以下子步骤：

(3-1)以模板窗口的方式遍历灰度图像，以计算该窗口内的LBP值，即LBP_u,v，其中u,v为该3×3窗口内中心像素点的位置，并计算全图中所有像素点的LBP值；在本实施方式中，采用的是3×3模板；

(3-2)如图4所示，统计步骤(2)中获得的初始分割图像I_Seg中每个连通域Region_p内的LBP直方图Hist_LBP，横坐标x为LBP值，范围为0～255，纵坐标为该连通域Region_p内LBP＝x出现的次数；

(3-3)对LBP直方图进行归一化，使得设

Total = Σ_{x = 0}^{255} Hist (x),

执行

Hist (x) = \frac{Hist (x)}{Total} 100 %,

(3-5)如图5所示，合并直方图Hist_LBP和Hist_Gray，组成为Hist_LBP-Gray，0～255之间为原Hist_LBP中归一化后的统计频次，256～511之间为原Hist_Gray中归一化后的统计频次；

(3-9)根据上述步骤计算所有的连通域获得每个区域的场景类别，并输出最终的场景类别标记图，该标记图中分别使用值0、1、2、3表示植被区、建筑区、水域、沙地这四类场景所在的像素点的像素值。

由上述步骤可知，分类计算之前，需要事先对这些场景类别进行训练并生成一个有效的分类模型，实例中，从GoogleEarth上下载并提取了这四类场景的大量样本图，每类样本120个，每个样本大小为40*40。对每个样本计算上述步骤中的特征向量Vec_Rp，使用SVM多类分类器进行训练，生成分类模型M。

本步骤包含以下子步骤：

(4-1)将待识别目标可能存在的场景类别区域作为前景区域，其他场景类别区域作为背景区域，分割步骤(3)中获得的标记图，将前景区域内的像素值使用灰度值255替换，背景区域的像素值采用灰度值0替换，获得二值图I_Thresh；以桥梁目标识别为例，桥梁一般都位于河流上且两端和陆地连接；因此，在识别桥梁目标时，需要事先获取特定地物类型，即为步骤(3)中获取的水域区域；只在水域区域内计算特征，而避免了全图范围内的计算，可大大提高算法效率和识别准确率；

(4-2)对上述步骤(4-1)中的获得的二值图I_Thresh进行预处理操作；具体为对二值图I_Thresh中的255所在的局部区域进行先膨胀后腐蚀的操作，并获得新的二值图I_Thresh-new；因为在区域分割过程中，可能会存在部分区域的截断、遗漏现象，如桥梁目标识别过程中，场景分类结果可能会将桥梁目标归类为建筑物目标，而与两岸陆地连接到一起，从而导致河流区域被截断，势必会在一定程度上影响上下文信息的判断；因此本实例中采用对局部区域进行预处理操作，消除这种现象，以便更好地利用上下文信息；

(4-3)根据步骤(4-2)中得到的二值图I_Thresh-new，对原始灰度图像进行感兴趣区域计算；在本实例中，以桥梁目标为例，作为人工建造物，桥梁表现了较多的线段特征，因此，可在二值图I_Thresh-new中灰度值为255对应的区域，找到原始灰度图像中对应的位置区域，并计算该区域内的边缘线段特征，得到线特征图I_line；

(4-4)根据二值图I_Thresh-new中灰度值为255的区域，在线特征图I_line对应区域内滑动一定的矩形框大小(5m分辨率下，采用150*150像素大小的矩形框)，以50个像素为步长，计算线段长度，统计每个矩形框内的线段密度分布；以此方法记录并统计该局部矩形框区域内的所有线段密度，取密度最大的5个矩形框作为最终的感兴趣区域，即为ROI_z，其中z＝0,1,...,5；

具体而言，以桥梁目标为例，桥梁目标处提取的线特征表现了较明显的平行线特征，并且桥梁线段与陆地一般都与陆地连接。实例中，对步骤(5)中提取的感兴趣区域，根据空间关系计算每个感兴趣区域内的线段特征，构成几何结构，并采用特征袋(bag of feature)方式组合产生特征向量。

(6)将上述步骤(5)中得到的特征向量输入到预先训练好的分类模型中，输出分类结果，识别目标；

具体而言，首先需训练好目标识别所需的分类器；以桥梁目标为例，提取100幅以桥梁为中心，包含少量背景的样本图像，取图像分辨率为5m，大小为400*400，以及100幅没有桥梁的背景样本，以同样大小，同样分辨率，以步骤(5)中的特征提取算法计算得到特征向量，并输入到SVM分类器中进行训练，生成分类模型。然后，再将当前计算得到的特征向量输入到该分类模型中，计算得到目标类别，其中桥梁测试样本的识别过程及中间结果如图6所示。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于上下文约束的目标识别方法，其特征在于，包括以下步骤：

(1)接收遥感目标图像，利用RGB将其转化为灰度图像，并利用mean-shift方法对灰度图像进行区域分割，以生成初始分割图像；

(3)根据步骤(2)的标记结果采用改进LBP算法对灰度图像进行场景分类；本步骤具体包括以下子步骤：

(3-3)对LBP直方图Hist_LBP进行归一化，使得设执行其中x表示该LBP直方图的横坐标，Hist(x)为该LBP直方图的纵坐标；

(3-9)根据上述步骤计算所有的连通域获得每个区域的场景类别，并输出最终的场景类别标记图；

(4)根据步骤(3)获得的场景类别标记图，采用基于场景上下文约束的方法计算感兴趣区域；

(5)根据步骤(4)中的感兴趣区域结果，计算每个感兴趣区域内的特征向量；

2.根据权利要求1所述的目标识别方法，其特征在于，步骤(1)具体包括以下子步骤：

(1-5)输出初始分割图像I_Seg及连通域个数N。

3.根据权利要求1所述的目标识别方法，其特征在于，步骤(2)具体包括以下子步骤：

(2-3)设置k＝k+1，并设置M(i,j)＝k；

(2-6)最终生成一个由1～N中的值标记的二维矩阵M，M中每个元素 (i,j)的值p表示在原灰度图像中像素点(i,j)属于第p个连通域Region_p，其中1≤p≤N。

4.根据权利要求1所述的目标识别方法，其特征在于，步骤(4)具体包括以下子步骤：

5.根据权利要求1所述的目标识别方法，其特征在于，步骤(5)具体为，对步骤(5)中提取的感兴趣区域，根据空间关系计算每个感兴趣区域内的线段特征，构成几何结构，并采用特征袋方式组合产生特征向量。

6.根据权利要求1所述的目标识别方法，其特征在于，步骤(6)具体为，以步骤(5)中的特征提取算法计算得到特征向量，并输入到SVM分类器中进行训练，生成分类模型，然后，再将当前计算得到的特征向量输入到该分类模型中，计算得到目标类别。