CN108090485A

CN108090485A - 基于多视角融合的图像前景自动提取方法

Info

Publication number: CN108090485A
Application number: CN201711216652.9A
Authority: CN
Inventors: 王敏; 马宏斌; 侯本栋
Original assignee: Xidian University; Kunshan Innovation Institute of Xidian University
Current assignee: Xidian University; Kunshan Innovation Institute of Xidian University
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2018-05-29

Abstract

本发明公开了一种基于多视角融合的图像前景自动提取方法，主要解决现有基于技术提取过程繁琐和提取前景边缘不精确的问题。其实现方案是：先对SVM分类器进行训练，再获取待提取图像的灰度图像；通过训练好的SVM分类器在灰度图像中检测包含前景的子图像；将子图像在待提取图像中的位置坐标作为GrabCut算法的输入，对待提取图像进行前景提取，得到待提取图像的像素视角下的提取结果；以SLIC算法对待提取图像生成超像素视角下的图像；将超像素视角下的图像和像素视角下的提取结果进行融合，得到待提取图像前景提取结果。本发明简化了前景提取过程，提高了提取的效率和精度，可用于立体视觉、图像语义识别，三维重建和图像搜索。

Description

基于多视角融合的图像前景自动提取方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种基于多视角融合的图像前景自动提取方法，本发明可用于立体视觉、图像语义识别，图像搜索等的应用与研究。

背景技术

前景提取是一种在图像中提取感兴趣目标的手段。它把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程，并且已经成为从图像处理到图像分析的关键步骤。具体解释为根据灰度、颜色、纹理和形状等特征把图像划分成若干互补交叠的区域，并使这些特征在同一区域内呈现出相似性，而在不同区域间呈现出明显的差异。经过了几十年的发展与变化，前景提取逐步形成了自己的科学体系，新的提取方法层出不穷，已然成为了一个跨学科的领域，并且引起了各个领域的研究人员和应用人士的广泛关注，如医学领域，航空航天遥感领域，工业检测，安防与军事领域等。

当前前景提取方法主要包括基于阈值的前景提取方法、基于边缘的前景提取方法、基于区域的前景提取方法、基于图切割的前景提取方法、基于能量泛函的前景提取方法和基于深度学习的图像前景提取方法等。其中基于图切割的前景提取方法因为提取精度高，操作简单而受到青睐，基于图切割的前景提取方法是一种基于图论的组合优化方法,根据用户的交互信息，它将一幅图像映射成一个网络图，并建立关于标号的能量函数，运用最大流最小割算法对网络图进行有限次的迭代切割，得到网络图的最小割，作为图像的前景提取结果。但是因为人机交互的存在，对多幅图像进行提取时，人工操作量太大，限制了其在工程中的应用。例如，Meng Tang等人2013年在2013IEEE International Conference onComputer Vision上发表的《GrabCut in One Cut》，通过用户选择前景区域，然后将前景所在区域映射为图，通过One Cut对映射图进行有限次迭代切割，获得图像的前景提取结果，但是需要人机交互标定前景所在区域，导致前景提取过程比较繁琐，而且有限次的能量迭代优化只能获得较优解的最小割，难以得到精确的前景边缘。

发明内容

本发明的目的在于针对上述已有技术的不足，提出了一种基于多视角融合的图像前景自动提取方法，用于解决现有基于图切割的前景提取方法中，因为人机交互的存在导致的前景提取过程比较繁琐和有限次的能量迭代优化导致的前景边缘不精确的问题。

为实现上述目的，本发明采取的技术方案包括如下：

(1)对SVM分类器进行训练，得到训练好的SVM分类器；

(2)对待提取图像进行灰度化，得到灰度图像；

(3)通过训练好的SVM分类器，在灰度图像中检测包含前景目标的子图像p_k；

(3a)采用多尺度窗口，按照设定的间隔在灰度图像中进行逐行滑动，得到由多个子图像组成的图像集P＝{p₁,p₂,...p_k,...,p_q}，其中，k∈[1,q],p_k为第k个子图像，q为子图像的数量；

(3b)提取图像集P中各子图像p_k的方向梯度直方图HOG特征，并将其输入到训练好的SVM分类器中进行分类，计算得到子图像p_k的标签l_pk；

(3c)判断子图像p_k的标签l_pk是否为正，若是，则子图像p_k包含前景目标，记录子图像p_k在待提取图像的位置，即子图像p_k左上角的像素在待提取图像的相应位置(x_min,y_min)和右下角的像素在待提取图像的相应位置(x_max,y_max)，执行步骤(4)，否则，丢弃图像p_k；

(4)对待提取图像进行前景提取：

采用子图像p_k左上角的像素在待提取图像的相应位置(x_min,y_min)和右下角的像素在待提取图像的相应位置(x_max,y_max)，对GrabCut算法的人机交互进行替换，并利用替换结果对待提取图像进行前景提取，得到待提取图像的像素视角下的提取结果S₁(x,y)；

(5)采用简单线性迭代聚类算法SLIC计算待提取图像的超像素，得到超像素视角下的图像：B＝{b₁,b₂,...,b_i,...,b_m}，i∈[1,m],b_i为第i个超像素，m为超像素的数量；

(6)对超像素视角下的图像B和待提取图像的像素视角下的提取结果S₁(x,y)进行多视角融合，得到待提取图像前景S₂(x_i,y_i)。

本发明与现有技术相比，具有如下优点：

1)本发明采用训练的SVM分类器获得待提取图像中前景所在的子图像，并采用子图像在待提取图像中的位置坐标替换GrabCut算法的人机交互获得的矩形区域作为算法输入，实现对待提取图像的前景提取，充分结合了SVM分类器和GrabCut算法，可以自动完成图像前景提取过程，解决了现有基于图切割的前景提取方法中，因为人机交互的存在导致的前景提取过程比较繁琐的问题，有效地提高了图像前景提取的效率。

2)本发明采用SLIC算法对待提取图像进行超像素提取，充分利用了超像素块内一致性较好的特点，通过对超像素视角下的图像和像素视角下的提取结果进行融合，可得到待提取图像的前景精确提取结果，

3)本发明通过引入超像素，使前景提取结果更加精确，平滑，解决了现有基于图切割的前景提取方法中，因为有限次的能量迭代优化导致的前景边缘不精确的问题，提高了图像前景提取的精度。

附图说明

图1是本发明的实现流程图；

图2是本发明中的样本图像集结构图；

图3是本发明中提取HOG特征的示意图；

图4是本发明中对HOG特征的可视化展示图；

图5是用本发明对行人、树叶作为前景的提取实验结果图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，基于多视角融合的图像前景自动提取方法，包括以下步骤：

步骤1，对SVM分类器进行训练。

(1a)采集含有前景类别的样本图像集，并对其中的所有样本图像进行灰度化，得到样本灰度图像集；

含有前景类别的样本图像集的结构图如图2所示，其包含正样本、负样本和样本标签文件，其中正样本为包含前景的图像，负样本为不包含前景的图像，样本标签文件用于对正样本和负样本的类别和存储位置进行说明；

所述的对样本图像集中的所有样本图像进行灰度化，是将样本图像中的三通道的红色分量R，绿色分量G，蓝色分量B，进行加权平均，得到样本图像的灰度图像灰度值Gray：

Gray＝R×0.299+G×0.587+B×0.114；

(1b)提取样本灰度图像集中各图像的方向梯度直方图HOG特征：

参照图3，本步骤的具体实现如下：

(1b1)将输入图像分为连通相邻且不重叠的若干个单元，在每个单元内计算像素的梯度幅值G(x,y)和梯度方向α(x,y)，计算公式分别为：

其中，G_x(x,y)＝H(x+1,y)-H(x-1,y)表示输入图像中像素点(x,y)处的水平方向梯度，G_y(x,y)＝H(x,y+1)-H(x,y-1)表示输入图像中像素点(x,y)处的垂直方向梯度，H(x,y)表示输入图像中像素点(x,y)处的像素值；

(1b2)将所有梯度方向α(x,y)划分为9个角度，作为直方图的横轴，每个角度范围所对应的梯度值累加作为直方图的纵轴，得到梯度直方图；

(1b3)统计每个单元的梯度直方图，得到每个单元的特征描述子；

(1b4)将8×8个单元组成一个块，串联一个块内所有单元的特征描述子，得到该块的方向梯度直方图HOG特征描述子；

(1b5)将输入图像内所有块的方向梯度直方图HOG特征描述子进行串联，得到该输入图像的方向梯度直方图HOG特征，其中方向梯度直方图HOG特征的可视化展示图如图4所示，其中图4(a)为示例样图，图4(b)示例样图的方向梯度直方图HOG特征图，由图4可见，方向梯度直方图HOG特征通过梯度或边缘方向密度很好的描述局部目标的表象和形状；

(1b6)将样本灰度图像集中所有输入图像的方向梯度直方图HOG特征进行串联，得到该样本灰度图像集的方向梯度直方图HOG特征集；

(1c)采用样本方向梯度直方图HOG特征集中所有的方向梯度直方图HOG特征对SVM分类器进行训练，得到训练好的SVM分类器。

步骤2，对待提取图像进行灰度化，得到灰度图像。

将待提取图像中的三通道的红色分量R′，绿色分量G′，蓝色分量B′三者进行加权平均，得到待提取图像中每个像素点的灰度值Gray′：

Gray′＝R′×0.299+G′×0.587+B′×0.114

根据每个像素点的灰度值得到待提取图像的灰度图像。

步骤3，利用训练好的SVM分类器，在待提取图像的灰度图像中检测包含前景目标的子图像p_i，得到子图像p_i左上角的像素在待提取图像的相应位置(x_min,y_min)和右下角的像素在待提取图像的相应位置(x_max,y_max)。

(3a)采用多尺度窗口，按照设定的间隔在待提取图像的灰度图像中进行逐行滑动，得到由多个子图像组成的图像集：P＝{p₁,p₂,...p_k,...,p_q}，其中，p_k为第k个子图像，q为子图像的数量；

(3b)提取图像集P中各子图像p_k的方向梯度直方图HOG特征，并将其输入到训练好的SVM分类器中进行分类，得到子图像p_k的标签l_pk,l_pk的计算公式为：

其中， _k为SVM分类器的超平面的第k个法向量，x_k为子图像0_k的方向梯度直方图HOG特征，k∈[1,q]，q为子图像个数，φ为SVM分类器的超平面的位移项。

(3c)判断子图像p_k的标签l_pk是否为正，若是，则子图像p_k包含前景目标，记录子图像p_k在待提取图像的位置，即子图像p_k左上角的像素在待提取图像的相应位置(x_min,y_min)和右下角的像素在待提取图像的相应位置(x_max,y_max)，并用子图像p_i左上角的像素在待提取图像的相应位置(x_min,y_min)和右下角的像素在待提取图像的相应位置(x_max,y_max)，组成包含前景的矩形区域，执行步骤4，否则，丢弃子图像p_k。

步骤4，对待提取图像进行前景提取。

前景提取方法主要包括基于阈值的前景提取方法、基于边缘的前景提取方法、基于区域的前景提取方法、基于图切割的前景提取方法、基于能量泛函的前景提取方法和基于深度学习的图像前景提取方法等。本实例采用但不局限于基于图切割的前景提取方法中基于GrabCut算法进行前景提取，其具体实现是：采用子图像p_i左上角和右下角的像素在待提取图像的相应位置(x_min,y_min)，(x_max,y_max)和待提取图像作为GrabCut算法的输入，对待提取图像进行前景提取，得到待提取图像的像素视角下的提取结果S₁(x,y)。

步骤5，计算待提取图像的超像素。

计算待提取图像的超像素，现有方法包括基于图论的方法和基于梯度下降的方法；本实例采用但不局限于基于梯度下降的方法中基于SLIC算法进行超像素提取；具体步骤如下：

(5a)将待提取图像从RGB颜色空间转换到CIE-Lab颜色空间，得到CIE-Lab图像；

所述的待提取图像从RGB颜色空间转换到CIE-Lab颜色空间，其中在RGB和LAB之间没有直接的转换公式，其必须用XYZ颜色空间作为中间层，转换公式为：

其中，r,g,b为待提取图像像素的三个通道分量，R,G,B是r,g,b经过校正函数gamma(t)校正之后的三个通道分量，

由RGB颜色空间到XYZ颜色空间的转换公式得到XYZ颜色空间的X,Y,Z三个通道分量；其转换公式为：

其中，为一个3×3的矩阵；

在CIE-Lab颜色空间中，由XYZ颜色空间到CIE-Lab颜色空间转换公式得到CIE-Lab颜色空间L，a，b三通道的值，其转换公式为：

L＝116f(Y/Y_n)

b＝500(f(X/X_n)-f(Y/Y_n))

a＝200(f(Y/Y_n)-f(Z/Z_n))

其中，X，Y，Z为RGB颜色空间向XYZ颜色空间转换后的三通道分量；X_n，Y_n，Z_n取值分别为95.047，100.0，108.883；f(X/X_n)，f(Y/Y_n)，f(Z/Z_n)通过如下函数计算出：

(5b)初始化超像素的聚类中心：设定超像素个数m＝200，在CIE-Lab图像内按照超像素个数均匀的分配超像素聚类中心，得到聚类中心集其中，为第d次迭代后的第i个聚类中心，共m个，其中，l_i,a_i,b_i为CIE-Lab颜色空间的三个通道，(x_i,y_i)为b_i坐标；

(5c)对CIE-Lab图像的每一个像素pixel，设置标签l(pixel)＝-1和距离d(pixel)＝∞；

(5d)分别计算聚类中心集C^d中聚类中心的3×3邻域内所有像素点的梯度值，并将聚类中心移到该领域内梯度最小的像素点上，获得新的聚类中心集C^d+1；

(5e)对于聚类中心集C^d中每一个聚类中心的2S×2S内的每一个像素pixel＝[l_p,a_p,b_p,x_p,y_p]，计算与pixel的距离D(pixel)：

其中为像素点间的颜色差异，

为像素点间的空间距离，

M为d_c的最大值，N为图像所有像素点个数，m为设定的超像素个数；

(5f)比较d(pixel)与D(pixel)的大小，如果D(pixel)＜d(pixel)，则将D(pixel)赋值给d(pixel)，设d(pixel)＝D(pixel)，即用d(pixel)记录该像素到聚类中心的距离，并用该像素标签l(pixel)标记该像素属于第i个超像素，l(pixel)＝i，得到新的超像素b_i；

(5g)重复执行步骤(5d)～(5f)，更新聚类中心，直到残余误差收敛，得到超像素图像B＝{b₁,b₂,...,b_i,...,b_m}。

步骤6，对超像素视角下的图像和待提取图像的像素视角下的提取结果S₁(x,y)进行多视角融合，得到待提取图像前景S₂(x_i,y_i)。

(6a)对超像素视角下的图像B的超像素b_i包含的所有像素在像素视角下的提取结果S₁(x,y)中的标签l_ij进行加权，得到超像素b_i的标签置信度Score_bi：

Score_bi＝∑l_ij；

(6b)设定置信度阈值gate，将置信度阈值gate与超像素b_i的标签置信度Score_bi进行比较，得到超像素b_i视角下的标签l_bi，并将该标签l_bi作为像素点(x_i,y_i)的标签S₂(x_i,y_i)，超像素b_i内的所有像素的标签与超像素的标签相同，S₂(x_i,y_i)即为待提取图像前景，其中(x_i,y_i)∈b_i；

所述的设定置信度gate越小，则超像素b_i判为前景的概率越小，gate越大，则超像素b_i判为前景的概率越大，但是gate过大时，前景提取结果中会有过多的噪声存在；

所述的将置信度阈值gate与超像素b_i的标签置信度Score_bi进行比较，得到超像素b_i的标签l_bi，其比较公式为：

其中，l_bi为超像素b_i的标签，num_bi为超像素b_i中像素的数量，gate为置信度阈值，1为前景标签，0为背景标签；

所述的多视角融合，指的将超像素视角下的图像B和像素视角下的提取结果S₁(x,y)进行融合。

以下通过前景提取实验，对本发明的技术效果作进一步说明：

1、实验条件与内容

本发明的实验分别对行人、树叶目标进行提取，训练数据为网络随机找的行人、树叶图像集，图像数量分别为736张、186张，对每幅图片分别取正负样本，然后制作标签，分别形成含行人类别的样本图像集、含树叶类别的样本图像集。

通过在MATLAB R2017a中编程，实现对行人、树叶目标进行前景提取，结果如图5所示。

2、实验结果分析：

从图5可见，对两类数据分别测试的4幅图像，其输出的前景提取结果不存在噪声，并且提取的前景边缘较好，如对树叶类别的4幅图像的前景提取结果，提取的前景边缘极为准确。对于输入图像中含有的前景完整度有较好的兼容性，如对行人类别的输入图像3，以半身像作为输入图像，仍然能获得较好的前景提取效果。

此外，从图5可见，本发明在SVM分类器完成训练后，可以自动完成对待提取图像的前景自动过程，获得待提取图像的前景提取结果，解决了现有基于图切割的前景提取方法中，需要人机交互辅助提取的问题，同时本发明充分利用了超像素块内一致性较好的特点，对GrabCut算法输出的像素视角下的提取结果的边缘进行修补，使前景提取结果更加准确，平滑，得到精确的前景提取结果，提高了前景提取精度。

Claims

1.一种基于多视角融合的图像前景自动提取方法，其特征在于：

(1)对SVM分类器进行训练，得到训练好的SVM分类器；

(2)对待提取图像进行灰度化，得到灰度图像；

(4)对待提取图像进行前景提取：

2.根据权利要求1所述的方法，其中步骤(1)中对SVM分类器进行训练，按如下步骤进行：

(1b)提取样本灰度图像集中各图像的方向梯度直方图HOG特征，得到样本方向梯度直方图HOG特征集；

3.根据权利要求2所述的方法，其特征在于：步骤(1a)中对样本图像集中的所有样本图像进行灰度化，是将样本图像中的三通道红色分量R，绿色分量G，蓝色分量B进行加权平均，得到样本灰度图像的灰度值Gray：

Gray＝R×0.299+G×0.587+B×0.114。

4.根据权利要求2所述的方法，其特征在于：步骤(1b)中提取样本灰度图像集中每个图像的HOG特征，按照如下步骤进行：

(1b1)将输入图像分为连通相邻、又不重叠的若干个单元，在每个单元内计算像素的梯度幅值G(x,y)和梯度方向α(x,y)：

<mrow> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>G</mi> <mi>x</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>G</mi> <mi>y</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

其中，G_x(x,y)＝H(x+1,y)-H(x-1,y)，G_y(x,y)＝H(x,y+1)-H(x,y-1)分别表示输入图像中像素点(x,y)处的水平方向梯度和垂直方向梯度，H(x+1,y)表示输入图像中像素点(x+1,y)处的像素值，H(x-1,y)表示输入图像中像素点(x-1,y)处的像素值，H(x,y+1)表示输入图像中像素点(x,y+1)处的像素值，H(x,y-1)表示输入图像中像素点(x,y-1)处的像素值；

(1b4)将n×n个单元组成一个块，串联一个块内所有单元的特征描述子，得到该块的HOG特征描述子；

(1b5)串联输入图像内所有块的方向梯度直方图HOG特征描述子，得到该输入图像的方向梯度直方图HOG特征；

(1b6)串联样本灰度图像集中所有输入图像的方向梯度直方图HOG特征，得到该样本灰度图像集的方向梯度直方图HOG特征集。

5.根据权利要求1所述的方法，其特征在于：步骤(3b)中计算子图像p_k的标签l_pk，通过以下公式进行：

其中，为SVM分类器的超平面的第k个法向量，x_k为子图像p_k的方向梯度直方图HOG特征，k∈[1,q]，q为子图像个数，φ为SVM分类器的超平面的位移项。

6.根据权利要求1所述的方法，其特征在于：步骤(5)中计算待提取图像的超像素，实现步骤为：

(5b)初始化超像素的聚类中心：设定超像素个数，在CIE-Lab图像内按照超像素个数均匀的分配超像素聚类中心，得到聚类中心集其中，为第d次迭代后的第i个聚类中心，共m个，其中，l_i,a_i,b_i为CIE-Lab颜色空间的三个通道，(x_i,y_i)为b_i坐标；

(5d)分别计算聚类中心集C^d中聚类中心的n×n领域内所有像素点的梯度值，并将聚类中心移到该领域内梯度最小的像素点上，获得新的聚类中心集C^d+1；

其中为像素点间的颜色差异，

为像素点间的空间距离，

(5f)比较d(pixel)与D(pixel)的大小，如果D(pixel)＜d(pixel)，则D(pixel)赋值给d(pixel)，l(pixel)＝i，得到新的超像素b_i；

(5g)不断执行步骤(5d)～(5f)，更新聚类中心，直到残余误差收敛，得到超像素图像B＝{b₁,b₂,...,b_i,...,b_m}。

7.根据权利要求1所述的方法，其中步骤(6)中对超像素视角下的图像B和待提取图像的像素视角下的提取结果S₁(x,y)进行多视角融合按如下步骤进行：

(6a)对超像素视角下图像B的超像素b_i包含的所有像素在像素视角下的提取结果S₁(x,y)中的标签l_ij进行加权，得到超像素b_i的标签置信度Score_bi；

(6b)设定置信度阈值gate，将置信度阈值gate与超像素b_i的标签置信度Score_bi进行比较，得到超像素b_i视角下的标签l_bi：

<mrow> <msub> <mi>l</mi> <mrow> <mi>b</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>Score</mi> <mrow> <mi>b</mi> <mi>i</mi> </mrow> </msub> <mo>></mo> <msub> <mi>num</mi> <mrow> <mi>b</mi> <mi>i</mi> </mrow> </msub> <mo>/</mo> <mi>g</mi> <mi>a</mi> <mi>t</mi> <mi>e</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>Score</mi> <mrow> <mi>b</mi> <mi>i</mi> </mrow> </msub> <mo><</mo> <msub> <mi>num</mi> <mrow> <mi>b</mi> <mi>i</mi> </mrow> </msub> <mo>/</mo> <mi>g</mi> <mi>a</mi> <mi>t</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中，num_bi为超像素b_i中像素的数量，1为前景标签，0为背景标签。

(6c)将该标签l_bi作为像素点(x_i,y_i)的标签S₂(x_i,y_i)，该S₂(x_i,y_i)即为待提取的图像前景，其中(x_i,y_i)∈b_i。

8.根据权利要求7所述的方法，其特征在于：步骤(6a)中超像素b_i的标签置信度Score_bi，是对超像素视角下图像B的超像素b_i包含的所有像素在像素视角下的提取结果S₁(x,y)中的标签进行求和，即：

Score_bi＝∑l_ij

其中，Score_bi为超像素b_i的标签置信度。