CN114359323A

CN114359323A - 一种基于视觉注意机制的图像目标区域检测方法

Info

Publication number: CN114359323A
Application number: CN202210021568.6A
Authority: CN
Inventors: 黄方昊; 江佳诚; 杨霄; 陈正; 聂勇; 唐建中
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-04-15
Anticipated expiration: 2042-01-10
Also published as: CN114359323B

Abstract

本发明公开了一种基于视觉注意机制的图像目标区域检测方法。包括：计算参考图像的底层视觉特征描述子；接着利用SLIC方法对实时图像进行超像素分割，再对当前实时图像信息进行区域化描述，然后利用自底向上的数据驱动方法计算各个超像素的显著值，由各个超像素的显著值构成实时图像的显著图；再利用模糊匹配方法计算实时图像的各个超像素与参考图像之间的相似度；然后利用基于相似度和显著值的区域融合扩展方法对实时图像的显著图进行区域拓展后，获得实时图像的可能目标区域；对实时图像的可能目标区域进行筛选后得到当前实时图像的最终目标区域。本发明提高了在复杂环境中目标区域检测的准确性，同时保证在低算力设备上运行的实时性。

Description

一种基于视觉注意机制的图像目标区域检测方法

技术领域

本发明属于计算机视觉领域的一种图像的目标区域检测方法，具体涉及了一种基于视觉注意机制的图像目标区域检测方法。

背景技术

目标区域检测是计算机视觉中一种重要的图像处理技术，通过目标区域检测获得目标区域，可以集中计算资源，减少无关信息干扰，提高图像处理的效率和准确率。对目标区域检测算法的研究一直是计算机视觉领域的热门方向。

早期的目标区域检测算法基于手工特征构建，通过人工设计区域特征描述方法来描述图像区域的信息，并基于滑动窗口检测器等简单的检测方法进行检测，如P.Viola和M.Jones等人提出的VJ检测器，N.Dalal和B.Triggs等人提出的HOG检测器等；在此基础上，P.Felzenszwalb等人提出了基于可变形部件的检测模型，使用混合模型进行检测处理可能出现显著变化的物体，在传统目标区域检测算法中达到了较好的效果。

随着卷积神经网络和深度学习的发展，基于深度学习的目标区域检测算法进入新的阶段。基于深度学习的目标区域检测算法根据处理流程又分为二级检测方法与一级检测方法，二级检测方法包括R.Girshick等人提出的R-CNN、FAST RCNN，K.He等人提出的SPPNet、S.Ren等人提出了Faster RCNN检测器，通过首先生成候选框，再通过训练得到的模型对候选框进行检测；一级检测方法包括R.Joseph等人提出的YOLO，W.Liu等人提出的SSD等，将神经网络应用于整幅图片进行检测，与二级检测方法相比，一级检测方法速度相对较快，但精度相对较低。

基于传统特征和神经网络的方法都可以实现目标区域检测，但是还存在一定问题：传统的目标区域检测算法需要设计相对复杂的特征描述方式，并且检测精度相对较低；基于神经网络的目标区域检测算法都需要大量的数据集合和花费大量的时间进行训练，检测时对***的计算能力要求较高，不适用于以增强现实设备为代表的计算能力较低的移动设备。

发明内容

针对目前目标区域检测算法在低算力的移动设备上的应用问题，本发明提出一种基于视觉注意机制的图像目标区域检测方法，本发明模拟人类视觉***在搜索对象时的方法，基于视觉注意机制，从自底向上和自顶向下两个角度寻找可能的目标区域，通过融合与筛选策略获得最终的目标区域，充分利用图像底层视觉特征，提高在复杂环境中目标区域检测的准确性并保证在低算力设备上运行的实时性。

为实现上述目的，本发明的技术方案具体内容如下：

本发明包括以下步骤：

1)计算参考图像的主颜色描述子、纹理特征描述子和傅里叶描述子；

2)利用简单线性迭代聚类算法对实时图像进行超像素分割，获得当前实时图像的多个超像素，基于各个超像素对当前实时图像信息进行区域化描述，获得各个超像素在量化的HSV颜色空间中的平均颜色和各个超像素的邻接超像素集合，再利用自底向上的数据驱动方法计算各个超像素的显著值，由各个超像素的显著值构成当前实时图像的显著图；

3)根据参考图像的主颜色描述子和各个超像素在量化的HSV颜色空间中的平均颜色，利用基于主颜色描述子的模糊匹配方法计算当前实时图像的各个超像素与参考图像之间的相似度，获得当前实时图像的各个超像素的相似度值；

4)根据当前实时图像的各个超像素的相似度值和各个超像素的邻接超像素集合，利用基于相似度和显著值的区域融合扩展方法对当前实时图像的显著图进行区域拓展后，获得当前实时图像的可能目标区域；

5)基于区域面积对当前实时图像的可能目标区域进行初步筛选，再利用参考图像的纹理特征描述子和傅里叶描述子对初步筛选目标区域进行进一步区域筛选，得到当前实时图像的最终目标区域。

所述步骤1)具体为：

1.1)将参考图像的颜色从RGB颜色空间转换到HSV颜色空间，再量化参考图像的HSV颜色空间，得到参考图像中各个像素在量化的HSV颜色空间中的颜色值；

1.2)基于参考图像中各个像素在量化的HSV颜色空间中的颜色值计算参考图像的颜色直方图，根据颜色直方图计算每种量化后的颜色所占百分比并降序排列，将第一个量化后的颜色作为第一个主颜色并记为(L₁,p₁)，其中L₁表示第一主颜色量化值，p₁表示第一主颜色在颜色直方图中所占的百分比，再依次选取第n个量化后的颜色，当选取的第n个量化后的颜色在颜色直方图中所占的百分比p_n满足p_n>0.5p₁，则该量化后的颜色作为第n个主颜色并记为(L_n,p_n)，L_n表示第n主颜色量化值，直到没有满足p_n>0.5p₁的量化后的颜色或者主颜色在颜色直方图中所占百分比的总和

其中N表示主颜色的数量，由多个主颜色构成主颜色描述子D_DC；

1.3)计算参考图像的灰度共生矩阵，基于灰度共生矩阵计算对应的角二阶矩、逆差矩、熵和对比度并作为参考图像的纹理特征描述子；

1.4)对参考图像的复数形式进行离散傅里叶变换和归一化后，获得参考图像的傅里叶描述子。

所述步骤2)具体为：

2.1)通过简单线性迭代聚类算法对实时图像进行超像素分割，获得实时图像的多个超像素和对应的标签图，由多个超像素构成超像素集合；

2.2)基于标签图对超像素集合进行处理，获得超像素集合中各个超像素的像素集合、颜色特征和位置信息；其中，颜色特征为各个超像素在CIELab颜色空间中各颜色分量的平均值以及在量化的HSV颜色空间中的平均颜色；位置信息为各个超像素的几何中心和各个超像素的邻接超像素集合；

2.3)将超像素集合中包含实时图像的边缘像素p_e的多个超像素作为边缘超像素集合E，基于边缘超像素集合E计算当前实时图像的图像边缘主颜色；

2.4)基于各个超像素的像素集合、各个超像素在CIELab颜色空间中各颜色分量的平均值和各个超像素的几何中心，计算每个超像素与各个超像素之间的对比度；接着基于当前超像素在量化的HSV颜色空间中的平均颜色，再结合当前超像素与各个超像素之间的对比度以及图像边缘主颜色通过以下公式分别计算当前超像素相对于背景信息的显著值和基于对比度的显著值：

其中，Sal_E(S_k)表示超像素S_k相对于背景信息的显著值，||表示取绝对值操作，min表示取最小值操作，Sal_C(S_k)表示超像素S_k的基于对比度的显著值，

表示超像素S_k在量化的HSV颜色空间中的平均颜色，

是图像边缘主颜色中第m个量化后的边缘颜色，

分别表示超像素S_k在CIELab颜色空间的亮度以及第一、第二颜色通道的平均值，

分别表示超像素S_i在CIELab颜色空间的亮度以及第一、第二颜色通道的平均值，

表示超像素S_k的几何中心在当前实时图像中的坐标，

表示超像素S_i的几何中心在当前实时图像中的坐标，λ_pos是调节空间距离影响基于对比度的显著值的系数，i是超像素集合中的超像素序号；

2.5)重复步骤2.4)，遍历剩余超像素，计算并获得剩余超像素相对于背景信息的显著值以及基于对比度的显著值；

2.6)分别对各个超像素相对于背景信息的显著值以及基于对比度的显著值进行归一化处理并进行线性融合后，获得各个超像素的最终显著值，计算公式如下：

Sal(S_k)＝λ_Sal1Sal'_E(S_k)+λ_Sal2Sal'_C(S_k)

其中，Sal(S_k)表示超像素S_k的最终显著值，Sal'_E(S_k)表示超像素S_k相对于背景信息的归一显著值，Sal'_C(S_k)表示超像素S_k的基于对比度的归一显著值，λ_Sal1是第一权重系数，λ_Sal2是第二权重系数，且满足λ_Sal1+λ_Sal2＝1；

2.7)将各个超像素的最终显著值归一化到[0,255]区间后，基于归一化后的最终显著值对对应的超像素进行灰度赋值后，获得当前实时图像的显著图。

所述步骤2.3)中基于边缘超像素集合E计算当前实时图像的图像边缘主颜色，具体为：

S1：基于量化的HSV颜色空间计算边缘超像素集合E的颜色直方图；

S2：在边缘超像素集合E的颜色直方图中量化后的边缘颜色L^E，满足L^E∈[0,71]，将当前量化后的边缘颜色L^E的邻域颜色{L^E-1,L^E,L^E+1}在边缘超像素集合E的颜色直方图中所占百分比的总和作为当前量化后的边缘颜色L^E在边缘超像素集合E的颜色直方图中所占百分比；

S3：重复步骤S2，遍历计算所有量化后的边缘颜色L^E在边缘超像素集合E的颜色直方图中所占百分比；

S4：将颜色直方图中与主颜色描述子中的主颜色相同的量化后的边缘颜色删除，在删除后的量化后的边缘颜色中取S3中计算获得的在边缘超像素集合E的颜色直方图中所占的百分比大于等于20％作为当前实时图像的图像边缘主颜色。

所述步骤3)中当前实时图像的各个超像素的相似度值的计算公式如下：

其中，Sim(S_k)表示超像素S_k的相似度值，

表示当前实时图像中超像素S_k的平均颜色，L_DC∈D_DC，L_DC表示参考图像的主颜色描述子中的主颜色，D_DC代表参考图像的主颜色描述子；||表示取绝对值操作，min()表示取最小值操作，th_Sim是相似度阈值。

所述步骤4)具体为：

4.1)判断当前实时图像的各个超像素是否是目标区域，如果每个超像素的相似度值为1并且在当前实时图像的显著图中当前超像素的最终显著值大于初始显著值阈值，则将当前超像素作为待定目标区域，否则不是待定目标区域；遍历所有超像素，由所有待定目标区域构成当前实时图像的初始目标区域；

4.2)对初始目标区域的各个超像素的邻接超像素集合进行目标区域拓展，如果当前邻接超像素在当前实时图像的显著图中的最终显著值大于当前显著值阈值，则当前邻接超像素属于待拓展目标区域，遍历初始目标区域的各个超像素的邻接超像素集合，由所有待拓展目标区域构成拓展目标区域，并提高当前显著值阈值；

4.3)对当前拓展目标区域的各个超像素的邻接超像素集合进行目标区域拓展，如果当前邻接超像素在当前实时图像的显著图中的最终显著值大于当前显著值阈值，则当前邻接超像素属于待拓展目标区域，遍历初始目标区域的各个超像素的邻接超像素集合，获得新的拓展目标区域并提高当前显著值阈值；

4.4)重复步骤4.3)，直至没有新的拓展目标区域生成，将初始目标区域与所有的拓展目标区域进行融合后构成当前实时图像的可能目标区域。

所述步骤4.2)和4.3)中提高当前显著值阈值的阈值计算公式具体为：

其中，th_Sal表示初始显著值阈值，

表示第t次拓展后的显著值阈值。

所述步骤5)具体为：

5.1)当前实时图像的可能目标区域由若干个连通区域组成，计算各个连通区域的像素数量，取像素数量占当前实时图像像素总数的预设比例以上的连通区域并作为初步筛选目标区域；

5.2)计算初步筛选目标区域的各个连通区域的纹理特征描述子和傅里叶描述子，分别计算初步筛选目标区域的各个连通区域的纹理特征描述子与参考图像的纹理特征描述子之间的第一欧式距离以及初步筛选目标区域的各个连通区域的傅里叶描述子与参考图像的傅里叶描述子之间的第二欧式距离，基于初步筛选目标区域的各个连通区域的第一欧式距离和第二欧式距离计算初步筛选目标区域的各个连通区域与参考图像之间的差异度，计算公式如下：

其中，Diff(R_q)表示初步筛选目标区域的连通区域R_q与参考图像之间的差异度，

表示初步筛选目标区域的连通区域R_q的第一欧式距离，

表示初步筛选目标区域的连通区域R_q的第二欧式距离，λ_Diff表示第三权重系数；

5.3)将差异度最小的连通区域作为当前实时图像的最终目标区域。

与现有技术相比，本发明具有如下有益效果：

1、本发明模拟人类视觉***在搜索对象时的方法，基于视觉注意机制，从自底向上(显著性检测)和自顶向下(基于主颜色描述子的颜色匹配)两个角度寻找可能的目标区域，提高在复杂环境中目标区域检测的准确性。

2、本发明在显著性检测和基于主颜色描述子的颜色匹配的基础上进行目标区域融合、扩展与筛选，再使用纹理特征描述子和傅里叶描述子进行进一步筛选，提高检测准确性。

3、本发明使用图像的底层视觉特征描述子进行目标区域检测，提高目标区域检测计算效率，保证在低算力设备上的实时性。

附图说明

图1是本发明提出的基于视觉注意机制的目标区域检测算法的流程框图。

图2是本发明提出的基于视觉注意机制的目标区域检测算法的实例流程及结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

现结合实施例、附图对本发明作进一步描述：

本发明的实施技术方案为：

如图1和图2所示，本发明包括以下步骤：

1)计算参考图像的主颜色描述子、纹理特征描述子和傅里叶描述子分别描述参考图像的颜色、纹理、形状，主颜色描述子、纹理特征描述子和傅里叶描述子构成底层视觉特征描述子；参考图像是实时图像中的目标对象。

基于像素提取参考图像中的颜色、纹理、形状特征，步骤1)具体为：

对于颜色特征，提出一种基于量化的HSV颜色空间的主颜色选择方法，更准确的描述参考图像的主要颜色特征。

1.1)将参考图像的颜色从RGB颜色空间转换到HSV颜色空间，再通过以下公式量化参考图像的HSV颜色空间，得到参考图像中各个像素在量化的HSV颜色空间中的颜色值；

L＝9H+3S+V

其中，h、s、v分别代表像素在HSV颜色空间中的色调、饱和度和明度分量，H、S、V分别代表像素在量化的HSV颜色空间中的色调、饱和度和明度分量，L代表当前像素在量化的HSV颜色空间中的颜色值。

1.2)基于参考图像中各个像素在量化的HSV颜色空间中的颜色值计算参考图像的颜色直方图，根据颜色直方图计算每种量化后的颜色所占百分比并降序排列，将第一个量化后的颜色(即百分比最高的量化后的颜色)作为第一个主颜色并记为(L₁,p₁)，其中L₁表示第一主颜色量化值，p₁表示第一主颜色在颜色直方图中所占的百分比，再依次选取第n个量化后的颜色，当选取的第n个量化后的颜色在颜色直方图中所占的百分比p_n满足p_n>0.5p₁，则该量化后的颜色作为第n个主颜色并记为(L_n,p_n)，L_n表示第n主颜色量化值，直到没有满足p_n>0.5p₁的量化后的颜色或者主颜色在颜色直方图中所占百分比的总和

D_DC＝{(L_n,p_n),i＝1,2…N}

2)利用简单线性迭代聚类(SLIC)算法对实时图像进行超像素分割，获得当前实时图像的多个超像素，基于各个超像素对当前实时图像信息进行区域化描述，获得各个超像素在量化的HSV颜色空间中的平均颜色和各个超像素的邻接超像素集合，再利用自底向上的数据驱动方法计算各个超像素的显著值，由各个超像素的显著值构成当前实时图像的显著图；

步骤2)具体为：

其中，自底向上的数据驱动方法通过提取图像的底层视觉特征，如颜色、纹理、形状等，基于这些特征计算图像像素或区域之间的对比度，得到对应特征的显著性图，融合各特征的显著性图得到最终的显著性区域。

2.1)通过简单线性迭代聚类算法对实时图像进行超像素分割，获得实时图像的多个超像素和对应的标签图，由多个超像素构成超像素集合S，满足

K表示超像素总数，本实施例中K取300，S_i表示超像素集合S中的第i个超像素，i表示超像素序号；

2.3)将超像素集合中包含实时图像的边缘像素p_e的多个超像素作为边缘超像素集合E，满足

S_u表示边缘超像素集合E中的第u个超像素，P_u表示边缘超像素集合E中第u个超像素的像素。基于边缘超像素集合E计算当前实时图像的图像边缘主颜色；

步骤2.3)中基于边缘超像素集合E计算当前实时图像的图像边缘主颜色，具体为：

S4：将颜色直方图中与主颜色描述子中的主颜色相同的量化后的边缘颜色删除，在删除后的量化后的边缘颜色中取S3中计算获得的在边缘超像素集合E的颜色直方图中所占百分比大于等于20％作为当前实时图像的图像边缘主颜色D_EDC，使用图像边缘主颜色描述实时图像的背景信息；

其中，M是图像边缘主颜色的颜色数量且满足M∈{0,1,2,3,4,5}，

表示图像边缘主颜色中第m个量化后的边缘颜色，

满足当前量化后的边缘颜色和与其相近的颜色都不是参考图像的主颜色，即

表示超像素S_k在量化的HSV颜色空间中的平均颜色，

是图像边缘主颜色中第m个量化后的边缘颜色，

分别表示超像素S_i在CIELab颜色空间的亮度以及第一、第二颜色通道的平均值，第一颜色通道为从深绿色(低亮度值)到灰色(中亮度值)再到亮粉红色(高亮度值)，第二颜色通道为从亮蓝色(低亮度值)到灰色(中亮度值)再到黄色(高亮度值)，

表示超像素S_k的几何中心在当前实时图像中的坐标，

Sal(S_k)＝λ_Sal1Sal'_E(S_k)+λ_Sal2Sal'_C(S_k)

其中，Sal(S_k)表示超像素S_k的最终显著值，Sal'_E(S_k)表示超像素S_k相对于背景信息的归一显著值，Sal'_C(S_k)表示超像素S_k的基于对比度的归一显著值，λ_Sal1是第一权重系数，λ_Sal2是第二权重系数，且满足λ_Sal1+λ_Sal2＝1；本实施例中选取λ_Sal1＝0.3，λ_Sal2＝0.7。

3)针对颜色匹配问题，根据参考图像的主颜色描述子和各个超像素在量化的HSV颜色空间中的平均颜色，利用基于主颜色描述子的模糊匹配方法计算当前实时图像的各个超像素与参考图像之间的相似度，获得当前实时图像的各个超像素的相似度值；其中，相似度值为1的超像素为与参考图像颜色相近的区域；

步骤3)中当前实时图像的各个超像素的相似度值的计算公式如下：

其中，Sim(S_k)表示超像素S_k的相似度值，

表示当前实时图像中超像素S_k的平均颜色，L_DC∈D_DC，L_DC表示参考图像的主颜色描述子中的主颜色，D_DC代表参考图像的主颜色描述子；||表示取绝对值操作，min()表示取最小值操作，th_Sim是相似度阈值。当

与D_DC中所有主颜色的差值最小值小于等于该阈值时，认为S_k属于颜色匹配的目标区域。通过超像素的相似度可以得到一幅二值图像，相似度值为1时，在图像中显示为白色，相似度值为0时，在图像中显示为黑色。该图像中的白色部分即颜色匹配区域。本实施例中取th_Sim＝2。

4)针对显著图和颜色匹配区域的融合问题，根据当前实时图像的各个超像素的相似度值和各个超像素的邻接超像素集合，利用基于相似度和显著值的区域融合扩展方法对当前实时图像的显著图进行区域拓展后，获得当前实时图像的可能目标区域；

步骤4)具体为：

4.1)判断当前实时图像的各个超像素是否是目标区域，如果每个超像素的相似度值为1并且在当前实时图像的显著图中当前超像素的最终显著值大于初始显著值阈值，本实施例中，初始显著值阈值为0.2。则将当前超像素作为待定目标区域，否则不是待定目标区域；遍历所有超像素，由所有待定目标区域构成当前实时图像的初始目标区域；初始目标区域

可以表示为：

其中，Sim(S_j)表示超像素S_j的相似度值，Sim(S_j)描述了超像素S_j与参考图像的相似程度，Sal(S_j)表示超像素S_j的最终显著值，Sal(S_j)描述了超像素S_j在实时图像中的显著程度，认为与目标对象相似且显著程度较高的S_j属于所要寻找的目标区域，th_Sal为判断最终显著值是否满足要求的阈值。

4.2)初始目标区域通常无法包含整个的目标对象，基于显著图进行扩展。对初始目标区域的各个超像素的邻接超像素集合进行目标区域拓展，如果当前邻接超像素在当前实时图像的显著图中的最终显著值大于当前显著值阈值，则当前邻接超像素属于待拓展目标区域，遍历初始目标区域的各个超像素的邻接超像素集合，由所有待拓展目标区域构成拓展目标区域，并提高当前显著值阈值；

步骤4.2)和4.3)中提高当前显著值阈值的阈值计算公式具体为：

其中，th_Sal表示初始显著值阈值，

表示第t次拓展后的显著值阈值。

4.4)重复步骤4.3)，直至没有新的拓展目标区域生成，将初始目标区域与所有的拓展目标区域进行融合后构成当前实时图像的可能目标区域R′_T，满足

其中

表示初始目标区域，

表示第n次拓展时的拓展目标区域。

步骤5)具体为：

5.1)当前实时图像的可能目标区域由若干个连通区域组成，使用连通区域中的像素数量表示一个该区域的大小，计算各个连通区域的像素数量，取像素数量占当前实时图像像素总数的预设比例以上的连通区域并作为初步筛选目标区域；具体实施中，预设比例为20％。

5.2)通过步骤1)中计算纹理特征描述子和傅里叶描述子的方法计算初步筛选目标区域的各个连通区域的纹理特征描述子和傅里叶描述子，分别计算初步筛选目标区域的各个连通区域的纹理特征描述子与参考图像的纹理特征描述子之间的第一欧式距离以及初步筛选目标区域的各个连通区域的傅里叶描述子与参考图像的傅里叶描述子之间的第二欧式距离，基于初步筛选目标区域的各个连通区域的第一欧式距离和第二欧式距离计算初步筛选目标区域的各个连通区域与参考图像之间的差异度，计算公式如下：

表示初步筛选目标区域的连通区域R_q的第一欧式距离，

表示初步筛选目标区域的连通区域R_q的第二欧式距离，λ_Diff表示第三权重系数，用于调整前后两项比重，本实施例中取λ_Diff＝0.5；

5.3)将差异度最小的连通区域作为当前实时图像的最终目标区域

以上内容仅为本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。