WO2018023734A1

WO2018023734A1 - 一种3d图像的显著性检测方法

Info

Publication number: WO2018023734A1
Application number: PCT/CN2016/093637
Authority: WO
Inventors: 王旭; 张秋丹; 江健民; 赖志辉
Original assignee: 深圳大学
Priority date: 2016-08-05
Filing date: 2016-08-05
Publication date: 2018-02-08
Also published as: CN106462771A

Abstract

本发明公开了一种3D图像的显著性检测方法，包括步骤(1)基于卷积神经网络对颜色图像和深度图像分别提取深度特征向量；(2)根据三层的神经网络以及提取的颜色图像和深度图像的深度特征向量分别生成深度图和颜色图的显著性图；(3)将颜色图像和深度图像的显著性图进行线性融合处理后获得3D图像的显著性图。本发明通过CNN模型对颜色图像和深度图像分别进行多尺度区域的深度学习特征提取；深度图像(或者颜色图像)的显著性图是通过训练后的NN模型基于深度特征向量和区域的显著性标签来生成的，NN模型在此相当于分类器的作用；并以深度显著性图和颜色显著性图为输入，采用线性融合方法生成最终的3D图像的显著性图；本检测方法具有误差小和精度高等优点。

Description

一种3D图像的显著性检测方法

技术领域

本发明属于3D图像处理技术领域，更具体地，涉及一种3D图像的显著性检测方法。

背景技术

随着消费电子行业的不断发展，在我们的日常生活中，3D应用变得越来越受欢迎。与传统的2D视觉体验相比，3D应用能够给用户提供一种深度感知和身临其境的观看感受。然而，在3D处理过程中还是有很多开放性的问题需要被很好得解决。在3D研究中，3D图像的显著性检测是一个非常基本的问题，它主要的目的是在一张自然场景图像中找到人眼感兴趣的区域的位置。并且，他可以被应用于各种领域，例如，3D视频编码里可以用来优化比特分配，立体图像质量评估时的空间池化以及3D物体检测时的特征提取。

现有的视觉显著性检测模型大多数都是跟2D图像有关。这些模型主要是从颜色图像中通过手动提取一些底层的特征(比如亮度、颜色、对比度、纹理等)来估计其显著性，并且这些模型没有考虑深度信息。例如，Itti等为快速场景分析提出了一个显著性模型，主要是结合了多尺度下的图像特征去估计显著性。Bruce等介绍了一个基于信息最大化的显著性方法，它主要是在进行显著性估计的时候将香农的自信息理论应用进去。Goferman等设计了一个基于上下文感知的显著性检测模型，主要是为了检测出一些可以代表场景的图像区域。Yang等提出了一个基于自顶向下方法的视觉显著性模型，主要是通过加入条件随机域和判别式字典方法。然而这些方法基本都是在针对2D图像去进行显著性检测的。

因此，这些传统的显著性检测模型不能够准确的去预测在一个3D场景中人们在观看时感兴趣的区域位置。为了提升预测的准确度，一些研究者提出在模型化立体图像的显著性检测时需要将其深度信息考虑在内。例如，方等人提出了一个框架是采用颜色、亮度、纹理和深度等特征的对比度来估计一个立体图像的显著性。该模型在计算立体图像显著性时依旧使用的是传统的手动提取特征的方法来提取底层特征和深度特征。祁等人提出了一个3D视觉显著性检测模型，主要还是手动的用已经生成的视差图来提取深度特征，从左右视图来提取底层特征。Kim等描述了一个立体视频的显著性预测模型，它主要是通过将一些离散的底层特征、深度特征分布与高水平的场景分类等相结合。但是对于这些研究，手动提取特征的方法不能够有效地准确地去分层级的原始像素提取特征，并且手动提取特征的不确定的因素很多，还会出现一些无法预料的误差，在进行手动提取特征的时候往往需要投入大量的人力，同时还要依赖于专业的知识，并且，手动提取往往不能一概而论的都好。因此这些模型的性能就被受限。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种3D图像的显著性检测方法，旨在解决现有技术中采用手动提取特征的方法不能有效地在原始像素提取特征导致误差大的问题。

本发明提供了一种3D图像的显著性检测方法，包括下述步骤：

(1)对颜色图像和深度图像的深度特征向量进行提取；

(2)根据三层的神经网络以及提取的颜色图像和深度图像的深度特征向量生成深度图和颜色图的显著性图；

(3)将所述颜色图像和深度图像的显著性图进行线性融合处理后获得3D图像的显著性图。

更进一步地，步骤(1)具体为：

(1.1)将颜色图像和与所述颜色图像相关的深度图像分别进行图像分割后，获得多层次的没有重叠的图像区域；

(1.2)采用卷积神经网络模型分别对分割后的颜色图像和深度图像的特征向量进行提取。

更进一步地，所述卷积神经网络模型的结构为五个卷积层和三个全连接层；对于每一层的网络，设定具体的网络参数配置：首先是图片输入层，设定输入图像的大小为227*227。以卷积层一为例，其卷积核的大小为11，共96个卷积滤波器，卷积步幅为4，输出的图片数量为96。ReLUs和max-pooling操作在卷积层一之后执行。最后是三个全连接层，是作为神经网络的分类器。全连接层一和层二其神经元的个数分别都为4096，全连接层三的神经元的个数为1000个。

更进一步地，步骤(2)中，根据神经网络(Neural Network，NN)模型生成深度图和颜色图的显著性图；其中，所述神经网络(NN)模型有一个输出层和两个全连接的隐藏层，所述神经网络(NN)模型的输入为特征向量，输出为当前区域的显著性标签，当显著性标签为1时则表示当前区域是显著的，当显著性标签为0时则表示当前区域是非显著。

更进一步地，所述深度图像的显著性图由公式

生成，其中，x表示深度图像的区域

中的像素，

表示深度图第j层的权重因子，L表示分层的总数目，S_d(x)表示深度图像的显著性图，j表示深度图的层数，

表示深度图的第j层索引为i的分割区域，

表示一个映射函数，主要描述深度图的本地区域

的特征向量与该区域的显著性标签之间的关系。

更进一步地，所述颜色图像的显著性图由公式

生成，其中，x表示颜色图像的区域

中的像素，

表示颜色图第j层的的权重因子，L表示分层的总数目，j表示颜色图的层数，

表示颜色图的第j层索引为i的分割区域，

表示一个映射函数，主要描述颜色图的本地区域

的特征向量与该区域的显著性标签之间的关系。

更进一步地，所述3D图像的显著性图S＝w·S_c+(1-w)·S_d，其中，S_d为深度图像的显著性图，S_c为颜色图像的显著性图，w为颜色图的显著性图在最终的3D图像的视觉显著性图的贡献权重。

更进一步地，分层的总数目L是15，权重w为0.5。

本发明通过基于卷积神经网络(Convolutional Neural Network，CNN)模型对颜色图像和深度图像分别进行多尺度区域的深度学习特征提取；深度图像(或者颜色图像)的显著性图是通过NN模型基于深度特征向量和区域的显著性标签来生成的，NN模型在此相当于分类器的作用；并采用了一个线性融合的方法其结合了深度显著性图和颜色显著性图从而生成了最终的3D图像的显著性图；误差小、精度高。

附图说明

图1是本发明提供的3D图像的显著性检测方法的框架原理图；

图2是本发明实施例提供的3D图像的显著性检测方法的流程实现图；

图3是本发明实施例提供的3D图像的显著性检测方法与现有技术的对比仿真示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

根据以上描述可以知道，计算视觉显著性图的模型性能在很大的程度上是受那些具有代表性的特征影响的。因此对于3D视觉显著性研究来说，找出那些具有代表性的视觉特征是相当重要的。又因为现存的3D图像的显著性检测模型基本都是基于手动的方法来提取特征的。然而这些研究方法很难去实现显著性区域与其邻域之间的更高成都的差异区分。除此之外，由于对3D视觉感知方面的知识的欠缺，那么深度信息对最终的视觉显著性图有怎么样的贡献仍旧不是很清晰。

本发明提供的3D图像的显著性检测方法可以应用于视频编码、视频压缩、图像检索、图像质量评估、感兴趣目标物体的检测以及图像检索等领域。其应用的方式主要还是根据其应用的领域来定。

本发明提出的基于深度学习特征的视觉显著性模型的框架包含了三个主要的步骤，分别是深度特征的提取，显著性图的生成，显著性图的融合，其框架描述图如图1所示。首先，颜色图像和深度图像的深度特征向量是被由一个卷积神经网络(CNN)模型提取出来的。然后，深度图和颜色图的显著性图是由生成的区域特征向量以及区域的显著性标签通过一个三层的神经网络生成的。最后，3D图像的显著性图是将颜色图像和深度图像的显著性图通过一个线性融合生成的。

图2示出了本发明实施例提供的3D图像的显著性检测方法的流程，具体包括：

(1)深度学习特征提取

基于人类视觉***的理论知识，视觉注意力机制包含了一个从粗略到精细的分层选择处理。因此，在特征提取之前我们先对图像进行多层次的分割。之后在针对每一层的每一个分割区域进行特征的提取。

A.多层次的图像分割

在我们的研究中，我们关注的是基于深度图的3D图像格式，它的每一幅颜色图都与一幅深度图有关联。对于每一个3D图像，我们将颜色图以及其相关的深度图分别降解为多层次的没有重叠的图像区域。为了方便来说，我们假定所分层次的总数目为L。对于每一层j，颜色图Ic和深度图I_d分割成无重叠的区域集分别被表示为

和

其中

和

分别表示的是颜色图和深度图的第j层索引为m_j和n_j的区域，m_j和n_j表示的是图像第j层区域索引，并且其是按照由最粗略到最精细的划分方式。

B.基于CNN的特征提取

由于深度图像获取技术的匮乏，在3D显著性检测领域内公开可用的基准数据的数量并不够多。那么因此，很难依赖于这些可用数据集去训练一个精准的CNN模型，该模型是由3D图像的颜色图和深度图以及其显著性图作为训练数据，通过训练之后得到的关于3D图像显著性图的神经网络模型。在特征提取时，我们采用了一个已经预先训练好的叫做卷积神经网络的模型分别去提取深度图和颜色图的特征。该模型是在ImageNet数据集上训练的，它有五个卷积层和三个全连接层，其是一个用于图像分类的神经网络模型。

据我们所了解的，每一个本地区域的显著性并不仅仅只是依赖与其自身所拥有的特性，它往往还会受到其邻域的内容以及其背景信息(也就是除去该区域的剩余部分)的影响。因此，对于一个深度图像的分割的每一层j，我们对该层所分割的每一个本地区域

它的相邻区域

以及背景区域

分别用CNN模型去提取各自的特征向量。在这里我们定义的本地区域由于在分割的过程中其形状是不规则的，因此，我们就采用一个矩形区域去作为该图像区域的边框。将每一个区域矩形重新调节为227x227的像素大小并将其送入到CNN模型中去。每一个区域最后得到的输出是一个12288维的特征向量并将其表示为

这里。对于颜色图像来说，其操作与深度图像是一致的，它的本地区域

的特征向量被表示为

(2)显著性图的生成

输出的特征向量仅仅只是当前的本地区域的一个稀疏表示。为了确定当前区域是显著还是非显著，我们需要建立一个特征向量与显著性标签的映射函数。我们训练了一个神经网络(NN)模型，该模型有一个输出层和两个全连接的隐藏层。特征向量为该神经网络的输入，其输出为当前区域的显著性标签。该标签为1则表示当前区域是显著的，为0则表示非显著。为颜色图像和深度图像分别训练了NN模型。深度图像和颜色图像的区域的显著性标签与特征向量之间的映射函数分别被表示为

和

在同一个区域里的所有像素都共用同一个显著性标签，该显著性标签的来源于基准(ground truth)数据。最后，深度图像的显著性图被由(1)生成：

颜色图像的显著性图被由(2)生成：

其中，x表示的是深度图像的区域

和颜色图像的区域

中的像素。

和

分别表示的是深度图像和颜色图像的权重因子。

(3)显著性图的融合和增强

为了获得一个精确的3D图像的视觉显著性图，我们有必要将深度显著性图和颜色显著性图融合在一起。在经过显著性图生成步骤，我们获取到了深度图和颜色图各自的显著性图，分别表示为S_d和S_c，通过一个线性融合的方法来生成3D图像的最终显著性图。计算公式如下：

S＝w·S_c+(1-w)·S_d……(3)

其中w是用来调整深度和颜色显著性图的贡献权重。调整的方式就是通过给w设定0～1之间的数值，来进行实验得到最终的显著性图。然后通过一系列的评估指标SIM、EMD和CC来判断生成的3D图像显著性图的准确性，以此来调整该w值。这种行为也被称为自回归的方法。同时，为了更进一步的提升该模型的性能，我们采用了一个目前广泛使用的中心偏置机制来增强最终的显著性图。

本发明提供的这种方法是一个基于深度学习特征的3D视觉显著性检测模型。首先，该技术的第一个优点就是没有使用传统的手动提取特征的方式，而是采用了通过深度卷积神经网络来提取颜色图和深度图的特征信息，这样做的好处就是神经网络提取的特征相较于手动提取会排出一些由于人为因素导致提取的特征不够精确，并且手动提取特征的话工程量大，耗费人力资源多；第二个优点就是在计算3D图像显著性图时，将深度信息和颜色信息一起考虑，传统的显著性模型大多数都是针对2D图像进行提取的；第三个优点就是在我们使用了一个神经网络模型NN来充当一个回归器，也就是通过提取的图像区域特征与该区域的显著性标签来进行显著性值的估计，从而生成颜色图和深度图的显著性图。

在本发明实施例中，图像分割就有很多种方法，分别有区域增长、像素聚类等。特征提取的卷积神经网络模型也有很多，比如GoogleNet等。

将提出的模型同现有的模型做了比较，比较的模型包括李的基于多尺度的模型(表示为VSMD)，

的基于小波域的模型(表示为SDLL)，方的2D显著性模型(表示为SSDF2D)以及方的3D显著性模型(表示为SSDF3D)被作为基准模型。VSMD，SDLL和SSDF2D这三个模型主要是针对2D图像的显著性计算，SSDF3D模型是针对3D图像的。实验过程中我们提出的模型的分层的总数目L是15。w设置为0.5。

为了验证3D视觉显著性检测模型的性能，我们在两个目前广泛使用的公开数据集上测试了这些模型。这两个具有代表性的数据集分别是NUS3D-saliency数据集和NCTU-3DFixation数据集。同时我们采用了三个评估准则在实验的过程中。分别是Pearson Correlation Coefficient(CC)、Earth Mover’s Distance(EMD)和Similarity score(SIM)。这是三个评估所提出模型性能的准则。那么一个好的模型就要有高的CC和SIM分数，但是EMD的分数要低。我们提出的模型比起其他的2D显著性模型获得了较好的性能在NCTU和NUS这两个数据集上如图表1所示。例如，我们提出的模型的CC，EMD和SIM的分数分别是0.5225，2.1547，和0.4985。但是VSMD模型的CC，EMD和SIM的分数仅是0.3783，2.8419和0.3812。这个实验结果表明了3D图像显著性检测模型的性能受益于融合了颜色显著性图和深度显著性图。

表1.在CC，EMD和SIM准则下，模型在两个数据集上的性能。

我们提出的3D模型与SSDF3D模型在两个数据集上性能比较的结果同样在表一中给出，很明显的可以看出在NUS这个数据集上我们提出的模型的CC，EMD和SIM的分数是优于SSDF3D模型的。对于NCTU这个数据集，我们的模型的CC分数少于SSDF3D模型，但是其他的EMD和SIM分数还是优于SSDF3D模型的。为了进一步的说明，我们将该模型的中一些蒋策样本在图二中给出，同时也可以看出我们提出的模型能够得到最好的性能。

如图3所示，从左到右是四张来自NUS数据集的四张样本图像。从第二行到最后一行，所给出结果的模型的顺序为SSDF2D模型，SDLL模型，VSMD模型，SSDF3D模型以及我们所提出的模型，从该图中可以明显的看出我们的模型得出的结果在视觉上是优于其他的模型的，原始图像中的显著性区域都明显检测出来并且比较清晰，同时也可以看出我们提出的模型能够得到最好的性能。

本发明提出了基于深度学习特征的3D图像的视觉显著性检测模型。在我们的方法中有三个关键的因素。首先，我们通过CNN模型对颜色图像和深度图像分别进行多尺度区域的深度学习特征提取。其次，深度图像(或者颜色图像)的显著性图是通过NN模型基于深度特征向量和区域的显著性标签来生成的，NN模型在此相当于分类器的作用。最后，我们采用线性融合的方法其结合了深度显著性图和颜色显著性图从而生成了最终的3D图像的显著性图。并且我们还采用了中心偏置机制来增强显著性图。我们提出的模型在这个两个公开可用的数据集上取得了卓越的性能。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种3D图像的显著性检测方法，其特征在于，包括下述步骤：

(1)对颜色图像和深度图像的深度特征向量进行提取；

(2)根据三层的神经网络以及提取的颜色图像和深度图像的深度特征向量生成深度图和颜色图的显著性图；

(3)将所述颜色图像和深度图像的显著性图进行线性融合处理后获得3D图像的显著性图。
如权利要求1所述的显著性检测方法，其特征在于，步骤(1)具体为：

(1.1)将颜色图像和与所述颜色图像相关的深度图像分别进行图像分割后，获得多层次的没有重叠的图像区域；

(1.2)采用卷积神经网络模型分别对分割后的颜色图像和深度图像的特征向量进行提取。
如权利要求2所述的显著性检测方法，其特征在于，所述卷积神经网络模型的结构为五个卷积层和三个全连接层；对于每一层的网络设定不同的网络参数配置。
如权利要求1所述的显著性检测方法，其特征在于，步骤(2)中，根据神经网络模型生成深度图和颜色图的显著性图；

其中，所述神经网络模型有一个输出层和两个全连接的隐藏层，所述神经网络模型的输入为特征向量，输出为当前区域的显著性标签，当显著性标签为1时则表示当前区域是显著的，当显著性标签为0时则表示当前区域是非显著。
如权利要求4所述的显著性检测方法，其特征在于，所述深度图像的显著性图由公式
生成，其中，x表示深度图像的区域
中的像素，
表示深度图第j层的权重因子，L表示分层的总数目，S_d(x)表示深度图像的显著性图，j表示深度图的层数，
表示深度图的第j层索引为i的分割区域，
表示一个映射函数，主要描述深度图的本地区域
的特征向量与该区域的显著性标签之间的关系。
如权利要求4所述的显著性检测方法，其特征在于，所述颜色图像的显著性图由公式
生成，其中，x表示颜色图像的区域
中的像素，
表示颜色图第j层的的权重因子，L表示分层的总数目，j表示颜色图的层数，
表示颜色图的第j层索引为i的分割区域，
表示一个映射函数，主要描述颜色图的本地区域
的特征向量与该区域的显著性标签之间的关系。
如权利要求1-6任一项所述的显著性检测方法，其特征在于，所述3D图像的显著性图S＝w·S_c+(1-w)·S_d，其中，S_d为深度图像的显著性图，S_c为颜色图像的显著性图，w为颜色图的显著性图在最终的3D图像的视觉显著性图的贡献权重。
如权利要求7所述的显著性检测方法，其特征在于，分层的总数目L是15，权重w为0.5。