CN108345892B - 一种立体图像显著性的检测方法、装置、设备及存储介质 - Google Patents

一种立体图像显著性的检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN108345892B
CN108345892B CN201810004732.6A CN201810004732A CN108345892B CN 108345892 B CN108345892 B CN 108345892B CN 201810004732 A CN201810004732 A CN 201810004732A CN 108345892 B CN108345892 B CN 108345892B
Authority
CN
China
Prior art keywords
saliency
image
depth
color
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810004732.6A
Other languages
English (en)
Other versions
CN108345892A (zh
Inventor
王旭
张秋丹
江健民
周宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201810004732.6A priority Critical patent/CN108345892B/zh
Publication of CN108345892A publication Critical patent/CN108345892A/zh
Application granted granted Critical
Publication of CN108345892B publication Critical patent/CN108345892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明适用图像处理技术领域,提供了一种立体图像显著性的检测方法、装置、设备及存储介质,该方法包括:当接收到立体图像显著性检测的请求时,首先,通过超像素图像分割算法分别对立体图像的颜色图像和深度图像进行分割,然后,通过多尺度区域级别的显著性预测网络对分割后得到的所有像素区域进行特征提取,得到所有像素区域对应的显著性值,根据每个显著性值对每个显著性值对应的像素区域进行处理,得到颜色图像的颜色显著性图和深度图像的深度显著性图,最后,通过空间融合网络将颜色显著性图和深度显著性图进行融合,生成立体图像的显著性图,从而降低了提取立体图像显著性特征的误差,提高了立体图像的显著性检测精确度。

Description

一种立体图像显著性的检测方法、装置、设备及存储介质
技术领域
本发明属于图像处理技术领域,尤其涉及一种立体图像显著性的检测方法、装置、设备及存储介质。
背景技术
当代计算机和多媒体技术的发展,尤其是互联网技术支持的移动设备的发展,对人类的生活和社会产生了巨大的影响,驱动其发展的力量是新兴的三维成像技术。与传统的2D视觉体验相比,3D应用为用户提供深度感知和沉浸式的观看体验。尽管3D产业发展迅猛,但仍然存在一些具有挑战性的问题,例如,3D图像的视觉显著性检测,其主要为了确定3D图像中的独特区域。3D图像视觉显著性除了可以应用在视频压缩上以外,其在三维物体检索、三维目标检测以及立体图像和视频质量评估上起到重要作用。
目前,现有的传统视觉显著性检测模型主要包含一些传统的检测方法。例如,Wang等人提出一个3D视觉显著性检测模型,其中采用了底层2D视觉特征定位显著性区域,并将深度信息作为一个视觉维度与2D视觉特征相整合。Fang等人基于底层特征(例如,颜色、亮度、纹理和深度等)间的对比特征设计了一个立体图像显著性框架。然而,这些传统的显著性检测方法通过手动提取图像特征,难以在显著区域及其邻近区域之间实现高层次的区分,从而使得视觉显著性检测模型的性能受限。
由于卷积神经网络(CNN)的结构与人类视觉***的结构很相似,因此已经被广泛应用于视觉显著性检测模型,并且已经显著提升了视觉显著性模型的性能,由此,大量的基于深度学习的2D视觉显著性模型也被提出。例如,Vig等人是首先尝试构建基于卷积神经网络的视觉显著性检测模型的先驱,该模型命名为深度网络组合(EDN)。之后,Kummerer等人提出了一个显著性模型,该模型采用一个现有的神经网络提取深度学习特征,然后再使用这些特征计算图像的视觉显著性。Srinivas等人设计一个显著性模型,由于完全卷积网络的空间不变性,该模型采用基于位置的卷积网络去模型化位置依赖的模式。Borji等人将图像底层特征和一些高层的识别特征(人脸、汽车、天空等)相结合去学习一个视觉显著性模型。然而,这些显著性模型大多都是基于现有的深度神经网络(例如,Alex Net、VGG16和Google Net等),众所周知,这些网络是针对图像分类任务训练的结果,而不是完全适用于图像视觉显著性预测任务。
与传统的2D显著性模型不同的是,在3D图像显著性任务中考虑图像深度信息变得尤为重要。目前现有的一些3D图像显著性计算模型通过扩展一些传统的2D视觉显著性模型被提出来。例如,Neil等人通过将现有的注意力模型从2D扩展到双目域提出了一个立体注意力框架。Zhang等人在立体视觉注意力模型中使用多个感知刺激。为了生成最终的3D图像的显著性,一些模型中用深度信息去权重化2D显著性图。Lang等人在2D和3D图像上进行眼球追踪的实验结果用于进行深度显著性分析,其中通过扩展以前的2D显著性检测模型来计算3D显著性图。虽然考虑深度特征已经提升了立体图像检测模型的性能,但在立体图像的内容表征方面仍然存在一些具有挑战性的问题,例如,手动提取图像特征的方法很难提取高层次的图像语义信息,且立体图像检测模型的网络结构仍是基于图像分类任务的网络,并不是完全针对图像显著性任务的网络结构。因此,现有的立体图像显著性检测模型缺乏多样化的图像内容表征以及没有完全针对图像视觉显著性任务来设计网络。
发明内容
本发明的目的在于提供一种立体图像显著性的检测方法、装置、设备及存储介质,旨在解决现有立体图像显著性检测模型性能差,导致提取的立体图像显著性特征误差大、立体图像显著性不突出的问题。
一方面,本发明提供了一种立体图像显著性的检测方法,所述方法包括下述步骤:
当接收到立体图像显著性检测的请求时,分别对所述立体图像的颜色图像和深度图像进行分割,以分别得到预设数量个颜色像素区域和深度像素区域;
通过预设的多尺度区域级别的显著性预测网络分别对所有颜色像素区域和所有深度像素区域进行特征提取,得到所有所述颜色像素区域和所有所述深度像素区域对应的显著性值;
根据每个所述显著性值对每个所述显著性值对应的所述颜色像素区域或所述深度像素区域进行处理,得到所述颜色图像的颜色显著性图和所述深度图像的深度显著性图;
通过预设的空间融合网络将所述颜色显著性图和所述深度显著性图进行融合,生成所述立体图像的显著性图。
另一方面,本发明提供了一种立体图像显著性的检测装置,所述装置包括:
图像分割单元,用于当接收到立体图像显著性检测的请求时,分别对所述立体图像的颜色图像和深度图像进行分割,以分别得到预设数量个颜色像素区域和深度像素区域;
显著性值获取单元,用于通过预设的多尺度区域级别的显著性预测网络分别对所有颜色像素区域和所有深度像素区域进行特征提取,得到所有所述颜色像素区域和所有所述深度像素区域对应的显著性值;
显著性图获取单元,用于根据每个所述显著性值对每个所述显著性值对应的所述颜色像素区域或所述深度像素区域进行处理,得到所述颜色图像的颜色显著性图和所述深度图像的深度显著性图;以及
显著性图融合单元,用于通过预设的空间融合网络将所述颜色显著性图和所述深度显著性图进行融合,生成所述立体图像的显著性图。
另一方面,本发明还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前所述方法的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前所述方法的步骤。
本发明当接收到立体图像显著性检测的请求时,分别对立体图像的颜色图像和深度图像进行分割,以分别得到预设数量个颜色像素区域和深度像素区域,通过多尺度区域级别的显著性预测网络分别对所有颜色像素区域和所有深度像素区域进行特征提取,得到所有颜色像素区域和所有深度像素区域对应的显著性值,根据每个显著性值对每个显著性值对应的颜色像素区域或深度像素区域进行处理,得到颜色图像的颜色显著性图和深度图像的深度显著性图,通过空间融合网络将颜色显著性图和深度显著性图进行融合,生成立体图像的显著性图,从而降低了提取到的立体图像显著性特征的误差,进而提高了立体图像的显著性检测精确度。
附图说明
图1是本发明实施例一提供的立体图像显著性的检测方法的实现流程图;
图2是本发明实施例一提供的立体图像显著性的检测方法中多尺度区域级别的显著性预测网络示例图;
图3是本发明实施例一提供的立体图像显著性的检测方法中空间融合网络示例图;
图4是本发明实施例一提供的立体图像显著性的检测过程示例图;
图5是本发明实施例一提供的立体图像显著性的检测方法在NUS数据库上不同组件比较的ROC曲线示例图;
图6是本发明实施例一提供的立体图像显著性的检测方法与基准模型在NUS数据库测试集上的实验评估示例图;
图7是本发明实施例二提供的立体图像显著性的检测装置的结构示意图;
图8是本发明实施例三提供的立体图像显著性的检测装置的结构示意图;以及
图9是本发明实施例四提供的计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的立体图像显著性的检测方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,当接收到立体图像显著性检测的请求时,分别对立体图像的颜色图像和深度图像进行分割,以分别得到预设数量个颜色像素区域和深度像素区域。
本发明实施例适用于计算设备,例如,个人计算机、智能手机、平板等。在本发明实施例中,通过超像素图像分割算法分别对立体图像的颜色图像和深度图像进行分割,优选地,采用简单的线性迭代聚类(SLIC)算法将颜色图像和深度图像分别分割为预设的分割区域数量的不重叠区域,从而提高了图像的分割速度以及分割后超像素的紧凑度。作为示例地,例如,分割得到的颜色像素区域和深度像素区域的数量都为n,颜色图像分割的区域集表示为
Figure BDA0001538239860000051
深度图像分割的区域集表示为
Figure BDA0001538239860000052
Figure BDA0001538239860000053
Figure BDA0001538239860000054
分别表示颜色图像和深度图像分割的第i个像素区域。
进一步优选地,在本发明实施例中,采用42*42的分割尺寸,通过超像素图像分割算法分别对立体图像的颜色图像和深度图像进行分割,从而提高了立体图像显著性检测方法的检测性能。
在步骤S102中,通过预设的多尺度区域级别的显著性预测网络分别对所有颜色像素区域和所有深度像素区域进行特征提取,得到所有颜色像素区域和所有深度像素区域对应的显著性值。
在本发明实施例中,对颜色像素区域和深度像素区域提取的特征包含底层特征(颜色、强度、亮度、方向和纹理等)和高层语义特征(人、文字和物体等),当得到的当前像素区域的显著性值为1时,表示当前像素区域显著,显著性值为0时,则表示当前像素区域非显著。
在通过预设的多尺度区域级别的显著性预测网络分别对所有颜色像素区域和所有深度像素区域进行特征提取之前,优选地,通过三个流和一个全连接隐藏层构建并训练多尺度区域级别的显著性预测网络,其中,每个流包括三组卷积层和一个全连接层,每组巻积层包含一个巻积层、一个激活层以及一个最大池化层,构建的多尺度区域级别的显著性预测网络如图2所示,多尺度区域级别的显著性预测网络包括多尺度区域级别的颜色显著性预测网络以及多尺度区域级别的深度显著性预测网络,两种网络的结构相同,只是网络参数不同,从而使得使用该显著性预测网络提取的特征更准确。
进一步优选地,将多尺度区域级别的显著性预测网络中每组巻积层的滤波器的尺寸分别设置为(64,3,3)、(128,3,3)和(256,3,3),以及将每组巻积层的最大池化层的步长设置为2个像素,从而降低了视觉特征的空间维度,进而降低了计算的复杂度。
进一步优选地,将每个流的全连接层以及全连接隐藏层的神经元均设置为512个,将从全连接隐藏层输出的卷积结果执行一个2分类的softmax回归操作,得到当前像素区域的显著性值,从而提高了显著性值的准确性。
优选地,在对所有颜色像素区域和所有深度像素区域进行特征提取时,根据预设的提取条件在当前像素区域内提取局部块、邻域块和背景块,通过预设的多尺度区域级别的显著性预测网络对提取到的局部块、邻域块和背景块进行特征提取,从而提高了提取的特征的准确性。由于通过超像素分割算法分割得到的像素区域可以为任意形状,而卷积神经网络(CNN)模型要求输入为矩形,因此,具体地,在当前像素区域内提取局部块、邻域块和背景块时,可根据当前像素区域的中心位置(xi,ji)以及分辨率MI×NI,通过边界框操作在当前像素区域内获得标准矩形的局部块,然后根据该中心位置以及分辨率MN×NN和MB×NB,提取当前像素区域的邻域块和背景块。
进一步优选地,将提取局部块、邻域块以及背景块的分辨率的比率MI:MN:MB和NI:NN:NB分别设置为3:5:8,从而使得该显著性预测网络提取的特征更准确。
在步骤S103中,根据每个显著性值对每个显著性值对应的颜色像素区域或深度像素区域进行处理,得到颜色图像的颜色显著性图和深度图像的深度显著性图。
在本发明实施例中,根据多尺度区域级别的显著性预测网络得到的显著性值,将该显著性值对应的像素区域的所有像素都分配该显著性值,最后得到颜色图像的颜色显著性图和深度图像的深度显著性图。
在步骤S104中,通过预设的空间融合网络将颜色显著性图和深度显著性图进行融合,生成立体图像的显著性图。
在本发明实施例中,将颜色显著性图和深度显著性图进行融合之前,优选地,通过一个输入层、一个级联层、五组巻积层、一个分类层、一个线性插值层和一个输出层来构建并训练空间融合网络,构建的空间融合网络如图3所示。具体地,将立体图像的原始颜色图像、得到的颜色显著性图和深度显著性图通过输入层输入,级联层以立体图像的原始颜色图像作为引导,颜色显著性图和深度显著性图进行融合,得到w×h×5的张量,w和h分别是立体图像的宽和高,然后将这个张量输入巻积滤波器大小为(3,3)、卷积滤波器个数分别为64、128、256、512和512的巻积层组,通过卷积操作后将巻积层输出的特征图输入到一个由单一输出通道、卷积滤波器大小为(1,1)的巻积层组成的分类层中,之后,通过线性插值层对从分类层输出的显著性图进行上采样,以得到与立体图像大小相同的显著性图,最后从输出层输出该显著性图,从而提高了颜色显著性图和深度显著性图的融合效果,使得立体图像的显著性效果更好。作为示例地,图4示出了本发明实施例中立体图像显著性的检测过程。
进一步优选地,将空间融合网络中第一组和最后一组巻积层后的最大池化层的步长设置为1个像素,从而避免后续生成稀疏的视觉特征,提高了显著性图的稠密度。
进一步优选地,将空间融合网络中第一组和最后一组巻积层后的最大池化层的步长设置为1个像素的同时,将其余的卷积组的池化层的步长设置为2个像素,从而降低过拟合的概率。
在本发明实施例中,当接收到立体图像显著性检测的请求时,首先,通过超像素图像分割算法分别对立体图像的颜色图像和深度图像进行分割,然后,通过多尺度区域级别的显著性预测网络对分割后得到的所有像素区域进行特征提取,得到所有像素区域对应的显著性值,根据每个显著性值对每个显著性值对应的像素区域进行处理,得到颜色图像的颜色显著性图和深度图像的深度显著性图,最后,通过空间融合网络将颜色显著性图和深度显著性图进行融合,生成立体图像的显著性图,从而降低了提取立体图像显著性特征的误差,提高了立体图像的显著性检测精确度,进而提高了立体图像显著性的检测模型的性能。
图5示出了验证颜色信息和深度信息对于立体图像的显著性的贡献程度,从图中的深度信息映射、颜色信息映射以及立体图像显著性映射曲线可以很明显的看出,颜色信息和深度信息的融合对于立体图像的显著性的贡献程度最大,其次是颜色信息,最后才是深度信息。也就是说颜色信息和深度信息对于立体图像的显著性都是至关重要的信息,缺少一个都会降低立体图像显著性检测模型的预测性能。
为了验证本发明实施例的立体图像显著性检测方法的检测性能,将该立体图像显著性检测方法与一些现有的基准模型进行比较,这些基准模型分别为SUN、ITTI、HOU、SAM-ResNe、SAM-VGG、ML-NET、SALICON、FANG-3D、LBVS-3D以及Proto-Object-3D,在实验过程中采用了一些评估指标,分别为ROC曲线下的面积(AUC)、打乱的ROC曲线下的面积(sAUC)、归一化扫描路径显著性(NSS)、信息增益(IG)、皮尔逊相关系数(CC)、相似性(SIM)、KL散度(KL)和陆地移动距离(EMD),一个好的模型要有高AUC、sAUC、NSS、IG、CC和SIM指标分数,但是KL和EMD的分数要低。本发明实施例的立体图像显著性检测方法与给出的基准模型在NUS数据库的测试集上的实验结果如图6所示,从中可以看出,本发明实施例所提出的立体图像显著性检测方法获得了更好的性能。从基于手动提取特征的ITTI模型和基于深度学习特征的SAM-ResNet模型的结果中,可以看出本发明实施例所提出的立体图像显著性检测方法要比传统的和基于学习的2D显著性检测模型的性能好,这也明显地证实了在颜色和深度提示方面的图像底层视觉特征和高层语义信息能够完全表征整个立体图像的内容。将图6中的立体图像显著性检测模型FANG-3D、LBVS-3D和Proto-Object-3D的指标评估结果与本发明实施例所提出的立体图像显著性检测模型相比较,可以得出基于深度学习的颜色和深度视觉特征要比传统的手动提取的视觉特征更加详细地描述了图像的内容信息。
实施例二:
图7示出了本发明实施例二提供的立体图像显著性的检测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
图像分割单元71,用于当接收到立体图像显著性检测的请求时,分别对立体图像的颜色图像和深度图像进行分割,以分别得到预设数量个颜色像素区域和深度像素区域。
本发明实施例适用于计算设备,例如,个人计算机、智能手机、平板等。在通过超像素图像分割算法分别对立体图像的颜色图像和深度图像进行分割时,优选地,采用简单的线性迭代聚类(SLIC)算法将颜色图像和深度图像分别分割为预设的分割区域数量的不重叠区域,从而提高了图像的分割速度以及分割后超像素的紧凑度。作为示例地,例如,分割得到的颜色像素区域和深度像素区域的数量都为n,颜色图像分割的区域集表示为
Figure BDA0001538239860000101
深度图像分割的区域集表示为
Figure BDA0001538239860000102
Figure BDA0001538239860000103
Figure BDA0001538239860000104
分别表示颜色图像和深度图像分割的第i个像素区域。
进一步优选地,在本发明实施例中,采用42*42的分割尺寸,通过超像素图像分割算法分别对立体图像的颜色图像和深度图像进行分割,从而提高了立体图像显著性检测方法的检测性能。
显著性值获取单元72,用于通过预设的多尺度区域级别的显著性预测网络分别对所有颜色像素区域和所有深度像素区域进行特征提取,得到所有颜色像素区域和所有深度像素区域对应的显著性值。
在本发明实施例中,对颜色像素区域和深度像素区域提取的特征包含底层特征(颜色、强度、亮度、方向和纹理等)和高层语义特征(人、文字和物体等),当得到的当前像素区域的显著性值为1时,表示当前像素区域显著,显著性值为0时,则表示当前像素区域非显著。
显著性图获取单元73,用于根据每个显著性值对每个显著性值对应的颜色像素区域或深度像素区域进行处理,得到颜色图像的颜色显著性图和深度图像的深度显著性图。
在本发明实施例中,根据多尺度区域级别的显著性预测网络得到的显著性值,将该显著性值对应的像素区域的所有像素都分配该显著性值,最后得到颜色图像的颜色显著性图和深度图像的深度显著性图。
显著性图融合单元74,用于通过预设的空间融合网络将颜色显著性图和深度显著性图进行融合,生成立体图像的显著性图。
在本发明实施例中,立体图像显著性的检测装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例三:
图8示出了本发明实施例三提供的立体图像显著性的检测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
图像分割单元81,用于当接收到立体图像显著性检测的请求时,分别对立体图像的颜色图像和深度图像进行分割,以分别得到预设数量个颜色像素区域和深度像素区域。
本发明实施例适用于计算设备,例如,个人计算机、智能手机、平板等。在通过超像素图像分割算法分别对立体图像的颜色图像和深度图像进行分割时,优选地,采用简单的线性迭代聚类(SLIC)算法将颜色图像和深度图像分别分割为预设的分割区域数量的不重叠区域,从而提高了图像的分割速度以及分割后超像素的紧凑度。作为示例地,例如,分割得到的颜色像素区域总数为n,分割得到的深度像素区域总数也是n,颜色图像分割的区域集表示为
Figure BDA0001538239860000111
深度图像分割的区域集表示为
Figure BDA0001538239860000112
Figure BDA0001538239860000113
Figure BDA0001538239860000114
分别表示颜色图像和深度图像分割的第i个像素区域。
进一步优选地,在本发明实施例中,采用42*42的分割尺寸,通过超像素图像分割算法分别对立体图像的颜色图像和深度图像进行分割,从而提高了立体图像显著性检测方法的检测性能。
预测网络构建单元82,用于通过三个流和一个全连接隐藏层构建并训练多尺度区域级别的显著性预测网络,其中,每个流包括三组卷积层和一个全连接层。
在发明实施例中,通过三个流和一个全连接隐藏层构建并训练多尺度区域级别的显著性预测网络,其中,每个流包括三组卷积层和一个全连接层,每组巻积层包含一个巻积层、一个激活层以及一个最大池化层,多尺度区域级别的显著性预测网络包括多尺度区域级别的颜色显著性预测网络以及多尺度区域级别的深度显著性预测网络,两种网络的结构相同,只是网络参数不同。
优选地,将多尺度区域级别的显著性预测网络中每组巻积层的滤波器的尺寸分别设置为(64,3,3),(128,3,3)和(256,3,3),以及将每组巻积层的最大池化层的步长设置为2个像素,从而降低了视觉特征的空间维度,进而降低了计算的复杂度。
进一步优选地,将每个流的全连接层以及全连接隐藏层的神经元均设置为512个,将从全连接隐藏层输出的卷积结果执行一个2分类的softmax回归操作,得到当前像素区域的显著性值,从而提高了显著性值的准确性。
显著性值获取单元83,用于通过预设的多尺度区域级别的显著性预测网络分别对所有颜色像素区域和所有深度像素区域进行特征提取,得到所有颜色像素区域和所有深度像素区域对应的显著性值。
在本发明实施例中,对颜色像素区域和深度像素区域提取的特征包含底层特征(颜色、强度、亮度、方向和纹理等)和高层语义特征(人、文字和物体等),当得到的当前像素区域的显著性值为1时,表示当前像素区域显著,显著性值为0时,则表示当前像素区域非显著。
优选地,在对所有颜色像素区域和所有深度像素区域进行特征提取时,根据预设的提取条件在当前像素区域内提取局部块、邻域块和背景块,通过预设的多尺度区域级别的显著性预测网络对提取到的局部块、邻域块和背景块进行特征提取,从而提高了提取的特征的准确性。由于通过超像素分割算法分割得到的像素区域可以为任意形状,而卷积神经网络(CNN)模型要求输入为矩形,因此,具体地,在当前像素区域内提取局部块、邻域块和背景块时,可根据当前像素区域的中心位置(xi,ji)以及分辨率MI×NI,通过边界框操作在当前像素区域内获得标准矩形的局部块,然后根据该中心位置以及分辨率MN×NN和MB×NB,提取当前像素区域的邻域块和背景块。
进一步优选地,将提取局部块、邻域块以及背景块的分辨率的比率MI:MN:MB和NI:NN:NB分别设置为3:5:8,从而使得该显著性预测网络提取的特征更准确。
显著性图获取单元84,用于根据每个显著性值对每个显著性值对应的颜色像素区域或深度像素区域进行处理,得到颜色图像的颜色显著性图和深度图像的深度显著性图。
在本发明实施例中,根据多尺度区域级别的显著性预测网络得到的显著性值,将该显著性值对应的像素区域的所有像素都分配该显著性值,最后得到颜色图像的颜色显著性图和深度图像的深度显著性图。
融合网络构建单元85,用于通过一个输入层、一个级联层、五组巻积层、一个分类层、一个线性插值层和一个输出层来构建并训练空间融合网络。
在本发明实施例中,通过一个输入层、一个级联层、五组巻积层、一个分类层、一个线性插值层和一个输出层来构建并训练空间融合网络。具体地,将立体图像的原始颜色图像、得到的颜色显著性图和深度显著性图通过输入层输入,级联层以立体图像的原始颜色图像作为引导,颜色显著性图和深度显著性图进行融合,得到w×h×5的张量,w和h分别是立体图像的宽和高,然后将这个张量输入巻积滤波器大小为(3,3),卷积滤波器个数分别为64、128、256、512和512的巻积层组,通过卷积操作后将巻积层输出的特征图输入到一个由单一输出通道、卷积滤波器大小为(1,1)的巻积层组成的分类层中,之后,通过线性插值层对将从分类层输出的显著性图进行上采样,以得到与立体图像大小相同的显著性图,最后从输出层输出该显著性图。
显著性图融合单元86,用于通过预设的空间融合网络将颜色显著性图和深度显著性图进行融合,生成立体图像的显著性图。
在本发明实施例中,优选地,将空间融合网络中第一组和最后一组巻积层后的最大池化层的步长设置为1个像素,从而避免后续生成稀疏的视觉特征,提高了显著性图的稠密度。
进一步优选地,将空间融合网络中第一组和最后一组巻积层后的最大池化层的步长设置为1个像素的同时,将其余的卷积组的池化层的步长设置为2个像素,从而降低过拟合的概率。
因此,其中,显著性值获取单元83包括:
区域块提取单元831,用于根据预设的提取条件在当前像素区域内提取局部块、邻域块和背景块;以及
特征提取单元832,用于通过显著性预测网络对提取到的局部块、邻域块和背景块进行特征提取。
在本发明实施例中,立体图像显著性的检测装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例四:
图9示出了本发明实施例四提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的计算设备9包括处理器90、存储器91以及存储在存储器91中并可在处理器90上运行的计算机程序92。该处理器90执行计算机程序92时实现上述立体图像显著性的检测方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,处理器90执行计算机程序92时实现上述各装置实施例中各单元的功能,例如图7所示单元71至74的功能。
在本发明实施例中,当接收到立体图像显著性检测的请求时,分别对立体图像的颜色图像和深度图像进行分割,以分别得到预设数量个颜色像素区域和深度像素区域,通过多尺度区域级别的显著性预测网络分别对所有颜色像素区域和所有深度像素区域进行特征提取,得到所有颜色像素区域和所有深度像素区域对应的显著性值,根据每个显著性值对每个显著性值对应的颜色像素区域或深度像素区域进行处理,得到颜色图像的颜色显著性图和深度图像的深度显著性图,通过空间融合网络将颜色显著性图和深度显著性图进行融合,生成立体图像的显著性图,从而降低了提取到的立体图像显著性特征的误差,进而提高了立体图像的显著性检测精确度。
本发明实施例的计算设备可以为个人计算机、智能手机以及平板。该计算设备9中处理器90执行计算机程序92时实现立体图像显著性的检测方法时实现的步骤可参考前述方法实施例的描述,在此不再赘述。
实施例五:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述立体图像显著性的检测方法实施例中的步骤,例如,图1所示的步骤S101至S104。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图7所示单元71至74的功能。
在本发明实施例中,当接收到立体图像显著性检测的请求时,分别对立体图像的颜色图像和深度图像进行分割,以分别得到预设数量个颜色像素区域和深度像素区域,通过多尺度区域级别的显著性预测网络分别对所有颜色像素区域和所有深度像素区域进行特征提取,得到所有颜色像素区域和所有深度像素区域对应的显著性值,根据每个显著性值对每个显著性值对应的颜色像素区域或深度像素区域进行处理,得到颜色图像的颜色显著性图和深度图像的深度显著性图,通过空间融合网络将颜色显著性图和深度显著性图进行融合,生成立体图像的显著性图,从而降低了提取到的立体图像显著性特征的误差,进而提高了立体图像的显著性检测精确度。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种立体图像显著性的检测方法,其特征在于,所述方法包括下述步骤:
当接收到立体图像显著性检测的请求时,分别对所述立体图像的颜色图像和深度图像进行分割,以分别得到预设数量个颜色像素区域和深度像素区域;
通过预设的多尺度区域级别的显著性预测网络分别对所有颜色像素区域和所有深度像素区域进行特征提取,得到所有所述颜色像素区域和所有所述深度像素区域对应的显著性值,提取的特征包含底层特征和高层语义特征,所述显著性预测网络通过三个流和一个全连接隐藏层构建和训练得到,其中,每个流包括三组卷积层和一个全连接层,每组巻积层包含一个巻积层、一个激活层以及一个最大池化层;
根据每个所述显著性值对每个所述显著性值对应的所述颜色像素区域或所述深度像素区域进行处理,得到所述颜色图像的颜色显著性图和所述深度图像的深度显著性图;
通过预设的空间融合网络将所述颜色显著性图和所述深度显著性图进行融合,生成所述立体图像的显著性图。
2.如权利要求1所述的方法,其特征在于,通过预设的空间融合网络将所述颜色显著性图和所述深度显著性图进行融合的步骤之前,包括:
通过一个输入层、一个级联层、五组巻积层、一个分类层、一个线性插值层和一个输出层来构建并训练所述空间融合网络。
3.如权利要求1所述的方法,其特征在于,通过预设的多尺度区域级别的显著性预测网络分别对所有颜色像素区域和所有深度像素区域进行特征提取的步骤,包括:
根据预设的提取条件在当前像素区域内提取局部块、邻域块和背景块;
通过所述显著性预测网络对所述提取到的局部块、邻域块和背景块进行特征提取。
4.一种立体图像显著性的检测装置,其特征在于,所述装置包括:
图像分割单元,用于当接收到立体图像显著性检测的请求时,分别对所述立体图像的颜色图像和深度图像进行分割,以分别得到预设数量个颜色像素区域和深度像素区域;
显著性值获取单元,用于通过预设的多尺度区域级别的显著性预测网络分别对所有颜色像素区域和所有深度像素区域进行特征提取,得到所有所述颜色像素区域和所有所述深度像素区域对应的显著性值,提取的特征包含底层特征和高层语义特征,所述显著性预测网络通过三个流和一个全连接隐藏层构建和训练得到,其中,每个流包括三组卷积层和一个全连接层,每组巻积层包含一个巻积层、一个激活层以及一个最大池化层;
显著性图获取单元,用于根据每个所述显著性值对每个所述显著性值对应的所述颜色像素区域或所述深度像素区域进行处理,得到所述颜色图像的颜色显著性图和所述深度图像的深度显著性图;以及
显著性图融合单元,用于通过预设的空间融合网络将所述颜色显著性图和所述深度显著性图进行融合,生成所述立体图像的显著性图。
5.如权利要求4所述的装置,其特征在于,所述装置还包括:
融合网络构建单元,用于通过一个输入层、一个级联层、五组巻积层、一个分类层、一个线性插值层和一个输出层来构建并训练所述空间融合网络。
6.如权利要求4所述的装置,其特征在于,所述显著性值获取单元包括:
区域块提取单元,用于根据预设的提取条件在当前像素区域内提取局部块、邻域块和背景块;以及
特征提取单元,用于通过所述显著性预测网络对所述提取到的局部块、邻域块和背景块进行特征提取。
7.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。
CN201810004732.6A 2018-01-03 2018-01-03 一种立体图像显著性的检测方法、装置、设备及存储介质 Active CN108345892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810004732.6A CN108345892B (zh) 2018-01-03 2018-01-03 一种立体图像显著性的检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810004732.6A CN108345892B (zh) 2018-01-03 2018-01-03 一种立体图像显著性的检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108345892A CN108345892A (zh) 2018-07-31
CN108345892B true CN108345892B (zh) 2022-02-22

Family

ID=62961186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810004732.6A Active CN108345892B (zh) 2018-01-03 2018-01-03 一种立体图像显著性的检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108345892B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101961A (zh) * 2018-08-03 2018-12-28 深圳市销邦科技股份有限公司 基于图像分割的目标识别方法、***、设备及存储介质
CN109409380B (zh) * 2018-08-27 2021-01-12 浙江科技学院 一种基于双学习网络的立体图像视觉显著提取方法
CN109409435B (zh) * 2018-11-01 2022-07-15 上海大学 一种基于卷积神经网络的深度感知显著性检测方法
CN109492580B (zh) * 2018-11-08 2020-08-07 北方工业大学 一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法
CN109685806B (zh) * 2018-11-14 2020-06-30 武汉科技大学 图像显著性检测方法及装置
CN109741293A (zh) * 2018-11-20 2019-05-10 武汉科技大学 显著性检测方法及装置
CN109977967B (zh) * 2019-03-06 2020-12-25 浙江科技学院 基于参数共享深度学习网络的立体图像视觉显著提取方法
CN110223295B (zh) * 2019-06-21 2022-05-03 安徽大学 基于深度神经网络色彩感知的显著性预测方法及装置
CN110517270B (zh) * 2019-07-16 2022-04-12 北京工业大学 一种基于超像素深度网络的室内场景语义分割方法
CN111524090A (zh) * 2020-01-13 2020-08-11 镇江优瞳智能科技有限公司 一种基于深度预测图的rgb-d显著性检测方法
CN112308138B (zh) * 2020-10-30 2024-04-09 中国平安财产保险股份有限公司 模型采样方法、装置、计算机设备及存储介质
CN112581446A (zh) * 2020-12-15 2021-03-30 影石创新科技股份有限公司 一种图像的显著性物体检测方法、装置、设备及存储介质
CN113128519B (zh) * 2021-04-27 2023-08-08 西北大学 一种多模态多拼接的rgb-d显著性目标检测方法
CN113496225B (zh) * 2021-09-07 2022-02-11 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780476A (zh) * 2016-12-29 2017-05-31 杭州电子科技大学 一种基于人眼立体视觉特性的立体图像显著性检测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8705847B2 (en) * 2011-09-30 2014-04-22 Cyberlink Corp. Method and system of two-dimensional to stereoscopic conversion
EP3213292A4 (en) * 2014-10-28 2018-06-13 Hewlett-Packard Development Company, L.P. Three dimensional object recognition
CN104463890B (zh) * 2014-12-19 2017-05-24 北京工业大学 一种立体图像显著性区域检测方法
WO2018023734A1 (zh) * 2016-08-05 2018-02-08 深圳大学 一种3d图像的显著性检测方法
CN106469316B (zh) * 2016-09-07 2020-02-21 深圳大学 基于超像素级信息融合的高光谱图像的分类方法及***
CN107085848A (zh) * 2017-04-20 2017-08-22 安徽大学 一种rgb‑d图显著性的检测方法
CN107506822B (zh) * 2017-07-26 2021-02-19 天津大学 一种基于空间融合池化的深度神经网络方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780476A (zh) * 2016-12-29 2017-05-31 杭州电子科技大学 一种基于人眼立体视觉特性的立体图像显著性检测方法

Also Published As

Publication number Publication date
CN108345892A (zh) 2018-07-31

Similar Documents

Publication Publication Date Title
CN108345892B (zh) 一种立体图像显著性的检测方法、装置、设备及存储介质
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
Do et al. Forensics face detection from GANs using convolutional neural network
CN110738125B (zh) 利用Mask R-CNN选择检测框的方法、装置及存储介质
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
CN110689599B (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN109753913B (zh) 计算高效的多模式视频语义分割方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
US10970824B2 (en) Method and apparatus for removing turbid objects in an image
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN111275034B (zh) 从图像中提取文本区域的方法、装置、设备和存储介质
CN110909724B (zh) 一种多目标图像的缩略图生成方法
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN109948483B (zh) 一种基于动作和面部表情的人物交互关系识别方法
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN114037839B (zh) 一种小目标识别方法、***、电子设备及介质
CN114972016A (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
CN113014923B (zh) 一种基于压缩域表征运动向量的行为识别方法
CN114359789A (zh) 视频图像的目标检测方法、装置、设备及介质
CN113971732A (zh) 小目标检测方法、装置、可读存储介质及电子设备
CN115294162B (zh) 目标识别方法、装置、设备及存储介质
KR20180092453A (ko) Cnn과 스테레오 이미지를 이용한 얼굴 인식 방법
CN116977200A (zh) 视频去噪模型的处理方法、装置、计算机设备和存储介质
CN114140320B (zh) 图像迁移方法和图像迁移模型的训练方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant