CN104915972B

CN104915972B - 图像处理装置、图像处理方法以及程序

Info

Publication number: CN104915972B
Application number: CN201410842620.XA
Authority: CN
Inventors: 阮翔; 卢湖川; 佟娜
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2014-03-13
Filing date: 2014-12-30
Publication date: 2018-02-13
Anticipated expiration: 2034-12-30
Also published as: KR20150107579A; CN104915972A; US20150262039A1; EP2919162A1; JP6330385B2; JP2015176169A; KR101640998B1; US9600746B2

Abstract

本发明涉及图像处理装置、图像处理方法以及程序。对于输入图像，(1)首先以基于模型的算法来计算粗略的前景图。(2)从粗略的前景图中的前景区域和背景区域，分别提取正的学习样本和负的学习样本。(3)使用步骤(2)中定义的学习样本，对多个识别器进行学习。(4)组合所学习的多个识别器而构筑强识别器，使用该强识别器生成对于输入图像的最终的显著性图。

Description

图像处理装置、图像处理方法以及程序

技术领域

本发明涉及对图像中的显著区域自动进行检测的技术。

背景技术

以往，在图像处理的领域中，已知将在图像中预想为人会关注的图像区域、或应该关注的图像区域(将它们称为显著区域)从该图像中检测(提取)的技术。此外，还进行以下处理：通过使用这样的显著区域检测的技术，算出图像中的各像素的显著度(saliencymeasure)，从而生成表示该图像的各像素的显著度的显著性图(saliency map)。

关于这样的显著区域检测的技术，作为用于从图像检测主要被摄体或检测图像中反映出的异常事件的要素技术，例如期待监视摄像机、机器人视觉(Robot vision)、机器视觉(Machine vision)等范围广的应用。

用于显著区域检测的算法大致区分为基于模型的方法和基于学习的方法。基于模型的方法是将人的眼睛和大脑的模型或假设通过算式而模型化，使用该模型来检测显著区域的方法。基于模型在通用性上优良，但仍不能构筑能够将人的眼睛或大脑的判断完美地再现的模型，为了应对现实世界的各种问题，期望进一步提高精度。

另一方面，基于学习的方法是使用多个事例(样本)数据或教师信号(ground-truth)来学习显著区域的图像特征的方法(参照专利文献1)，具有不需要模型或假设，能够更简单地构筑高精度的检测器的优点。但是，难以准备将应该检测为显著区域的模式全部包括的事例数据(学习DB)，或难以定义教师信号(ground-truth)的情况较多，这成为在将基于学习的方法实用化方面的瓶颈。

作为鉴于该点的以往方法，在专利文献2中，提出了不需要预备知识，使用构成视频的各帧间的信息来检测显著区域的技术。但是，专利文献2的技术虽然不需要预备知识，但仅将由多个帧构成的运动图像作为对象，不能应用于对于静止图像的显著度的评价。

现有技术文献

专利文献

专利文献1：(日本)特开2001－236508号公报

专利文献2：(日本)特开2010－258914号公报

发明内容

本发明是为了解决上述课题而完成的，其目的在于，提供不需要学习用的事例数据，即使从一张图像也能够高精度地检测显著区域的、基于学习的新的方法。

为了达成上述目的，本发明所涉及的图像处理装置的特征在于，具有：图像取得部，取得成为处理对象的图像；学习样本提取部，从所述图像提取多个学习样本的数据；识别器学习部，使用所述多个学习样本进行多个识别器的学习；强识别器生成部，组合所学习的所述多个识别器而生成强识别器；以及显著性图生成部，使用所述强识别器，生成所述图像的显著性图。

根据该结构，由于使用成为处理对象的图像自身的信息来进行学习，所以不需要学习用的事例数据(预备知识)。此外，自动生成针对处理对象的图像的强识别器，由此得到最终的显著性图，所以能够实现比以往高精度的显著区域检测。

优选还具有：前景图生成部，生成前景图，所述前景图将所述图像分类为前景的区域和背景的区域，所述学习样本提取部从所述前景的区域提取正的学习样本，从所述背景的区域提取负的学习样本。例如，也可以是所述前景图是具有按所述图像的每个像素或每个超像素表示前景可能性的值的图，所述学习样本提取部将表示所述前景可能性的值比第一阈值大的像素或超像素提取为正的学习样本，将表示所述前景可能性的值比第二阈值小的像素或超像素提取为负的学习样本。

通过首先作出这样的前景图，从前景和背景分别提取正的学习样本和负的学习样本，从而提高学习样本的妥当性，能够实现识别器的学习的可靠性和精度的提高。

优选所述前景图生成部通过基于模型的算法，生成比由所述显著性图生成部得到的显著性图精度更低的粗略的显著性图，根据所述粗略的显著性图生成所述前景图。

通过使用基于模型的算法，能够生成不需要预备知识的显著性图。另外，由前景图生成部生成的粗略的显著性图是为了提取学习样本而使用的显著性图，所以也可以是粗略的(精度低的)图。

优选所述前景图生成部对所述粗略的显著性图进行分割(segmentation)处理，通过将所述粗略的显著性图和所述分割处理的结果进行合成，生成所述前景图。

粗略的显著性图是按每个像素或每个超像素表示个别的(即，局部的)显著度的显著性图，所以可能包含噪声或偏差值等。对其组合分割处理，以区域为单位(即，宏)分类为前景和背景，从而能够降低噪声或偏差值，能够取得更妥当的学习样本。

优选所述前景图生成部使用像素越暗则表示越高的显著度的暗通道(Dark-channel)指标，作为用于评价所述粗略的显著性图中的各像素或各超像素的显著度的指标之一。由此，能够以简单的算法评价显著度。

另外，本发明能够理解为具有上述结构的至少一部分的图像处理装置。此外，本发明还能够理解为包含上述处理的至少一部分的图像处理装置的控制方法或显著性图生成方法、或者用于使计算机执行该方法的程序或非暂时性地存储了该程序的计算机能够读取的存储介质。只要不会产生技术的矛盾则能够将上述结构以及处理的各个相互组合而构成本发明。

根据本发明，不需要学习用的事例数据，即使从一张图像也能够高精度地检测显著区域。

附图说明

图1是表示实施方式所涉及的图像处理装置的功能块的图。

图2是表示实施方式所涉及的图像处理方法(显著性图生成方法)的流程的流程图。

图3(a)～(b)是表示超像素图像的例子的图。

图4是说明LBP直方图的图。

图5是表示提升(boosting)处理的流程的流程图。

图6(a)～(l)是表示通过本方法生成的显著性图与通过现有技术生成的显著性图的比较的图。

标号说明

1：图像处理装置

11：图像取得部，12：控制部，13：输出部，14：存储部

121：前处理部，122：粗略前景图生成部，123：学习样本提取部，124：识别器学习部，125：强识别器生成部，126：显著性图生成部

具体实施方式

本发明的实施方式是提出新的基于学习的显著区域检测方法的实施方式。其最大的特征在于，不需要事例数据(预备知识)，即使从一张图像也能够检测显著区域(生成显著性图也是同义)。作为用于将其实现的基本的想法，在本实施方式中采用以下的框架(framework)。

(1)首先，以基于模型的算法来计算粗略的前景图。

(2)从粗略的前景图中的前景区域和背景区域，分别提取正的学习样本和负的学习样本。

(3)使用步骤(2)中定义的学习样本，对多个识别器进行学习。

(4)组合所学习的多个识别器而构筑强识别器，使用该强识别器生成最终的显著性图。

根据这样的算法，使用图像自身的信息进行学习，生成针对该图像的识别器，所以能够实现比以往高精度的检测精度。而且与以往的基于学习的算法不同，还有完全不需要事例数据(预备知识)和教师信号的优点。

以下，参照附图详细说明本发明的具体的实施方式。

(结构)

说明本发明的一个实施方式所涉及的图像处理装置1的结构。图1是表示图像处理装置1的结构的功能框图。图1所示的图像处理装置1取得输入图像，输出表示所取得的输入图像的各像素中的显著度的显著性图。另外，在本实施方式中，作为输入图像是静止图像而进行说明，但也可以将运动图像作为输入，对运动图像的各帧输出显著性图。

如图1所示，图像处理装置1具备图像取得部11、控制部12、输出部13以及存储部14。

图像取得部11是从外部取得成为处理对象的输入图像的部件。例示地说，图像取得部11根据用户的输入操作，从连接到图像处理装置1的数字照相机或数字摄像机等摄像装置，以实时(取得同步)或非同步的方式，取得输入图像。

其中，输入图像的取得方法不限定于上述，例如，也可以是图像取得部11取得存储部14中存储的图像数据作为输入图像，也可以从与图像处理装置1连接的周边设备取得输入图像，也可以经由有线或无线的通信网络取得输入图像。

控制部12是统一地控制图像处理装置1中的各种功能的部件。控制部12的控制功能通过CPU(中央处理单元，Central Processing Unit)等处理装置执行控制程序而实现。或者，控制功能也可以通过ASIC(专用集成电路，Application Specific IntegratedCircuit)等而实现。此外，也可以通过它们的组合而实现。控制部12具备用于执行对于从图像取得部11输入的输入图像的各种处理的功能以及结构作为该控制功能的一部分。关于控制部12的详细的功能以及结构如后述。

输出部13是将基于控制部12的输入图像的处理结果对外部输出的部件。例如，输出部13也可以对各种图像应用输出上述处理结果。本实施方式的输出部13对图像取得部11取得的输入图像输出由控制部12生成的显著性图。

存储部14是存储各种数据以及计算机程序的部件。存储部14例如能够通过将ROM(只读存储器，Read Only Memory)、RAM(随机存取存储器，Random Access Memory)、以及非易失性存储器(例如闪速存储器)等的存储装置进行组合来实现。

在存储部14中，存储例如控制部12中执行的计算机程序、该程序中处理的各种数据等。

(控制部)

接着，说明控制部12的各部分。如图1所示，控制部12具备：前处理部121、粗略前景图生成部122、学习样本提取部123、识别器学习部124、强识别器生成部125、显著性图生成部126。与表示基于控制部12的图像处理(显著性图生成处理)的流程的图2的流程图以及其他附图一同说明各功能部的结构。

(前处理)

首先，控制部12取得被输入至图像取得部11的输入图像(步骤S10)。输入图像被转交至前处理部121。前处理部121将从图像取得部11取得的输入图像作为原图像，从以像素为单位结构的原图像，生成以超像素(SP：Super Pixel)为单位结构的超像素图像(SP图像)(步骤S11)。在此，超像素是在图像中由颜色或者亮度等的各种参数的值相互类似的相邻的多个像素构成的小区域。即，超像素图像也可以说是基于输入图像的像素的特征量而被分割为连接着的多个区域的图像。为了将以超像素为单位结构的图像与原图像区分，称为超像素图像。作为超像素图像的生成算法，已知多个生成算法，但在本发明中可以利用任意算法。

通过进行使用了超像素图像来代替原图像的图像处理，能够大幅度地削减处理的数据量，所以能够实现处理的高速化以及省存储器化，且还能够抑制上述的各种参数(亮度、颜色等)的噪声。其中，在本实施方式中使用超像素图像，但也可以直接使用原图像。在直接使用原图像的情况下，只是以后的处理单位代替“超像素”而成为“像素”。

图3表示输入图像和由前处理部121生成的超像素图像的例子。在超像素图像中描绘了网眼状的花纹，以该网眼分割的各个片(patch)(区域)是超像素。

(提取特征量)

接下来，前处理部121对超像素图像进行提取各超像素的特征量的处理(步骤S12)。在此，使用构成超像素的像素群的RGB的平均值(Ra、Ga、Ba)、构成超像素的像素群的L^＊a^＊b^＊的平均值(La、Aa、Ba)、构成超像素的像素群的LBP(局部二值模式，Local BinaryPattern)直方图这三个作为特征量。另外，L^＊a^＊b^＊是由CIE(国际照明委员会)规定的等色颜色空间之一(以后，简单地记载为Lab)。

LBP以二进制模式表示关注像素和处于关注像素的附近的像素之间的关系。图4是说明基于LBP的特征量的算出方法的图。标号201是切出了输入图像的一部分的、具有3个像素×3个像素的尺寸的区域，以中央的黑色表示的像素是处理对象的像素(关注像素)。

在此，生成表示处于关注像素的附近的8个像素的亮度值相对于关注像素是亮还是暗的模式。具体而言，若亮度值小于5则给予0，若为5以上则给予1。其结果，生成标号202那样的模式。将这样生成的二进制值从左上起按顺序排列，生成8比特的值(LBP值)。

并且，将关于构成超像素的全部像素算出的LBP值按每个比特进行累计，生成直方图。其结果，能够得到如标号203所示那样的直方图。该LBP直方图203(即，8维的矢量)成为对应于超像素的特征量。

(生成粗略前景图)

接下来，粗略前景图生成部122对超像素图像进行粗略前景图的生成(步骤S13～S15)。详细地说，按照基于模型的显著性图生成处理(S13)、分割处理(S14)、粗略前景图生成处理(S15)这样的顺序来进行。以下，详细说明各个处理。

(1)基于模型的显著性图生成处理(S13)

粗略前景图生成部122对超像素图像应用简易的基于模型的显著区域检测处理，计算各超像素的显著度，从而生成粗略的显著性图。在此“粗略的”意味着也可以不是高的精度。也就是说，在此生成的粗略的显著性图的目的在于提取学习样本，所以也可以比最终得到的显著性图精度低。在本实施方式中，使用基于之后的三个假设的简易的模型，通过下述式(1)求得显著度。

■对比度(Contrast)：对比度高的部分显著度高

■中心优先(Center Prior)：越处于图像的中心则显著度越高

■暗通道(Dark-channel)：暗的部分显著度高

【数1】

在此，c_i是第i个超像素(关注超像素)，f₀(c_i)是关注超像素的显著度。

对比度(Contrast)是将关注超像素和其附近的超像素的特征量之差的合计设为显著度的指标。K是特征量的种类，在本实施方式中，使用RGB的平均值、Lab的平均值、LBP直方图这三种。n_j是第j个附近超像素，N_B是附近超像素的数目。d_k是与特征量k相关的特征量空间中的、关注超像素c_i和附近超像素n_j之间的距离。

中心优先(Center Prior)是将相对于关注超像素的图像中心的接近度设为显著度的指标。具体的计算方法如式(2)所示。

【数2】

在此，(x,y)是关注超像素在图像内的位置坐标，(x_c,y_c)是图像的中心坐标。此外，σ_x和σ_y是用于控制高斯分布的宽度的参数(常数)。

暗通道(Dark-channel)是将关注超像素c_i的暗度设为显著度的指标。具体的计算方法如式(3)所示。

【数3】

在此，p是关注超像素(与式(1)的c_i相同)，q是构成关注超像素p的各像素。c表示各像素的通道(R、G、B)，I^c(q)是像素q的通道c的值。通过式(3)，检测构成超像素p的全部像素的全部通道之中的最小值，从1减去该最小值的值作为暗通道值而得到。

通过式(1)，计算图像中包含的全部超像素的显著度，从而得到图像的粗略的显著性图f₀。

(2)分割处理(S14)

接着，粗略前景图生成部122对步骤S13中得到的粗略的显著性图f₀进行分割处理，生成区域分割图f₁。分割处理是将图像分为前景区域和背景区域的区域分割处理，在此以显著性图f₀中显著度高的超像素尽可能被分类到前景的方式，搜索前景区域的轮廓(前景和背景的边界)的最佳解。作为分割的算法，自以往提出了例如图割(Graph Cuts)、水平集(Level Sets)、Snakes等各种分割算法，但可以使用任意算法。在本实施方式中使用图割。区域分割图f₁是表示各超像素是前景(1)还是背景(0)的图。另外，也可以是将各超像素的前景可能性以概率(0～1的实数值)表示的图，而不是以前景(1)/背景(0)的2值表示的图。

(3)粗略前景图生成处理(S15)

接着，粗略前景图生成部122将步骤S13中得到的显著性图f₀和步骤S14中得到的区域分割图f₁进行合成，生成粗略前景图。在本实施方式中，按每个超像素，将显著性图f₀的值和区域分割图f₁的值的平均值设为粗略前景图f₂(＝(f₀+f₁)/2)。

(提取学习样本)

接下来，学习样本提取部123基于粗略前景图f2，从超像素图像提取正的学习样本和负的学习样本(步骤S16)。正的学习样本是在后级的识别器学习中用作前景(显著区域)的样本的数据。粗略前景图f₂的值(前景可能性)比规定的阈值Tp大的超像素群被提取为正的学习样本。另一方面，负的学习样本是在后级的识别器学习中用作背景(不是显著区域)的样本的数据。粗略前景图f₂的值(前景可能性)比规定的阈值Tn小的超像素群被提取为负的学习样本。另外，将阈值Tp、Tn设定为Tn＜Tp，关于粗略前景图f₂的值在Tn～Tp的范围的超像素(也就是说，不清楚是前景还是背景的超像素)，从学习样本中除去。

(识别器学习)

接下来，识别器学习部124以步骤S16中得到的学习样本为基础，进行多个识别器的学习(步骤S17)。作为识别器，使用进行正和负这两类(class)的识别的识别器。关于识别器的学习算法，自以往提出了许多的学习算法，也能够使用任意算法，但在本实施方式中利用支持向量机(SVM)。

SVM具有能够通过改变核心函数而构成不同的识别器这样的特征。在本实施方式中，作为核心函数，使用Linear函数、Polynomial函数、RBF(径向基函数：Radial basisfunction)、Sigmoid函数这四种。此外，由于已从各超像素得到RGB的平均值、Lab的平均值、LBP直方图这三种特征量，所以进行核心4种×特征量3种＝12种识别器的学习。另外，核心函数、特征量的数目和种类为一例，也可以使用其他。

(强识别器的生成)

接下来，强识别器生成部125组合步骤S17中学习的12个识别器而构筑强识别器(步骤S18)。提升(boosting)是通过组合多个弱识别器而生成强识别器的操作，自以往提出了例如AdaBoost等许多的算法，可以使用任意算法。另外，强识别器是识别能力比弱识别器高的识别器。另外，在本实施方式中通过使用提升而组合识别器从而生成了强识别器，但也可以使用套袋(Bagging)、随机森林(Random Forest)等其他方法。

图5表示本实施方式的提升的处理的流程。提升中利用步骤S16中得到的正以及负的学习样本。

首先，强识别器生成部125对各学习样本的权重w设定初始值1/D(步骤S20)。D是学习样本的数目。并且，在12个识别器的每个中进行D个加权的学习样本的识别，选择识别误差最小的识别器S(步骤S21)。接着，基于该识别误差而决定所选择的识别器S的权重β(步骤S22)。之后，基于该识别器S、权重β、识别误差，更新各学习样本的权重w(步骤S23)。此时，进行权重w的调整以使难以识别学习样本。

通过将步骤S21～S23的处理重复规定的次数(B次)，从而得到B个识别器S和权重β的组。强识别器生成部125如下述式那样对B个识别器S进行线性组合，从而生成最终的强识别器Y(步骤S24)。

【数4】

在此，r是识别对象的像素或超像素。

(生成显著性图)

若通过以上的处理得到强识别器Y，则显著性图生成部126通过将原图像(步骤S10中输入的图像)的各像素输入至强识别器Y，计算各像素的显著度，从而生成最终的显著性图(步骤S19)。

根据以上叙述的方法，完全不需要预备知识，使用输入图像自身的信息进行识别器的学习，且能够通过该识别器生成输入图像的显著性图。

(实验结果)

说明通过本方法以及现有技术的方法而得到的显著性图。图6的(a)表示原图像，(b)～(j)表示通过以往方法得到的显著性图，(k)表示通过本方法得到的显著性图，以及(l)表示正解图(Ground-truth)。根据本方法，可知与现有技术相比，能够更高精度地检测显著区域。

(变形例)

上述的实施方式表示本发明的一具体例，没有将本发明的范围限定于这些具体例的意思。

例如，在上述实施方式中，使用了超像素图像，但也可以直接以所输入的原图像进行同样的处理。此时，只是处理单位不是超像素而是成为一个像素。此外，在上述实施方式中，根据通过基于模型的显著区域检测而得到的显著性图f₀和通过分割而得到的区域分割图f₁生成了粗略前景图f₂，但也可以直接将显著性图f₀用作粗略前景图f₂。此外，在上述实施方式中，生成显著性图f₀时，基于像素的对比度、暗通道、中心优先评价了显著度，但也可以使用其他模型或假设。此外，在上述实施方式中，使用RGB的平均值、Lab的平均值、LBP直方图这三个作为特征量，但也可以使用其他种类的特征量，特征量的数目是几个都可以。此外，识别器的种类、学习算法、提升方法也不限于上述实施方式。

(安装例)

上述的图像处理装置的具体的安装可以是基于软件(程序)的安装、基于硬件的安装的任一个。例如，也可以在被内置于图像处理装置的计算机(微机、CPU、MPU、FPGA等)的存储器中存储计算机程序，使计算机执行该计算机程序，从而实现各处理。此外，优选设置通过逻辑电路实现本发明的全部或者一部分的处理的ASIC等专用处理器。此外，本发明还能够应用于云环境中的服务器。

此外，例如，即使是由通过计算机执行的步骤构成的方法，也能够实施本发明，其中，所述计算机是读入存储装置中记录的程序并执行，从而实现前述的实施方式的功能的***或装置的计算机。为了该目的，上述程序例如通过网络，或从能成为上述存储装置的各种类型的记录介质(也就是说，非暂时性地保持数据的计算机能够读取的记录介质)，被提供给上述计算机。因此，上述计算机(包含CPU、MPU等设备)、上述方法、上述程序(包含程序代码、程序产品)、非暂时性地保持上述程序的计算机能够读取的记录介质都包含于本发明的范畴。

Claims

1.一种图像处理装置，其特征在于，具有：

图像取得部，取得成为处理对象的图像；

学习样本提取部，从所述图像提取多个学习样本的数据；

识别器学习部，使用所述多个学习样本进行多个识别器的学习；

强识别器生成部，组合所学习的所述多个识别器而生成强识别器；

显著性图生成部，使用所述强识别器，生成所述图像的显著性图；以及

前景图生成部，生成前景图，所述前景图是具有按所述图像的每个像素或每个超像素表示前景可能性的值的图，

所述学习样本提取部将表示所述前景可能性的值比第一阈值大的像素或超像素提取为正的学习样本，将表示所述前景可能性的值比第二阈值小的像素或超像素提取为负的学习样本，

所述第二阈值比所述第一阈值小，

所述学习样本提取部不会将表示所述前景可能性的值处于所述第二阈值至所述第一阈值的范围的像素或超像素提取为学习样本。

2.如权利要求1所述的图像处理装置，其特征在于，

所述前景图生成部通过基于模型的算法，生成比由所述显著性图生成部得到的显著性图精度更低的粗略的显著性图，根据所述粗略的显著性图生成所述前景图。

3.如权利要求2所述的图像处理装置，其特征在于，

所述前景图生成部对所述粗略的显著性图进行分割处理，通过将所述粗略的显著性图和所述分割处理的结果进行合成，生成所述前景图。

4.如权利要求2或3所述的图像处理装置，其特征在于，

所述前景图生成部使用像素越暗则表示越高的显著度的暗通道指标，作为评价所述粗略的显著性图中的各像素或各超像素的显著度的指标之一。

5.一种图像处理方法，由计算机执行，其特征在于，具有：

图像取得步骤，取得成为处理对象的图像；

前景图生成步骤，生成前景图，所述前景图是具有按所述图像的每个像素或每个超像素表示前景可能性的值的图；

学习样本提取步骤，从所述图像提取多个学习样本的数据；

识别器学习步骤，使用所述多个学习样本进行多个识别器的学习；

强识别器生成步骤，组合所学习的所述多个识别器而生成强识别器；以及

显著性图生成步骤，使用所述强识别器生成所述图像的显著性图，

在所述学习样本提取步骤中，将表示所述前景可能性的值比第一阈值大的像素或超像素提取为正的学习样本，将表示所述前景可能性的值比第二阈值小的像素或超像素提取为负的学习样本，

在所述学习样本提取步骤中，不会将表示所述前景可能性的值处于所述第二阈值至所述第一阈值的范围的像素或超像素提取为学习样本。

6.一种计算机能够读取的存储介质，非暂时性地存储了用于使计算机执行权利要求5所述的图像处理方法的各步骤的程序。