CN104298960A

CN104298960A - 识别数字图像中的可变形对象的方法及***

Info

Publication number: CN104298960A
Application number: CN201310628564.5A
Authority: CN
Inventors: 许明恺
Original assignee: Omnivision Technologies Inc
Current assignee: Omnivision Technologies Inc
Priority date: 2013-07-19
Filing date: 2013-11-29
Publication date: 2015-01-21
Also published as: TWI606404B; US20150023601A1; TW201504954A; HK1206123A1

Abstract

本发明揭示一种使用处理电路来识别数字图像中的可变形对象的方法及***。所述方法包含使用所述处理电路将合成图像分割成M个合成块。将输入图像分割成M个输入块。每一输入块与对应合成块配对。分析每一合成块及每一输入块的图像性质。将每一输入块与其对应合成块的所述图像性质进行比较。响应于比较所述图像性质而产生每一对输入块及合成块的结构类似性值。基于所述结构类似性值而确定聚集结构类似性值。基于所述聚集结构类似性值而识别所述输入图像的可变形对象类别。

Description

识别数字图像中的可变形对象的方法及***

技术领域

本发明一般来说涉及图像分析。明确地说但非排他地，本发明涉及使用回归算法来分类及辨识由图像传感器检测到的图像中的可变形对象，例如眼睛及嘴。

背景技术

回归技术的创新已允许对象检测、追踪、分类及辨识中的进步。回归技术的部分应用列表包含移动装置及ATM机上的脸部辨识、基于视频的脸部辨识、眨眼检测、笑容检测、条形码辨识、手势检测及辨识以及运载工具上的自动警报***。

回归是可用于模型化及分析变量的统计工具，所述模型化及分析变量包含对变量之间的关系的研究、对于因变量的估计及／或预测以及对于因变量的分解及／或分类。回归的大体数学形式可表示为y=(X，β)，其中X是属于空间R^n*p的一组自变量，y是属于空间Rⁿ的因变量，且β是属于空间R^p的一组未知变量。回归传统上是基于残差分析的。残差是实际响应y与投射到由X所生成的空间上的所预测响应之间的差。回归分析已用作用于图像处理的工具。

发明内容

本发明的一个方面涉及一种使用处理单元来识别数字图像中的可变形对象的方法，所述方法包括：使用所述处理单元将合成图像分割成M个合成块；将输入图像分割成M个输入块，其中每一输入块与对应合成块配对；分析每一合成块及每一输入块的图像性质；将每一输入块与其对应合成块的所述图像性质进行比较；响应于比较所述图像性质而产生每一对输入块及合成块的结构类似性值；基于所述结构类似性值而确定聚集结构类似性值；及基于所述聚集结构类似性值而识别所述输入图像的可变形对象类别。

本发明的另一方面涉及一种非暂时性机器可存取存储媒体，其提供在由图像处理器执行时将致使所述图像处理器执行操作的指令，所述操作包括：使用所述图像处理器将合成图像分割成M个合成块；将输入图像分割成M个输入块，其中每一输入块与对应合成块配对；分析每一合成块及每一输入块的图像性质；将每一输入块与其对应合成块的所述图像性质进行比较；响应于比较所述图像性质而产生每一对输入块及合成块的结构类似性值；基于所述结构类似性值而确定聚集结构类似性值；及基于所述聚集结构类似性值而识别所述输入图像的可变形对象类别。

本发明的又一方面涉及一种成像***，其包括：像素阵列，其具有布置成行及列的像素；处理电路，其耦合到所述像素阵列以控制图像捕获；及非暂时性机器可存取存储媒体，其提供在由所述成像***执行时将致使所述成像***执行操作的指令。所述操作包括：将合成图像分割成M个合成块；将由所述像素阵列捕获的输入图像分割成M个输入块，其中每一输入块与对应合成块配对；分析每一合成块及每一输入块的图像性质；将每一输入块与其对应合成块的所述图像性质进行比较；响应于比较所述图像性质而产生每一对输入块及合成块的结构类似性值；基于所述结构类似性值而确定聚集结构类似性值；及基于所述聚集结构类似性值而识别所述输入图像的可变形对象类别。

附图说明

参考以下各图描述本发明的非限制性及非穷尽性实施例，其中除非另有说明，否则贯穿各个视图，相似元件符号指代相似部件。

图1图解说明一列输入图像、通过合成方法A所产生的一列合成图像及通过合成方法B所产生的一列合成图像。

图2图解说明根据本发明的实施例的识别数字图像中的可变形对象的过程。

图3是图解说明根据本发明的实施例的图2中的过程框中的某些过程框的实例实施方案的实例框图。

图4是图解说明根据本发明的实施例的成像***的功能框图。

具体实施方式

本文中描述用于分类数字图像中的可变形对象的***及方法的实施例。在以下说明中，陈述众多特定细节以提供对所述实施例的透彻理解。然而，所属领域的技术人员将认识到，可在不具有所述特定细节中的一者或一者以上的情况下或者借助其它方法、组件、材料等来实践本文中所描述的技术。在其它例子中，未详细展示或描述众所周知的结构、材料或操作以避免使一些方面模糊。

本说明书通篇中所提及的“一个实施例”或“一实施例”意味着结合所述实施例一起所描述的特定特征、结构或特性包含于本发明的至少一个实施例中。因此，在本说明书通篇中的各个地方中出现的短语“在一个实施例中”或“在一实施例中”未必全部指代相同实施例。此外，特定特征、结构或特性可以任何适合方式组合于一个或一个以上实施例中。

传统上，可变形对象(例如，眼睛)辨识技术使用基于残差方法的回归分析。在残差方法中，获得输入图像。接着，将特定合成方法应用于含有相同类型的对象(即，眼睛)的许多图像的现有数据库以便建构合成图像，接着通过分析残差来将所述经建构合成图像与输入图像进行比较。如果残差足够小，那么输入图像被视为已匹配合成图像。然而，基于残差的回归方法可是有问题的。

图1图解说明一列输入图像、通过合成方法A所产生的一列合成图像及通过合成方法B所产生的一列合成图像。在图1中，中间列(在标题“图像A”下方)包含使用合成方法A从眼睛的现有数据库所产生的图像。右边列(在标题“图像B”下方)包含使用合成方法B从眼睛的现有数据库所产生的图像。根据基于残差的回归分析，最右边列(图像B列)中的图像被视为比中间列(图像A列)中的图像更符合最左边列中的输入图像。然而，对图像A列及图像B列执行视觉选择的人将选择列A中的图像而非列B中的图像作为是更符合最左边列中的输入图像的。基于残差的回归分析有时产生不合理的结果的原因是因为其着眼于经平方的像素差的和以查看其是否为最小和平方值而完全忽视图像的几何结构。因此，清楚地，可改进关于图像分析的基于残差的回归方法。

图2图解说明根据本发明的实施例的识别数字图像中的可变形对象的过程200。过程200中的过程框中的一些或全部过程框出现的次序不应视为具限制性。而是，受益于本发明的所属领域的技术人员将理解，可以按照未图解说明的多种次序或甚至并行地执行过程框中的一些过程框。

在描述过程框205之前，将描述产生将用于过程框205中的合成图像。可从可变形对象(例如，眼睛、嘴)的样本图像的数据库产生在过程框205中被分割的合成图像。可通过找出使误差最小化的矩阵而产生合成图像。

假设可变形对象的数据库是关于眼睛的并包含n个样本眼睛，且每一样本眼睛是具有m个分量的列向量，即，x∈Rⁿ。还假设输入图像由属于空间R^m的列向量y表示。矩阵A是n个样本列向量的集合，所述n个样本列向量中的每一者具有m个分量。因此，矩阵A具有m乘n的尺寸。目标是找出解x，使得Ax=y，其中x∈Rⁿ。产生合成眼睛以便匹配输入眼睛。

在一些解决方案中，使用相当大(使得n>m)的可变形对象数据库来产生合成图像。这些***被视为“过完整的”。然而，已观察到，可使用不大(使得n<m)的可变形对象数据库来产生令人满意的合成图像。其中样本大小n小于为输入可变形对象图像向量的尺寸的m的此***称作“超定”。为使用“超定”***来产生令人满意的合成图像，使用L1正则化，如下文所描述。

L1正则化包含找出列向量x，使得x满足为第二范数的平方与第一范数的线性表示的和的以下表达式的最小值：

{| | y - Ax | |}_{2}^{2} + {λ | | x | |}_{1}

(方程式1)第一范数以方程式2来定义：

{| | x | |}_{1} = \underset{i &Element; N}{Σ} | x_{i} |

且第二范数以方程式3来定义：

{| | x | |}_{2} = \sqrt{\underset{i &Element; N}{Σ} {| x_{i} |}^{2}}

换句话说，x需要满足：

\min_{x} {| | y - Ax | |}_{2}^{2} + λ {| | x | |}_{1}

(方程式4)

用以找出列向量x的上文所描述的L1正则化将起作用。L1正则化可用于从可变形对象(例如，眼睛)图像的相对小数据库产生合成图像，其中n(其为此数据库中的样本可变形对象的数目)小于m(其为用于描述输入图像中的眼睛的列向量的长度)。

在使用L1正则化来建构合成可变形对象(例如，眼睛)图像之后，必须分析合成可变形对象图像以查看其与输入可变形对象(例如，眼睛)图像有多类似。如上文关于图1所论述，残差分析不总是产生令人满意的结果。

在人类视觉***中，通过类似性(即，一个对象相对于另一个对象显得有多类似)较明显地确定对象分类及辨识。更具体来说，人类眼睛感知图像由不同色彩强度构成。色彩或强度的置换形成结构(几何信息)及纹理(纹理信息)。一般来说，图像可视为由图像中的每一对象的结构部分及每一对象的细小细节的纹理部分构成。

本发明的实施例描述基于类似性的回归方法。以下段落揭示用于2D可变形对象分类及辨识的考虑图像结构及纹理的类似性的回归的决策规则的实施例。

转到过程框205，将合成图像分割成M个合成块。如上文所论述，合成图像可是使用L1正则化所产生的可变形对象的数字图像。出于本发明的目的，合成块(其还可称为“参考块”)将由“x”表示。在一个实施例中，合成块是用于数字输入图像(其还可是关于眼睛的)的参考的眼睛的数字图像。

在过程框210中，还将输入图像分割成M个输入块。输入图像可是可变形对象的数字图像。数字图像传感器可已捕获输入图像。出于本发明的目的，输入块将由“y”表示。每一输入块y与对应合成块x配对。换句话说，每一输入块y与其对应合成块x具有一对一对应性。

由于将每一图像分割成若干块，因此将合成块及输入块称为“块”，且然后针对类似性而评估每一块。(可变形对象的)合成图像可被看作是合成块的集合且(又可变形对象的)输入图像可被看作是输入块的集合。

在过程框215中，分析每一合成块及每一输入块的图像性质。在一个实施例中，图像性质包含照度、对比度及结构。在此情形中，对每一合成块及输入块执行分析以确定每一块的照度测量、对比度测量及结构测量。关于图像性质，由于照度及对比度是信号的明确分量，因此从信号(在相应块中)本身易于判定照度及对比度，如此项技术中所已知。然而，结构元件是隐性的且将需要从信号进行提取，如下文将揭示。

图3是图解说明根据本发明的实施例的过程200中的过程框中的一些过程框的实例实施方案的实例框图。举例来说，在过程框215中的分析图像性质可包含图3中的子过程333。子过程333包含从合成块x提取照度测量305及从对应于合成块x的输入块y提取照度测量355。合成块x及输入块y在其被馈送到子过程333的相应照度测量中时可各自表示为列向量。如子过程333展示，可通过从合成块x减去照度测量305而产生第一信号流307且可通过从对应于合成块x的输入块y减去照度测量355而产生第二信号流357。可从第一信号流307提取对比度测量310且可从第二信号流357提取对比度测量360。为产生结构测量315，将第一信号流307除以对比度测量310。类似地，通过将第二信号流357除以对比度测量360而产生结构测量365。

在过程框220中，将每一输入块与其对应合成块的图像性质进行比较。在一个实施例中，过程框220中可包含图3中的子过程334。子过程334展示在照度比较块391、对比度比较块393及结构比较块395中所比较的照度、对比度及结构的图像性质。

照度比较块391通过执行将照度测量355(输入照度值)与照度测量305(合成照度值)进行比较的照度比较l(x,y)而产生照度比较值392。照度比较l(x,y)可在数学上定义为：

l (x, y) = \frac{2 μ_{x} μ_{y} + C_{1}}{μ_{x}^{2} + μ_{y}^{2} + C_{1}}

(方程式5)

其中x及y分别是合成块及输入块，且μ是每一相应块的平均强度。C₁是常数。μ_x在数学上以方程式6.1来定义：

μ_{x} = \frac{1}{N} Σ_{i = 1}^{N} x_{i}

其中x是合成块，N是所述块中的像素的数目，且μ_x是合成块x的平均强度。μ_y在数学上以方程式6.2来定义：

μ_{y} = \frac{1}{N} Σ_{i = 1}^{N} y_{i}

其中y是输入块，N是所述块中的像素的数目，且μ_y是输入块y的平均强度。

对比度比较块393通过执行将对比度测量360(输入对比度值)与对比度测量310(合成对比度值)进行比较的对比度比较c(x,y)而产生对比度比较值394。对比度比较c(x,y)可在数学上定义为：

c (x, y) = \frac{2 σ_{x} σ_{y} + C_{2}}{σ_{x}^{2} + σ_{y}^{2} + C_{2}}

(方程式7)

其中x及y分别是合成块及输入块，且标准差σ_x用作x中的对比度的近似值。C₂是常数。σ_x在数学上以方程式8.1来定义：

σ_{x} = {(\frac{1}{N - 1} Σ_{i = 1}^{N} {(x_{i} - μ_{x})}^{2})}^{1 / 2}

其中x是合成块，且N是所述块中的像素的数目。σ_y在数学上以方程式8.2来定义：

σ_{y} = {(\frac{1}{N - 1} Σ_{i = 1}^{N} {(y_{i} - μ_{y})}^{2})}^{1 / 2}

其中y是输入块且N是所述块中的像素的数目。

结构比较块395通过执行将结构测量365(输入结构值)与结构测量315(合成结构值)进行比较的结构比较c(x,y)而产生结构比较值396。结构比较c(x,y)可在数学上定义为：

s (x, y) = \frac{σ_{xy} + C_{3}}{σ_{x} σ_{y} + C_{3}}

(方程式9)

其中x及y分别是合成块及输入块，且σ_x经定义如上。C₃是常数。在本发明中，C₂=2C₃。方程式10在数学上将σ_xy定义为：

σ_{xy} = \frac{1}{N - 1} Σ_{i = 1}^{N} (x_{i} - μ_{p}) (y_{i} - μ_{p})

当p为将操作的块(合成块或输入块)时，μ_p是p的平均强度，且N是p中的像素的数目。

在过程框225中，针对每一对应对合成块x及输入块y而产生结构类似性值，使得每一对具有指派给其的结构类似性值。响应于过程框220中的图像性质的比较而产生结构类似性值。在一个实施例中，过程框225中可包含图3中的子过程335。子过程335展示通过组合照度比较值392、对比度比较值394及结构比较值396而产生的结构类似性值399。

当图3的子过程333、334及335全部包含于如图3中所展示的实施例中时，其称为结构类似性(“SSIM”)。SSIM在数学上经定义如下：

SSIM(x，y)=[l(x，y)]^α·[c(x，y)]^β·[s(x，y)]^γ (方程式11)

照度、对比度及结构的相对重要性可分别借助指数参数α、β及γ来调整。在本发明中，三个指数参数全部等于一。

在过程框230中，确定基于每一对对应合成块x及输入块y的结构类似性值的聚集结构类似性值。在一个实施例中，使结构类似性值平均化。此实施例可称为平均结构类似性(“MSSIM”)，所述平均结构类似性在数学上定义为：

MSSIM = \frac{1}{M} Σ_{j = 1}^{M} SSIM (x_{j}, y_{j})

(方程式12)

其中M是合成图像及输入图像被分割成的框的数目。

在过程框235中，基于聚集结构类似性值而识别输入图像的可变形对象类别(例如，眼睛)。因此，可测量从可变形对象数据库所产生的合成图像以匹配输入图像且所述测量确定输入图像何时与可变形对象类别相关联。

图4是图解说明根据本发明的实施例的成像***400的功能框图。成像***400的所图解说明实施例包含像素阵列413、读出电路453、处理电路421及存储器431。像素阵列413是成像传感器或像素(例如，像素P1、P2、…、Pn)的二维(“2D”)阵列。在一个实施例中，每一像素为互补金属氧化物半导体(“CMOS”)成像像素。如所图解说明，每一像素布置成行(例如，行R1到Ry)及列(例如，列C1到Cx)以获取人、地方或对象的图像数据，接着可使用所述图像数据来再现所述人、地方或对象的2D图像。

在每一像素已获取其图像数据或图像电荷之后，所述图像数据由读出电路453读出且转移到处理电路421。处理电路421耦合到像素阵列413以控制像素阵列413的操作特性。处理电路421可包含数字信号处理器(“DSP”)。在一个实施例中，处理电路可包含微处理器及／或现场可编程门阵列(“FPGA”)。处理电路421可产生用于控制图像获取的快门信号且处理电路421可控制读出电路453的读出。读出电路453可包含放大电路、模／数(“ADC”)转换电路或其它。处理电路421可存储来自所捕获图像的图像数据或甚至通过应用图像后效应(例如，修剪、旋转、移除红眼、调整亮度、调整对比度或其它)来操纵所述图像数据。

本发明中的方法及过程可用于成像***400中。更具体来说，过程及方法可存储为处理电路421将执行的指令。所述指令可存储于处理电路421内所存储的存储器(未图解说明)内，或所述指令可存储于存储器431内。处理电路421可致使像素阵列413及读出电路453捕获及读出图像。接着，处理电路421可使用所述图像的全部或部分作为过程框210的输入图像。处理电路421可存取存储于存储器中的指令以执行过程200。处理电路421可存取内部存储器(未图解说明)或存取存储器431以读取可变形对象图像的数据库以产生过程框205的合成图像。当处理电路421完成过程200时，其可已识别输入图像的可变形对象类别。接着，处理电路421可响应于识别可变形对象类别而执行额外操作(例如，捕获较多图像)。

就计算机软件及硬件来描述上文所阐释的过程。所描述的技术可构成在有形或非暂时性机器(例如，计算机)可读存储媒体内体现的机器可执行指令，所述指令在由机器执行时将致使所述机器执行所描述的操作。另外，所述过程可体现于硬件内，例如特殊应用集成电路(“ASIC”)或其它。

有形非暂时性机器可读存储媒体包含提供(即，存储)以可由机器(例如，计算机、网络装置、个人数字助理、制造工具、具有一组一个或一个以上处理器的任何装置等)存取的形式的信息的任何机制。举例来说，机器可读存储媒体包含可记录／非可记录媒体(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储媒体、光学存储媒体、快闪存储器装置等)。

包含摘要中所描述内容的本发明的所图解说明实施例的以上说明并非意欲是穷尽性的或将本发明限制于所揭示的确切形式。虽然出于说明性目的而在本文中描述本发明的特定实施例及实例，但如所属领域的技术人员将认识到，可在本发明的范围内做出各种修改。

可根据以上详细说明对本发明做出这些修改。所附权利要求书中所使用的术语不应理解为将本发明限制于说明书中所揭示的特定实施例。而是，本发明的范围将完全由所附权利要求书来确定，所附权利要求书将根据权利要求阐述的既定原则来加以理解。

Claims

1.一种使用处理单元来识别数字图像中的可变形对象的方法，所述方法包括：

使用所述处理单元将合成图像分割成M个合成块；

将输入图像分割成M个输入块，其中每一输入块与对应合成块配对；

分析每一合成块及每一输入块的图像性质；

将每一输入块与其对应合成块的所述图像性质进行比较；

响应于比较所述图像性质而产生每一对输入块及合成块的结构类似性值；

基于所述结构类似性值而确定聚集结构类似性值；及

基于所述聚集结构类似性值而识别所述输入图像的可变形对象类别。

2.根据权利要求1所述的方法，其中分析所述图像性质包含：

从给定块提取照度测量；

通过从所述给定块减去所述照度测量而产生第一信号流；

从所述第一信号流提取对比度测量；及

通过将所述第一信号流除以所述对比度测量而产生结构测量。

3.根据权利要求1所述的方法，其中将每一输入块与其对应合成块的所述图像性质进行比较包含：

通过将来自给定输入块的输入照度值与来自所述给定输入块的所述对应合成块的合成照度值进行比较而产生照度比较值；

通过将来自所述给定输入块的输入对比度值与来自所述给定输入块的所述对应合成块的合成对比度值进行比较而产生对比度比较值；及

通过将来自所述给定输入块的输入结构值与来自所述给定输入块的所述对应合成块的合成结构值进行比较而产生结构比较值。

4.根据权利要求3所述的方法，其中产生结构类似性值包含组合所述照度比较值、所述对比度比较值及所述结构比较值。

5.根据权利要求1所述的方法，其中使用超定图像数据库集的L1正则化来建构所述合成图像。

6.根据权利要求1所述的方法，其中每一输入块与其对应合成块具有一对一对应性。

7.根据权利要求1所述的方法，其中所述输入图像是由数字图像传感器捕获的所捕获图像的至少一部分。

8.根据权利要求1所述的方法，其中所述可变形对象类别为眼睛类别。

9.根据权利要求1所述的方法，其中所述可变形对象类别为嘴类别。

10.一种非暂时性机器可存取存储媒体，其提供在由图像处理器执行时将致使所述图像处理器执行操作的指令，所述操作包括：

使用所述图像处理器将合成图像分割成M个合成块；

分析每一合成块及每一输入块的图像性质；

将每一输入块与其对应合成块的所述图像性质进行比较；

基于所述结构类似性值而确定聚集结构类似性值；及

11.根据权利要求10所述的非暂时性机器可存取存储媒体，其中分析所述图像性质包含：

从给定块提取照度测量；

通过从所述给定块减去所述照度测量而产生第一信号流；

从所述第一信号流提取对比度测量；及

12.根据权利要求10所述的非暂时性机器可存取存储媒体，其中将每一输入块与其对应合成块的所述图像性质进行比较包含：

13.根据权利要求12所述的非暂时性机器可存取存储媒体，其中产生结构类似性值包含组合所述照度比较值、所述对比度比较值及所述结构比较值。

14.根据权利要求10所述的非暂时性机器可存取存储媒体，其中使用超定图像数据库集的L1正则化来建构所述合成图像。

15.一种成像***，其包括：

像素阵列，其具有布置成行及列的像素；

处理电路，其耦合到所述像素阵列以控制图像捕获；及

非暂时性机器可存取存储媒体，其提供在由所述成像***执行时将致使所述成像***执行操作的指令，所述操作包括：

将合成图像分割成M个合成块；

将由所述像素阵列捕获的输入图像分割成M个输入块，其中每一输入块与对应合成块配对；

分析每一合成块及每一输入块的图像性质；

将每一输入块与其对应合成块的所述图像性质进行比较；

基于所述结构类似性值而确定聚集结构类似性值；及

16.根据权利要求15所述的成像***，其中分析所述图像性质包含：

从给定块提取照度测量；

通过从所述给定块减去所述照度测量而产生第一信号流；

从所述第一信号流提取对比度测量；及

17.根据权利要求15所述的成像***，其中将每一输入块与其对应合成块的所述图像性质进行比较包含：

18.根据权利要求17所述的成像***，其中产生结构类似性值包含组合所述照度比较值、所述对比度比较值及所述结构比较值。

19.根据权利要求15所述的成像***，其中使用超定图像数据库集的L1正则化来建构所述合成图像。

20.根据权利要求15所述的成像***，其进一步包括耦合到所述处理电路的存储器，其中所述存储器包含用于建构所述合成图像的可变形对象图像数据库。