CN103810480A

CN103810480A - 基于rgb-d图像的手势检测方法

Info

Publication number: CN103810480A
Application number: CN201410073064.4A
Authority: CN
Inventors: 张维忠; 丁洁玉; 赵志刚; 张峰; 李明; 王青林
Original assignee: QINGDAO ANIMATION; Qingdao Broadcasting And Tv Wireless Media Group Co ltd; Qingdao University
Current assignee: Shenzhen Micagent Technology Co ltd
Priority date: 2014-02-28
Filing date: 2014-02-28
Publication date: 2014-05-21
Anticipated expiration: 2034-02-28
Also published as: CN103810480B

Abstract

本发明提供了一种基于RGB-D图像的手势检测方法，其包括：第一步，获取RGB-D图像；第二步，从背景中分割手部；第三步，识别手势；第四步，寻找手势的最优分割。本发明提供的RGB-D图像的手势检测方法能有效地分割出人手区域，具有分割准确，即使在手部发生部分自遮挡或者背景中有其他人干扰时也能得到好的手势分割，且算法鲁棒性好。

Description

基于RGB-D图像的手势检测方法

技术领域

本发明涉及数字图像处理技术领域，尤其涉及一种基于RGB-D图像的手势检测方法。

背景技术

人机交互接口需要尽可能直观和自然。用户与机器进行交互，不需要繁琐的设备(如彩色标记或手套)或装置像遥控器、鼠标和键盘。手势可提供一个与机器智能相结合的简单沟通方式。可以发现，在各种研究和工业领域都有成功应用的手势***。例如：游戏控制、虚拟环境、智能家居和手语识别等等。

手势分割的好坏直接影响后续的手势特征提取、跟踪、识别的精度和准确度。近年来，国内外研究人员在手势分割的研究中提出了多种方法，主要包括模版匹配法、差分法、肤色分割法和约束限制法等。模版匹配法是建立在手型数据库的基础上，在数据库中将手势图像和手型数据中的模版比对。手型是一个非刚性的物体，比对的过程计算量大，困难较大，难以满足实时性要求。约束限制法是通过佩戴不同颜色的手套，或者突出手部与背景的对比，以此来简化对手势区域(前景)和背景进行划分。但这些约束限制了手势数据交流的方便性和自由性。图像差分法是通过运动的手势图像和静止的背景图像相减来进行手势分割，该方法的缺陷是无法克服图像上对应像点偏移的发生。肤色分割法是根据肤色的聚类特性来进行手势分割，它会因为手势相对于光源的角度不同而使肤色受到较大影响。对于要求快捷、方便、实用的基于视觉的手势识别，单独的使用这些方法都有一定的局限性，无法精确实时的对手势进行有效分割，严重地影响了分割效果。专利CN103226708A在手势分割中，也采用了深度图像与彩色图像相结合的方法，但它的前提是假定人手位于人体的最前面。另外，也有人提出了采用了类似方法，但它要求首先对RGB相机和Depth相机进行标定，这增加了算法的复杂性和繁琐性。

发明内容

本发明所要解决的技术问题是在于克服上面提到的手势检测方法中存在的各种缺陷，提供一种基于RGB-D图像的手势检测方法，其能有效地分割出人手区域，具有分割准确，即使在手部发生部分自遮挡或者背景中有其他人干扰时也能得到好的手势分割，且算法鲁棒性好。

为解决上述技术问题，本发明提供了一种基于RGB-D图像的手势检测方法，其包括：

第一步，获取RGB-D图像；

第二步，从背景中分割手部；

第三步，识别手势；

第四步，寻找手势的最优分割。

所述第一步具体为利用深度传感器获取彩色图像(RGB Image)流和深度图像(Depth Image)流，即RGB-D图像数据流，并将其转换成一帧帧的图像以便于后续的图像处理。

所述第二步具体为通过骨骼图和深度图像的像素比，将手部位置映射到深度图像，利用深度图像信息将手部从背景中予以分割。

所述第三步具体为利用凸函数来优化分割RGB-D的手势图像，从而快速准确地识别手势。

所述第四步具体为利用最小化函数及其函数约束，通过Split Bregman快速算法解出模型，对RGB-D图像寻找最优分割。

本发明的有益效果：

本发明提供的RGB-D图像的手势检测方法能有效地分割出人手区域，具有分割准确，即使在手部发生部分自遮挡或者背景中有其他人干扰时也能得到好的手势分割，且算法鲁棒性好。

附图标记

图1a-1e为基于彩色图像／深度图像／RGB-D图像分割结果；其中，图1a彩色图像；图1b深度图像；图1c彩色图像分割结果；图1d深度图像的分割结果；图1e RGB-D图像分割结果；

图2a-2e为另一种情况下基于彩色图像／深度图像／RGB-D图像分割结果；其中，图2a彩色图像；图2b深度图像；图2c彩色图像分割结果；图2d深度图像的分割结果；图2e RGB-D图像分割结果。

具体实施方式

本发明提供了一种基于RGB-D图像的手势检测方法，其包括：

第一步，获取RGB-D图像；

第二步，从背景中分割手部；

第三步，识别手势；

第四步，寻找手势的最优分割。

利用深度传感器可以同时获取深度图像和RGB彩色图像数据，能够支持实时的全身和骨骼追踪，同时可以识别一系列的姿态、动作，在本申请中利用它来获取手势数据信息。

手势检测的目的是从原始图像中有效地分割手部区域，也就是把图像中的人手区域(前景)与其它(背景区域)区分开来，是手势识别一项很重要的基础工作。深度传感器具有分析深度数据和探测人体或者游戏者轮廓的功能。通过它可以获取颜色和深度数据流并将其转换成一帧帧的图像以便于后续的图像处理。对输入的图像，要求RGB图像与Depth深度图像在像素上对齐且时间同步。在获得了满足上述条件的图像对后，对输入图像进行预处理，如滤波等，达到抑制噪声的目的。

彩色图像和深度图像都可以用来进行手势分割。彩色图像的优点是清晰，但它仅包含二维信息，且抗干扰性比较弱。而深度图像在分辨率上没有彩色图像高，但它包含了三维信息，且抗干扰性强。由于骨骼图能追踪人体手部的坐标位置，因此很容易确定手部在骨骼图中的具***置。然后通过骨骼图和深度图像的像素比，将手部位置映射到深度图像，利用深度图像信息将手部从背景中予以分割。由于深度图像分辨率低且易受深度值相同物体的干扰，分割的效果并不理想。因此，在本申请中提出了结合深度图像和彩色图像的检测方法。

对于分割优化过程，我们定义这个问题的图像分割为一个最小化的泛函：

E(u)=∫_Ωf(x)u(x)dx+∫_Ω|Du(x)| (1)

其中，u∈BV(IR^d；{0，1})是一个指示函数上的二元函数的有界变差，u=1和u=0表示在表面IRd的内部和外部，即在二维图像分割情况下的一组封闭边界或在三维分割情况下的一组封闭曲面。公式(1)中第二部分是全变差。其中Du表示分布导数，可微函数u归结为

通过松弛二进制约束，函数u的值在0和1之间。该优化问题变为在凸集BV(IR^d；[0，1])中求得最小化凸公式(1)。

通过凸优化和阈值，在空间上连续设置泛函的形式，可以实现全局优化。这个域值定理确保解决方案u*分解问题对原始二进制标记问题保持全局最优。计算公式(1)的全局最小值如下：在凸集BV(IRd；[0，1])，θ∈(0，1)任何值时，计算公式(1)中全局最小值u*和大于最小值u*的阈值。

由于从RGB-D图像获取到额外的深度信息，所以边界长度可以在绝对值域|Du(x)|而不是在图像域d(x)中进行测量。泛函(1)可以推广到：

E(u)=∫_Ωf(x)u(x)dx+∫_Ωd(x)|Du(x)| (2)

深度值d：Ω→IR，公式(2)补偿了操作过程中引起的不良效果(由于透视投影，对象越远，相机出现较小的图像)。

对于RGB-D图像的函数约束，我们将利用深度信息来约束分割的矩，同时将说明这些约束条件怎么样影响内嵌的凸优化函数对应的集合点。我们用定义在B=BV(Ω；[0，1])的凸函数表示定义在整个图像区域

的有界变差二值标记函数。面积约束：0阶矩的对应区域u的形状，可以通过公式(3)计算

Area(u)：=∫_Ωd²(x)u(x)dx (3)

其中d(x)给出了像素x的深度。假设d(x)=KD(x)，K是相机的焦距，D(x)是测量出的像素的深度。令d²(x)为对应的像素在3D空间中投影的大小，整体的空间是表面积而不是图像中的投影区域。采用与文献的(Grenander，U.，Chow，Y.，Keenan，D.M.：Hands：A Pattern Theoretic Study of Biological Shapes.Springer，New York(1991))方法，以同样的方式处理所有的像素。

形状u的绝对面积被限制在常量c₁≤c₂之间，通过在公式(4)集合中约束u来实现：

C₀={u∈β|c₁≤Area(u)≤c₂}

(4)

集合C₀线性依赖于u，因此凸常量c₂≥c₁≥0。

通常，通过设置c₁=c₂或施加上界和下界的区域来确定准确的面积，或者施加一个软区域约束，通过公式(5)提升泛函(1)如下：

E_total(u)=E(u)+λ(∫d²udx-c)² (5)

公式(5)增加软约束权重λ＞0，使得估计的面积形状接近c≥0。公式(5)也是凸函数。

所述Split Bregman快速算法具体为最大化一个似然函数同最大化它的自然对数是等价的。本申请首先将Split方法应用到RGB-D图像分割中，建立一个如下的通用模型：

\min_{ω, u &Element; {0,1}} {E (ω, u) = α_{1} {&Integral;}_{Ω} Q_{1} (x, ω_{1}) udxdy + α_{2} {&Integral;}_{Ω} Q_{2} (x, ω_{2}) (1 - u) dxdy + γ {&Integral;}_{Ω} | &dtri; u | dxdy} - - - (7)

其中Q_i=-lnP_i，i＝1，2，ω=(μ，σ)=Max(p_i)，i＝1，2，u为二值标记函数用来表示曲线运动。

本申请将Split Bregman算法思想引入到RGB-D图像分割的通用模型中，即在Split方法的基础上先引入***变量w＝[w₁，w₂]^T，再引入Bregman距离b=(b₁，b₂)^T，将公式(7)的泛函极值问题转化为：

b^{k + 1} = b^{k} + &dtri; u^{k} - w^{k} - - - (8)

(u^{k + 1}, w^{k + 1}) = \arg \min_{w, φ &Element; [0,1]} {E (u, w) = γ {&Integral;}_{Ω} | w | dxdy + \frac{u}{2} {&Integral;}_{Ω} (w - &dtri; u - b^{k + 1}) dx + {&Integral;}_{Ω} r (u_{1}, u_{2}) udxdy} - - - (9)

其中r(u₁，u₂)＝α₁Q₁(x，ω₁)-α₂Q₂(x，ω₂)。公式(9)为对两个变量的能量泛函求极值的问题，通常采用交替优化实现。首先，假定w不变，上述问题转化为对u求极值问题：

\min_{u} E (u) = \frac{θ}{2} {&Integral;}_{Ω} (w - &dtri; u - b^{k + 1}) dxdy + {&Integral;}_{Ω} r (u_{1}, u_{2}) udxdy - - - (10)

然后，假定u不变，求解关于w的极值问题：

\min_{w} E (w) = γ {&Integral;}_{Ω} | w | dxdy + \frac{θ}{2} {&Integral;}_{Ω} {(w - &dtri; u - b^{k + 1})}^{2} dxdy - - - (11)

由变分方法可得到能量泛函(10)的Euler-Lagrange方程：

\{\begin{matrix} r (u_{1}, u_{2}) - θ &dtri; \cdot (&dtri; u + b^{k + 1} - w^{k}) = 0 & inΩ \\ (&dtri; u + b^{k + 1} - w^{k}) \cdot \overset{r}{n} = 0 & on &PartialD; Ω \end{matrix} - - - (12)

公式(12)可以采用快速高斯赛德尔迭代机制来求解。由于采用凸松弛技术后u的取值范围为[0，1]，所以需采用如下的投影方式将u约束到此范围内：

u^k+1=Max(Min(u^k+1，1)，0) (13)

求解完能量泛函(10)后，接着求解能量泛函(11)。公式(11)的Euler-Lagrange方程为：

w = &dtri; u^{k + 1} + b^{k + 1} - \frac{γ}{θ} \frac{w}{| w |} - - - (14)

通过广义软阈值公式得到其解析解，其形式为：

w^{k + 1} = Max (| &dtri; u^{k + 1} + b^{k + 1} | - \frac{γ}{θ}, 0) \frac{&dtri; u^{k + 1} + b^{k + 1}}{| &dtri; u^{k + 1} + b^{k + 1} |} - - - (15)

以下采用实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。

本发明显示了本方法与其它方法的实验对比结果。测试分割方法由图1和图2两个场景来演示，实验旨在从人群中分割个体的手势。从图中可以看出基于RGB-D手势分割优于单独基于颜色图像或深度图像的分割。如图1(c)所示，当仅利用RGB彩色图像信息算法分割出了人手，人脸和部分墙壁信息，未能分割出需要的手势。图1(d)所示，仅利用深度图像信息时，人手以及与人手深度相同的人体部分被分割出来了。由此可见，当仅考虑上述两种情况中的一种时分割效果都不理想。如图1(e)所示，当同时考虑RGB和深度信息时，即基于RGB-D图像信息时，人手的区域分割被单独的分割出来，分割困难的问题得到了解决。在复杂的场景下，本申请算法也具有很好的鲁棒性，如图2所示。在场景中加入了处于不同深度的新人物，在这种情况下也能很好的分割出目标手势。

所有上述的首要实施这一知识产权，并没有设定限制其他形式的实施这种新产品和／或新方法。本领域技术人员将利用这一重要信息，上述内容修改，以实现类似的执行情况。但是，所有修改或改造基于本发明新产品属于保留的权利。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于RGB-D图像的手势检测方法，其特征在于，包括：

第一步，获取RGB-D图像；

第二步，从背景中分割手部；

第三步，识别手势；

第四步，寻找手势的最优分割。

2.如权利要求1所述的手势检测方法，其特征在于：所述第一步具体为利用深度传感器获取彩色图像(RGB Image)流和深度图像(Depth Image)流，即RGB-D图像数据流，并将其转换成一帧帧的图像以便于后续的图像处理。

3.如权利要求1或2所述的手势检测方法，其特征在于：所述第二步具体为通过骨骼图和深度图像的像素比，将手部位置映射到深度图像，利用深度图像信息将手部从背景中予以分割。

4.如权利要求1至3所述的手势检测方法，其特征在于：所述第三步具体为利用凸函数来优化分割RGB-D的手势图像，从而快速准确地识别手势。

5.如权利要求1至4所述的手势检测方法，其特征在于：所述第四步具体为利用最小化函数及其函数约束，通过Split Bregman快速算法解出模型，对RGB-D图像寻找最优分割。