WO2020228279A1

WO2020228279A1 - 图像手掌区域提取方法及装置

Info

Publication number: WO2020228279A1
Application number: PCT/CN2019/117713
Authority: WO
Inventors: 惠慧
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-05-10
Filing date: 2019-11-12
Publication date: 2020-11-19
Also published as: CN110287771A

Abstract

本申请涉及生物特征识别技术领域。本申请实施例提供一种图像手掌区域提取方法及装置，其中所述图像手掌区域提取方法包括：获取待识别的人手图像；基于语义分割模型，确定所述人手图像中手掌区域的手掌轮廓，其中所述语义分割模型是以具有不同拍摄背景的并标注了手掌轮廓的训练人手图像作为输入进行训练的；根据所述手掌轮廓，从所述人手图像中提取出手掌区域。由此，将图像轮廓纹理技术和神经网络技术相结合，能够快速精确地从具有不同背景的人手图像中提取出手掌轮廓和对应的手掌区域，并还具有广泛的市场应用前景。

Description

图像手掌区域提取方法及装置

本申请要求与2019年5月10日提交中国专利局、申请号为2019103902895、申请名称为“图像手掌区域提取方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及生物特征识别技术领域，具体地涉及一种图像手掌区域提取及装置。

背景技术

生物特征识别作为新兴的身份鉴别技术，是目前国际上最具前景的高新技术之一，属于国际前沿课题。掌纹识别是生物特征识别技术的一个重要分支。目前掌纹识别都是在固定装置上，将手掌放在单纯背景上进行识别，手掌的裁减不需要进行位置的寻找。但是，发明人发现这样固定装置限制了掌纹识别的适用范围，同时采购设备，摆放设备都都来了很大的成本。另外，当将掌纹设备应用在诸如手机的便携式终端设备上时，手掌照片会存在大量的背景信息，而这些背景信息会严重干扰对掌纹的识别过程。

因此，一种可以在便携式终端设备上应用的用于去除掌纹图像的背景信息的技术方案是目前业界的热门研究方向。

发明内容

本申请实施例的目的是提供一种图像手掌区域提取方法及装置，用以实现能够在便携式终端设备上应用以去除掌纹图像的背景信息并提取出图像手掌区域，为后续掌纹识别操作提供了保障。

为了实现上述目的，本申请实施例一方面提供一种图像手掌区域提取方法，包括：获取待识别的人手图像；获取待识别的人手图像；基于语义分割模型，确定所述人手图像中手掌区域的手掌轮廓，其中所述语义分割模型是以具有不同拍摄背景的并标注了手掌轮廓的训练人手图像作为输入进行训练的；根据所述手掌轮廓，从所述人手图像中提取出手掌区域；所述基于语义分割模型，确定所述人手图像中手掌区域的手掌轮廓包括：基于语义分割模型，在所述人手图像中分割出封闭图像轮廓；当存在多个封闭图像轮廓时，计算所述多个封闭图像轮廓所包含的区域面积，并将对应具有最大的所述区域面积的封闭图像轮廓确定为所述手掌轮廓。

本申请实施例另一方面提供一种图像手掌区域提取装置，包括：获取单元，用于获取待识别的人手图像；手掌轮廓确定单元，用于基于语义分割模型，确定所述人手图像中手掌区域的手掌轮廓，其中所述语义分割模型是以具有不同拍摄背景的并标注了手掌轮廓的训练掌纹区域图像作为输入进行训练的；手掌区域提取单元，用于根据所述手掌轮廓，从所述人手图像中提取出手掌区域；所述手掌轮廓确定单元还用于基于语义分割模型，在所述人手图像中分割出封闭图像轮廓；当存在多个封闭图像轮廓时，计算所述多个封闭图像轮廓所包含的区域面积，并将对应具有最大的所述区域面积的封闭图像轮廓确定为所述手掌轮廓。

本申请实施例另一方面提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现本申请上述的方法的步骤。

本申请实施例另一方面提供一种非易失性可读存储介质，其上存储有计算机可读指令，其中，所述计算机可读指令被处理器执行时实现本申请上述的方法的步骤。

通过上述技术方案，利用标注了手掌轮廓的训练掌纹区域图像所训练的语义分割模型来确定人手图像中手掌区域的手掌轮廓，进而依据该手掌轮廓来从人手图像中提取出手掌区域；由此，本申请将图像轮廓纹理技术和神经网络技术相结合，能够快速精确地从人手图像中提取出手掌轮廓和对应的手掌区域。另一方面，训练人手图像是具有不同拍摄背景的，因此基于该语义分割模型能够完成对不同背景的人手图像的手掌区域提取操作。另外，语义分割模型对于特征样本图片的数据量要求和内存消耗都较低，使得技术方案能够借助一般通用的处理器及摄像头就能够实现，具有非常广泛的应用场景，能够广泛地应用于诸如手机这样的通用型终端中，为掌纹识别技术的市场推广提供了基础。

本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本申请实施例，但并不构成对本申请实施例的限制。在附图中：

图1是本申请一实施例的图像手掌区域提取方法的流程图；

图2A示出的是第一示例的人手图像的示意图；

图2B示出了应用本申请实施例的图像手掌区域提取方法针对图2A的人手图像所确定的人手轮廓的示意图；

图3A示出的是第二示例的人手图像的示意图；

图3B示出了应用本申请实施例的图像手掌区域提取方法针对图3A的人手图像所提取的手掌区域的示意图；

图4A示出了应用本申请一实施例的图像手掌区域提取方法所提取得到的多个手掌区域的示意图；

图4B示出了应用本申请一实施例的图像手掌区域提取方法对图4A中的空洞进行填补之后的手掌区域的示意图；

图5示出了本申请一实施例的图像手掌区域提取方法中的针对所述语义分割模型的训练过程的流程图；

图6示出了本申请一实施例的图像手掌区域提取方法的原理流程图；

图7是本申请一实施例的图像手掌区域提取装置的结构框图；

图8是本申请另一实施例的图像手掌区域提取装置的结构框图；

图9是本申请一实施例的搭建有图像手掌区域提取装置的实体装置的结构框图。

具体实施方式

以下结合附图对本申请实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本申请实施例，并不用于限制本申请实施例。如图1所示，本申请一实施例的图像手掌区域提取方法，包括：

S11、获取待识别的人手图像。关于本申请实施例方法的实施主体，一方面，其可以是专用于掌纹识别或手掌区域提取的专用集成组件、专用服务器或专用终端等；另一方面，其还可以是通用型服务器或终端，其中该通用型服务器或终端(例如智能手机、平板电脑等)可以是安装有用于进行掌纹识别或手掌区域提取的模块或配置有用于图像手掌区域提取的程序代码，且以上都属于本申请的保护范围内。关于人手图像的获取方式，其可以是调用终端的摄像头来采集人手图像，也可以是终端或服务器接收自底层所上传的人手图像。

S12、基于语义分割模型，确定人手图像中手掌区域的手掌轮廓，其中语义分割模型是以具有不同拍摄背景的并标注了手掌轮廓的训练人手图像作为输入进行训练的。其中，训练人手图像所具有的不同拍摄背景可以是多样化的，例如其可以是对应于人手在室内背景、室外背景以及近肤色背景等拍摄背景的。另外，语义分割模型作为神经网络模型所采用的训练人手图像中的手掌轮廓的标注过程可以是非自动、半自动的或全自动的，例如可以是利用现有的图像轮廓提取工具(魔棒工具)并进行适应性的调整优化，从而实现对训练人手图像的轮廓的精确提取。

S13、根据手掌轮廓，从人手图像中提取出手掌区域。其中，一方面，可以是直接将人手图像中由手掌轮廓所覆盖的范围直接提取出来作为手掌区域。另一方面，还可以是将手掌轮廓所覆盖的范围进行相应的调整和优化来作为最终的手掌区域，例如补充空洞，且以上实施方式都属于本申请的保护范围内。在本申请实施例中，语义分割模型对图像像素要求及硬件内存要求不高，使得其可以被应用在智能终端中，例如集成特定应用APP的手机中；另外，通过采用不同背景的人手图像进行训练的语义分割模型，其能够实现对在各种背景下的手掌轮廓的确定操作。如图2A示出的是人手图像的示例，以及，如图2B示出了针对图2A的人手图像所确定的人手轮廓的示例；如图3A示出的是人手图像的示例，以及，如图3B示出了从图3A的人手图像中提取出的手掌区域的示例。由此，可以看出不论是在一般背景(如图2A-2B)下，还是在人脸背景的这样近肤色背景(如图3A-B)下，都能较佳地完成对人手图像中背景信息的消除和手掌区域的提取。在一些实施方式中，针对手掌轮廓的确定过程还可以是通过以下方式来实现的：基于语义分割模型，在人手图像中分割出封闭图像轮廓；另外，当存在多个封闭图像轮廓时，计算多个封闭图像轮廓所包含的区域面积，并将对应具有最大的区域面积的封闭图像轮廓确定为手掌轮廓。

可以理解的是，合格的人手区域是一个完整的封闭的区域，并且在人手图像中应当是最大的那一个封闭区域才是对应手掌区域的手掌轮廓；因此，语义分割模型可以是基于此规则来进行训练并筛选手掌轮廓的。如图4A，其示出了应用本申请一实施例的图像手掌区域提取方法所提取得到的多个手掌区域示例，其因为光照等原因，会有一些小区域没有有效提取出来，会显示有空洞(如图中的圆圈中所标出的示例)。鉴于此，本申请实施例还提出了通过以下方式来实现对空洞的检测和填补：检测在手掌轮廓内是否还存在其他封闭图像轮廓；若存在其他封闭图像轮廓，则将其他封闭图像轮廓确定为空洞区域；以及，根据手掌区域内的人手图像的内容，填充该空洞区域，例如可以是直接利用在该空洞区域附近的图像内容区域来填补空洞区域。如图4B，其示出了对图4A中的空洞进行填补之后的示例，因此实现了完整的手掌区域的提取，解决了手掌区域存在空洞而导致后续的掌纹识别操作无法正常进行的问题。

如图5所示，本申请一实施例的图像手掌区域提取方法中的针对所述语义分割模型的训练过程，包括：

S51、获取多张训练人手图像，其中该多张训练人手图像包括对应于不同的拍照背景的训练人手图像。如上所述的，为了使得语义分割模型的性能足够健壮，其需要在各种拍照背景下的人手图像的训练源输入，由此实现对包括室内、室外和近肤色背景的人手图像中提取手掌轮廓。

S52、提取多张训练人手图像分别所对应的手掌轮廓。如上所述的，可以是自动或半自动化地提取或标注人手图像中的手掌轮廓。

S53、将具有所述手掌轮廓的所述多张训练人手图像输入至所述语义分割模型，以训练所述语义分割模型，使得经训练的所述语义分割模型能够从不同背景的人手图像中分割出手掌轮廓。

在一些实施方式中，语义分割模型可以是包括编码器网络和解码器网络，其具体的训练过程可以是基于语义分割模型中的编码器网络，提取所输入的多张训练人手图像各自的手掌轮廓特征；基于语义分割模型中的解码器网络，使用在相应的编码器网络的最大池化步骤中计算的池化索引来执行非线性上采样操作，以将所提取的手掌轮廓特征映射到用于像素分类的全输入分辨率特征映射，从而训练语义分割模型。其中，由于上采样的地图是稀疏的，然后与可训练的滤波器卷积以产生密集的特征地图，并且解码器网络的作用是将低分辨率编码器特征映射映射到用于像素分类的全输入分辨率特征映射。由此，实现了良好分割性能所涉及的内存、准确度以及图像像素之间的权衡，即使是在低分辨率图像输入也依然能够实现全输入分辨率特征映射，提升了本申请实施例的应用范围。

在一些实施方式中，其还可以是选用批标准化(batch normalization,bn)处理的方式进行训练，由此加快训练速率。具体的，在针对语义分割模型的训练过程中还包括：为语义分割模型中的每个卷积层分别对应配置批标准化层，并在批标准化层之后还设置线性整流函数激活层(Rectified Linear Unit,ReLU)，其中每个卷积层分别是对应于不同拍照背景的具有手掌轮廓的训练人手图像；基于批标准化层，在训练时向前传播，批标准化层只保存输入权值的均值和方差，权值输出回到卷积层时仍然是当初卷积后的权值，以及，在训练时向后传播，根据批标准化层中的均值和方差，结合每个卷积层与线性整流函数激活层进行链式求导，求得梯度和当前训练速率。因此，ReLU是对于传统激活函数sigmoid的改进，较佳地解决了训练过程中梯度消失的问题。

示例性地，语义分割模型可以是Segnet模型。如下表1，其示出了Segnet模型的具体结构组成和参数，分割模块SegNet包含依次的多层卷积层和多层反卷积层(如下表1所示的5层)。

表1

其中，利用手掌图像和其相应的标签训练SegNet网络，优选地，应当选择超过2000张标注图像来训练SegNet网络。具体的，模型训练的输入是标注有用户手掌边界的多张掌纹区域图像，输出是将手掌区域像素与背景区域像素进行归类，使得在应用该SegNet模型时，能够从具有背景的手掌图像中提取出相应的手掌区域和背景区域，实现将手掌与背景的分离。具体的训练过程可以是：将关联于同一应用场景(例如具有相同的背景信息)下的五帧预标注有手掌边界的手掌图像输入到SegNet网络，利用带动量(momentum)的Adam算法迭代训练SegNet网络，获得SegNet网络的参数。具体实施的带动量(momentum)的Adam算法中，动量设置为0.9。一共迭代250,000次，学习率为0.0001，批量大小为4。训练结束后，保存深度神经网络的参数。利用编码图像实现对编码器网络和解码器网络的训练，SegNet的Encoder过程中，卷积的作用是提取特征，SegNet使用的卷积为same卷积，即卷积后不改变图片大小；在Decoder过程中，同样使用same卷积，不过卷积的作用是为上采样(upsampling)变大的图像丰富信息，使得在池化(Pooling)过程丢失的信息可以通过学习在Decoder得到。解码器网络的作用是将低分辨率编码器特征映射映射到用于像素分类的全输入分辨率特征映射。SegNet网络在解码器对其较低分辨率输入特征图进行上采样的方式。具体地，解码器使用在相应编码器的最大池化步骤中计算的池化索引来执行非线性上采样。这消除了学习上采样的需要。上采样的地图是稀疏的，然后与可训练的滤波器卷积以产生密集的特征地图。由此，实现了良好分割性能所涉及的内存与准确度之间的权衡。使得本技术方案具有非常广泛的应用场景，例如其可以被应用在手机拍照图像的应用场景中。

更优选地，还可以选用批标准化处理的方式进行训练，由此加快训练速度。其中，批标准化的主要作用在于加快学习速度，用于激活函数前，在SegNet中每个卷积层都会加上一个bn(batch normalization,批标准化)层，bn层后面为ReLU(Rectified Linear Unit,线性整流函数)激活层。其中，基于BN层，在训练时向前传播，bn层对卷积后的特征值(权值)进行标准化，但是输出不变，即bn层只保存输入权值的均值与方差，权值输出回到卷积层时仍然是当初卷积后的权值；以及，在训练时向后传播，根据bn层中的均值与方差，结合每个卷积层与ReLU层进行链式求导，求得梯度从而计算出当前的学习速率。ReLU是对于传统激活函数sigmoid的改进，主要在梯度消失的问题上得到很好的解决。如图6所示，本申请一实施例的图像手掌区域提取方法的原理流程，本申请实施例提供一种基于FCN的Segnet网络从手掌图像中提取手掌部分以消除手掌背景信息的方法，其中语义分割方法在处理图像时，具体到像素级别，也就是说会将图像中每个像素分配到某个对象类别，还要标出每个对象的边界。因此，与分类目的不同，相关模型要具有像素级的密集预测能力。在本申请实施例方法中，主要涉及针对基于Segnet语义分割模型的训练阶段和针对基于Segnet语义分割模型的应用阶段。

1)针对基于Segnet语义分割模型的训练阶段

S61、获取经标注有人手掌边界的手掌图像。

首先，需要获取手掌图像，然后需要对手掌图像进行人工标注。关于手掌图像的获取方式，其可以是通过收集由相机(例如手机的相机)拍照所产生的与人手相关的图像，其具体可以是人工拍摄的、或也可以是从互联网上关键词搜索下载而得到的等，这些拍摄手掌图像或网上下载的手掌图像会存在背景区域和手掌区域。关于手掌图像的手掌区域的人工标注，其可以是基于纯粹的人工标注操作进行的，另外其还可以是基于现有的像素自适应匹配分割算法工具(例如魔棒工具)识别出边界，并在之后对所自适应识别的边界进行标注调整，由此实现在照片图像中标注出手掌区域和背景区域，进而为训练手掌图像打标签。作为示例，可以是采集400个人的总数约3000张手机拍摄的照片，分别于室内、室外，背景包含办公桌，电脑，树木，大厦等不同背景下进行取景，这样有利于Segnet模型对不同背景的区别和识别；进一步地，由于人脸和手掌都为肤色，在目前的手掌区域提取的过程中的一大难点就是如何从有人脸背景的手掌图像中精确地提取出手掌区域，因此本技术方案中提出还可以是特别采集了部分人脸背景的图片和一些近肤色的背景图片作为训练样本来对Segnet模型进行训练，从而实现从具有人脸背景或近肤色背景的图像中识别出手掌区域。

S62、将经标注有人手掌边界的手掌图像输入至vgg Segnet模型，以训练该模型。

2)针对基于Segnet语义分割模型的应用步骤

基于Segnet语义分割模型的应用，能够有效地将手掌与背景区域进行分离。并且，Segnet语义分割模型对于特征样本图片的数据量要求和内存消耗也很低，能够适用在手机中应用，例如可以是集成在手机APP中而被使用的。

S63、用户调用相机模块对手掌进行拍照人体手掌图像。

具体的，S63可以是对应于不同的应用场景，例如可以是用户打开手机APP，并通过特定的用户操作来调用相应的相机模块。

S64、调用Segnet语义分割模型，对人体手掌图像中的背景区域与手掌区域进行分割。

基于Segnet语义分割模型，端到端地推导出人体手掌图像中的手掌区域和背景区域，实现了对手掌区域的快速分割；并且，由于Segnet语义分割模型对于特征样本图片的数据量要求和内存消耗都较低，使得本申请实施例方案能够借助一般通用的处理器及摄像头就能够实现，具有非常广泛的应用场景，例如可以将其应用在APP中。因为就目前来看，目前掌纹识别技术还是基于普通编解码技术，其对图像像素及图像区域规范的要求非常高，因此一般也只能被应用在固定设备上，通过本技术方案能够从有杂乱背景的图像中提取出手掌区域，不限于规范的手掌摆放位置，并且基于Segnet模型的训练和识别过程(如上所描述的)，对于低图像像素同样也能够实现，使得本技术方案能够广泛地应用在移动终端，例如被移植在手机APP中。

另外，因为Segnet在识别的过程中基于颜色和光亮的识别权重较多，但是在为手掌拍照时，可能会存在图像中手掌上的颜色或光亮不均匀的情况，导致手掌上存在未被识别的空洞。此时，我们提出可以是仅利用Segnet寻找手掌边界的轮廓，从而实现手掌边界在图像中的定位；然后，在原图中的对应位置标注轮廓，并对原图轮廓区域进行分割，从而能够杜绝手掌识别过程中空洞的出现。

如图7所示，本申请一实施例的图像手掌区域提取装置，包括：获取单元701，用于获取待识别的人手图像；手掌轮廓确定单元702，用于基于语义分割模型，确定所述人手图像中手掌区域的手掌轮廓，其中所述语义分割模型是以具有不同拍摄背景的并标注了手掌轮廓的训练人手图像作为输入进行训练的；手掌区域提取单元703，用于根据所述手掌轮廓，从所述人手图像中提取出手掌区域。

优选的，所述手掌轮廓确定单元702还用于基于语义分割模型，在所述人手图像中分割出封闭图像轮廓，以及，当存在多个封闭图像轮廓时，计算所述多个封闭图像轮廓所包含的区域面积，并将对应具有最大的所述区域面积的封闭图像轮廓确定为所述手掌轮廓。

优选的，所述手掌区域提取单元703还用于检测在所述手掌轮廓内是否还存在其他封闭图像轮廓，以及，若存在所述其他封闭图像轮廓，则将所述其他封闭图像轮廓确定为空洞区域，以及，根据所述手掌区域内的人手图像的内容，填充所述空洞区域。

在具体的应用场景中，如图8所示，该装置还包括训练单元704，该训练单元704用于获取多张训练人手图像，其中所述多张训练人手图像包括对应于不同的拍照背景的训练人手图像；提取所述多张训练人手图像分别所对应的手掌轮廓；将具有所述手掌轮廓的所述多张训练人手图像输入至所述语义分割模型，以训练所述语义分割模型，使得经训练的所述语义分割模型能够从不同背景的人手图像中分割出手掌轮廓。

优选地，该训练单元704还用于基于所述语义分割模型中的编码器网络，提取所输入的所述多张训练人手图像各自的手掌轮廓特征，以及，基于所述语义分割模型中的解码器网络，使用在相应的所述编码器网络的最大池化步骤中计算的池化索引来执行非线性上采样操作，以将所提取的手掌轮廓特征映射到用于像素分类的全输入分辨率特征映射，从而训练所述语义分割模型。

优选地，所述语义分割模型为卷积神经网络，其中该训练单元704还用于为所述语义分割模型中的每个卷积层分别对应配置批标准化层，并在所述批标准化层之后还设置线性整流函数激活层，其中所述每个卷积层分别是对应于不同拍照背景的具有手掌轮廓的训练人手图像，以及，基于所述批标准化层，在训练时向前传播，批标准化层只保存输入权值的均值和方差，权值输出回到卷积层时仍然是当初卷积后的权值，以及，在训练时向后传播，根据所述批标准化层中的所述均值和所述方差，结合所述每个卷积层与线性整流函数激活层进行链式求导，求得梯度和当前训练速率。在一些实施方式中，所述语义分割模型为Segnet模型。

需要说明的是，本申请实施例提供的一种图像手掌区域提取装置所涉及各功能单元的其他相应描述，可以参考图1-6中的对应描述，在此不再赘述。

基于上述如图1-6所示方法，相应的，本申请实施例还提供了一种非易失性可读存储介质，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现上述如图1-6所示的图像手掌区域提取方法。基于上述如图1-6所示方法和如图7、8所示虚拟装置的实施例，为了实现上述目的，如图9所示，本申请实施例还提供了一种计算机设备90，该计算机设备90包括存储设备901和处理器902；所述存储设备901，用于存储计算机可读指令；所述处理器902，用于执行所述计算机可读指令以实现上述如图1-6所示的图像手掌区域提取方法。

通过应用本申请的技术方案，利用标注了手掌轮廓的训练掌纹区域图像所训练的语义分割模型来确定人手图像中手掌区域的手掌轮廓，进而依据该手掌轮廓来从人手图像中提取出手掌区域；由此，本申请将图像轮廓纹理技术和神经网络技术相结合，能够快速精确地从人手图像中提取出手掌轮廓和对应的手掌区域。另一方面，训练人手图像是具有不同拍摄背景的，因此基于该语义分割模型能够完成对不同背景的人手图像的手掌区域提取操作。另外，语义分割模型对于特征样本图片的数据量要求和内存消耗都较低，使得技术方案能够借助一般通用的处理器及摄像头就能够实现，具有非常广泛的应用场景，能够广泛地应用于诸如手机这样的通用型终端中，为掌纹识别技术的市场推广提供了基础。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

一种图像手掌区域提取方法，包括：

获取待识别的人手图像；

基于语义分割模型，确定所述人手图像中手掌区域的手掌轮廓，其中所述语义分割模型是以具有不同拍摄背景的并标注了手掌轮廓的训练人手图像作为输入进行训练的；

根据所述手掌轮廓，从所述人手图像中提取出手掌区域；

所述基于语义分割模型，确定所述人手图像中手掌区域的手掌轮廓包括：

基于语义分割模型，在所述人手图像中分割出封闭图像轮廓；

当存在多个封闭图像轮廓时，计算所述多个封闭图像轮廓所包含的区域面积，并将对应具有最大的所述区域面积的封闭图像轮廓确定为所述手掌轮廓。
根据权利要求1所述的方法，所述根据所述手掌轮廓，从所述人手图像中提取出手掌区域包括：

检测在所述手掌轮廓内是否还存在其他封闭图像轮廓；

若存在所述其他封闭图像轮廓，则将所述其他封闭图像轮廓确定为空洞区域；以及

根据所述手掌区域内的人手图像的内容，填充所述空洞区域。
根据权利要求1所述的方法，该方法还包括针对所述语义分割模型的训练过程，所述针对语义分割模型的训练过程包括：

获取多张训练人手图像，其中所述多张训练人手图像包括对应于不同的拍照背景的训练人手图像；

提取所述多张训练人手图像分别所对应的手掌轮廓；

将具有所述手掌轮廓的所述多张训练人手图像输入至所述语义分割模型，以训练所述语义分割模型，使得经训练的所述语义分割模型能够从不同背景的人手图像中分割出手掌轮廓。
根据权利要求3所述的方法，所述将具有所述手掌轮廓的所述多张训练人手图像输入至所述语义分割模型，以训练所述语义分割模型包括：

基于所述语义分割模型中的编码器网络，提取所输入的所述多张训练人手图像各自的手掌轮廓特征；

基于所述语义分割模型中的解码器网络，使用在相应的所述编码器网络的最大池化步骤中计算的池化索引来执行非线性上采样操作，以将所提取的手掌轮廓特征映射到用于像素分类的全输入分辨率特征映射，从而训练所述语义分割模型。
根据权利要求3所述的方法，所述语义分割模型为卷积神经网络，其中所述针对语义分割模型的训练过程还包括：

为所述语义分割模型中的每个卷积层分别对应配置批标准化层，并在所述批标准化层之后还设置线性整流函数激活层，其中所述每个卷积层分别是对应于不同拍照背景的具有手掌轮廓的训练人手图像；

基于所述批标准化层，在训练时向前传播，批标准化层只保存输入权值的均值和方差，权值输出回到卷积层时仍然是当初卷积后的权值，以及，

在训练时向后传播，根据所述批标准化层中的所述均值和所述方差，结合所述每个卷积层与线性整流函数激活层进行链式求导，求得梯度和当前训练速率。
根据权利要求1所述的方法，其中，所述语义分割模型为Segnet模型，所述Segnet模型包括均采用same卷积的多组卷积层和相应的反卷积层，其中所述卷积层为用于提取特征的编码器网络，且所述反卷积层为用于执行非线性上采样操作的解码器网络。
一种图像手掌区域提取装置，包括：

获取单元，用于获取待识别的人手图像；

手掌轮廓确定单元，用于基于语义分割模型，确定所述人手图像中手掌区域的手掌轮廓，其中所述语义分割模型是以具有不同拍摄背景的并标注了手掌轮廓的训练人手图像作为输入进行训练的；

手掌区域提取单元，用于根据所述手掌轮廓，从所述人手图像中提取出手掌区域；

所述手掌轮廓确定单元还用于基于语义分割模型，在所述人手图像中分割出封闭图像轮廓；当存在多个封闭图像轮廓时，计算所述多个封闭图像轮廓所包含的区域面积，并将对应具有最大的所述区域面积的封闭图像轮廓确定为所述手掌轮廓。
根据权利要求7所述的装置，所述手掌区域提取单元还用于检测在所述手掌轮廓内是否还存在其他封闭图像轮廓；若存在所述其他封闭图像轮廓，则将所述其他封闭图像轮廓确定为空洞区域；以及根据所述手掌区域内的人手图像的内容，填充所述空洞区域。
根据权利要求8所述的装置，所述装置还包括：训练单元；

所述训练单元，用于获取多张训练人手图像，其中所述多张训练人手图像包括对应于不同的拍照背景的训练人手图像；提取所述多张训练人手图像分别所对应的手掌轮廓；将具有所述手掌轮廓的所述多张训练人手图像输入至所述语义分割模型，以训练所述语义分割模型，使得经训练的所述语义分割模型能够从不同背景的人手图像中分割出手掌轮廓。
根据权利要求9所述的装置，所述训练单元，还用于基于所述语义分割模型中的编码器网络，提取所输入的所述多张训练人手图像各自的手掌轮廓特征；基于所述语义分割模型中的解码器网络，使用在相应的所述编码器网络的最大池化步骤中计算的池化索引来执行非线性上采样操作，以将所提取的手掌轮廓特征映射到用于像素分类的全输入分辨率特征映射，从而训练所述语义分割模型。
根据权利要求9所述的装置，所述语义分割模型为卷积神经网络，其中所述训练单元，还用于为所述语义分割模型中的每个卷积层分别对应配置批标准化层，并在所述批标准化层之后还设置线性整流函数激活层，其中所述每个卷积层分别是对应于不同拍照背景的具有手掌轮廓的训练人手图像；基于所述批标准化层，在训练时向前传播，批标准化层只保存输入权值的均值和方差，权值输出回到卷积层时仍然是当初卷积后的权值，以及，在训练时向后传播，根据所述批标准化层中的所述均值和所述方差，结合所述每个卷积层与线性整流函数激活层进行链式求导，求得梯度和当前训练速率。
根据权利要求7所述的装置，其中，所述语义分割模型为Segnet模型，所述Segnet模型包括均采用same卷积的多组卷积层和相应的反卷积层，其中所述卷积层为用于提取特征的编码器网络，且所述反卷积层为用于执行非线性上采样操作的解码器网络。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现图像手掌区域提取方法，包括：获取待识别的人手图像；基于语义分割模型，确定所述人手图像中手掌区域的手掌轮廓，其中所述语义分割模型是以具有不同拍摄背景的并标注了手掌轮廓的训练人手图像作为输入进行训练的；根据所述手掌轮廓，从所述人手图像中提取出手掌区域；

所述处理器执行所述计算机可读指令时实现所述基于语义分割模型，确定所述人手图像中手掌区域的手掌轮廓包括：基于语义分割模型，在所述人手图像中分割出封闭图像轮廓；当存在多个封闭图像轮廓时，计算所述多个封闭图像轮廓所包含的区域面积，并将对应具有最大的所述区域面积的封闭图像轮廓确定为所述手掌轮廓。
根据权利要求13所述的计算机设备，所述处理器执行所述计算机可读指令时实现所述根据所述手掌轮廓，从所述人手图像中提取出手掌区域包括：检测在所述手掌轮廓内是否还存在其他封闭图像轮廓；若存在所述其他封闭图像轮廓，则将所述其他封闭图像轮廓确定为空洞区域；以及根据所述手掌区域内的人手图像的内容，填充所述空洞区域。
根据权利要求13所述的计算机设备，所述处理器执行所述计算机可读指令时实现该方法还包括针对所述语义分割模型的训练过程，所述处理器执行所述计算机可读指令时实现所述针对语义分割模型的训练过程包括：获取多张训练人手图像，其中所述多张训练人手图像包括对应于不同的拍照背景的训练人手图像；提取所述多张训练人手图像分别所对应的手掌轮廓；将具有所述手掌轮廓的所述多张训练人手图像输入至所述语义分割模型，以训练所述语义分割模型，使得经训练的所述语义分割模型能够从不同背景的人手图像中分割出手掌轮廓。
根据权利要求15所述的计算机设备，所述处理器执行所述计算机可读指令时实现所述将具有所述手掌轮廓的所述多张训练人手图像输入至所述语义分割模型，以训练所述语义分割模型包括：基于所述语义分割模型中的编码器网络，提取所输入的所述多张训练人手图像各自的手掌轮廓特征；基于所述语义分割模型中的解码器网络，使用在相应的所述编码器网络的最大池化步骤中计算的池化索引来执行非线性上采样操作，以将所提取的手掌轮廓特征映射到用于像素分类的全输入分辨率特征映射，从而训练所述语义分割模型。
一种非易失性可读存储介质，其上存储有计算机可读指令，其中，所述计算机可读指令被处理器执行时实现图像手掌区域提取方法，包括：获取待识别的人手图像；基于语义分割模型，确定所述人手图像中手掌区域的手掌轮廓，其中所述语义分割模型是以具有不同拍摄背景的并标注了手掌轮廓的训练人手图像作为输入进行训练的；根据所述手掌轮廓，从所述人手图像中提取出手掌区域；

所述处理器执行所述计算机可读指令时实现所述基于语义分割模型，确定所述人手图像中手掌区域的手掌轮廓包括：基于语义分割模型，在所述人手图像中分割出封闭图像轮廓；当存在多个封闭图像轮廓时，计算所述多个封闭图像轮廓所包含的区域面积，并将对应具有最大的所述区域面积的封闭图像轮廓确定为所述手掌轮廓。
根据权利要求17所述的存储介质，所述处理器执行所述计算机可读指令时实现所述根据所述手掌轮廓，从所述人手图像中提取出手掌区域包括：检测在所述手掌轮廓内是否还存在其他封闭图像轮廓；若存在所述其他封闭图像轮廓，则将所述其他封闭图像轮廓确定为空洞区域；以及根据所述手掌区域内的人手图像的内容，填充所述空洞区域。
根据权利要求17所述的存储介质，所述处理器执行所述计算机可读指令时实现该方法还包括针对所述语义分割模型的训练过程，所述处理器执行所述计算机可读指令时实现所述针对语义分割模型的训练过程包括：获取多张训练人手图像，其中所述多张训练人手图像包括对应于不同的拍照背景的训练人手图像；提取所述多张训练人手图像分别所对应的手掌轮廓；将具有所述手掌轮廓的所述多张训练人手图像输入至所述语义分割模型，以训练所述语义分割模型，使得经训练的所述语义分割模型能够从不同背景的人手图像中分割出手掌轮廓。
根据权利要求19所述的存储介质，所述处理器执行所述计算机可读指令时实现所述将具有所述手掌轮廓的所述多张训练人手图像输入至所述语义分割模型，以训练所述语义分割模型包括：基于所述语义分割模型中的编码器网络，提取所输入的所述多张训练人手图像各自的手掌轮廓特征；基于所述语义分割模型中的解码器网络，使用在相应的所述编码器网络的最大池化步骤中计算的池化索引来执行非线性上采样操作，以将所提取的手掌轮廓特征映射到用于像素分类的全输入分辨率特征映射，从而训练所述语义分割模型。