CN112464839A

CN112464839A - 人像分割方法、装置、机器人及存储介质

Info

Publication number: CN112464839A
Application number: CN202011402997.5A
Authority: CN
Inventors: 曾钰胜; 庞建新; 程骏
Original assignee: Shenzhen Ubtech Technology Co ltd
Current assignee: Shenzhen Ubtech Technology Co ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-09

Abstract

本发明公开了一种人像分割方法，包括：获取待分割的原始人物图像；对所述原始人物图像中的人脸进行识别，根据识别得到的人脸关键点进行人脸对齐，得到对齐后的标准人物图像；基于所述对齐后的标准人物图像采用人脸分割模型进行人像分割，所述人脸分割模型为轻量型网络模型。该人像分割方法不需要设置复杂的人脸分割模型，适用于在算力有限的机器人端使用。此外，还提出了一种人像分割装置、机器人及存储介质。

Description

人像分割方法、装置、机器人及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种人像分割方法、装置、机器人及存储介质。

背景技术

目前在一些人脸应用里面，人像分割扮演着非常重要的角色，比如，在背景去除、人脸卡通画等应用中首先需要进行人像分割。

目前人像分割的数据集的定义没有非常明确的标准，有一些人像数据的人体占比是不一致的，有一些是标到了肩膀，有一些是标到肚子区域，还有一些是标到了腿部。数据的多样性会给人像分割带来一定的挑战，在这种情况下为了保证一定的精度，分割的模型就会设计地比较复杂。

由于机器人端算力有限，复杂的人像分割模型在机器人端很难使用，因此，亟需一种可以在机器人端使用的人像分割方法。

发明内容

基于此，有必要针对上述问题，提出一种适用于在机器人端使用的人像分割方法、装置、机器人及存储介质，该人像分割方法实现了准确并实时地对手势进行识别。

一种人像分割方法，包括：

获取待分割的原始人物图像；

对所述原始人物图像中的人脸进行识别，根据识别得到的人脸关键点进行人脸对齐，得到对齐后的标准人物图像；

基于所述对齐后的标准人物图像采用人脸分割模型进行人像分割，所述人脸分割模型为轻量型网络模型。

一种人像分割装置，包括：

获取模块，用于获取待分割的原始人物图像；

对齐模块，用于对所述原始人物图像中的人脸进行识别，根据识别得到的人脸关键点进行人脸对齐，得到对齐后的标准人物图像；

分割模块，用于基于所述对齐后的标准人物图像采用人脸分割模型进行人像分割，所述人脸分割模型为轻量型网络模型。

一种机器人，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待分割的原始人物图像；

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取待分割的原始人物图像；

上述人像分割方法、装置、机器人及存储介质，首先获取待分割的原始人物图像，然后对原始人物图像中的人脸进行识别，基于识别到的人脸关键点进行人脸对齐，得到对齐后的标准人物图像，然后采用人脸分割模型对该标准人物图像进行人像分割。由于在进行人像分割之前，将原始人物图像进行了对齐处理，人像分割模型只需要针对对齐后的标准人物图像进行人像分割，有利于提高人像分割的准确度，而且不需要设置复杂的算法，人脸分割模型采用轻量化网络模型即可实现，适用于部署在算力有限的机器人端。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是一个实施例中人像分割方法的流程图；

图2是一个实施例中人像对齐的示意图；

图3是一个实施例中单人人像分割前后的示意图；

图4是一个实施例中人像分割装置的结构框图；

图5是一个实施例中得到训练人物图像和对应的分割标注的示意图；

图6是另一个实施例中人像分割装置的结构框图；

图7是一个实施例中机器人的内部结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，提出了一种人像分割方法，该人像分割方法可以应用于终端，也可以应用于服务器，本实施例以应用于终端举例说明。该人像分割方法具体包括以下步骤：

步骤102，获取待分割的原始人物图像。

其中，原始人物图像中包含有待分割的人物图像。不同原始人物图像中人体占比往往是不一致的，比如，有些原始人物图像中人体占比是标到肚子区域，有些人体占比是标到了腿部，还有一些人体占比是标到了肩膀等。如果直接对这些原始人物图像中的人物图像进行分割，那么势必需要人像分割模型适应多种情况，相对的模型设计会特别复杂，导致计算量大，而由于机器人端往往算力有限，所以不适用于在机器人端使用。原始人物图像可以是通过摄像头直接拍摄得到的图像，也可以是从相册中获取到的图像。在一个实施例中，终端为机器人端。

步骤104，对原始人物图像中的人脸进行识别，根据识别得到的人脸关键点进行人脸对齐，得到对齐后的标准人物图像。

其中，人脸关键点是指反映人脸面部特征的特征点，包括：眉毛、眼睛、鼻子、嘴巴和脸部轮廓的特征点。为了便于后续分割，采用人脸对齐方式将原始人物图像进行对齐，得到对齐后的标准人物图像。

标准人物图像是指预设的规范化的人物图像，比如，可以设置标准任务图像中头发为起始位置，肩部区域为终点位置。人脸对齐的过程相当于等距变换+均匀尺度缩放，其效果具有角度、平行性和垂直性不变特性。对齐后的标准人物图像中人脸是正向的，人体占比符合预设的占比规则。如图2所示，为一个实施例中，人像对齐的示意图。

具体地，人脸对齐的目标是人脸中的5个关键点(左眼、右眼、鼻子、嘴左、嘴右)映射到目标空间的指定位置，而其他部分发生非失真的变化。5个关键点的作用是将人脸映射为正脸，然后其他部分随之也相应地进行映射到目标空间。目标空间的选择是根据人体占比进行选择的，如果人体占比小，相应的目标空间也比较小。

步骤106，基于对齐后的标准人物图像采用人脸分割模型进行人像分割，人脸分割模型为轻量型网络模型。

其中，由于标准人物图像具有统一的单一特点，那么人脸分割模型在针对标准人物图像进行训练学习时，不需要涉及复杂的网络，采用轻量化网络模型即可实现，不仅有利于提高人像分割的准确度，而且有利于提高人像分割的速度，适合部署在算力有限的机器人端，从而实现在机器人端进行人像分割。上述人像分割方法尤其适用于单人像分割，如图3所示，为一个实施例中，单人人像分割前后的示意图。

上述人像分割方法，首先获取待分割的原始人物图像，然后对原始人物图像中的人脸进行识别，基于识别到的人脸关键点进行人脸对齐，得到对齐后的标准人物图像，然后采用人脸分割模型对该标准人物图像进行人像分割。由于在进行人像分割之前，将原始人物图像进行了对齐处理，人像分割模型只需要针对对齐后的标准人物图像进行人像分割，有利于提高人像分割的准确度，而且不需要设置复杂的算法，人脸分割模型采用轻量化网络模型即可实现，适用于部署在算力有限的机器人端。

在一个实施例中，所述对所述原始人物图像中的人脸进行识别，根据识别得到的人脸关键点进行人脸对齐，得到对齐后的标准人物图像，还包括：将所述人脸关键点映射到预设空间的指定位置，得到预设空间内对齐后的标准人物图像。

其中，传统的人脸对齐仅仅是将脸部进行对齐，预设空间往往比较小，比如，尺寸在112X112，然后在该有限的空间内，设置五个关键点映射后的坐标位置。比如，5个关键点(左眼、右眼、鼻子、嘴左、嘴右)的坐标位置分别为{[38.2946,51.6963]，[73.5318,51.5014]，[56.0252,71.7366]，[41.5493,92.3655]，[70.7299,92.2041]}。如果标准人物图像不仅需要包含人脸区域，还需要扩展到其他部分，比如，延至肩膀处。那么相应的空间需要扩大，比如，尺寸需要设置为256X256，且相应的5个关键点的坐标位置也需要发生改变，以使得脸部上方头发和脸部下方到肩膀的部位可以显示在标准人物图像中。

在一个实施例中，首先根据图像中预设的人体占比确定人脸关键点映射到预设空间的目标坐标位置，目标坐标位置即指定位置，比如，如果预设的人体占比是从头发开始到肩部，那么在人脸对齐时，为了给头发部分和头以下的部分预留出映射空间，需要将人脸关键点坐标尽量映射到图像中间部位。以图像左下角为原点坐标进行说明，与传统的人脸对齐相比，可以将左眼、右眼位置的纵坐标降低，将左眼的横坐标和右眼的横坐标往图像中间靠近，即扩大左眼的横坐标，减少右眼的横坐标。这样可以为上面的头发部分预留空间，同时为脸的左右部分预留空间，同样的原理，鼻子的横坐标保持不变，纵坐标减少，为脸部下面预留空间，同时嘴左和嘴右的横坐标往图像中间靠拢，纵坐标增加等。

在一个实施例中，所述基于所述对齐后的标准人物图像采用人脸分割模型进行人像分割，包括：将所述对齐后的人物图像作为人像分割模型的输入，所述人像分割模型用于从所述标准人物图像中分割出目标人物图像；获取所述人像分割模型输出的分割得到的目标人物图像。

其中，人像分割模型用于对标准人物图像中的目标人物图像进行分割，得到目标人物图像。人像分割模型采用轻量化的卷积神经网络mobilenetv2来实现。

在一个实施例中，所述人像分割模型的训练方式如下：获取训练数据集，所述训练数据集中包括训练人物图像和对应的分割标注，所述训练人物图像和对应的分割标注是通过对已有人体图像集以及对应的人体分割标注进行对齐分割得到的；将所述训练人物图像作为所述人像分割模型的输入，将对应的分割标注作为期望的输出进行训练得到目标人像分割模型。

其中，对人像分割模型进行训练需要进行训练数据集的收集。训练数据集的收集往往需要耗费比较大的人力物力，因为不仅需要获取训练人物图像，还需要对训练人物图像进行分割标注。为了提高训练数据集的收集速度，在本申请中创新性地对已有人体图像集以及对应的人体分割标注进行对齐分割得到训练人物图像以及对应的分割标注。由于网上目前已经存在一些开源的人体图像集以及对应的人体分割标注，而不存在人物图像和对应的分割标注。人体图像是指包含有全身的人物图像，而人物图像是指主要包含有脸部的人物图像。如图4所示，为一个实施例中，得到训练人物图像和对应的分割标注的示意图。通过将人体图像和人体图像对应的分割标注进行对齐得到人物图像以及人物图像的分割标注的示意图。

在一个实施例中，所述将所述训练人物图像作为所述人像分割模型的输入，将对应的分割标注作为期望的输出进行训练得到目标人像分割模型，包括：将所述训练人物图像作为所述人像分割模型的输入，获取所述人像分割模型的实际输出；根据所述实际输出和所述期望输出采用dice损失函数计算得到损失值，根据所述损失值利用反向传播算法更新所述人像分割模型中的权重，以使所述损失值朝着减小的方向改变，直到收敛。

其中，对人像分割模型采用训练数据集进行有监督的训练。具体训练时，将训练人物图像作为人像分割模型的输入，获取人像分割模型的实际输出，根据实际输出与期望输出计算得到损失值，然后根据损失值来反向调节人像分割模型中的权重，以减少损失值，重复上述步骤，直至最后损失值收敛，模型训练完毕。通过实验表明，采用dice函数作为损失函数有利于提高人像分割模型训练的准确度。具体地，dice损失函数的计算公式为：Dices_loss＝1-2|X∩Y|/(|X|+|Y|)，|X∩Y|表示X和Y之间的交集；|X|和|Y|分别表示X和Y的元素个数。其中，分子中的系数2，是因为分母存在重复计算X和Y之间的共同元素的原因.语义分割问题而言，X和Y分别表示期望输出和实际输出。

在一个实施例中，所述人像分割模型采用卷积神经网络训练得到，包括多个卷积层，所述卷积层用于对图像进行特征提取；采用所述卷积层进行特征提取之前，还包括：对所述图像进行边缘扩增，以使进行卷积后得到的图像分辨率与输入的标准人物图像的分辨率一致。

其中，为了使得卷积前后图像分辨率保持不变，在进行卷积之前，先对图像进行边缘扩增，即扩大图像，然后再基于扩大图像进行卷积操作，以使得卷积操作后得到的标准人物图像分辨率与原始输入的人物图像的分辨率保持一致，从而可以保证人像分割的精度。

在一个实施例中，人像分割模型是通过对原始的Unet网络进行改进得到的。Unet是现有的一种深度学习分割网络。Unet的网络最初是在医学图像应用的，医学图像的特点是分辨率大，细节才明显，才容易进行分割。而在人像分割任务上，为了提高人像分割精度和速度，对人像以及标注进行了精简，使用256X256大小的图像作为输入即可。而且为了避免语义信息的丢失，在进行卷积之前，对图像进行了边缘扩增，保持输入和输出一致，即最后得到256X256的输出结果。相对于传统的512X384的尺寸，本方案采用256X256的分辨率进行训练，有利于保证精度的同时进一步提高速度，具有速度快，显存占用小的优势。

在上述256x256unet基础上，为了进一步提高速度，把Unet网络中的encoder部分的特征提取换成了mobilenetv2(一种轻量型网络模型),在decoder部分把卷积换成了可分离卷积，速度进一步得到加快。

如图5所示，在一个实施例中，提出了一种人像分割装置，包括：

获取模块502，用于获取待分割的原始人物图像；

对齐模块504，用于对所述原始人物图像中的人脸进行识别，根据识别得到的人脸关键点进行人脸对齐，得到对齐后的标准人物图像；

分割模块506，用于基于所述对齐后的标准人物图像采用人脸分割模型进行人像分割，所述人脸分割模型为轻量型网络模型。

在一个实施例中，所述对齐模块还用于将所述人脸关键点映射到预设空间的指定位置，得到预设空间内对齐后的标准人物图像。

在一个实施例中，所述对齐模块还用于根据预设的人体占比确定人脸关键点在预设空间的目标坐标位置，所述目标坐标位置作为所述指定位置。

在一个实施例中，所述分割模块还用于将所述对齐后的人物图像作为人像分割模型的输入，所述人像分割模型用于从所述标准人物图像中分割出目标人物图像；获取所述人像分割模型输出的所述目标人物图像。

如图6所示，在一个实施例中，上述人像分割装置还包括：

训练模块501，用于获取训练数据集，所述训练数据集中包括训练人物图像和对应的分割标注，所述训练人物图像和对应的分割标注是通过对已有人体图像集以及对应的人体分割标注进行对齐分割得到的，将所述训练人物图像作为所述人像分割模型的输入，将对应的分割标注作为期望的输出进行训练得到目标人像分割模型。

在一个实施例中，所述训练模块还用于将所述训练人物图像作为所述人像分割模型的输入，获取所述人像分割模型的实际输出；根据所述实际输出和所述期望输出采用dice损失函数计算得到损失值，根据所述损失值利用反向传播算法更新所述人像分割模型中的权重，以使所述损失值朝着减小的方向改变，直到收敛。

在一个实施例中，所述人像分割模型采用卷积神经网络训练得到，包括多个卷积层，所述卷积层用于对图像进行特征提取；所述分割模块还用于对所述图像进行边缘扩增，以使进行卷积后得到的图像分辨率与输入的标准人物图像的分辨率一致。

图7示出了一个实施例中机器人的内部结构图。如图7所示，该机器人包括通过***总线连接的处理器、存储器、摄像头和网络接口。其中，存储器包括非易失性存储介质和内存储器。该机器人的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现上述的人像分割方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行上述的人像分割方法。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的机器人的限定，具体的机器人可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种机器人，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：获取待分割的原始人物图像；对所述原始人物图像中的人脸进行识别，根据识别得到的人脸关键点进行人脸对齐，得到对齐后的标准人物图像；基于所述对齐后的标准人物图像采用人脸分割模型进行人像分割，所述人脸分割模型为轻量型网络模型。

在一个实施例中，所述将所述人脸关键点映射到预设空间的指定位置之前还包括：根据预设的人体占比确定人脸关键点在预设空间的目标坐标位置，所述目标坐标位置作为所述指定位置。

在一个实施例中，所述基于所述对齐后的标准人物图像采用人脸分割模型进行人像分割，包括：将所述对齐后的人物图像作为人像分割模型的输入，所述人像分割模型用于从所述标准人物图像中分割出目标人物图像；获取所述人像分割模型输出的所述目标人物图像。

在一个实施例中，所述人像分割模型采用卷积神经网络训练得到，包括多个卷积层，所述卷积层用于对图像进行特征提取；在采用所述卷积层进行特征提取之前，还包括：对所述图像进行边缘扩增，以使进行卷积后得到的图像分辨率与输入的标准人物图像的分辨率一致。

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：获取待分割的原始人物图像；对所述原始人物图像中的人脸进行识别，根据识别得到的人脸关键点进行人脸对齐，得到对齐后的标准人物图像；基于所述对齐后的标准人物图像采用人脸分割模型进行人像分割，所述人脸分割模型为轻量型网络模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人像分割方法，其特征在于，包括：

获取待分割的原始人物图像；

2.根据权利要求1所述的方法，其特征在于，所述对所述原始人物图像中的人脸进行识别，根据识别得到的人脸关键点进行人脸对齐，得到对齐后的标准人物图像，还包括：

将所述人脸关键点映射到预设空间的指定位置，得到预设空间内对齐后的标准人物图像。

3.根据权利要求2所述的方法，其特征在于，所述将所述人脸关键点映射到预设空间的指定位置之前还包括：

根据预设的人体占比确定人脸关键点在预设空间的目标坐标位置，所述目标坐标位置作为所述指定位置。

4.根据权利要求1所述的方法，其特征在于，所述基于所述对齐后的标准人物图像采用人脸分割模型进行人像分割，包括：

将所述对齐后的人物图像作为人像分割模型的输入，所述人像分割模型用于从所述标准人物图像中分割出目标人物图像；

获取所述人像分割模型输出的所述目标人物图像。

5.根据权利要求1所述的方法，其特征在于，所述人像分割模型的训练方式如下：

获取训练数据集，所述训练数据集中包括训练人物图像和对应的分割标注，所述训练人物图像和对应的分割标注是通过对已有人体图像集以及对应的人体分割标注进行对齐分割得到的；

将所述训练人物图像作为所述人像分割模型的输入，将对应的分割标注作为期望的输出进行训练得到目标人像分割模型。

6.根据权利要求5所述的方法，其特征在于，所述将所述训练人物图像作为所述人像分割模型的输入，将对应的分割标注作为期望的输出进行训练得到目标人像分割模型，包括：

将所述训练人物图像作为所述人像分割模型的输入，获取所述人像分割模型的实际输出；

根据所述实际输出和所述期望输出采用dice损失函数计算得到损失值，根据所述损失值利用反向传播算法更新所述人像分割模型中的权重，以使所述损失值朝着减小的方向改变，直到收敛。

7.根据权利要求1所述的方法，其特征在于，所述人像分割模型采用卷积神经网络训练得到，包括多个卷积层，所述卷积层用于对图像进行特征提取；

在采用所述卷积层进行特征提取之前，还包括：对所述图像进行边缘扩增，以使进行卷积后得到的图像分辨率与输入的标准人物图像的分辨率一致。

8.一种人像分割装置，其特征在于，包括：

获取模块，用于获取待分割的原始人物图像；

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述的人像分割方法的步骤。

10.一种机器人，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述的人像分割方法的步骤。