CN110276768B

CN110276768B - 图像分割方法、图像分割装置、图像分割设备及介质

Info

Publication number: CN110276768B
Application number: CN201910576833.5A
Authority: CN
Inventors: 吕耀宇; 陈丽莉; 张�浩; 马福强; 孙建康; 张硕; 李纲; 薛亚冲; 彭项君; 赵晨曦
Original assignee: BOE Technology Group Co Ltd; Beijing BOE Optoelectronics Technology Co Ltd
Current assignee: BOE Technology Group Co Ltd; Beijing BOE Optoelectronics Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2022-04-05
Anticipated expiration: 2039-06-28
Also published as: CN110276768A; US11367195B2; US20200410688A1

Abstract

公开了一种图像分割方法、图像分割装置、图像分割设备及介质，所述图像分割方法包括：对于视频图像当前帧，提取人体三维骨架的骨架二维估计和骨架三维估计；基于所述骨架二维估计和所述骨架三维估计，得到目标三维骨架；基于所述目标三维骨架，实现图像分割；其中，所述人体三维骨架具有多个节点，所述视频图像为二维图像，在计算当前帧中目标三维骨架时，通过综合考虑当前帧中人体三维骨架的骨架二维估计和骨架三维估计，使得能够提高所得到的目标三维骨架的精确度及其鲁棒性，从而提高图像分割的精度。

Description

图像分割方法、图像分割装置、图像分割设备及介质

技术领域

本公开涉及图像处理领域，更具体地涉及一种图像分割方法、图像分割装置、图像分割设备及介质。

背景技术

随着图像处理在民用和商用领域的广泛应用，图像分割在视频监控、虚拟现实(VR)等领域起到日益重要的作用，也面临着更高的要求。

在目前的图像分割方法中，传统的图像分割方法不能实现自动分割，需要用户手动框选人像目标；基于深度学习的图像分割方法大多是基于二维图像实现的，图像分割的鲁棒性较差；基于三维骨架的图像分割方法需要采用深度相机获取图像的深度信息以得到三维骨架，其应用成本高，应用广泛性差，且在室外条件下图像分割的效果较差。

因此，需要一种在实现图像分割的前提下，具有较高图像分割准确率，且具有较低的应用成本的图像分割方法。

发明内容

针对以上问题，本公开提供了一种图像分割方法、图像分割装置、图像分割设备及介质。利用本公开提供的图像分割方法可以在图像分割的基础上，有效提高视频图像中的图像分割的准确率，实现实时且高精度的图像分割，该方法具有良好的鲁棒性，且具有较低的应用成本。

根据本公开的一方面，提出了一种图像分割方法，包括：对于视频图像当前帧，提取人体三维骨架的骨架二维估计和骨架三维估计；基于所述骨架二维估计和所述骨架三维估计，得到目标三维骨架；基于所述目标三维骨架，实现图像分割；其中，所述人体三维骨架具有多个节点，所述视频图像为二维图像。

在一些实施例中，对于视频图像当前帧提取人体三维骨架的骨架二维估计和骨架三维估计包括：通过第一神经网络对视频图像当前帧进行处理，基于该当前帧中的人像，得到人体三维骨架的骨架二维估计；通过第二神经网络对视频图像当前帧所在的视频帧组进行处理，基于该当前帧中的人像，得到人体三维骨架的骨架三维估计，其中所述视频帧组包括预设数量的连续的视频帧；其中，所述骨架二维估计包括该人体三维骨架中每一个节点的二维估计信息，所述骨架三维估计包括该人体三维骨架中每一个节点的三维估计信息。

在一些实施例中，基于所述骨架二维估计和所述骨架三维估计得到目标三维骨架包括：计算人体三维骨架的预设骨架值与骨架二维估计的误差以得到第一误差；计算人体三维骨架的预设骨架值与骨架三维估计的误差以得到第二误差；基于所述第一误差与所述第二误差，得到误差函数；基于所述人体三维骨架的预设骨架值和所述误差函数，得到目标三维骨架。

在一些实施例中，基于所述人体三维骨架的预设骨架值和所述误差函数得到目标三维骨架包括：通过调整人体三维骨架中各节点的位置信息，使得所得到的误差函数具有最小值；在该误差函数取得最小值时，将此时的人体三维骨架作为目标三维骨架。

在一些实施例中，计算人体三维骨架与骨架二维估计的误差包括：对人体三维骨架中每一个节点，从该节点的预设三维位置信息中提取其二维位置信息；计算该二维位置信息与骨架二维位置估计中相应节点的二维估计信息的误差，得到每一个节点的二维误差值；对各节点的二维误差值进行加权平均，得到第一误差。

在一些实施例中，计算人体三维骨架与骨架三维估计的误差包括：计算该人体三维骨架中每一个节点的预设三维位置信息与骨架三维位置估计中相应节点的三维估计信息的误差，得到每一个节点的三维误差值；将各节点的三维误差值进行加权平均，得到第二误差。

根据本公开的另一方面，提供了一种图像分割装置，包括：骨架估计提取模块，被配置为对于视频图像当前帧，提取人体三维骨架的骨架二维估计和骨架三维估计；目标三维骨架生成模块，被配置为基于所述骨架二维估计和所述骨架三维估计，得到目标三维骨架；图像分割模块，被配置为基于所述目标三维骨架，实现图像分割；其中，所述人体三维骨架具有多个节点，所述视频图像为二维图像。

在一些实施例中，骨架估计提取模块包括：骨架二维估计获取模块，被配置为通过第一神经网络对视频图像当前帧进行处理，对应于该当前帧中的人像，得到人体三维骨架的骨架二维估计；骨架三维估计获取模块，被配置为通过第二神经网络对视频图像该当前帧所在的视频帧组进行处理，对应于该当前帧中的人像，得到人体三维骨架的骨架三维估计，其中所述视频帧组包括预设数量的连续的视频帧；其中，所述骨架二维估计中包括人体三维骨架中每一个节点的二维估计信息，所述骨架三维估计中包括人体三维骨架中每一个节点的三维估计信息。

在一些实施例中，所述目标三维骨架生成模块包括：第一误差计算模块，被配置为计算人体三维骨架的预设骨架值与骨架二维估计的误差以得到第一误差；第二误差计算模块，被配置为计算人体三维骨架的预设骨架值与骨架三维估计的误差以得到第二误差；误差函数确定模块，被配置为基于所述第一误差与所述第二误差得到误差函数；目标三维骨架计算模块，被配置为基于所述人体三维骨架的预设骨架值和所述误差函数，得到目标三维骨架。

在一些实施例中，所述目标三维骨架计算模块包括：误差函数最小值计算模块，被配置为通过调整人体三维骨架中各节点的位置信息，使得所得到的误差函数具有最小值；目标三维骨架获取模块，被配置为在该误差函数取得最小值时，将此时的人体三维骨架作为目标三维骨架。

在一些实施例中，所述第一误差计算模块包括：节点二维位置信息提取模块，被配置为对人体三维骨架中每一个节点，从该节点的预设三维位置信息中提取其二维位置信息；节点二维误差计算模块，被配置为计算该二维位置信息与骨架二维位置估计中相应节点的二维估计信息的误差，得到每一个节点的二维误差值；第一误差确定模块，被配置为对各节点的二维误差值进行加权平均，得到第一误差。

在一些实施例中，所述第二误差计算模块包括：节点三维误差计算模块，被配置为计算人体三维骨架中每一个节点的预设三维位置信息与骨架三维位置估计中相应节点的三维估计信息的误差，得到每一个节点的三维误差值；第二误差确定模块，被配置为将各节点的三维误差值进行加权平均，得到第二误差。

根据本公开的另一方面，提供了一种图像分割设备，其中所述设备包括处理器和存储器，所述存储器包含一组指令，所述一组指令在由所述处理器执行时使所述图像分割设备执行操作，所述操作包括：对于视频图像当前帧，提取人体三维骨架的骨架二维估计和骨架三维估计；基于所述骨架二维估计和所述骨架三维估计，得到目标三维骨架；基于所述目标三维骨架，实现图像分割；其中，所述人体三维骨架具有多个节点，所述视频图像为二维图像。

根据本公开的另一方面，提供了一种计算机可读存储介质，其特征在于，其上存储有计算机可读的指令，当利用计算机执行所述指令时执行如上所述的方法。

利用本公开提供的图像分割的方法，可以很好的完成对于视频图像的图像分割，特别地，其可具有较高的准确率，较低的应用成本，且该方法具有良好的鲁棒性。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本公开的主旨。

图1A示出了根据本公开实施例的图像分割方法的示例性的流程图；

图1B示出了根据本公开实施例的人体三维骨架的示意图；

图2A示出了根据本公开实施例对于视频图像当前帧提取人体三维骨架的骨架二维估计和骨架三维估计的示例性流程图；

图2B示出了根据本公开实施例的第一神经网络的结构示意图；

图3示出了根据本公开实施例基于所述骨架二维估计和所述骨架三维估计得到目标三维骨架的示例性流程图；

图4示出了根据本公开实施例计算人体三维骨架的预设骨架值与骨架二维估计的误差以得到第一误差的示例性流程图；

图5示出了根据本公开实施例计算人体三维骨架的预设骨架值与骨架三维估计的误差以得到第二误差的示例性流程图；

图6示出了根据本公开实施例基于所述人体三维骨架的预设骨架值与误差函数得到目标三维骨架的示例性流程图；

图7示出了根据本公开实施例的图像分割装置的示例性框图；

图8示出了根据本公开实施例的图像分割设备的示例性的框图。

具体实施方式

下面将结合附图对本公开实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本公开的部分实施例，而不是全部的实施例。基于本公开实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本公开保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的***中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述***和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的***所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1A示出了根据本公开实施例的图像分割方法100的示例性流程图。

首先，在步骤S101中，对于视频图像当前帧，提取人体三维骨架的骨架二维估计和骨架三维估计。

所述视频图像可以是通过摄像头或摄录装置实时捕获的图像，或者也可以是预先以其他方式获得的视频图像。本公开实施例不受视频图像的来源及获取方式的限制。例如，可以为由道路摄像头、无人超市的监控摄像头等直接拍摄的图像，或者也可以是经过计算机预先处理后得到的视频图像。

视频图像当前帧为视频图像在当前时刻下要分析的图像帧，其例如可以是在当前时刻下实时捕获的图像帧。

所述人体三维骨架，是指基于人体三维结构特征所构建的人体骨架模型，其具有多个节点。图1B示出了根据本公开实施例的人体三维骨架的示意图。如图1B所示出的，所述人体三维骨架例如可以包括多个节点及各节点之间的连接关系。在构建人体三维骨架时，例如首先可以构建根节点，如图1B中的根节点P₁，其后对于每一个根节点，引出相应的子节点，如图1B中的节点P₁₃、P₁₄。如图1B所示出的，所设置的人体三维骨架例如可以包括15个节点，或者其也可以基于图像中人体运动的复杂程度和图像处理的精度要求，包括更多或更少的节点，例如包括10个节点、或包括25个节点。本公开的实施例不受所构建的人体三维骨架中包括的节点个数及各节点之间连接关系的限制。

基于每一帧中人像的人像特征，该人体三维骨架相应地可具有不同的空间位置构型，即，该人体三维骨架可以具有不同的骨架姿态。基于此，对于视频图像的不同帧，人体三维骨架可以具有不同的位置值，即人体三维骨架中各节点可以具有不同的三维位置信息。本公开不受所述人体三维骨架在不同视频图像帧中所具有的具体空间位置构型的限制。

在一些实施例中，可以对人体三维骨架设置其预设空间位置构型，即预先设置该人体三维骨架的预设骨架值。所述人体三维骨架例如可以在视频图像的所有帧中具有相同的预设骨架值，例如，对于该人体三维骨架中的每一个节点预先设置其预设三维位置信息，并将该预设三维位置信息用于视频图像的每一帧；或者，所述人体三维骨架的预设骨架值可以基于视频帧而变化，例如可以设置对于视频图像的每一帧，将其上一帧中人体三维骨架各节点所具有的三维位置信息作为在该帧中人体三维骨架各节点的预设位置信息，本公开实施例不受预设骨架值的具体设置方式及其数值的限制。

例如，该节点的三维位置信息例如可以为该节点相对于预设坐标轴的绝对位置，例如以基准点(如摄像机镜头所在点)为原点建立直角坐标系，将各节点沿该坐标系横轴、纵轴、深度轴上的位置坐标作为其位置信息，或者也可以通过其他方法表示人体三维骨架中各节点的节点三维位置信息。本公开实施例不受人体三维骨架中节点的三维位置信息具体的表示方式的限制。

所述提取人体三维骨架的骨架二维估计是指，对于视频图像当前帧，基于该当前帧中的人像特征，得到人体三维骨架的各节点在二维空间中的位置信息估计值。

所述提取人体三维骨架的骨架三维估计是指，对于视频图像当前帧，基于该当前帧中的人像特征，得到人体三维骨架的各节点在三维空间中的位置信息估计值。

其后，在步骤S102中，基于所述骨架二维估计和所述骨架三维估计，得到目标三维骨架。

所述目标三维骨架，表征与视频图像每一帧中人像的特征相对应的，具有特定空间位置构型的人体三维骨架。其例如可以通过对于视频图像的每一帧，基于其中人像的特性，确定该视频帧中人体三维骨架各节点所具有的位置信息，从而得到在该视频帧中的目标三维骨架。

例如，若视频图像中仅存在单个人像，则可以基于该人像得到其所对应的目标三维骨架；若视频图像中存在多个人像，则可以对于多个人像中的每一个人像进行处理，最终对于多个人像中的每一个人像，得到其所对应的目标三维骨架。本公开的实施例不受所述视频图像中的人像个数及在每一视频帧中得到的目标三维骨架的个数的限制。

在一些实施例中，通过所述骨架二维估计和骨架三维估计得到目标三维骨架的过程，例如可以为：通过基于该骨架二维估计对于该骨架三维估计进行调整，从而得到目标三维骨架；或者其也可以将人体三维骨架的预设空间构型和该骨架二维估计与骨架三维估计进行比较，基于比较结果对于该人体三维骨架中各节点的预设位置信息进行调整，从而得到目标三维骨架。本公开的实施例不受基于骨架二维估计和骨架三维估计获取目标三维骨架的具体方法的限制。

得到目标三维骨架后，在步骤S103中，基于所述目标三维骨架，实现图像分割。

基于目标三维骨架实现图像分割的过程，例如可以将该目标三维骨架输入至图像分割算法的输入端，例如将其输入至GrabCut算法的输入端，从而使用该目标三维骨架对于图像分割算法进行初始化，其后，通过初始化后的图像分割算法进行图像分割处理。本公开不受基于目标三维骨架实现图像分割的具体过程及其所选取的具体分割算法的限制。

其中，所述视频图像为二维图像，即不包含深度信息的图像。该二维图像可由单目相机直接采集，或者也可以为通过其他方式采集得到的二维图像，本公开实施例不受该二维图像的来源及获取方式的限制。

基于上述，本公开所述的图像分割方法，通过综合考虑人体三维骨架在当前帧中的骨架二维估计和骨架三维估计来计算当前帧中的目标三维骨架，并基于该目标三维骨架实现图像分割，使得能够提高所得到的目标三维骨架的精确度及其鲁棒性，从而提高图像分割的精度；此外，本公开基于单目相机所采集到的二维视频图像实现了三维骨架构建，相较于基于深度相机所获取的三维图像构建三维骨架而言，具有更低的使用成本。

图2A示出了根据本公开实施例对于视频图像当前帧提取人体三维骨架的骨架二维估计和骨架三维估计的示例性流程图。

参照图2A，在一些实施例中，对于视频图像当前帧提取人体三维骨架的骨架二维估计和骨架三维估计包括：首先，在步骤S201中，通过第一神经网络对视频图像当前帧进行处理，基于该当前帧中的人像，得到人体三维骨架的骨架二维估计。

所述第一神经网络可以基于实际需要进行选取，例如其可以为快速的基于区域的卷积神经网络(Fast R-CNN)、掩膜的基于区域的卷积神经网络(Mask R-CNN)，或者采用将其与全连接网络或其他综合处理网络架构相集成所形成的复合神经网络实现。在此不对所选择的第一神经网络的类型做出任何限制。

基于所选择的第一神经网络，可以进一步地基于预设样本集对其进行训练，例如通过预设的离线二维数据库MPII Human Pose对该第一神经网络进行训练，并将训练后的神经网络保存，以用于实现骨架二维估计的提取。本公开不受所述第一神经网络的训练方式的限制。

图2B示出了根据本公开实施例的第一神经网络的结构示意图。其中所述第一神经网络例如为Mask R-CNN网络。

参照图2B，上述过程可更具体地描述。首先，在Mask R-CNN网络的输入层输入视频图像的当前帧，其后，经由卷积层对当前图像进行处理，提取当前图像的特征，该特征被后续的区域建议网络层(Region proposal network layer,RPN)及全连接层共享；随后，在区域建议网络层中，基于该图像特征得到一组目标锚点，并进一步地判断该目标锚点属于前景或背景并对其进行修正，最终得到候选区域；将该候选区域输入至目标区域对准层(Region of interest Align layer,RoIAlign)，以调整由于在形成候选区域过程中进行量化而导致的候选区域出现位置偏差的问题；经由目标区域对准层处理后的结果传输至卷积网络层与全连接层，经卷积网络层处理得到目标的掩膜预测；经全连接层处理，得到目标类别与边界框预测；基于所述掩膜预测、目标类别与边界框预测，最终在输出端得到基于该当前帧中的人像对人体三维骨架的骨架二维估计。

所述二维估计包括该人体三维骨架中每一个节点的二维估计信息。所述二维估计信息例如可以表示为该节点在所述二维图像中的二维坐标位置。例如对于矩形形状的二维图像，可以采用其左下角点为坐标原点，沿其水平方向构建X轴且令X轴的正方向为指向二维图像的右下角点的方向，沿其垂直方向构建Y轴且令Y轴的正方向为指向二维图像的左上角点的方向，基于所构建的坐标轴，得到各节点的位置坐标，并将其作为该节点的二维估计信息。本公开的实施例不受各节点的二维估计信息的表示方式的限制。

在步骤S202中，通过第二神经网络对视频图像当前帧所在的视频帧组进行处理，基于该当前帧中的人像，得到人体三维骨架的骨架三维估计。

所述视频帧组包括预设数量的连续的视频帧。其旨在提供视频图像中的人体运动信息，因此，其可以基于实际需求或视频图像相邻帧之间的时间间隔设置，例如可以设置连续的50帧视频图像为一组，或者也可以设置连续的80帧视频图像为一组。本公开的实施例不受所述视频帧组中所包括的视频帧的具体个数的限制。

在一些实施例中，在求取骨架三维估计时，例如可以首先将视频图像中多个连续视频帧输入至第二神经网络的输入端，即将视频图像中的视频帧组输入至第二神经网络的输入端，所述第二神经网络基于时间流特征对该视频帧组处理，从而得到在该视频帧组中的人体运动信息，并进一步地基于该人体运动信息与二维图像信息综合求解得到人体三维骨架的骨架三维估计；或者也可以通过其他方式求解骨架三维估计，本公开的实施例不受所述第二神经网络求取视频图像中人体三维骨架的骨架三维估计的具体方式的限制。

所述第二神经网络可以基于实际需要进行选取，例如其可以为快速的基于区域的卷积神经网络(Fast R-CNN)、掩膜的基于区域的卷积神经网络(Mask R-CNN)，或者采用将其与全连接网络或其他综合处理网络架构相集成所形成的复合神经网络实现。在此不对所选择的第二神经网络的类型做出任何限制。

基于所选择的第二神经网络，可以进一步地基于预设样本集对其进行训练，例如通过预设的三维数据库Human 3.6M或MPI-INF-3DHP对该第二神经网络进行训练，并将训练后的神经网络保存，以用于实现骨架三维估计的提取。本公开不受所述第二神经网络的训练方式的限制。

所述骨架三维估计包括该人体三维骨架中每一个节点的三维估计信息，所述三维估计信息例如可以表示为该节点的三维坐标位置，例如以该节点相对于预设的坐标原点(例如摄像机镜头)在横轴、纵轴、深度轴上的位置坐标作为其位置信息。本公开的实施例不受各节点的三维估计信息的表示方式的限制。

应了解，步骤S201和S202的操作可以并行进行，或者按照顺序执行，在此不对其作出任何限制。进一步地，根据需要，步骤S201及S202可基于经预处理后得到的不同视频图像进行操作，只要这些视频图像皆来源于相同的原始视频图像即可。

基于上述，通过第一神经网络对视频图像的当前帧进行处理，得到该当前帧中人体三维骨架的骨架二维估计；并通过第二神经网络对视频帧组进行处理，以基于该二维视频图像，得到其人体三维骨架的骨架三维估计，从而有利于后续基于该骨架二维估计和骨架三维估计实现目标骨架的计算。同时，通过对连续视频帧处理得到视频图像中人像的运动信息，从而基于二维图像得到骨架三维估计，使得该方法仅需使用单目相机即可实现，使其具有较低的应用成本。

图3示出了根据本公开实施例基于所述骨架二维估计和所述骨架三维估计得到目标三维骨架的示例性流程图。

参照图3，在一些实施例中，为获取目标三维骨架，首先，在步骤S301中，计算人体三维骨架的预设骨架值与骨架二维估计的误差以得到第一误差。

如前所述，所述人体三维骨架例如可以在视频图像的所有帧中具有相同的预设骨架值，或者，所述人体三维骨架的预设骨架值可以基于视频图像的不同视频帧变化，本公开的实施例不受该预设骨架值的具体数值的限制。

在一些实施例中，在计算第一误差的过程中，例如可以首先将各节点的三维位置信息转换为其在二维图像中的位置信息，再进行误差计算。或者也可以通过其他的方法实现人体三维骨架与骨架二维估计的比较，本公开实施例不受人体三维骨架与骨架二维估计比较所选取的比较方法的限制。

进一步地，在步骤S302中，计算人体三维骨架的预设骨架值与骨架三维估计的误差以得到第二误差。

在一些实施例中，计算人体三维骨架与骨架三维估计的误差时，例如可以直接将每一个节点的预设位置信息与其三维估计信息进行比较，或者也可以先对其进行坐标系转换，例如将其均转换为基准坐标系后，再进行比较。本公开的实施例不受人体三维骨架与骨架三维估计的比较中选取的比较方法的限制。

例如，上述计算第一误差、第二误差的过程例如可以对人体三维骨架中的每一个关节均执行，即对每一个关节，均将其三维位置信息与骨架二维估计和骨架三维估计中的估计信息相比较；其也可以仅对预先选取的预设节点执行，例如仅对人体三维骨架中的根节点进行比较；其还可以基于节点的属性特征，将人体三维骨架中的各节点划分为不同的节点组，基于节点组进行比较。本公开不受人体三维骨架中用于计算第一、第二误差的节点个数的限制。

应了解，步骤S301和S302的操作可以并行进行，或者按照顺序执行，在此不对其作出任何限制。

本申请中所述第一误差和所述第二误差仅用于区分人体三维骨架与二维误差估计和骨架三维估计分别所具有的误差，而非用于对该误差进行限制。

在得到第一误差与第二误差之后，在步骤S303中，基于所述第一误差与所述第二误差，得到误差函数。

所述误差函数例如可以是将人体三维骨架与骨架二维估计和骨架三维估计相比较所得到的比较结果进行直接加和，或者也可以将对比较结果输入至所选择的算法或公式对其进行进一步处理以得到该误差函数。本公开的实施例不受所述误差函数的具体组成方式的限制。

基于所述第一误差和第二误差得到误差函数的过程，例如可以是对于视频图像的每一帧，将基于该帧所求得的第一误差与第二误差得到对应于该视频帧的误差函数；或者其也可以为对应于视频帧组的误差函数，即基于预设的视频帧组，将隶属于该视频帧组的多个视频帧的第一误差与第二误差相加和，得到对应于该视频组的误差函数。本公开实施例不受所得到的误差函数的具体组成的限制。

在一些实施例中，例如可以通过将视频图像当前帧所对应的第一误差和第二误差进行加权平均来得到误差函数，可以基于实际需求和精度要求设置第一误差和第二误差的权重，本公开不受对第一误差和第二误差所设置的权重值的限制。

例如，在一些实施例中，可以通过将当前帧所对应的第一误差和第二误差直接加和求取误差函数，此时所述误差函数可以通过如下公式进行表示：

S_f＝E_2d(f)+E_3d(f) (1)

其中，所述S_f表征对应于视频图像第f帧的误差函数，其中E_2d(f)表征对应于视频图像第f帧的第一误差，E_3d(f)表征对应于视频图像第f帧的第二误差，其中f为大于等于1且小于等于视频图像所具有的总帧数的正整数。

在一些实施例中，例如可以通过将视频图像的视频帧组中每一个视频帧所对应的第一误差进行加权平均以得到视频帧组的第一误差，将视频图像的视频帧组中每一个视频帧所对应的第二误差进行加权平均以得到视频帧组的第二误差，将该视频帧组的第一误差和第二误差相加和以得到对应于该视频帧组的误差函数。

例如，将视频图像的视频帧组中每一个视频帧所对应的第一误差进行加权平均以求取视频帧组的第一误差时，可以基于精度要求对于视频帧组中的不同视频帧赋予不同的权重值，例如可以对视频帧组中当前帧所对应的第一误差赋予较高的权重值，对于视频帧组中除当前帧外的其他视频帧所对应的第一误差赋予较低的权重值，如对当前帧的第一误差赋予权重值1，对视频帧组的其他视频帧的第一误差赋予权重值0.4；也可以对于视频帧组中的每一个视频帧所对应的第一误差赋予相同的权重值。本公开的实施例不受计算视频帧组的第一误差时为视频帧组中每一个视频帧所对应的第一误差分配的权重值的限制。

例如，将视频图像的视频帧组中每一个视频帧所对应的第二误差进行加权平均以求取视频帧组的第二误差时，可以基于精度要求对于视频帧组中的不同视频帧赋予不同的权重值，例如可以对视频帧组中当前帧所对应的第二误差赋予较高的权重值，对于视频帧组中除当前帧外的其他视频帧所对应的第二误差赋予较低的权重值，如对当前帧的第二误差赋予权重值1，对视频帧组的其他视频帧的第二误差赋予权重值0.4；也可以对于视频帧组中的每一个视频帧所对应的第二误差赋予相同的权重值。本公开的实施例不受计算视频帧组的第二误差时对视频帧组中每一个视频帧所对应的第二误差分配的权重值的限制。

例如，当对于视频帧组中的所有视频帧赋予相同的权重值时，基于视频帧组的第一误差和视频帧组的第二误差计算得到该视频帧组的误差函数的过程可以通过如下公式进行表示：

其中，所述S_G表征对应于视频图像第G组视频帧组的误差函数，所述第G组视频帧组具有m个视频帧，m为大于等于1的正整数；该视频帧组的初始帧为f₀，结束帧为f_m，该初始帧f₀及结束帧为f_m均为大于等于1且小于等于视频图像总帧数的正整数，且该初始帧f₀小于结束帧f_m。其中E_2d(f)表征对应于视频图像第f帧的第一误差，E_3d(f)表征对应于视频图像第f帧的第二误差，其中f为大于等于该初始帧f₀且小于等于该结束帧为f_m的正整数。

其后，在步骤S304中，基于所述人体三维骨架的预设骨架值和所述误差函数，得到目标三维骨架。

所述基于人体三维骨架的预设骨架值和误差函数得到目标三维骨架的过程，例如可以通过调整人体三维骨架的预设骨架值，使得所述误差函数取得最小值，在其取得最小值时，将此时的人体三维骨架作为目标三维骨架；或者其也可以通过其他方式得到目标三维骨架。本公开的实施例不受基于人体三维骨架的预设骨架值和误差函数得到目标三维骨架的具体方式的限制。

基于上述，通过计算人体三维骨架与骨架二维估计存在的第一误差，计算人体三维骨架与骨架三维估计存在的第二误差，基于第一、第二误差综合构建误差函数，并进一步地基于误差函数得到当前帧中的目标三维骨架，使得所得到的目标三维骨架具有更高的精确度和鲁棒性，有利于提高后续图像分割的精确度。

图4示出了根据本公开实施例计算人体三维骨架的预设骨架值与骨架二维估计的误差以得到第一误差的示例性流程图。

参照图4，在一些实施例中，计算人体三维骨架的预设骨架值与骨架三维估计的误差以得到第二误差的过程可更具体地描述。首先，在步骤S401中，对人体三维骨架中每一个节点，从该节点的预设三维位置信息中提取其二维位置信息。

所述基于节点的预设三维位置信息提取其二维位置信息的过程，例如可以通过将该节点向二维图像平面进行重投影操作以将该关节的三维位置信息转换为二维位置信息，基于重投影后其在二维平面的位置得到其二维位置信息；或者也可以直接将其三维位置信息中横轴及纵轴坐标作为其二维位置信息。本公开的实施例不受得到该节点的二维位置信息的具体方法的限制。

得到该节点的二维位置信息后，在步骤S402中，计算该二维位置信息与骨架二维位置估计中相应节点的二维估计信息的误差，得到每一个节点的二维误差值。

在一些实施例中，求取所述每个节点的二维误差值时，例如可以求取该节点的二维坐标信息与其二维估计位置信息在二维平面内的平面距离，并将该平面距离数值的平方作为该节点的二维误差值，或者也可以直接将该平面距离作为误差值，本公开的实施例不受二维误差值的具体类型的限制。

得到每一个节点的二维误差值后，在步骤S403中，对各节点的二维误差值进行加权平均，得到第一误差。

例如，在对各节点的二维误差值进行加权平均的过程中，对各节点所赋予的权重例如可以为相同的，如当前人体三维骨架具有10个节点，对于每一个节点赋予其权重值为0.1，或者也可以对不同节点赋予不同的权重值，例如对于根节点赋予较高的权重值，对于子节点赋予较低的权重值，本公开的实施例不受所设置的权重值的具体数值的限制。

上述得到第一误差的过程可更具体地描述。例如当对于每一个节点赋予相同的权重值时，可以通过如下公式，对于视频图像当前帧，基于人体三维骨架与骨架二维估计得到第一误差：

其中，E_2d表征当前视频图像当前帧中人体三维骨架与骨架二维估计的误差，即第一误差；J表征当前帧中的人体三维骨架，该骨架具有N个节点，其中N为大于等于1的正整数；D^2d表征当前帧中的骨架二维估计，其相应地包括N个节点的二维估计信息；且其中J_i表征该人体三维骨架中的第i个节点的预设位置信息，D_i ^2d表征该人体二维估计中对第i个节点的二维估计信息，i为大于等于1且小于等于N的正整数。其中，proj表征重投影过程，且“|……|”表征计算平面距离的过程。

基于上述，通过对于人体三维骨架中的每一个节点求取其相对于该节点的骨架二维估计的节点二维误差，并将所有节点二维误差加权平均以得到第一误差，使得所述第一误差能够综合反映人体三维骨架中各节点的预设位置信息与其对应的骨架二维估计信息的差异，有利于后续进行误差函数的构建。

图5示出了根据本公开实施例计算人体三维骨架的预设骨架值与骨架三维估计的误差以得到第二误差的示例性流程图。

参照图5，在一些实施例中，计算人体三维骨架的预设骨架值与骨架三维估计的误差以得到第二误差的过程可更具体地描述。首先，在步骤S501中，计算该人体三维骨架中每一个节点的预设三维位置信息与骨架三维位置估计中相应节点的三维估计信息的误差，得到每一个节点的三维误差值。

例如，求取每一个节点的三维误差值时，当人体三维骨架中各节点的位置信息均为其在基准坐标系(例如以摄像机镜头为原点所构建的坐标系)下的位置坐标，而所述骨架三维估计中各根节点的位置信息为其在基准坐标系下的坐标，各子节点的位置信息为其在相对坐标系(例如以根节点为原点所构建的相对坐标系)中的相对坐标位置，则可以首先对于骨架三维估计中的各子节点进行坐标系转换，使其从相对坐标系下的相对坐标位置转换为基准坐标系下的坐标位置，从而使得人体三维骨架与骨架三维估计中的位置信息均为相对于同一坐标系的位置信息，其后再将其二者进行比较。本公开的实施例不受求取节点的三维误差值的具体方法的限制。

例如，求取每个节点的三维误差值时，可以求取该节点的二维坐标信息与其三维估计位置信息的空间距离，并将该空间距离数值的平方作为该节点的三维误差值，或者也可以直接将其空间距离作为误差值，本公开的实施例不受三维误差值的具体类型的限制。

得到每一个节点的三维误差值后，在步骤S502中，将各节点的三维误差值进行加权平均，得到第二误差。

例如，在对各节点的三维误差值进行加权平均的过程中，对各节点的三维误差值所赋予的权重例如可以为相同的，如当前人体三维骨架具有10个节点，对于每一个节点的三维误差值赋予其权重值为0.1，或者也可以对不同节点的三维误差值赋予不同的权重值，例如对于根节点的三维误差值赋予较高的权重值，对于子节点的三维误差值赋予较低的权重值，本公开的实施例不受所设置的权重值的具体数值的限制。

上述得到第二误差的过程可更具体地描述。在一些实施例中，例如可以通过如下公式，对于视频图像当前帧，基于人体三维骨架与骨架三维估计得到第二误差：

其中，E_3d表征当前视频图像当前帧中人体三维骨架与骨架三维估计的误差，即第二误差；J表征当前帧中的人体三维骨架，该骨架具有N个节点，其中N为大于等于1的正整数；D^3d表征当前帧中的骨架三维估计，其相应地包括N个节点的三维估计信息；且其中J_i表征该人体三维骨架中的第i个节点的预设位置信息，D_i ^3d表征该人体二维估计中对第i个节点的三维估计信息，i为大于等于1且小于等于N的正整数。F(D_i ^3d)表征对于骨架三维估计中的每一个点进行坐标轴变换的过程，使其与所述人体三维骨架处于同一坐标系，其中“||……||”表征计算空间距离的过程，w_f表征权重值。

在一些实施例中，所述权重值w_f例如可基于计算得到的人体三维骨架中每一个节点的预设骨架信息与骨架三维估计中该节点的三维估计信息的空间距离来设置。例如，当该空间距离小于等于预设阈值时，设置其为第一参数；当该空间距离大于预设阈值时，设置其为第二参数。所述第一参数和第二参数旨在表征对该误差所分配的权重值，其例如可以基于实际的精度要求选取，例如第一参数为1，第二参数为0.5。且其中，该预设阈值例如可以基于所需的分割精度确定，例如可以将其设置为0.4，或者也可以将其设置为1及其他数值。本公开的实施例不受所述第一参数、所述第二参数和所述预设阈值的具体数值的限制。

例如，当采用当前帧的前一帧的目标三维骨架作为当前帧的人体三维骨架时，可以设置：若当前帧中某一子节点的三维位置信息与该节点的三维估计位置信息的空间距离小于等于预设阈值时，则令该误差权重值w_f为1；若当前帧中某一子节点的三维位置信息与该节点的三维估计位置信息的空间距离大于预设阈值时，则令该误差权重值w_f为0。据此，当对于某一个节点，其三维估计出现重大误差，即其三维估计信息显著偏离人体三维骨架的当前值时，可以通过调整其对应的误差权重值w_f直接将其舍弃，避免其影响后续所生成的目标三维骨架的精度。

基于上述，通过对于人体三维骨架中的每一个节点求取其相对于该节点的骨架三维估计的节点三维误差，并将所有节点三维误差加权平均以得到第二误差，使得所述第二误差能够综合反映人体三维骨架中各节点的预设位置信息与其对应的骨架三维估计信息的差异，有利于后续进行误差函数的构建。

图6示出了根据本公开实施例基于所述人体三维骨架的预设骨架值和所述误差函数得到目标三维骨架的示例性流程图。

参照图6，上述得到目标三维骨架的过程可以更具体地描述。首先，在步骤S601中，通过调整人体三维骨架中各节点的位置信息，使得所得到的误差函数具有最小值。

当使得误差函数取得最小值时，在步骤S602中，在该误差函数取得最小值时，将此时的人体三维骨架作为目标三维骨架。

基于上述，通过调整人体三维骨架的预设骨架值，即调整人体三维骨架中各节点的位置信息，来求取误差函数的最小值，且在误差函数取得最小值时相应得到当前帧中的目标三维骨架，使得在综合考虑骨架二维估计与骨架三维估计的基础上，得到目标三维骨架，使得该目标三维骨架具有较高的精确度。

在一些实施例中，基于目标三维骨架实现图像分割的过程可更具体地描述。例如在得到目标三维骨架后，可将该目标三维骨架输入至GrabCut算法，基于所得到的目标人体骨架进行处理，获得其骨架掩膜U和模型掩膜V。进一步地，对所得到的骨架掩膜和模型掩膜进行形态学处理，得到GrabCut算法的初始输入参数L，所述初始参数L＝{L_b,L_ub,L_uf,L_f}，其可以采用如下所示出的公式进行描述：

其中，L_b为背景像素的集合，L_ub为可能的背景像素的集合，L_uf为可能的前景像素的集合，L_f为前景像素的集合。且其中V为基于目标人体骨架得到的模型掩膜，U为基于目标人体骨架得到的骨架掩膜，“dilate·”表示形态学上的膨胀操作；“erode·”表示形态学上的腐蚀操作。

对上述公式可更具体地描述。例如可以对模型掩膜V进行膨胀处理，将其膨胀处理后的区域的补集作为背景像素L_b；将模型掩膜V膨胀后的区域与膨胀前的区域作差作为可能的背景像素L_ub；对模型掩膜进行腐蚀处理，并将骨架掩膜U所包含的区域与模型掩膜V腐蚀后的区域取并集作为前景像素L_f；将模型掩膜V所包含的区域与前景像素L_f作差作为可能的前景像素L_uf。基于上述处理过程，得到GrabCut算法的初始参数L，其后，基于该初始参数L，GrabCut算法能够对于视频图像的当前帧进行图像分割，最终得到目标人像。

基于上述，通过对所得到的目标三维骨架进行处理，并基于处理结果生成供图像分割算法使用的初始参数，使得能够基于所得到的目标三维骨架，精确且高效地实现图像分割。且进一步地，对于GrabCut算法等传统图像分割算法，通过采用目标三维骨架处理后得到的参数作为其初始输入，使得其不再需要人工标识目标区域框，能够基于该参数自动分割图像，有效地提高了图像分割的效率，且降低了所需的人工成本和时间。

根据本公开的另一方面，还提出了一种图像分割装置。

图7示出了根据本公开实施例的图像分割装置的示例性框图。

如图7所示的图像分割装置800包括骨架估计提取模块810、目标三维骨架生成模块820、图像分割模块830。

其中，所述骨架估计提取模块810被配置对于视频图像当前帧，提取人体三维骨架的骨架二维估计和骨架三维估计。所述目标三维骨架生成模块820被配置为基于所述骨架二维估计和所述骨架三维估计，得到目标三维骨架。所述图像分割模块830被配置为基于所述目标三维骨架，实现图像分割。

其中，所述人体三维骨架，是指基于人体三维结构特征所构建的人体骨架模型。所述人体三维骨架具有多个节点，本公开的实施例不受所构建的人体三维骨架的节点个数及各节点之间连接关系的限制。

基于每一帧中人像的人像特征，该人体三维骨架相应地可具有不同的空间位置构型。对于视频图像的不同帧，人体三维骨架可以具有不同的位置值，即人体三维骨架中各节点可以具有不同的三维位置信息。本公开不受所述人体三维骨架在不同视频图像帧中所具有的具体空间位置构型的限制。

在一些实施例中，可以预先设置该人体三维骨架的预设骨架值。所述人体三维骨架例如可以在视频图像的所有帧中具有相同的预设骨架值，或者其预设骨架值可以基于视频帧而变化，本公开的实施例不受人体三维骨架的预设骨架值的具体数值的限制。

所述目标三维骨架，表征与视频图像每一帧中人像的特征相对应的，具有特定空间位置构型的人体三维骨架。本公开的实施例不受基于骨架二维估计和骨架三维估计获取目标三维骨架的具体方法的限制。

基于目标三维骨架实现图像分割的过程例如可以将该目标三维骨架输入至图像分割算法的输入端，使用该目标三维骨架对于图像分割算法进行初始化，并通过初始化后的图像分割算法进行图像分割处理。本公开不受基于目标三维骨架实现图像分割的具体过程及其所选取的具体分割算法的限制。

基于上述，本公开所述的图像分割装置，通过综合考虑人体三维骨架在当前帧中的骨架二维估计和骨架三维估计来计算当前帧中的目标三维骨架，并基于该目标三维骨架实现图像分割，使得能够提高所得到的目标三维骨架的精确度及其鲁棒性，从而提高图像分割的精度；此外，本公开基于单目相机所采集到的二维视频图像实现了三维骨架构建，相较于基于深度相机所获取的三维图像构建三维骨架而言，具有更低的使用成本。

在一些实施例中，在骨架估计提取模块810中进一步可包括：骨架二维估计获取模块811和骨架三维估计获取模块812。该骨架估计提取模块810可以执行如图2A所示的流程，通过第一神经网络、第二神经网络对视频图像进行处理，得到视频图像当前帧的骨架二维估计和骨架三维估计。

其中，所述骨架二维估计中包括人体三维骨架中每一个节点的二维估计信息，所述骨架三维估计中包括人体三维骨架中每一个节点的三维估计信息。

骨架二维估计获取模块811被配置为执行如图2A中步骤S201的操作，通过第一神经网络对视频图像当前帧进行处理，对应于该当前帧中的人像，得到人体三维骨架的骨架二维估计。

所述第一神经网络可以基于实际需要进行选取，并基于预设的样本集对其进行训练。本公开实施例不受所选择的第一神经网络的类型及其训练方式的限制。

骨架三维估计获取模块812被配置为执行如图2A中步骤S202的操作，通过第二神经网络对视频图像该当前帧所在的视频帧组进行处理，对应于该当前帧中的人像，得到人体三维骨架的骨架三维估计，其中所述视频帧组包括预设数量的连续的视频帧。

所述视频帧组包括预设数量的连续的视频帧。其旨在提供视频图像中的人体运动信息，本公开的实施例不受所述视频帧组中所包括的视频帧的具体个数的限制。

所述第二神经网络可以基于实际需要进行选取，并基于预设的样本集对其进行训练。本公开实施例不受所选择的第二神经网络的类型及其训练方式的限制。

基于上述，所述第二神经网络例如可以与所述第一神经网络为相同类型或不同类型的神经网络，本公开的实施例不受所述第一神经网络与所述第二神经网络的类型的限制。

基于上述，通过第一神经网络对视频图像的当前帧进行处理，得到该当前帧中人体三维骨架的骨架二维估计；并通过第二神经网络对视频帧组进行处理，以基于该二维视频图像，得到其人体三维骨架的骨架三维估计，从而有利于后续基于该骨架二维估计和骨架三维估计实现目标骨架的计算。同时，通过对连续视频帧处理得到视频图像中人像的运动信息，从而基于二维图像得到骨架三维估计，使得该图像分割装置仅需使用单目相机即可实现，使其具有较低的应用成本。

在一些实施例中，所述目标三维骨架生成模块820中还包括第一误差计算模块821、第二误差计算模块822、误差函数确定模块823和目标三维骨架计算模块824。其可以执行如图3所示的流程。

所述第一误差计算模块821被配置为执行图3中步骤S301的操作，计算人体三维骨架的预设骨架值与骨架二维估计的误差以得到第一误差。

所述第二误差计算模块822被配置为执行图3中步骤S302的操作，计算人体三维骨架的预设骨架值与骨架三维估计的误差以得到第二误差。

例如，可以基于实际需求选取相应的算法，计算所述第一误差和第二误差，本公开的实施例不受计算所述第一误差和所述第二误差的方法的限制。

例如，上述误差计算过程可以对人体三维骨架中的每一个关节均执行；其也可以仅对预先选取的预设节点或预设节点组执行。本公开不受用于比较的节点个数的限制。

所述误差函数确定模块823被配置为执行图3中步骤S303的操作，基于所述第一误差与所述第二误差得到误差函数。

基于所述第一误差和第二误差得到误差函数的过程，例如可以得到对应于该视频图像每一帧的误差函数；或者其也可以得到对应于视频帧组的误差函数。本公开实施例不受所得到的误差函数的具体组成的限制。

所述误差函数例如可以是将人体三维骨架与骨架二维估计和骨架三维估计相比较所得到的比较结果进行直接加和，或者也可以通过其他方式得到该误差函数。本公开的实施例不受所述误差函数的具体组成方式的限制。

所述目标三维骨架计算模块824被配置为执行图4中步骤S304的操作，基于所述人体三维骨架的预设骨架值和所述误差函数，得到目标三维骨架。

所述得到目标三维骨架的过程，例如可以通过调整人体三维骨架参数使得所述误差函数取得最小值，在其取得最小值时将该人体三维骨架作为目标三维骨架；或者其也可以通过其他方式得到目标三维骨架。本公开的实施例不受基于所述人体三维骨架的预设骨架值和误差函数得到目标三维骨架的具体方式的限制。

基于上述，通过计算人体三维骨架的预设骨架值与骨架二维估计存在的第一误差，计算人体三维骨架的预设骨架值与骨架三维估计存在的第二误差，基于第一、第二误差实现误差函数构建，并进一步地基于人体三维骨架和误差函数得到当前帧中的目标三维骨架，使得所得到的目标三维骨架具有更高的精确度和鲁棒性，有利于提高后续图像分割的精确度。

在一些实施例中，所述第一误差计算模块821包括节点二维位置信息提取模块8211，节点二维误差计算模块8212和第一误差确定模块8213。其可以执行图4所示出的方法。

其中，所述节点二维位置信息提取模块8211，被配置为执行图4中步骤S401的操作，对人体三维骨架中每一个节点，从该节点的预设三维位置信息中提取其二维位置信息。

所述节点二维误差计算模块8212被配置为执行图4中步骤S402的操作，计算该二维位置信息与骨架二维位置估计中相应节点的二维估计信息的误差，得到每一个节点的二维误差值。

所述第一误差确定模块8213被配置为执行图4中步骤S403的操作，对各节点的二维误差值进行加权平均，得到第一误差。

基于上述，通过对于人体三维骨架中的每一个节点提取其二维位置信息，并求取该二维位置信息相对于该节点的骨架二维估计的节点二维误差，并将所有节点二维误差加权平均以得到第一误差，使得所述第一误差能够综合反映人体三维骨架中各节点的预设位置信息与其对应的骨架二维估计信息的差异，有利于后续进行误差函数的构建。

在一些实施例中，所述第二误差计算模块822包括节点三维误差计算模块8221和第二误差确定模块8222。其可以执行图5所示出的方法。

其中，所述节点三维误差计算模块8221被配置为执行图5中步骤S501的操作，计算人体三维骨架中每一个节点的预设三维位置信息与骨架三维位置估计中相应节点的三维估计信息的误差，得到每一个节点的三维误差值。

所述第二误差确定模块8222被配置为执行图5中步骤S502的操作，将各节点的三维误差值进行加权平均，得到第二误差。

在一些实施例中，所述目标三维骨架计算模块824包括误差函数最小值计算模块8241和目标三维骨架获取模块8242。其可以执行图6中所示出的方法。

其中，所述误差函数最小值计算模块8241被配置为执行图6中步骤S601的操作，通过调整人体三维骨架中各节点的位置信息，使得所得到的误差函数具有最小值。

所述目标三维骨架获取模块8242被配置为被配置为执行图6中步骤S602的操作，在该误差函数取得最小值时，将此时的人体三维骨架作为目标三维骨架。

基于上述，通过求取误差函数的最小值，且在误差函数取得最小值时相应得到当前帧中的目标三维骨架，使得在综合考虑骨架二维估计与骨架三维估计的基础上，得到目标三维骨架，使得该目标三维骨架具有较高的精确度。

根据本公开的另一方面，提出了一种图像分割设备。

如图8所示的图像分割设备950可以实现为一个或多个专用或通用的计算机***模块或部件，例如个人电脑、笔记本电脑、平板电脑、手机、个人数码助理(personaldigital assistance，PDA)及任何智能便携设备。其中，图像分割设备950可以包括至少一个处理器960及存储器970。

其中，所述至少一个处理器用于执行程序指令。所述存储器970在图像分割设备950中可以以不同形式的程序储存单元以及数据储存单元存在，例如硬盘、只读存储器(ROM)、随机存取存储器(RAM)，其能够用于存储处理器处理和/或执行图像分割过程中使用的各种数据文件，以及处理器所执行的可能的程序指令。虽然未在图中示出，但图像分割设备950还可以包括一个输入/输出组件，支持图像分割设备950与其他组件(如图像采集设备980)之间的输入/输出数据流。图像分割设备950也可以通过通信端口从网络发送和接收信息及数据。

在一些实施例中，所述存储器970所存储的一组指令在由所述处理器960执行时，使所述图像分割设备950执行操作，所述操作包括：对于视频图像当前帧，提取人体三维骨架的骨架二维估计和骨架三维估计；基于所述骨架二维估计和所述骨架三维估计，得到目标三维骨架；基于所述目标三维骨架，实现图像分割；其中，所述人体三维骨架具有多个节点，所述视频图像为二维图像。

在一些实施例中，为对于视频图像当前帧提取人体三维骨架的骨架二维估计和骨架三维估计，所述图像分割设备950执行的操作包括：通过第一神经网络对视频图像当前帧进行处理，基于该当前帧中的人像，得到人体三维骨架的骨架二维估计；通过第二神经网络对视频图像当前帧所在的视频帧组进行处理，基于该当前帧中的人像，得到人体三维骨架的骨架三维估计，其中所述视频帧组包括预设数量的连续的视频帧；其中，所述骨架二维估计包括该人体三维骨架中每一个节点的二维估计信息，所述骨架三维估计包括该人体三维骨架中每一个节点的三维估计信息。

在一些实施例中，基于所述骨架二维估计和所述骨架三维估计得到目标三维骨架时，所述图像分割设备950执行的操作包括：计算人体三维骨架的预设骨架值与骨架二维估计的误差以得到第一误差；计算人体三维骨架的预设骨架值与骨架三维估计的误差以得到第二误差；基于所述第一误差与所述第二误差，得到误差函数；基于所述人体三维骨架的预设骨架值和所述误差函数，得到目标三维骨架。

在一些实施例中，图像分割设备950可以接收来自该图像分割设备950外部的图像采集设备所采集的视频图像，并对接收的图像数据执行上文描述的图像分割方法、实现上文描述的图像分割装置的功能。

所述视频采集设备可以例如为道路摄像头或无人超市的自动监控设备。

尽管在图8中，处理器960、存储器970呈现为单独的模块，本领域技术人员可以理解，上述设备模块可以被实现为单独的硬件设备，也可以被集成为一个或多个硬件设备。只要能够实现本公开描述的原理，不同的硬件设备的具体实现方式不应作为限制本公开保护范围的因素。

根据本公开的另一方面，还提供了一种非易失性的计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时可以执行如前所述的方法。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从图像分割设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现***的计算机环境，或与提供图像分割所需要的信息相关的类似功能的***。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“***”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种图像分割方法，包括：

对于视频图像当前帧，提取人体三维骨架的骨架二维估计和骨架三维估计：

基于所述骨架二维估计和所述骨架三维估计分别与人体三维骨架的预设骨架值的误差，得到目标三维骨架；

基于所述目标三维骨架，实现图像分割；

其中，所述人体三维骨架具有多个节点，所述视频图像为不包含深度信息的二维图像。

2.如权利要求1所述的图像分割方法，其中，对于视频图像当前帧提取人体三维骨架的骨架二维估计和骨架三维估计包括：

通过第一神经网络对视频图像当前帧进行处理，基于该当前帧中的人像，得到人体三维骨架的骨架二维估计；

通过第二神经网络对视频图像当前帧所在的视频帧组进行处理，基于该当前帧中的人像，得到人体三维骨架的骨架三维估计，其中所述视频帧组包括预设数量的连续的视频帧；

其中，所述骨架二维估计包括该人体三维骨架中每一个节点的二维估计信息，所述骨架三维估计包括该人体三维骨架中每一个节点的三维估计信息。

3.如权利要求1所述的图像分割方法，其中，基于所述骨架二维估计和所述骨架三维估计分别与人体三维骨架的预设骨架值的误差得到目标三维骨架包括：

计算人体三维骨架的预设骨架值与骨架二维估计的误差以得到第一误差；

计算人体三维骨架的预设骨架值与骨架三维估计的误差以得到第二误差；

基于所述第一误差与所述第二误差，得到误差函数；

基于所述人体三维骨架的预设骨架值和所述误差函数，得到目标三维骨架。

4.如权利要求3所述的图像分割方法，其中，基于所述人体三维骨架的预设骨架值和所述误差函数得到目标三维骨架包括：

通过调整人体三维骨架中各节点的三维位置信息，使得所得到的误差函数具有最小值；

在该误差函数取得最小值时，将此时的人体三维骨架作为目标三维骨架。

5.如权利要求3所述的图像分割方法，其中，计算人体三维骨架的预设骨架值与骨架二维估计的误差以得到第一误差包括：

对人体三维骨架中每一个节点，从该节点的预设三维位置信息中提取其二维位置信息；

计算该二维位置信息与骨架二维位置估计中相应节点的二维估计信息的误差，得到每一个节点的二维误差值；

对各节点的二维误差值进行加权平均，得到第一误差。

6.如权利要求3所述的图像分割方法，其中，计算人体三维骨架的预设骨架值与骨架三维估计的误差以得到第二误差包括：

计算该人体三维骨架中每一个节点的预设三维位置信息与骨架三维位置估计中相应节点的三维估计信息的误差，得到每一个节点的三维误差值；

将各节点的三维误差值进行加权平均，得到第二误差。

7.一种图像分割装置，包括：

骨架估计提取模块，被配置为对于视频图像当前帧，提取人体三维骨架的骨架二维估计和骨架三维估计；

目标三维骨架生成模块，被配置为基于所述骨架二维估计和所述骨架三维估计分别与人体三维骨架的预设骨架值的误差，得到目标三维骨架；

图像分割模块，被配置为基于所述目标三维骨架，实现图像分割；

8.如权利要求7所述的图像分割装置，其中，骨架估计提取模块包括：

骨架二维估计获取模块，被配置为通过第一神经网络对视频图像当前帧进行处理，对应于该当前帧中的人像，得到人体三维骨架的骨架二维估计；

骨架三维估计获取模块，被配置为通过第二神经网络对视频图像该当前帧所在的视频帧组进行处理，对应于该当前帧中的人像，得到人体三维骨架的骨架三维估计，其中所述视频帧组包括预设数量的连续的视频帧；

9.如权利要求7所述的图像分割装置，其中，所述目标三维骨架生成模块包括：

第一误差计算模块，被配置为计算人体三维骨架的预设骨架值与骨架二维估计的误差以得到第一误差；

第二误差计算模块，被配置为计算人体三维骨架的预设骨架值与骨架三维估计的误差以得到第二误差；

误差函数确定模块，被配置为基于所述第一误差与所述第二误差得到误差函数；

目标三维骨架计算模块，被配置为基于所述人体三维骨架的预设骨架值和所述误差函数，得到目标三维骨架。

10.如权利要求9所述的图像分割装置，其中，所述目标三维骨架计算模块包括：

误差函数最小值计算模块，被配置为通过调整人体三维骨架中各节点的位置信息，使得所得到的误差函数具有最小值；

目标三维骨架获取模块，被配置为在该误差函数取得最小值时，将此时的人体三维骨架作为目标三维骨架。

11.如权利要求9所述的图像分割装置，其中，所述第一误差计算模块包括：

节点二维位置信息提取模块，被配置为对人体三维骨架中每一个节点，从该节点的预设三维位置信息中提取其二维位置信息；

节点二维误差计算模块，被配置为计算该二维位置信息与骨架二维位置估计中相应节点的二维估计信息的误差，得到每一个节点的二维误差值；

第一误差确定模块，被配置为对各节点的二维误差值进行加权平均，得到第一误差。

12.如权利要求9所述的图像分割装置，其中，所述第二误差计算模块包括：

节点三维误差计算模块，被配置为计算人体三维骨架中每一个节点的预设三维位置信息与骨架三维位置估计中相应节点的三维估计信息的误差，得到每一个节点的三维误差值；

第二误差确定模块，被配置为将各节点的三维误差值进行加权平均，得到第二误差。

13.一种图像分割设备，其中所述设备包括处理器和存储器，所述存储器包含一组指令，所述一组指令在由所述处理器执行时使所述图像分割设备执行操作，所述操作包括：

对于视频图像当前帧，提取人体三维骨架的骨架二维估计和骨架三维估计；

基于所述目标三维骨架，实现图像分割；

14.如权利要求13所述的图像分割设备，其中，基于所述骨架二维估计和所述骨架三维估计分别与人体三维骨架的预设骨架值的误差得到目标三维骨架包括：

基于所述第一误差与所述第二误差，得到误差函数；

15.一种计算机可读存储介质，其特征在于，其上存储有计算机可读的指令，当利用计算机执行所述指令时执行上述权利要求1-6中任意一项所述的方法。