CN114202606A

CN114202606A - 图像处理方法、电子设置、存储介质及计算机程序产品

Info

Publication number: CN114202606A
Application number: CN202111223313.XA
Authority: CN
Inventors: 林祖增; 黄哲威; 续明凯; 胡晨; 周舒畅
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-03-18

Abstract

本公开是关于一种图像处理方法、电子设备、存储介质及计算机程序产品。本公开提供的图像处理方法，获取目标对象的多张不同已知姿态图像，以及包括目标姿态的图像，分别提取多张不同已知姿态图像中已知姿态的已知3D姿态特征，以及目标姿态的目标3D姿态特征；将多张不同已知姿态图像对应的已知3D姿态特征，与目标3D姿态特征进行融合，得到目标对象的目标姿态图像。本公开通过已知姿态图像对应的已知3D姿态特征，以及目标姿态对应的目标3D姿态特征得到目标姿态图像，减少了目标姿态图像生成过程中的计算量，以便适用于移动设备，提高了计算效率。

Description

图像处理方法、电子设置、存储介质及计算机程序产品

技术领域

本公开涉及图像处理领域，具体涉及一种图像处理方法、电子设备、存储介质及计算机程序产品。

背景技术

在影视制作、动漫游戏制作、虚拟现实和交互式数字展板等领域，为了营造人物特效、增强带入感，人物需要跟随场景变换不同的姿态。例如，动漫游戏中的双方对抗场景，任意一方都需变换姿态。生成姿态的传统方式是通过创作者手绘动漫人物的姿态图像，再按顺序逐帧播放手绘图像，该过程需要耗费创作者大量的精力，且对创作者有较高的绘画要求。

随着人工智能的发展，可以实现根据目标对象的已知姿态图像和目标姿态，将目标对象迁移到目标姿态得到目标对象的目标姿态图像。人工智能中的图像处理、机器学习等技术让生成目标姿态图像变得更容易操作，引起了业余用户的兴趣，使得业余用户通过移动设备对生成目标姿态图像的需求快速增加。相关技术中，生成目标姿态图像的方法计算量大，需要占用大量计算资源以及存储空间。然而，移动设备一般只配备计算能力较低的图像处理器和有限的存储，因此，难以在这些低资源移动设备上直接部署和运行相关技术中得到目标姿态图像的方法。故，相关技术得到目标姿态图像的方法并不适用于移动设备。

发明内容

为克服相关技术中存在的问题，本公开提供一种图像处理方法、电子设备、存储介质及计算机程序产品。

根据本公开实施例的第一方面，提供一种图像处理方法，包括：

获取目标对象的多张不同已知姿态图像，以及包括目标姿态的图像，所述目标姿态为待迁移至所述目标对象的姿态；分别提取所述多张不同已知姿态图像中已知姿态的已知3D姿态特征，以及所述目标姿态的目标3D姿态特征；将所述多张不同已知姿态图像对应的已知3D姿态特征，与所述目标3D姿态特征进行融合，得到所述目标对象的目标姿态图像。

一种实施方式中，分别提取所述多张不同已知姿态图像中已知姿态的已知3D姿态特征，以及所述目标姿态的目标3D姿态特征，包括：

将所述多张不同已知姿态图像，以及包括所述目标姿态的图像，分别输入至3D姿态特征提取网络，得到各已知姿态对应的已知3D姿态特征，以及所述目标姿态的目标3D姿态特征；所述3D姿态特征提取网络基于具有标准姿态的人体3D模型训练得到。

一种实施方式中，所述3D姿态特征提取网络采用如下方式训练得到：

获取具有标准姿态的人体3D模型，并确定所述人体3D模型全身各表面面元在世界坐标系中的3D坐标；调整所述人体3D模型的姿态，得到具有不同姿态的多张样本图像；针对所述多张样本图像中的每一样本图像，分别将该样本图像中各表面面元的所述3D坐标投影到像素坐标系中，得到该样本图像的所述3D坐标对应的像素坐标，并创建该样本图像与该样本图像的3D姿态特征间的对应关系，所述样本图像的3D姿态特征为与该样本图像具有对应关系的3D坐标和像素坐标；基于具有对应关系的样本图像与3D姿态特征，训练得到3D姿态特征提取网络，所述3D姿态特征提取网络的输入为所述样本图像，输出为具有对应关系的3D姿态特征。

一种实施方式中，基于具有对应关系的样本图像与3D姿态特征，训练得到3D姿态特征提取网络，包括：

初始化图像分割网络；将所述样本图像作为所述图像分割网络的输入，所述3D姿态特征作为所述图像分割网络的输出，训练所述图像分割网络，得到基于所述样本图像提取所述3D姿态特征的图像分割网络；将训练后的图像分割网络，作为3D姿态特征提取网络。

训练用于识别人体特征的人体特征提取网络；将所述人体特征提取网络作为图像分割网络的编码器，得到待训练网络模型；将所述样本图像作为所述待训练网络模型的输入，并将所述3D姿态特征作为所述待训练网络模型的输出，训练所述待训练网络模型，得到基于所述样本图像提取所述3D姿态特征的3D姿态特征提取网络。

一种实施方式中，将所述多张不同已知姿态图像对应的已知3D姿态特征，与所述目标3D姿态特征进行融合，得到所述目标对象的目标姿态图像，包括：

估计所述目标3D姿态特征分别与各所述已知3D姿态特征间的反向光流场；针对所述目标对象的每一已知姿态图像，分别基于与该已知姿态图像对应的所述反向光流场进行变换，得到多张初始目标姿态图像；将所述多张初始目标姿态图像进行融合，得到所述目标对象的目标姿态图像。

一种实施方式中，将所述多张初始目标姿态图像进行融合，得到所述目标对象的目标姿态图像，包括：

估计所述目标3D姿态特征分别与各所述已知3D姿态特征间的可信度，并将各所述已知3D姿态特征的可信度，确定为多张所述初始目标姿态图像的可信度；基于多张所述初始目标姿态图像的可信度，融合所述多张初始目标姿态图像，得到所述目标对象的目标姿态图像。

一种实施方式中，所述基于多张所述初始目标姿态图像的可信度，融合所述多张初始目标姿态图像，得到所述目标对象的目标姿态图像，包括：

分别对多张所述初始目标姿态图像的可信度进行软性最大值处理，并基于软性最大值处理后的可信度融合所述多张初始目标姿态图像，得到所述目标对象的目标姿态图像。

根据本公开实施例的第二方面，提供一种电子设备，包括：

处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行第一方面中任意一种实施方式中所述的图像处理方法。

根据本公开实施例的第三方面，提供一种存储介质，所述存储介质中存储有指令，当所述存储介质中的指令由移动设备的处理器执行时，使得移动设备能够执行第一方面中任意一种实施方式中所述的图像处理方法。

根据本公开实施例的第四方面，提供一种计算机程序产品，包括计算机程序，当所述计算机程序由处理器执行时，使得处理器能够第一方面中任意一项所述的图像处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果：本公开通过已知姿态图像对应的已知3D姿态特征，以及目标姿态对应的目标3D姿态特征得到目标姿态图像，减少了目标姿态图像生成过程中的计算量，以便适用于移动设备，提高了计算效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种图像处理方法的流程图。

图2是根据一示例性实施例示出的提取3D姿态特征的流程图。

图3是根据一示例性实施例示出的训练3D姿态特征提取网络的流程图。

图4是根据一示例性实施例示出的图像分割网络的训练流程图。

图5是根据一示例性实施例示出的待训练网络模型的训练流程图。

图6是根据一示例性实施例示出的目标姿态图像的确定流程图。

图7是根据一示例性实施例示出的一例多张初始目标姿态图像融合的流程图。

图8是根据一示例性实施例示出的光流姿态融合网络的示意图。

图9是根据一示例性实施例示出的又一例多张初始目标姿态图像融合的流程图。

图10是根据一示例性实施例示出的图像处理模型的示意图。

图11是根据一示例性实施例示出的一种图像处理装置的框图。

图12是根据一示例性实施例示出的一种电子设备。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用***的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

本公开实施例应用于图像处理领域，具体涉及到利用目标对象的已知姿态图像，确定目标姿态图像的图像处理方法。相关技术中，将目标姿态迁移到目标对象生成目标姿态图像的方法包括三类。首先，通过生成式对抗网络(Generative Adversarial Networks，GAN)解耦人体表面纹理与人体空间姿态的关系，以实现目标姿态图像的生成，但该方法不仅存在搭建GAN网络困难的问题，且存在需要海量训练数据进行训练才能获得GAN网络参数，导致生成目标姿态图像的效率不高。第二类，基于输入图像中的人体姿态到输出图像中的人体姿态间的光流场建模，以获取输入图像中人体姿态的像素与输出图像中人体姿态的像素之间的移动关系。之后根据输入图像中人体姿态的像素与输出图像中人体姿态的像素之间的移动关系，得到目标姿态图像。但这类方法受限于单张输入图像所提供的人体表面纹理的完整性，且对于转身等大幅度姿态适用性有限。第三类，基于神经辐射场或隐函数的方法得到目标姿态图像。该方法需要对每一目标对象分别执行梯度下降计算，以拟合出通过三维空间表示的函数，并利用三维空间表示的函数得到目标姿态图像。虽然改善了对人体进行大幅度姿态迁移时输出图像的准确性，但由于针对每个目标对象都需要通过梯度下降算法进行拟合，导致该方法的计算量大且不具备普适性。故，上述三类得到目标姿态图像的方法存在计算量大，且不适用于移动设备的技术问题。

为了解决上述技术问题，本公开实施例提供了一种用于得到目标姿态图像的图像处理方法。本公开获取目标对象的多张已知姿态图像，以及包括目标姿态的图像，并从每张已知姿态图像中提取该已知姿态图像对应的已知3D姿态特征，以及从包括目标姿态的图像中提取得到该目标姿态对应的目标3D姿态特征。之后将各已知3D姿态特征，与目标3D姿态特征进行融合，得到目标对象的目标姿态图像。即，本公开通过已知姿态图像对应的已知3D姿态特征，以及目标姿态对应的目标3D姿态特征得到目标姿态图像，相较于相关技术中利用已知姿态图像以及包括目标姿态的图像得到目标姿态图像而言，能够利用图像对应的3D姿态特征确定目标对象的目标姿态图像，达到降低计算过程中的复杂度，减少计算量的目的。

需要说明的是，利用本申请实施例的图像处理方法得到目标姿态图像的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。适用于但不限于移动设备。其中，移动设备包括但不限于手机、电脑、智能家电、车载终端等。其他可选的执行主体可包括工作站、服务器，计算机及其他设备。

本公开下述实施例将结合附图对通过图像处理方法得到目标姿态图像进行说明。

图1是根据一示例性实施例示出的一种图像处理方法的流程图。如图1所示，图像处理方法，包括以下步骤。

在步骤S11中，获取目标对象的多张不同已知姿态图像，以及包括目标姿态的图像。

目标姿态为待迁移至目标对象的姿态。目标对象可以包括但不限于动漫人物，影视人物，或现实生活中的任一人物。已知姿态图像是指，可以获取到的目标对象的姿态图像，本公开中，将可以获取到的目标对象的姿态图像简称为已知姿态图像。获取到已知姿态图像之后，还需要确定除该目标对象之外其他对象的姿态图像，并将其他对象的姿态图像中的姿态作为待迁移至目标对象的目标姿态。例如，将目标对象用对象A表征，将其他对象用对象B表征。获取对象A的多张已知姿态图像，以及对象B的已知姿态图像，将对象B的已知姿态图像中的已知姿态作为对象A的目标姿态。通过本公开的图像处理方法，将对象B的已知姿态作为对象A的目标姿态迁移到对象A，得到对象A在目标姿态下的图像。本公开将对象A在目标姿态下的图像称为对象A的目标姿态图像。

本公开中，多张不同已知姿态图像是指，多张已知姿态图像中任意一张已知姿态图像中的姿态与剩余已知姿态图像中的姿态不同。获取目标对象的多张不同已知姿态图像，是为了更精确的得到目标对象的特征，可选的，目标对象的特征可包括体型特征，服饰特征等。本公开获取的已知姿态图像的数量，至少保证该数量的已知姿态图像覆盖目标姿态中的人体角度。目标对象已知姿态图像的数量可以根据目标姿态确定，也就是说，通过多少张已知姿态图像的组合能够至少覆盖目标姿态，确定目标对象已知姿态图像的数量。例如，对象A的目标姿态为站立人体左倾45°转头的姿势，考虑目标姿态的朝向，通过两张或3张对象A站立的已知姿态图像，就能够实现将站立人体左倾45°转头的目标姿势迁移到对象A。

本公开实施例中，可以确定一个或多个待迁移至目标对象的目标姿态，当有多个待迁移至目标对象的目标姿态时，分别对每一个待迁移至目标对象的目标姿态执行本公开提供的图像处理方法，以得到与每一个待迁移至目标对象的目标姿态对应的目标姿态图像。

在步骤S12中，分别提取多张不同已知姿态图像中已知姿态的已知3D姿态特征，以及目标姿态的目标3D姿态特征。

本公开实施例中，将多张不同已知姿态图像分别输入预先训练好的3D姿态特征提取网络，以提取每张已知姿态图像中已知姿态的3D姿态特征。若待迁移至目标对象的目标姿态是图像形式，则将包括目标姿态的图像输入预先训练好的3D姿态特征提取网络，以提取目标姿态的目标3D姿态特征。若待迁移至目标对象的目标姿态是以3D姿态特征的形式表征，则直接得的目标姿态的目标3D姿态特征。本公开中将图像在世界坐标系中各表面面元的3D坐标投影到图像坐标系中得到像素坐标，将具有对应关系的3D坐标与像素坐标，作为图像的3D姿态特征。换言之，从已知姿态图像提取的已知3D姿态特征，是已知姿态中人体表面面元各像素对应的二维的AXYZ四通道特征。其中，通过A通道表示该像素是否为人体，并通过XYZ三通道表示该像素对应的人体表面面元处在标准站姿下的3D坐标。

在步骤S13中，将多张不同已知姿态图像对应的已知3D姿态特征，与目标3D姿态特征进行融合，得到目标对象的目标姿态图像。

在本公开实施例中，将多张不同已知姿态图像中每一已知姿态的已知3D姿态特征，目标姿态的目标3D姿态特征，以及多张不同已知姿态图像输入预先训练好的光流姿态融合网络进行融合，得到目标对象的目标姿态图像。在预先训练好的光流姿态融合网络中，对输入的目标3D姿态特征，多个已知3D姿态特征，以及多张不同已知姿态图像进行两阶段处理。在第一阶段，估计目标3D姿态特征分别到每个已知3D姿态特征的反向光流场，以及可信度，则可以得到多个已知3D姿态特征对应的反向光流场和可信度。在第二阶段，每张已知姿态图像根据该已知姿态图像对应的已知3D姿态特征，确定该已知姿态图像对应的反向光流场和可信度，则可以得到与多个已知姿态图像一一对应的多个反向光流场和可信度。根据每一张已知姿态图像对应的反向光流场进行变换操作，得到该已知姿态图像对应的初始目标姿态图像，则可以得到多个初始目标姿态图像。之后将多张初始目标姿态图像根据可信度进行融合，得到目标对象的目标姿态图像。

综上，根据本公开实施例的目标姿态图像的图像处理方法，能够从图像中提取3D姿态特征，并根据3D姿态特征融合来自多张图像中的体表纹理信息，并以较低的运算复杂度实现高保真度的人体姿态迁移，得到目标姿势图像。

在本公开实施例中，获取到多张不同已知姿态图像以及包括目标姿态的图像之后，分别提取多张不同已知姿态图像中已知姿态的已知3D姿态特征，以及目标姿态的目标3D姿态特征。其提取过程中的实施步骤可以参阅图2。下面实施例将结合图2，对提取多张不同已知姿态图像中已知姿态的已知3D姿态特征，以及提取目标姿态的目标3D姿态特征进行说明。

图2是根据一示例性实施例示出的提取3D姿态特征的流程图，如图2所示，提取3D姿态特征，包括以下步骤。

在步骤S21中，将多张不同已知姿态图像分别输入至3D姿态特征提取网络，得到各已知姿态对应的已知3D姿态特征。

将第一张已知姿态图像输入至3D姿态特征提取网络，得到第一张已知姿态图像中的已知姿态对应的已知3D姿态特征。依次类推，得到多张不同已知姿态图像中已知姿态对应的已知3D姿态特征。

在步骤S22中，将包括目标姿态的图像输入至3D姿态特征提取网络，得到目标姿态的目标3D姿态特征。

在本公开实施例中，3D姿态特征提取网络基于具有标准姿态的人体3D模型训练得到。在训练3D姿态特征提取网络之前，基于具有标准姿态的人体3D模型确定训练3D姿态特征提取网络的训练样本集。并根据训练样本集训练3D姿态特征提取网络。训练过程参阅图3，下述实施例结合图3对训练3D姿态特征提取网络的训练过程进行说明。

图3是根据一示例性实施例示出的训练3D姿态特征提取网络的流程图，如图3所示，按下列步骤训练3D姿态特征提取网络。

在步骤S31中，获取具有标准姿态的人体3D模型，并确定人体3D模型全身各表面面元在世界坐标系中的3D坐标。

在制图软件中生成虚拟的人体3D模型，并将该人体3D模型调整到标准姿态。其中，标准姿态可根据实际情况进行设置，例如，标准姿态可以为T型(简称T-Pose)，标准姿态还可以为“大”字型等。其中，标准姿态为T型是指，人体3D模型中的人体双手平举，且双脚分开中正站立，站立姿态类似于T型。本公开的标准姿态可以为能够完整的无遮挡的展示人体3D模型中全身各表面面元的任意姿态。人体的3D模型可包括三维CAD(Computer AidedDesign)图。

进一步的，获得人体3D模型之后，可根据设定的原点建立世界坐标系。其中，世界坐标系的原点包括但不限于人体3D模型中的肚脐、人体3D模型中头部的顶点等。建立世界坐标系后，确定人体3D模型的全身各表面面元对应的3D坐标点在世界坐标系中的3D坐标。

在步骤S32中，调整人体3D模型的姿态，得到具有不同姿态的多张样本图像。

调整人体3D模型，使调整后的人体3D模型摆出任意3D姿态。例如抬右脚的3D姿态、一组旋转的3D姿态等。利用相机获取每一个3D姿态对应的样本图像。通过调整后人体3D模型摆出的不同3D姿态，得到多张样本图像。

需要说明的是，在世界坐标系中各表面面元对应3D坐标点的3D坐标是固定的，不随相机观察角度而变化，也不随人体3D模型调整后的姿态变化。

在步骤S33中，针对多张样本图像中的每一样本图像，分别将该样本图像中各表面面元的3D坐标投影到像素坐标系中，得到该样本图像的3D坐标对应的像素坐标，并创建该样本图像与该样本图像的3D姿态特征间的对应关系。

每张样本图像具有一个像素坐标系，将该样本图像中各表面面元的3D坐标，投影到该样本图像对应的像素坐标系中，得到该样本图像中各表面面元的3D坐标对应的像素坐标。之后创建表面面元的3D坐标与像素坐标间的对应关系。即，在3D坐标投影得到的像素坐标中填入各表面面元在标准姿态下的3D坐标，确保各表面面元的3D坐标是固定不变的。基于训练3D姿态特征提取网络时需要人体基本事实(ground truth)作为监督，在像素位置对应的3D坐标中增加阿尔法通道(alpha，简称A通道)，用于表征该像素位置是否为人体表面面元。以其中一张样本图像为例，根据该样本图像中人体表面面元的3D坐标与像素坐标间的对应关系，若像素坐标对应有3D坐标，则在该像素坐标中填入的3D坐标为人体表面面元对应的3D坐标，并将A通道置为1，用于表征该像素坐标为人体表面面元。若像素坐标没有与其对应有3D坐标，则在该像素坐标中填入3D坐标XYZ分别为0，并将A通道置为0，表征该像素坐标不是人体表面面元。

进一步的，对于每一张样本图像，将该样本图像中各表面面元的3D坐标投影到像素坐标系中，得到该样本图像的3D坐标对应的像素坐标。创建该样本图像与3D坐标和像素坐标间的对应关系，将该样本图像的像素坐标，以及该样本图像的像素坐标对应的3D坐标，作为该样本图像的3D姿态特征。其中，样本图像的像素坐标对应的3D坐标中包括A通道。建立每张样本图像与该样本图像对应3D姿态特征之间的对应关系。将所有的样本图像和与该样本图像具有对应关系的3D姿态特征作为训练3D姿态特征提取网络的训练样本集。

需要说明的是，为了更完整的还原人体表面纹理，各表面面元的3D坐标投影到像素坐标系后，可以选择一个像素坐标对应一个表面面元的3D坐标。也可以按比例保留投影到像素坐标中各表面面元的3D坐标，例如3:1，即3个像素坐标对应1个表面面元的3D坐标。本公开选取的表面面元数量远大于相关技术中在人体3D模型中选取的关键点数量，因此也将样本图像对应的3D坐标与像素坐标，称为稠密3D姿态特征。

上述步骤S31至S33中，通过调整人体3D模型得到训练3D姿态特征提取网络的训练样本集。除本公开提供的通过步骤S31至S33获取训练样本集的方式之外，还可以通过拍摄不同姿态下的人体照片并进行手工标注，获得训练3D姿态特征提取网络的训练样本集。

在步骤S34中，基于具有对应关系的样本图像与3D姿态特征，训练得到3D姿态特征提取网络，3D姿态特征提取网络的输入为样本图像，输出为具有对应关系的3D姿态特征。

在训练3D姿态特征提取网络时，可将样本图像输入至3D姿态特征提取网络，以得到3D姿态特征提取网络从该样本图像中提取的3D姿态特征，之后可根据3D姿态特征提取网络提取的3D姿态特征中A通道的值，以及实际样本图像对应的3D姿态特征中A通道的值之间的差异，调整3D姿态特征提取网络的网络参数，直至3D姿态特征提取网络提取的3D姿态特征与实际样本图像对应的3D姿态特征之间的差异小于预设阈值，则可将最后一次调整网络参数的3D姿态特征提取网络作为训练好的3D姿态特征提取网络。

在本公开实施例中，将图像分割网络作为3D姿态特征提取网络的网络结构，基于具有对应关系的样本图像和3D姿态特征，训练图像分割网络。将训练后的图像分割网络，作为3D姿态特征提取网络。图像分割网络的训练过程参阅图4。

图4是根据一示例性实施例示出的图像分割网络的训练流程图，如图4所示，按下列步骤训练图像分割网络。

在步骤S41中，初始化图像分割网络。

在步骤S42中，将样本图像作为图像分割网络的输入，3D姿态特征作为图像分割网络的输出，训练图像分割网络，得到基于样本图像提取3D姿态特征的图像分割网络。

在训练图像分割网络(unet)时，将样本图像作为图像分割网络的输入，3D姿态特征作为图像分割网络的输出，训练得到表征样本图像与3D姿态特征之间映射关系的网络参数。将设置有表征样本图像与3D姿态特征之间映射关系的网络参数的图像分割网络，作为基于样本图像提取3D姿态特征的图像分割网络。

在步骤S43中，将训练后的图像分割网络，作为3D姿态特征提取网络。

利用训练后的图像分割网络，作为3D姿态特征提取网络，用于提取样本图像中的3D姿态特征。基于3D姿态特征提取网络提取已知姿态图像中的已知3D姿态特征，以及目标姿态的目标3D姿态特征，以直接根据已知3D姿态特征和目标3D姿态特征得到目标姿态图像，减少以已知姿态图像和包括目标姿态的图像得到目标姿态图像的计算量。

在本公开实施例中，除了将训练后的图像分割网络作为3D姿态特征提取网络之外，还可以将人体特征提取网络作为图像分割网络的编码器，得到待训练网络模型。基于具有对应关系的样本图像和3D姿态特征，训练待训练网络模型。将训练后的待训练网络模型，作为3D姿态特征提取网络。待训练网络模型的训练过程参阅图5。下面实施例将结合图5对待训练网络模型的训练过程进行说明。

图5是根据一示例性实施例示出的待训练网络模型的训练流程图，如图5所示，按下列步骤训练待训练网络模型。

在步骤S51中，训练用于识别人体特征的人体特征提取网络。

获取人体图像、影视动漫人物图像，以及手绘人体图像等，将获取的人体图像、影视动漫人物图像，以及手绘人体图像，作为训练人体特征提取网络的样本集。将训练人体特征提取网络的样本集作为输入，将人体特征作为输出，训练人体特征提取网络。其中人体特征包括头部、躯干、手臂、脚部等。本公开实施例中的人体特征提取网络可以采用残差神经网络(Resnet)。

在步骤S52中，将人体特征提取网络作为图像分割网络的编码器，得到待训练网络模型。

将人体特征提取网络中的主干网(backbone)接入图像分割网络中作为编码器，将带有上述编码器的图像分割网络，作为待训练网络模型。也就是说，将人体特征提取网络中的主干网作为图像分割网络的上采样。基于人体特征提取网络中的主干网，能够识别人体部位，有利于加快整个待训练网络模型的训练速率。

在步骤S53中，将样本图像作为待训练网络模型的输入，并将3D姿态特征作为待训练网络模型的输出，训练待训练网络模型，得到基于样本图像提取3D姿态特征的3D姿态特征提取网络。

训练待训练网络模型的过程与训练图像分割网络的过程相似，此处不再赘述。

本公开实施例中，3D姿态特征提取网络的网络结构可以为图像分割网络，也可以为带有编码器的图像分割网络。不管3D姿态特征提取网络为图像分割网络，还是带有编码器的图像分割网络，都是前传式网络(feed-forward network)，在提取输入图像的3D姿态特征时，不依赖于梯度下降算法，因此运算量较小，易于在移动设备上实现。进一步的，由于本公开以人体3D模型在标准姿态下，各表面面元对应3D坐标点的3D坐标为基础，对人体3D模型进行调整得到训练3D姿态特征提取网络的训练样本图像。故，通过3D姿态特征提取网络提取得到的3D姿态特征不随相机观察角度变化，也不随着人体姿态改变3D坐标点，有利于减小计算量。进一步的，根据已知姿态图像的已知3D姿态特征，以及目标姿态的目标3D姿态特征确定目标对象的目标姿态图像。相比于根据已知姿态图像，以及包括目标姿态的图像确定目标对象的目标姿态图像，能够缩减计算量，以在计算资源有限的移动设备上运行。

在本公开实施例中，提取得到多张不同已知姿态图像中已知姿态的已知3D姿态特征，以及目标姿态的目标3D姿态特征，之后将多张不同已知姿态图像对应的已知3D姿态特征，与目标3D姿态特征进行融合操作，得到目标对象的目标姿态图像。目标姿态图像的确定过程参阅图6。下述实施例将结合图6对目标姿态的确定过程进行说明。

图6是根据一示例性实施例示出的目标姿态图像的确定流程图，如图6所示，将多张不同已知姿态图像对应的已知3D姿态特征，与目标3D姿态特征进行融合，得到目标对象的目标姿态图像，包括以下步骤。

在步骤S61中，估计目标3D姿态特征分别与各已知3D姿态特征间的反向光流场。

将目标3D姿态特征和每一已知3D姿态特征分别输入光流估计子网络(Flownet)进行估计，得到目标3D姿态特征和每一已知3D姿态特征间的反向光流场。假设有N(N为正整数)张已知姿态图像，根据3D姿态特征提取网络分别提取N张已知姿态图像对应的N组已知3D姿态特征。根据光流估计子网络估计目标3D姿态特征与第一组已知3D姿态特征间的第一反向光流场。接着，根据光流估计子网络估计目标3D姿态特征与第二组已知3D姿态特征间的第二反向光流场。以此类推，估计目标3D姿态特征分别与N组已知3D姿态特征间的反向光流场，则确定目标姿态特征与每一组已知3D姿态特征间的反向光流场。

在本公开中，反向光流场是相对于正向光流场而言，一般将已知3D姿态特征到目标3D姿态特征的光流场称为正向光流场，而将目标3D姿态特征到已知3D姿态特征的光流场称为反向光流场。

在步骤S62中，针对目标对象的每一已知姿态图像，分别基于与该已知姿态图像对应的反向光流场进行变换，得到多张初始目标姿态图像。

接续上例，以第一组已知3D姿态特征为例，确定与第一组已知3D姿态特征对应的第一张已知姿态图像，以及与第一组已知3D姿态特征对应的第一反向光流场。根据第一反向光流场对第一已知姿态图像进行像素变换操作(warp)，得到第一张初始目标姿态图像。同理，根据第二反向光流场对第二已知姿态图像进行变换，得到第二张初始目标姿态图像。分别对N张已知姿态图像中的每张已知姿态图像，根据每张已知姿态图像对应的反向光流场，确定N张初始目标姿态图像。

在步骤S63中，将多张初始目标姿态图像进行融合，得到目标对象的目标姿态图像。

将多张初始目标姿态图像进行融合，得到目标对象的目标姿态图像的步骤，参阅图7。图7是根据一示例性实施例示出的一例多张初始目标姿态图像融合的流程图，如图7所示，将多张初始目标姿态图像进行融合，得到目标对象的目标姿态图像，包括以下步骤。

在步骤S71中，估计目标3D姿态特征分别与各已知3D姿态特征间的可信度，并将各已知3D姿态特征的可信度，确定为多张初始目标姿态图像的可信度。

在光流估计子网络中，估计目标3D姿态特征中的每一像素位置，分别到各已知3D姿态特征中对应像素位置的可信度。建立已知3D姿态特征与可信度的对应关系，根据已知3D姿态特征与已知姿态图像的对应关系，建立已知姿态图像、已知3D姿态特征以及可信度，三者之间的对应关系。根据每一已知姿态图像对应一张初始目标姿态图像，创建初始目标姿态图像与可信度的关系。

在步骤S72中，基于多张初始目标姿态图像的可信度，融合多张初始目标姿态图像，得到目标对象的目标姿态图像。

本公开实施例中，将每张初始目标姿态图像的可信度，看作该初始目标姿态图像的权重。对多张初始目标姿态图像的各像素，按每一初始目标姿态图像中各像素对应的权重进行加权求和，得到目标对象满足目标姿态的目标姿态图像。

在一种实施方式中，可利用光流姿态融合网络，根据多张不同已知姿态图像对应的已知3D姿态特征，以及目标3D姿态特征，得到目标对象的目标姿态图像。将目标3D姿态特征、多张不同已知姿态图像，以及多张不同已知姿态图像对应的已知3D姿态特征，作为光流姿态融合网络的输入，将目标对象的目标姿态图像作为光流姿态融合网络的输出，训练光流姿态融合网络。图8是根据一示例性实施例示出的光流姿态融合网络的示意图，如图8所示，光流姿态融合网络包括光流估计子网络和图像融合子网络。

将目标3D姿态特征以及各已知3D姿态特征，作为光流估计子网络的输入，通过光流估计子网络估计目标3D姿态特征分别与各已知3D姿态特征间的反向光流场，以及目标3D姿态特征分别与各已知3D姿态特征间的可信度。在已知姿态图像、已知3D姿态特征、反向光流场、与可信度之间建立对应关系。将具有对应关系的多张已知姿态图像、各反向光流场，以及各可信度，作为图像融合子网络的输入，经过图像融合子网络的warp操作，输出目标对象的目标姿态图像。在光流姿态融合网络中通过光流估计子网络，估计目标3D姿态特征与已知3D姿态特征之前的差异，得到目标3D姿态特征与已知3D姿态特征的反向光流场和可信度。相比于相关技术中，直接估计已知姿态图像与包括目标姿态的图像之间的光流场而言，减少了光流估计子网络的工作量，降低了对运行光流估计子网络设备的计算力。

在本实施方式中，直接将光流估计子网络输出的反向光流场和可信度，输入图融合子网络中。在图融合子网络中先根据反向光流场生成多张初始目标姿态图像，再根据可信度对多张初始目标姿态图像进行融合推断，得到目标姿态图像。通过目标姿态图像是否满足目标对象，和/或目标姿态图像是否符合目标姿态作为指导，反过来调整光流估计子网络的网络参数。该实施方式能够在没有光流场基本事实作为监督的情况下实现光流估计子网络的学习，且能够在没有可信度基本事实作为监督的情况下实现图像融合子网络的学习。解决了确定光流场基本事实，以及可信度基本事实困难的问题。

在本公开实施例中，可以直接采用根据光流估计子网络估计的可信度，对多张初始目标姿态图像进行融合得到目标姿态图像。也可以对光流估计子网络估计得到的可信度，按像素的软性最大值(Softmax)进行处理，抑制可信度不高的像素来源，得到基于软性最大值处理后的可信度。之后根据基于软性最大值处理后的可信度，对多张初始目标姿态图像进行融合得到目标姿态图像。

图9是根据一示例性实施例示出的又一例多张初始目标姿态图像融合的流程图，如图9所示，基于多张初始目标姿态图像的可信度，融合多张初始目标姿态图像，得到目标对象的目标姿态图像，包括以下步骤。

在步骤S81中，分别对多张初始目标姿态图像的可信度进行软性最大值处理，确定基于软性最大值处理后的可信度。

例如，假设初始目标姿态图像的可信度为数组

z_i表示

中的第i个元素，j表示数组

中的第j个元素，K表示数组

中的元素数量。那么可信度的softmax值为：

式中，σ表征softmax值，即元素的softmax值就是该元素的指数与所有元素指数和的比值。

按上式对每一初始目标姿态图像的可信度进行softmax处理，确定基于softmax处理后的可信度。

在步骤S82中，基于软性最大值处理后的可信度融合多张初始目标姿态图像，得到目标对象的目标姿态图像。

根据每张初始目标姿态图像对应的软性最大值处理后的可信度，对多张初始目标姿态图像的像素进行求和，得到目标对象的目标姿态图像。采用软性最大值处理，实现对初始目标姿态图像中可信度不高像素的抑制。

在一种实施方式中，本公开提供的图像处理方法可以通过图10所示的图像处理模型实现。图10是根据一示例性实施例示出的图像处理模型的示意图。如图10所示，图像处理模型包括3D姿态特征提取网络，以及光流姿态融合网络。其中，如图8所示，光流姿态融合网络包括光流估计子网络和图像融合子网络。将多张已知姿态图像输入3D姿态特征提取网络，通过3D姿态特征提取网络提取每一已知姿态图像中的已知3D姿态特征。并将包括目标姿态的图像输入3D姿态特征提取网络，得到目标姿态的目标3D姿态特征。将目标3D姿态特征、多张已知姿态图像，以及从多张已知姿态图像中提取的已知3D姿态特征作为光流姿态融合网络的输入，经过光流姿态融合网络的融合处理，输出目标对象的目标姿态图像。在本实施方式中，图像处理模型的3D姿态特征提取网络和光流姿态融合网络可以是分离的。利用图像处理模型生成的目标姿态图像合成视频时，只需通过3D姿态特征提取网络，提取目标对象已知姿态特征的已知3D姿态特征，以及目标3D姿态特征。之后利用光流姿态融合网络，重复将多张不同已知姿态图像对应的已知3D姿态特征，与目标3D姿态特征进行融合，得到目标对象的目标姿态图像。而不需要重复执行提取多张不同已知姿态图像中已知姿态的已知3D姿态特征，以及目标姿态的目标3D姿态特征，以降低计算量。利用相关技术中，基于已知姿态图像生成目标姿态图像的方法合成视频时，由于没有进行分离操作，每一帧图像都需要将整个方法全部执行一遍，远比本实施方式提供的方案计算量大。

基于相同的构思，本公开实施例还提供一种图像处理装置。

可以理解的是，本公开实施例提供的图像处理装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

参照图11，图11是根据一示例性实施例示出的一种图像处理装置100的框图。该图像处理装置100包括获取单元101、提取单元102和融合单元103。

获取单元101，用于获取目标对象的多张不同已知姿态图像，以及包括目标姿态的图像，目标姿态为待迁移至目标对象的姿态；提取单元102，用于分别提取多张不同已知姿态图像中已知姿态的已知3D姿态特征，以及目标姿态的目标3D姿态特征；融合单元103，用于将多张不同已知姿态图像对应的已知3D姿态特征，与目标3D姿态特征进行融合，得到目标对象的目标姿态图像。

在一种实施方式中，提取单元102，用于：将多张不同已知姿态图像，以及包括目标姿态的图像，分别输入至3D姿态特征提取网络，得到各已知姿态对应的已知3D姿态特征，以及目标姿态的目标3D姿态特征；3D姿态特征提取网络基于具有标准姿态的人体3D模型训练得到。

在一种实施方式中，图像处理装置还包括训练单元104，训练单元104用于：

获取具有标准姿态的人体3D模型，并确定人体3D模型全身各表面面元在世界坐标系中的3D坐标；调整人体3D模型的姿态，得到具有不同姿态的多张样本图像；针对多张样本图像中的每一样本图像，分别将该样本图像中各表面面元的3D坐标投影到像素坐标系中，得到该样本图像的3D坐标对应的像素坐标，并创建该样本图像与该样本图像的3D姿态特征间的对应关系，样本图像的3D姿态特征为与该样本图像具有对应关系的3D坐标和像素坐标；基于具有对应关系的样本图像与3D姿态特征，训练得到3D姿态特征提取网络，3D姿态特征提取网络的输入为样本图像，输出为具有对应关系的3D姿态特征。

在一种实施方式中，训练单元104还用于：初始化图像分割网络；将样本图像作为图像分割网络的输入，3D姿态特征作为图像分割网络的输出，训练图像分割网络，得到基于样本图像提取3D姿态特征的图像分割网络；将训练后的图像分割网络，作为3D姿态特征提取网络。

在一种实施方式中，训练单元104还用于：训练用于识别人体特征的人体特征提取网络；将人体特征提取网络作为图像分割网络的编码器，得到待训练网络模型；将样本图像作为待训练网络模型的输入，并将3D姿态特征作为待训练网络模型的输出，训练待训练网络模型，得到基于样本图像提取3D姿态特征的3D姿态特征提取网络。

在一种实施方式中，融合单元103用于：估计目标3D姿态特征分别与各已知3D姿态特征间的反向光流场；针对目标对象的每一已知姿态图像，分别基于与该已知姿态图像对应的反向光流场进行变换，得到多张初始目标姿态图像；将多张初始目标姿态图像进行融合，得到目标对象的目标姿态图像。

在一种实施方式中，融合单元103还用于：估计目标3D姿态特征分别与各已知3D姿态特征间的可信度，并将各已知3D姿态特征的可信度，确定为多张初始目标姿态图像的可信度；基于多张初始目标姿态图像的可信度，融合多张初始目标姿态图像，得到目标对象的目标姿态图像。

在一种实施方式中，融合单元103还用于：分别对多张初始目标姿态图像的可信度进行软性最大值处理，并基于软性最大值处理后的可信度融合多张初始目标姿态图像，得到目标对象的目标姿态图像。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

如图12所示，本公开的一个实施方式提供了一种电子设备200。其中，该电子设备200包括存储器201、处理器202、输入/输出(Input/Output，I/O)接口203。其中，存储器201，用于存储指令。处理器202，用于调用存储器201存储的指令执行本公开实施例的图像处理方法。其中，处理器202分别与存储器201、I/O接口203连接，例如可通过总线***和/或其他形式的连接机构(未示出)进行连接。存储器201可用于存储程序和数据，包括本公开实施例中涉及的图像处理方法的程序，处理器202通过运行存储在存储器201的程序从而执行电子设备200的各种功能应用以及数据处理。

本公开实施例中处理器202可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器202可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本公开实施例中的存储器201可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等。

本公开实施例中，I/O接口203可用于接收输入的指令(例如数字或字符信息，以及产生与电子设备200的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本公开实施例中I/O接口203可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

本公开的另一个实施方式还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，当该计算机程序由处理器执行时，使得处理器能够执行上文描述的图像处理方法。

可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本公开实施例涉及的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。

Claims

1.一种图像处理方法，其特征在于，包括：

获取目标对象的多张不同已知姿态图像，以及包括目标姿态的图像，所述目标姿态为待迁移至所述目标对象的姿态；

分别提取所述多张不同已知姿态图像中已知姿态的已知3D姿态特征，以及所述目标姿态的目标3D姿态特征；

将所述多张不同已知姿态图像对应的已知3D姿态特征，与所述目标3D姿态特征进行融合，得到所述目标对象的目标姿态图像。

2.根据权利要求1所述的图像处理方法，其特征在于，分别提取所述多张不同已知姿态图像中已知姿态的已知3D姿态特征，以及所述目标姿态的目标3D姿态特征，包括：

将所述多张不同已知姿态图像，以及包括所述目标姿态的图像，分别输入至3D姿态特征提取网络，得到各已知姿态对应的已知3D姿态特征，以及所述目标姿态的目标3D姿态特征；

所述3D姿态特征提取网络基于具有标准姿态的人体3D模型训练得到。

3.根据权利要求2所述的图像处理方法，其特征在于，所述3D姿态特征提取网络采用如下方式训练得到：

获取具有标准姿态的人体3D模型，并确定所述人体3D模型全身各表面面元在世界坐标系中的3D坐标；

调整所述人体3D模型的姿态，得到具有不同姿态的多张样本图像；

针对所述多张样本图像中的每一样本图像，分别将该样本图像中各表面面元的所述3D坐标投影到像素坐标系中，得到该样本图像的所述3D坐标对应的像素坐标，并创建该样本图像与该样本图像的3D姿态特征间的对应关系，所述样本图像的3D姿态特征为与该样本图像具有对应关系的3D坐标和像素坐标；

基于具有对应关系的样本图像与3D姿态特征，训练得到3D姿态特征提取网络，所述3D姿态特征提取网络的输入为所述样本图像，输出为具有对应关系的3D姿态特征。

4.根据权利要求1-3任一项所述的图像处理方法，其特征在于，基于具有对应关系的样本图像与3D姿态特征，训练得到3D姿态特征提取网络，包括：

初始化图像分割网络；

将所述样本图像作为所述图像分割网络的输入，所述3D姿态特征作为所述图像分割网络的输出，训练所述图像分割网络，得到基于所述样本图像提取所述3D姿态特征的图像分割网络；

将训练后的图像分割网络，作为3D姿态特征提取网络。

5.根据权利要求1-3任一项所述的图像处理方法，其特征在于，基于具有对应关系的样本图像与3D姿态特征，训练得到3D姿态特征提取网络，包括：

训练用于识别人体特征的人体特征提取网络；

将所述人体特征提取网络作为图像分割网络的编码器，得到待训练网络模型；

将所述样本图像作为所述待训练网络模型的输入，并将所述3D姿态特征作为所述待训练网络模型的输出，训练所述待训练网络模型，得到基于所述样本图像提取所述3D姿态特征的3D姿态特征提取网络。

6.根据权利要求1所述的图像处理方法，其特征在于，将所述多张不同已知姿态图像对应的已知3D姿态特征，与所述目标3D姿态特征进行融合，得到所述目标对象的目标姿态图像，包括：

估计所述目标3D姿态特征分别与各所述已知3D姿态特征间的反向光流场；

针对所述目标对象的每一已知姿态图像，分别基于与该已知姿态图像对应的所述反向光流场进行变换，得到多张初始目标姿态图像；

将所述多张初始目标姿态图像进行融合，得到所述目标对象的目标姿态图像。

7.根据权利要求6所述的图像处理方法，其特征在于，将所述多张初始目标姿态图像进行融合，得到所述目标对象的目标姿态图像，包括：

估计所述目标3D姿态特征分别与各所述已知3D姿态特征间的可信度，并将各所述已知3D姿态特征的可信度，确定为多张所述初始目标姿态图像的可信度；

基于多张所述初始目标姿态图像的可信度，融合所述多张初始目标姿态图像，得到所述目标对象的目标姿态图像。

8.根据权利要求7所述的图像处理方法，其特征在于，所述基于多张所述初始目标姿态图像的可信度，融合所述多张初始目标姿态图像，得到所述目标对象的目标姿态图像，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至8中任意一项所述的图像处理方法。

10.一种存储介质，其特征在于，所述存储介质中存储有指令，当所述存储介质中的指令由移动设备的处理器执行时，使得移动设备能够执行权利要求1至8中任意一项所述的图像处理方法。

11.一种计算机程序产品，其特征在于，包括计算机程序，当所述计算机程序由处理器执行时，使得处理器能够执行权利要求1至8中任意一项所述的图像处理方法。