CN112132107A

CN112132107A - 图像处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN112132107A
Application number: CN202011074650.2A
Authority: CN
Inventors: 林祥凯; 暴林超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2020-12-25

Abstract

本申请提供了一种图像处理方法、装置、电子设备及计算机可读存储介质，涉及人工智能技术；方法包括：识别出针对对象所采集的多个图像中的对象姿态，以将多个图像添加至与多个对象姿态一一对应的图像集合；从第一姿态的图像集合中识别出第一姿态的基准图像，其中，第一姿态为多个对象姿态中的任意一个；根据第一姿态的基准图像与第二姿态的图像集合中的图像的投影的匹配程度，从第二姿态的图像集合中识别出第二姿态的基准图像；其中，第二姿态为多个对象姿态中区别于第一姿态的任意一个；根据第一姿态的基准图像和第二姿态的基准图像，构建对象的基准图像集合。通过本申请能够有效降低图像集合的冗余度，提高图像处理的效率和准确度。

Description

图像处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种图像处理方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

图像处理是人工智能领域的重要研究方向，图像处理是指用计算机对图像进行分析，以达到所需结果的技术，广泛用于各种类型互利网场景，例如社交应用、网络游戏等。

然而，申请人在实施本申请实施例的过程中发现，采集的图像集合存在数据冗余问题，且部分图像有严重噪声，降低了后续基于此图像集合实施的图像处理应用的效率和准确度。

发明内容

本申请实施例提供一种图像处理方法、装置、电子设备及计算机可读存储介质，能够从海量图像的集合中快速和准确提取出用于后续应用的图像。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像处理方法，包括：

识别出针对对象所采集的多个图像中的对象姿态，以将所述多个图像添加至与多个对象姿态一一对应的图像集合；

从第一姿态的图像集合中识别出所述第一姿态的基准图像，其中，所述第一姿态为所述多个对象姿态中的任意一个；

根据所述第一姿态的基准图像与第二姿态的图像集合中的图像的投影的匹配程度，从所述第二姿态的图像集合中识别出所述第二姿态的基准图像；

其中，所述第二姿态为所述多个对象姿态中区别于所述第一姿态的任意一个；

根据所述第一姿态的基准图像和所述第二姿态的基准图像，构建所述对象的基准图像集合。

本申请实施例提供一种图像处理装置，包括：

识别模块，用于识别出针对对象所采集的多个图像中的对象姿态，以将所述多个图像添加至与多个对象姿态一一对应的图像集合；

第一姿态处理模块，用于从第一姿态的图像集合中识别出所述第一姿态的基准图像，其中，所述第一姿态为所述多个对象姿态中的任意一个；

第二姿态处理模块，用于根据所述第一姿态的基准图像与第二姿态的图像集合中的图像的投影的匹配程度，从所述第二姿态的图像集合中识别出所述第二姿态的基准图像；其中，所述第二姿态为所述多个对象姿态中区别于所述第一姿态的任意一个；

整合模块，用于根据所述第一姿态的基准图像和所述第二姿态的基准图像，构建所述对象的基准图像集合。

在上述技术方案中，所述识别模块，还用于将针对对象所采集的多个图像分别与姿态模板进行匹配，以识别出每个所述图像中的对象姿态；根据每个所述图像中的对象姿态，将每个所述图像添加至对应的图像集合。

在上述技术方案中，所述识别模块，还用于针对采集到的每个图像实时执行以下处理：确定所述图像中的关键点；确定所述关键点相对于所述姿态模板中对应点的旋转值；根据所述旋转值，确定所述图像中的对象姿态。

在上述技术方案中，所述识别模块，还用于获取所述多个对象姿态中每个对象姿态对应的旋转角度区间；将包括所述旋转值的旋转角度区间对应的对象姿态，确定为所述图像中的对象姿态。

在上述技术方案中，所述识别模块，还用于确定所述关键点中表征眼睛上部的关键点和表征眼睛下部的关键点之间的第一距离；确定所述关键点中表征眼睛左端的关键点和表征眼睛右端的关键点之间的第二距离；当所述第一距离和所述第二距离的比值小于闭眼距离阈值时，确定所述图像出现闭眼现象，并删除所述图像。

在上述技术方案中，所述图像处理装置还包括：提醒模块，用于当任一所述图像集合的图像数量小于数量阈值时，输出提示重新采集图像的信息，以采集对应的对象姿态的图像。

在上述技术方案中，所述第一姿态处理模块，还用于确定所述第一姿态的图像集合中每个图像的方差；根据所述第一姿态的图像集合中每个图像的方差，确定对应图像的运动模糊评分；将所述第一姿态的图像集合中运动模糊评分最小的图像作为所述第一姿态的基准图像。

在上述技术方案中，所述第一姿态处理模块，还用于针对所述第一姿态的图像集合中每个图像执行以下处理：确定所述图像的灰度图；对所述图像的灰度图进行卷积处理，得到所述图像对应的梯度图；确定所述图像的梯度图的方差，并作为所述图像的方差。

在上述技术方案中，所述第二姿态处理模块，还用于根据所述第一姿态的基准图像与所述第二姿态的图像集合中的图像的投影的匹配程度，确定所述第二姿态的图像集合中的图像的刚性检验分数；将所述第二姿态的图像集合中刚性检验分数小于误差阈值的图像删除，并根据所述刚性检验分数，从所述第二姿态的图像集合中识别出所述第二姿态的基准图像。

在上述技术方案中，所述第二姿态处理模块，还用于确定所述第二姿态的图像集合中每个图像的方差；根据所述第二姿态的图像集合中每个图像的方差，确定对应图像的运动模糊评分；根据所述第二姿态的图像集合中每个图像的刚性检验分数和运动模糊评分，识别出所述第二姿态的基准图像。

在上述技术方案中，所述第二姿态处理模块，还用于对所述第一姿态的基准图像进行投影，得到第一姿态的基准立体图像；针对所述第二姿态的图像集合中的每个图像执行以下处理：对所述第二姿态的图像集合中的每个图像进行投影，得到对应的第二姿态立体图像；确定所述第一姿态的基准立体图像和所述第二姿态立体图像之间的映射关系；根据所述第二姿态立体图像中满足所述映射关系的图像点的数量，确定所述第一姿态的基准图像与所述第二姿态的图像集合中的图像的投影的匹配程度。

在上述技术方案中，所述第二姿态处理模块，还用于确定所述第一姿态的基准图像的图像深度信息；根据所述图像深度信息、所述第一姿态的基准图像的关键点以及图像采集参数，对所述第一姿态的基准图像进行投影，以得到第一姿态的基准立体图像。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的图像处理方法。

本申请实施例具有以下有益效果：

通过识别出采集图像中的对象姿态，并将图像添加到对应姿态的图像集合中，实现对图像的初步分类，然后根据多个姿态的基准图像构建对象的基准图像集合，实现了全自动的图像筛选，且对应每个对象姿态选择出基准图像，并以此构建精简的基准图像集合，降低了图像集合的冗余度，也提高了图像集合中的图片质量，提高了基于此基准图像集合实施的图像处理应用的效率和准确度。

附图说明

图1是本申请实施例提供的图像处理***的结构示意图；

图2是本申请实施例提供的用于图像处理的电子设备的结构示意图；

图3是本申请实施例提供的图像处理方法的流程示意图；

图4是本申请实施例提供的图像处理方法的流程示意图；

图5是本申请实施例提供的脸部图像处理示意图；

图6A-6B是本申请实施例提供的图像处理方法的图像采集示意图；

图7是本申请实施例提供的对象姿态分组示意图；

图8是本申请实施例提供的脸部关键点示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一/第二”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)图像采集参数，图像采集设备将场景中的三维点投影到二维成像平面变为像点的过程中所使用到的参数，例如，相机在拍摄照片时使用的相机矩阵。

2)图像深度信息，指从图像采集设备到场景中各点的距离信息，反映了场景中对象可见表面的几何形状。

3)对象，指图像采集的目标，例如脸部、躯干或肢体。

4)对象姿态，指图像采集的目标作出的姿态，例如，当图像采集的对象为脸部时，对象姿态可以是正脸、脸部左转、脸部右转和抬头；当图像采集的对象为躯干时，对象姿态可以是躯干直立、弯腰或呈特定形状；当图像采集的对象为肢体时，对象姿态可以是肢体伸展、收缩或呈特定形状。

在图像处理领域中，图像数据集具有十分重要的价值，而构建数据量大、质量又高的图像数据集往往需要大量的人力和物力，因此，本领域技术人员倾向于构建通用的图像数据集，以便于在不同应用场景对数据集进行复用，受限于这一技术偏见，本领域技术人员会尽量保留大量采集到的原始数据。但是，申请人在实施本申请实施例的过程中发现，采集的图像集合存在大量数据冗余问题，且部分图像有严重噪声，降低了图像处理的效率和准确度。

本申请实施例提供一种图像处理方法、装置、电子设备和计算机可读存储介质，能够构建精简的基准图像集合，降低图像集合的冗余度，提高图像集合中的图片质量，提高基于此基准图像集合实施的图像处理应用的效率和准确度。

下面说明本申请实施例提供的用于图像处理的电子设备的示例性应用，本申请实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，例如手持终端，针对对象进行图像采集并识别出所采集的多个图像中的对象姿态，将多个图像添加至与多个对象姿态一一对应的图像集合，并分别从第一姿态的图像集合和第二姿态的图像集合中识别出基准图像来构建对象的基准图像集合，以基于基准图像集合，进行后续的对象重建、表情基构建以及添加姿态特效等处理；也可以实施为服务器或者服务器集群，例如部署在云端的服务器，识别出针对对象所采集的多个图像中的对象姿态，将多个图像添加至与多个对象姿态一一对应的图像集合，并分别从第一姿态的图像集合和第二姿态的图像集合中识别出基准图像来构建对象的基准图像集合，以基于基准图像集合，进行后续的对象重建、表情基构建以及添加姿态特效等处理；还可以采用由用户终端和服务器协同的方式实施，例如手持终端和云服务器之间协同处理，手持终端针对对象进行图像采集并识别出所采集的多个图像中的对象姿态，并将多个图像添加至与多个对象姿态一一对应的图像集合，然后手持终端将图像集合发送至云服务器，云服务器分别从第一姿态的图像集合和第二姿态的图像集合中识别出基准图像来构建对象的基准图像集合，以基于基准图像集合进行后续的对象重建、表情基构建以及添加姿态特效等处理，并将重建的对象、构建的表情基以及姿态特效反馈给手持终端。

示例性的，电子终端对图像进行筛选得到多个姿态的基准图像后，可以根据多个姿态的基准图像构建对象的一组可以驱动的表情基，结合渲染引擎，通过设定不同的表情系数，使表情基生成不同的表情动作。

示例性的，电子终端识别出不同图像中的对象姿态后，可以将不同对象姿态的图像作为训练集，对象姿态作为标注，训练姿态识别模型，通过姿态识别模型可以实时的识别出社交应用中出现的对应对象姿态，并附加不同的特效，提升应用的趣味性。

示例性的，当电子终端识别的对象为脸部时，可以基于不同姿态的脸部基准图像进行人脸三维重建，以适用于不同场景下的互动娱乐需求。例如，在游戏、宣发等场景中可准确重建出人脸的三维模型，用于构建逼真的游戏人物属性。在日常对话交流场景下，重建出来的三维人脸模型可用于定制专属的颜文字，以生成各种微妙的表情。重建出来的三维人脸模型还可以用于虚拟美妆、虚拟试衣、虚拟人物形象等广泛的应用场景。

下面，将说明电子设备实施为服务器时示例性应用。

参见图1，图1是本申请实施例提供的图像处理***的结构示意图，以图像处理***100为例，为实现支撑一个图像处理应用，终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，服务器200将数据存储到数据库500，服务器600可以从数据库500获取数据，其中，服务器200是用于实施本申请实施例图像处理方法的服务器，服务器600是基于筛选的图像实施人脸重建，表情基构建等具体应用的服务器。

在一些实施例中，终端(示例性示出了终端400-1和终端400-2)可以通过终端上的应用(示例性示出了应用410-1和应用410-2)进行对象图像的采集，例如，相机、社交、短视频、视频直播等应用，并通过网络300上传到用于实施本申请实施例图像处理方法的服务器200，服务器200可以识别出图像中的对象姿态，并将图像添加到对应姿态的图像集合中，然后根据多个姿态的基准图像构建对象的基准图像集合，接着可以将基准图像集合存储到数据库500，服务器600可以在进行表情基构建、添加姿态特效以及人脸重建等处理时，从数据库500获取并使用存储的基准图像集合。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端(示例性示出了终端400-1和终端400-2)可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

参见图2，图2是本申请实施例提供的用于图像处理的电子设备的结构示意图，以电子设备为服务器为例进行说明，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线***240耦合在一起。可理解，总线***240用于实现这些组件之间的连接通信。总线***240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***251，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

在一些实施例中，本申请实施例提供的图像处理装置可以采用软件方式实现，图2示出了存储在存储器250中的图像处理装置255，其可以是程序和插件等形式的软件，包括以下软件模块：识别模块2551、第一姿态处理模块2552、第二姿态处理模块2553和整合模块2554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

本申请实施例提供的图像处理方法可以提供为云服务，任意应用(例如社交网络应用)可以向云服务提供方提交应用中采集的图像数据，由云服务来进行图像处理。

下面，说明本申请实施例提供的图像处理方法，如前所述，实现本申请实施例的图像处理方法的电子设备可以是终端、服务器，又或者是二者的结合。因此下文中不再重复说明各个步骤的执行主体。

需要说明的是，下文中的图像处理的示例中，是以对象为脸部为例说明的，本领域技术人员根据对下文的理解，可以将本申请实施例提供的图像处理方法应用于包括其他类型对象的图像集合的处理。

参见图3，图3是本申请实施例提供的图像处理方法的流程示意图，将结合图3示出的步骤进行说明。

在步骤101中，识别出针对对象所采集的多个图像中的对象姿态，以将多个图像添加至与多个对象姿态一一对应的图像集合。

其中，图像可以是照片或视频帧，当图像是照片时，图像集合可以是连续拍摄的照片；当图像是视频帧时，采集的多个图像可以是从拍摄的视频中解码出的视频帧。图像的格式可以是三通道(RGB，Red-Green-Blue)图像，RGB图像是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的。

示例性的，针对对象进行图像采集时，可以让对象做出多种姿态，并且对每一种姿态采取多张图像，根据图像数据对图像中的对象姿态进行识别，并将图像根据识别出来的对象姿态进行分类，即将图像添加至图像中的对象姿态对应的图像集合，最后构成了与多个不同的对象姿态一一对应的图像集合，实现了对图像的内容分类，提高了后续使用采集图像时的效率。

另外，终端(示例性示出了终端400-1和终端400-2)在采集图片后，可以选择在终端本地进行上述处理，而不是将采集的图像发送到服务器200，在终端本地进行对图像中对象姿态的识别，将多个图像添加至与多个不同的对象姿态一一对应的图像集合，以加快图像处理的速度，避免网络延迟带来的影响。

在一些实施例中，参见图4，图4示出的是本申请实施例提供的图像处理方法的流程示意图，图3中的步骤101可以通过步骤1011-1012实现，在步骤1011中，将针对对象所采集的多个图像分别与姿态模板进行匹配，以识别出每个图像中的对象姿态；在步骤1012中，根据每个图像中的对象姿态，将每个图像添加至与对象姿态对应的图像集合。下面具体说明。

为了识别出图像中的对象姿态，将采集的每个图像分别与姿态模板进行匹配，其中，姿态模板可以是对象的完整立体图像，例如完整的躯体立体图像，也可以是对象的某一部分的立体图像，例如脸部立体图像、四肢立体图像等，在匹配时可以共用一个姿态模板，也可以根据图像自适应的选择合适的姿态模板进行匹配。

示例性的，为了将针对对象所采集的多个图像分别与姿态模板进行匹配，以识别出每个图像中的对象姿态，可以针对采集到的每个图像实时执行以下处理：确定图像中的关键点；确定关键点相对于姿态模板中对应点的旋转值；根据旋转值，确定图像中的对象姿态。

当采集到对象的图像后，在图像中确定图像的关键点，关键点是可以表征对象特征的点，以对象为脸部为例，关键点可以包括：脸部轮廓点、表征五官(眉、眼、耳、鼻、口)形状的点，关键点的确定方法在本申请实施例中不进行限定。随后，确定姿态模板中与关键点对应的点，然后可以利用透视多点算法(PnP，Perspective-n-Point))算法来获取关键点相对于姿态模板中对应点的旋转值，并根据旋转值来确定图像中的对象姿态。

示例性的，可以根据旋转值，确定图像中的对象姿态，通过获取多个对象姿态中每个对象姿态对应的旋转角度区间；将包括旋转值的旋转角度区间对应的对象姿态，确定为图像中的对象姿态。当图像中的旋转值不满足任一对象的旋转角度区间时，删除这一图像。

举例来说，当获取关键点相对于姿态模板中对应点的旋转值后，获取多个对象姿态中每个对象姿态对应的旋转角度区间，例如，对象姿态A的旋转角度区间为绕z轴旋转10-50度，对象姿态B的旋转角度区间为绕z轴旋转-10到-50度，对象姿态C的旋转角度区间为绕y轴旋转10到-10度。当图像的旋转值为绕z轴旋转25度时，则图像被添加到对象姿态A的图像集合中。当图像的旋转值不属于上述三个区间中任一一个时，将该图像进行删除，以节省存储空间。

通过在采集图像时实时将图像与姿态模板进行匹配以识别出每个图像中的对象姿态，一方面，通过实时处理可以提高图像处理的效率；另一方面，通过与姿态模板进行匹配，可以简便快捷的识别出图像中的对象姿态，并且不需要提前预训练和部署识别模型，降低了成本，便于实施。

在另一些实施例中，为了将多个图像添加至与多个对象姿态一一对应的图像集合，可以通过预训练的机器学习模型对所采集的多个图像分别进行分类，以确定每个图像中的对象姿态；根据每个图像中的对象姿态，将每个图像添加至与对象姿态对应的图像集合。

示例性的，预先使用图像数据集训练用于对象姿态分类的机器学习模型，其中，图像数据集中的样本为对象图像，标注为对象姿态，当单一对象的图像数据集不足时，可以使用多个对象的图像和标注共同组成训练用的图像数据集。并且，对图像进行分类的机器学习模型可以是逻辑回归、支持向量机、神经网络或者集成学习模型。

通过预先训练的机器学习模型来识别图像中的对象姿态，可以选择合适的分类模型并进行充分的训练，以提高对象姿态识别的准确率。

在一些实施例中，当对象为脸部时，在确定关键点相对于姿态模板中对应点的旋转值之前，还包括：确定关键点中表征眼睛上部的关键点和表征眼睛下部的关键点之间的第一距离；确定关键点中表征眼睛左端的关键点和表征眼睛右端的关键点之间的第二距离；当第一距离和第二距离的比值小于闭眼距离阈值时，确定图像出现闭眼现象，并删除图像。

当对象为脸部时，如果采集图像时对象发生了闭眼行为，则采集的图像无法体现对象的关键特征，属于无效图像，需要尽早进行识别并删除。为此，可以确定图像的关键点中表征眼睛上部的关键点和表征眼睛下部的关键点之间的第一距离，第一距离表征了眼睛睁开时的宽度，例如，可以将表征上眼皮的关键点确定为表征眼睛上部的关键点，将表征下眼皮的关键点确定为表征眼睛上部的关键点，以此来确定第一距离；然后确定关键点中表征眼睛左端的关键点和表征眼睛右端的关键点之间的第二距离，第二距离表征了眼睛两端的长度；当第一距离和第二距离的比值小于闭眼距离阈值时，说明图像中的对象出现了闭眼现象，从而删除发生了闭眼现象的图像。

当对象为脸部时，通过检测发生闭眼行为的图像并进行删除，可以尽早过滤掉无效的图像，降低图像集合的冗余度，提高图像处理的效率。

在一些实施例中，在识别出针对对象所采集的多个图像中的对象姿态，以将多个图像添加至与多个对象姿态一一对应的图像集合之后，还包括：当任一图像集合的图像数量小于数量阈值时，输出提示重新采集图像的信息，以采集对应的对象姿态的图像。

由于在采集图像时对象姿态可能不标准，例如对象闭眼，旋转值大于旋转角度区间等，导致在将图像添加至与多个对象姿态一一对应的图像集合之后，出现图像集合的图像数量小于数量阈值，例如，每一组图像集合的数量阈值为15，当图像集合的数量小于15时，无法确保这一图像集合对应的对象姿态采集到了有价值的图像，故而，输出提示重新采集图像的信息，以采集对应的对象姿态的图像。例如，可以通过终端(终端400-1和终端400-2)上的应用(示例性示出了应用410-1和应用410-2)来提示对象重新采集对应姿态的图像。

通过检测图像数量小于数量阈值的图像集合，并提示对象重新进行采集对应姿态的图像，使每一对象姿态的图像集合拥有一定数量的图像，以保证每一对象姿态均能选择出高质量的图像。

在步骤102中，从第一姿态的图像集合中识别出第一姿态的基准图像，其中，第一姿态为所述对象姿态中的任意一个。

在将多个图像添加至与多个对象姿态一一对应的图像集合后，从多个图像集合中，选择出第一姿态对应的图像集合，其中，第一姿态可以是使用频率最高的姿态，例如正脸图像，站立姿势图像等。接着，从第一姿态对应的图像集合中选择出基准图像，基准图像是第一姿态对应的图像集合中图像质量最高的一个或多个图像。通过预先选择出第一姿态对应的质量最高的图像，提高图像使用时的速度和效率。

在一些实施例中，参见图4，图4示出的是本申请实施例提供的图像处理方法的流程示意图，图3中的步骤102可以通过步骤1021-1023实现，在步骤1021中，确定第一姿态的图像集合中每个图像的方差；在步骤1022中根据第一姿态的图像集合中每个图像的方差，确定对应图像的运动模糊评分；在步骤1023中，将第一姿态的图像集合中运动模糊评分最小的图像作为第一姿态的基准图像。

其中，运动模糊评分表征了图像的模糊程度，图像的运动模糊评分越低，图像越清晰；图像的运动模糊评分越高，图像越模糊。

示例性的，可以针对第一姿态的图像集合中每个图像执行以下处理：确定图像的灰度图；对图像的灰度图进行卷积处理，得到图像对应的梯度图；确定图像的梯度图的方差，并作为图像的方差。

举例来说，通过对采集的图像的通道进行加权，得到图像的灰度图，然后使用拉普拉斯算子对灰度图进行卷积处理，得到处理后的梯度图，接着获取梯度图中的所有梯度的方差，可以将方差的倒数作为对应图像的运动模糊评分。其中，图像的方差越大，说明图像边界越清晰，则图像的运动模糊评分越低，图像的方差越小，说明图像边界越模糊，则图像的运动模糊评分越高。

通过图像的方差来判断图像边界的清晰程度，并以此选择基准图像，保证了基准图像的清晰度，提高了基准图像集合的质量。

在步骤103中，根据第一姿态的基准图像与第二姿态的图像集合中的图像的投影的匹配程度，从第二姿态的图像集合中识别出第二姿态的基准图像；其中，第二姿态为多个对象姿态中区别于第一姿态的任意一个。

在一些实施例中，参见图4，图3中的步骤103可以通过步骤1031-1033实现，在步骤1031中，根据第一姿态的基准图像与第二姿态的图像集合中的图像的投影的匹配程度，确定第二姿态的图像集合中的图像的刚性检验分数；在步骤1032中，将第二姿态的图像集合中刚性检验分数小于误差阈值的图像删除，并在步骤1033中，根据刚性检验分数，从第二姿态的图像集合中识别出第二姿态的基准图像。下面具体说明。

示例性的，为了根据刚性检验分数，从第二姿态的图像集合中识别出第二姿态的基准图像，可以确定第二姿态的图像集合中每个图像的方差；根据第二姿态的图像集合中每个图像的方差，确定对应图像的运动模糊评分；根据第二姿态的图像集合中每个图像的刚性检验分数和运动模糊评分，识别出第二姿态的基准图像。

举例来说，在确定第一姿态的基准图像与第二姿态的图像集合中的图像的投影的匹配程度后，可以根据匹配程度来确定第二姿态的图像集合中的图像的刚性检验分数，图像与第一姿态的基准图像的匹配程度越高，刚性检验分数越高，图像与第一姿态的基准图像的匹配程度越低，刚性检验分数越低。为了使得第二姿态的基准图像的选择更为准确，可以确定第二姿态的图像集合中每个图像的运动模糊评分，运动模糊评分的确定方法和第一姿态的基准图像相同，并结合每个图像的刚性检验分数和运动模糊评分，识别出第二姿态的基准图像。例如，通过刚性检验分数和运动模糊评分的差值，由于刚性检验分数越高，说明图像的质量越高，而运动模糊评分越低，说明图像越清晰，因此，刚性检验分数和运动模糊评分的差值越大，体现图像的质量越高；也可以先使用刚性检验分数过滤掉明显误差的图像，然后通过运动模糊评分来选择第二姿态的基准图像。

通过结合第二姿态的图像集合中每个图像的刚性检验分数和运动模糊评分，识别出第二姿态的基准图像，既考虑到了图像中有效点的数量，也考虑了图像的清晰度，有效提高了第二姿态的基准图像的识别准确度。

在一些实施例中，为了确定第一姿态的基准图像与第二姿态的图像集合中的图像的投影的匹配程度，在根据第一姿态的基准图像与第二姿态的图像集合中的图像的投影的匹配程度，确定第二姿态的图像集合中的图像的刚性检验分数之前，还包括：对第一姿态的基准图像进行投影，得到第一姿态的基准立体图像；针对第二姿态的图像集合中的每个图像执行以下处理：对第二姿态的图像集合中的每个图像进行投影，得到对应的第二姿态立体图像；确定第一姿态的基准立体图像和第二姿态立体图像之间的映射关系；根据第二姿态立体图像中满足映射关系的图像点的数量，确定第一姿态的基准图像与第二姿态的图像集合中的图像的投影的匹配程度。

其中，为了对第一姿态的基准图像进行投影，得到第一姿态的基准立体图像，可以确定第一姿态的基准图像的图像深度信息；根据图像深度信息、第一姿态的基准图像的关键点以及图像采集参数，对第一姿态的基准图像进行投影，以得到第一姿态的基准立体图像。

其中，为了对第二姿态的图像集合中的每个图像进行投影，得到对应的第二姿态立体图像，可以确定第二姿态的图像的图像深度信息；根据图像深度信息、第二姿态的基准图像的关键点以及图像采集参数，对第二姿态的图像进行投影，以得到第二姿态立体图像。

举例来说，以对象为脸部为例，假设对象姿态分别为正脸、左边，右边和抬头四组，其中，第一姿态为正脸，左边，右边和抬头均为第二姿态，当识别出正脸的基准图像后，可以根据正脸的基准图像的关键点、正脸基准图像的图像深度信息以及图像采集参数，将正脸的基准图像投影成立体图像，即第一姿态的基准立体图像。接着，可以使用同样的方式确定左边，右边和抬头三组对象姿态中每个图像的第二姿态立体图像。假设，正脸的基准图像的立体投影图像中的有一点A，左边对应的图像集合中的样本图像的立体投影图像中的有一点B，在真实场景中，A点与B点对应对象脸部上的同一点，则A点与B点之间存在旋转和平移的关系，B点通过一定的旋转和平移可以和A点重合，即，A点与B点可以构建如下方程：

A＝R*B+T

其中，R为旋转系数，T为平移系数。

通过正脸的基准图像的立体投影图像和样本图像的立体投影图像中的多对类似于A、B的对应点，对上述方程进行拟合，可以确定R、T的值，进而确定出正脸的基准立体图像和样本图像的立体图像之间的映射关系，再根据满足上述方程的图像点的数量来确样本图像与正脸基准图像之间的投影的匹配程度。例如，正脸的基准图像和样本图像的关键点的数量均为100，其中，满足拟合后的上述方程的点的数量为80，则匹配程度为0.8。接着，对左边对应的图像集合中的每一个图像进行同样的处理，得到每一个图像与正脸的基准图像的匹配程度。

通过获取第一姿态基准图像和第二姿态图像之间的关系方程，可以清晰的确定第一姿态基准图像和第二姿态图像之间能够满足关系方程的图像点的数量，满足关系方程的图像点可以视为图像中的有效点，进而根据满足关系方程的图像点的数量确定第一姿态的基准图像与第二姿态的图像集合中的图像的投影的匹配程度，提高匹配程度的准确度和可解析性，

在步骤104中，根据第一姿态的基准图像和第二姿态的基准图像，构建对象的基准图像集合。

通过添加各个对象姿态的基准图像，构建了对象的基准图像集合，可以用于各种场景下的图像处理应用。例如，基于不同对象姿态的脸部基准图像进行人脸三维重建，以适用于不同场景下的互动娱乐需求。在游戏、宣发等场景中可准确重建出人脸的三维模型，用于构建逼真的游戏人物属性。在日常对话交流场景下，重建出来的三维人脸模型可用于定制专属的颜文字和表情基，以生成各种微妙的表情，增强聊天的趣味性。重建出来的三维人脸模型还可以用于虚拟美妆、虚拟试衣、虚拟人物形象等广泛的娱乐场景。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

用户终端中的应用(例如社交应用、短视频应用等)可以通过终端摄像头采集用户不同脸部姿态的图像，并对采集的不同脸部姿态的图像进行筛选，得到每个姿态对应的高质量图像(基准图像)，根据多个脸部姿态的基准图像可以生成用户不同的表情动作，例如张嘴，闭嘴，眨眼等的动作效果，以使用户可以在社交聊天中使用生成的模拟表情包，也可以促使用户将生成的动作表情分享在好友和网络平台中。

参见图5，图5示出的是本申请实施例提供的脸部图像处理示意图。本申请实施例提供的图像处理方法，可以分为501，粗筛阶段,502，精筛阶段两个阶段，由粗筛倒精筛的进行处理，粗筛阶段可以在采集图像时实时进行处理，精筛阶段在采集图像完成后进行离线处理，下面分别介绍。

参见图6A-6B，图6A示出的是本申请实施例提供的图像处理方法的图像采集示意图，假设，使用能获取图像深度信息的手机作为数据采集设备，开始采集数据时，用户人脸正对前置摄像头，如图6A中604所示，使得前置摄像头可以清楚的显示出完整的人脸区域，然后按照向左转头(如图6A中603所示)—向右转回中间—向右转头(如图6A中602所示)—向左转回中间—抬头(如图6A中601所示)的顺序转动头部，尽量保持脸部表情不变，参见图6B，图6B示出的是本申请实施例提供的图像处理方法的图像采集示意图，采集后保存下整个头部转动过程中人脸的深度图像(RGBD，Red-Green-Blue+Depth Map)序列，示例性的，采集的RGB图像如图6B中605-618所示，采集的图像深度信息如图6B中619-632所示。

在粗筛阶段，一边采集RGBD图像一边对每一张图像进行如下操作：步骤A：检测脸部关键点(landamrk)。步骤B：进行闭眼筛选，去除掉闭眼的图像C：和预设的通用立体模板点，通过PnP的方式计算出相对于立体模板点的旋转值和平移值。D通过旋转值来把当前图像分组。

根据后续的图像处理应用的需要，设置4个对象姿态组：正脸，左边，右边，抬头，每一组对应一个图像集合。参见图7，图7示出的是本申请实施例提供的对象姿态分组示意图，判断标准是人头向上方向为z轴，正脸面向x轴，则绕z轴旋转10-50度算作左边，绕z轴旋转-10到-50算右边，绕y轴旋转10到-10之间算正脸。可以根据实际需求自适应制定划分组数。其中，没有落在这个范围内的图像由于旋转值太大直接删除。如果某组数据过少(图像少于3张)，可能是用户没有拍这个角度，或者全程闭眼都被删掉了。那么这整个数据都无效，提示用户重新拍摄。

其中，参见图8，图8示出的是本申请实施例提供的脸部关键点示意图，可以使用landmark检测闭眼，图8中示出了102个标志出来的关键点。

根据52、53、54、55、56、57、58、59号人脸标志点之间的坐标关系，按照如下公式判断左眼是否存在闭眼现象：

其中d_left代表左眼上下眼皮上的标志点之间的距离和左眼眼角两端标志点距离之间的比值，l_i(i＝52、53、54、55、56、57、58、59)代表编号为i的标志的坐标，D_threshold为设定的闭眼距离阈值，当d_left小于该阈值时即判断存在闭眼现象。

同理可得，61、62、63、64、65、66、67号人脸标志点之间的坐标关系，判断右眼是否存在闭眼现象的公式如下：

其中d_right代表右眼上下眼皮上的标志点之间的距离和右眼眼角两端标志点距离之间的比值，l_i(i＝60、61、62、63、64、65、66、67)代表编号为i的标志的坐标，D_threshold为设定的闭眼距离阈值，当d_right小于该阈值时即判断存在闭眼现象。

在精筛阶段，精筛阶段的目的是为了在正脸，左边，右边，抬头这四组对象姿态中每一组选出质量最好的一张图像，即基准图像。这一步可以在整个图像采集结束之后离线进行。

步骤A：首先选择正脸的基准图像，对正脸组中每一图像进行运动模糊评分并进行排序，排序后选择出运动模糊评分最小的图像作为正脸的基准图像(第一姿态的基准图像)。

步骤B：当选出正脸的基准图像后，对于左右侧脸和抬头每一组分别筛选出质量最好的图像。对每一组中的所有图像，分别和正脸的基准图像进行刚性检验，删去明显误差的图像，剩下的图像计算运动模糊评分，综合刚性检验的分数和运动模糊的分数选出质量最好的图像(第二姿态的基准图像)。

当后续应用需要图片数量超过4张时，可以在正脸，左边，右边，抬头这四组中分别选出综合分数最好的前N张图像(N为大于1的正整数)，也可以在每组中划分角度，例如每10度中使用上述方法选出质量最好的图像。

其中，运动模糊评分的确定方法如下，对于一张彩色图像，先转换成灰度图，然后进行边缘检测。这里，边缘检测可以直接使用拉普拉斯-高斯方法(Log，laplacian withGaussian)。计算图像的方差从而得到模糊值，由于判断图像是模糊还是清晰很难有准确的标准，因此可以通过相对值来判断。例如，一个图像越模糊则边缘越模糊，即图像的方差会越小，运动模糊评分就越高。

其中，刚性检验的方法如下，以左边为例，对于对应的深度图和图像land amrk和相机参数，可以反投影出图像对应的立体点。把正脸帧和左边对应的所有图像的立体点都反投影出来。正脸帧的立体点A，左边侧脸上的立体点为B。由于两者对应脸部上同一点，即两者之间存在旋转平移的关系，则可以构建如下的方程：A＝R*B+T，其中，R为旋转系数R，T为平移系数，对于标志出的102个landmark点的投影立体点，通过上式使用随机一致性采样(RAN SAC，Random Sample Consensus)的方式进行计算，从而得到旋转系数R，平移系数T，同时可以筛选出内点inliner，记录下inliner的数目，inliner数量最多的就是刚性检验分数最高的图像。

当对图像进行筛选得到多个脸部姿态的基准图像后，可以根据多个脸部姿态的基准图像来构建基准图像集合，并基于脸部的基准图像集合来重建一组可以驱动的脸部表情基，通过结合渲染引擎，设定不同的表情系数，可以使表情基生成不同的表情动作，例如张嘴，闭嘴，眨眼等的动作效果，以使用户可以在社交聊天中使用生成的模拟表情包，例如定制专属的表情包，给聊天内容添加表情特效，也可以促使用户将生成的动作表情分享在好友和网络平台中，还可以用于虚拟美妆、虚拟试衣、虚拟人物形象等广泛场景中。

下面继续说明本申请实施例提供的图像处理装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的图像处理装置255中的软件模块可以包括：

识别模块2551，用于识别出针对对象所采集的多个图像中的对象姿态，以将所述多个图像添加至与多个对象姿态一一对应的图像集合；

第一姿态处理模块2552，用于从第一姿态的图像集合中识别出所述第一姿态的基准图像，其中，所述第一姿态为所述多个对象姿态中的任意一个；

第二姿态处理模块2553，用于根据所述第一姿态的基准图像与第二姿态的图像集合中的图像的投影的匹配程度，从所述第二姿态的图像集合中识别出所述第二姿态的基准图像；其中，所述第二姿态为所述多个对象姿态中区别于所述第一姿态的任意一个；

整合模块2554，用于根据所述第一姿态的基准图像和所述第二姿态的基准图像，构建所述对象的基准图像集合。

在一些实施例中，所述识别模块，还用于将针对对象所采集的多个图像分别与姿态模板进行匹配，以识别出每个所述图像中的对象姿态；根据每个所述图像中的对象姿态，将每个所述图像添加至与所述对象姿态对应的图像集合。

在一些实施例中，所述识别模块，还用于针对采集到的每个图像实时执行以下处理：确定所述图像中的关键点；确定所述关键点相对于所述姿态模板中对应点的旋转值；根据所述旋转值，确定所述图像中的对象姿态。

在一些实施例中，所述识别模块，还用于获取所述多个对象姿态中每个对象姿态对应的旋转角度区间；将包括所述旋转值的旋转角度区间对应的对象姿态，确定为所述图像中的对象姿态。

在一些实施例中，所述识别模块，还用于确定所述关键点中表征眼睛上部的关键点和表征眼睛下部的关键点之间的第一距离；确定所述关键点中表征眼睛左端的关键点和表征眼睛右端的关键点之间的第二距离；当所述第一距离和所述第二距离的比值小于闭眼距离阈值时，确定所述图像出现闭眼现象，并删除所述图像。

在一些实施例中，所述图像处理装置还包括：提醒模块2555(图2中未示出)，用于当任一所述图像集合的图像数量小于数量阈值时，输出提示重新采集图像的信息，以采集对应的对象姿态的图像。

在一些实施例中，所述第一姿态处理模块，还用于确定所述第一姿态的图像集合中每个图像的方差；根据所述第一姿态的图像集合中每个图像的方差，确定对应图像的运动模糊评分；将所述第一姿态的图像集合中运动模糊评分最小的图像作为所述第一姿态的基准图像。

在一些实施例中，所述第一姿态处理模块，还用于针对所述第一姿态的图像集合中每个图像执行以下处理：确定所述图像的灰度图；对所述图像的灰度图进行卷积处理，得到所述图像对应的梯度图；确定所述图像的梯度图的方差，并作为所述图像的方差。

在一些实施例中，所述第二姿态处理模块，还用于根据所述第一姿态的基准图像与所述第二姿态的图像集合中的图像的投影的匹配程度，确定所述第二姿态的图像集合中的图像的刚性检验分数；将所述第二姿态的图像集合中刚性检验分数小于误差阈值的图像删除，并根据所述刚性检验分数，从所述第二姿态的图像集合中识别出所述第二姿态的基准图像。

在一些实施例中，所述第二姿态处理模块，还用于确定所述第二姿态的图像集合中每个图像的方差；根据所述第二姿态的图像集合中每个图像的方差，确定对应图像的运动模糊评分；根据所述第二姿态的图像集合中每个图像的刚性检验分数和运动模糊评分，识别出所述第二姿态的基准图像。

在一些实施例中，所述第二姿态处理模块，还用于对所述第一姿态的基准图像进行投影，得到第一姿态的基准立体图像；针对所述第二姿态的图像集合中的每个图像执行以下处理：对所述第二姿态的图像集合中的每个图像进行投影，得到对应的第二姿态立体图像；确定所述第一姿态的基准立体图像和所述第二姿态立体图像之间的映射关系；根据所述第二姿态立体图像中满足所述映射关系的图像点的数量，确定所述第一姿态的基准图像与所述第二姿态的图像集合中的图像的投影的匹配程度。

在一些实施例中，所述第二姿态处理模块，还用于确定所述第一姿态的基准图像的图像深度信息；根据所述图像深度信息、所述第一姿态的基准图像的关键点以及图像采集参数，对所述第一姿态的基准图像进行投影，以得到第一姿态的基准立体图像。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例具有以下有益技术效果：

(1)通过识别对象姿态对图像进行内容分类，并选择出每一对象姿态对应的基准图像来构建基准图像集合，实现了全自动的图像集合构建，不需要任何手动参与，降低了图像处理的成本。

(2)通过在采集时实时识别对象姿态，并删除姿态不符合旋转角度区间，以及闭眼等行为的图像，加快了图像处理的速度，也提高了图像处理的效率。

(3)通过先选择出第一姿态的基准图像，然后根据第一姿态的基准图像来选择第二姿态的基准图像，提高了基准图像选择的准确度，同时降低了基准图像选择时的计算量。

(4)本申请实施例中每一对象姿态基准图像的数量可以自适应设定，能和后续基于基准图像集合的应用需求耦合，提升了图像处理的智能化水平，也提高了图像处理的效率。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述识别出针对对象所采集的多个图像中的对象姿态，以将所述多个图像添加至与多个对象姿态一一对应的图像集合，包括：

将针对对象所采集的多个图像分别与姿态模板进行匹配，以识别出每个所述图像中的对象姿态；

根据每个所述图像中的对象姿态，将每个所述图像添加至对应的图像集合。

3.根据权利要求2所述的方法，其特征在于，所述将针对对象所采集的多个图像分别与姿态模板进行匹配，以识别出每个所述图像中的对象姿态，包括：

针对采集到的每个图像执行以下处理：

确定所述图像中的关键点；

确定所述关键点相对于所述姿态模板中对应点的旋转值；

根据所述旋转值，确定所述图像中的对象姿态。

4.根据权利要求3所述的方法，其特征在于，所述根据所述旋转值，确定所述图像中的对象姿态，包括：

获取所述多个对象姿态中每个对象姿态对应的旋转角度区间；

将包括所述旋转值的旋转角度区间对应的对象姿态，确定为所述图像中的对象姿态。

5.根据权利要求3所述的方法，其特征在于，当所述对象为脸部时，在所述确定所述关键点相对于所述姿态模板中对应点的旋转值之前，还包括：

确定所述关键点中表征眼睛上部的关键点和表征眼睛下部的关键点之间的第一距离；

确定所述关键点中表征眼睛左端的关键点和表征眼睛右端的关键点之间的第二距离；

当所述第一距离和所述第二距离的比值小于闭眼距离阈值时，确定所述图像出现闭眼现象，并删除所述图像。

6.根据权利要求1至5任一项所述的方法，其特征在于，在所述识别出针对对象所采集的多个图像中的对象姿态，以将所述多个图像添加至与多个对象姿态一一对应的图像集合之后，还包括：

当任一所述图像集合的图像数量小于数量阈值时，输出提示重新采集图像的信息，以采集对应的对象姿态的图像。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述从第一姿态的图像集合中识别出所述第一姿态的基准图像，包括：

确定所述第一姿态的图像集合中每个图像的方差；

根据所述第一姿态的图像集合中每个图像的方差，确定对应图像的运动模糊评分；

将所述第一姿态的图像集合中运动模糊评分最小的图像作为所述第一姿态的基准图像。

8.根据权利要求7所述的方法，其特征在于，所述确定所述第一姿态的图像集合中每个图像的方差，包括：

针对所述第一姿态的图像集合中每个图像执行以下处理：

确定所述图像的灰度图；

对所述图像的灰度图进行卷积处理，得到所述图像对应的梯度图；

确定所述图像的梯度图的方差，并作为所述图像的方差。

9.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述第一姿态的基准图像与第二姿态的图像集合中的图像的投影的匹配程度，从所述第二姿态的图像集合中识别出所述第二姿态的基准图像，包括：

根据所述第一姿态的基准图像与所述第二姿态的图像集合中的图像的投影的匹配程度，确定所述第二姿态的图像集合中的图像的刚性检验分数；

将所述第二姿态的图像集合中刚性检验分数小于误差阈值的图像删除，并

根据所述刚性检验分数，从所述第二姿态的图像集合中识别出所述第二姿态的基准图像。

10.根据权利要求9所述的方法，其特征在于，所述根据所述刚性检验分数，从所述第二姿态的图像集合中识别出所述第二姿态的基准图像，包括：

确定所述第二姿态的图像集合中每个图像的方差；

根据所述第二姿态的图像集合中每个图像的方差，确定对应图像的运动模糊评分；

根据所述第二姿态的图像集合中每个图像的刚性检验分数和运动模糊评分，识别出所述第二姿态的基准图像。

11.根据权利要求9所述的方法，其特征在于，在所述确定所述第二姿态的图像集合中的图像的刚性检验分数之前，还包括：

对所述第一姿态的基准图像进行投影，得到第一姿态的基准立体图像；

针对所述第二姿态的图像集合中的每个图像执行以下处理：

对所述第二姿态的图像集合中的每个图像进行投影，得到对应的第二姿态立体图像；

确定所述第一姿态的基准立体图像和所述第二姿态立体图像之间的映射关系；

根据所述第二姿态立体图像中满足所述映射关系的图像点的数量，确定所述第一姿态的基准图像与所述第二姿态的图像集合中的图像的投影的匹配程度。

12.根据权利要求11所述的方法，其特征在于，所述对所述第一姿态的基准图像进行投影，得到第一姿态的基准立体图像，包括：

确定所述第一姿态的基准图像的图像深度信息；

根据所述图像深度信息、所述第一姿态的基准图像的关键点以及图像采集参数，对所述第一姿态的基准图像进行投影，以得到第一姿态的基准立体图像。

13.一种图像处理装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现权利要求1至12任一项所述的图像处理方法。

15.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令被执行时用于实现权利要求1至12任一项所述的图像处理方法。