CN113489897A

CN113489897A - 图像处理方法及相关装置

Info

Publication number: CN113489897A
Application number: CN202110723162.8A
Authority: CN
Inventors: 潘睿
Original assignee: Hangzhou Douku Software Technology Co Ltd
Current assignee: Hangzhou Douku Software Technology Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-10-08
Anticipated expiration: 2041-06-28
Also published as: CN113489897B

Abstract

本申请提供一种图像处理方法及相关装置，方法包括：获取第一图像中的第一检测框和第二图像中的第二检测框，以及第一检测框中第一被拍摄对象的第一关键点和第二检测框中第二被拍摄对象的第二关键点；根据第一检测框、第二检测框、第一关键点以及第二关键点，确定第一检测框与第二检测框的匹配情况，匹配情况用于指示被拍摄对象在前后两帧图像中被拍摄的状态；根据匹配情况确定第一图像的姿态估计结果，姿态估计结果包括检测框和检测框包含的关键点。本申请实施例提高设备进行姿态估计的效率和准确度。

Description

图像处理方法及相关装置

技术领域

本申请属于图像处理技术领域，具体涉及一种图像处理方法及相关装置。

背景技术

目前，由于实时框检测的精度都不会特别高，所以在预览帧中，每帧输出的框的位置都会有随机抖动，难以得到稳定的输出，而如果想要做框或者姿态点的平滑处理，就得找到前后帧中框对应的匹配关系，也就是多目标跟踪。另外，由于实时检测精度的问题，会经常发生在某一帧中某些框丢失，所以对于被跟踪拍摄的每个人，无法稳定的获取框的信息。

发明内容

本申请提供一种图像处理方法及相关装置，以期基于已有的关键点特征结合检测框的IOU，计算最大匹配框，无需耗费额外的时间提取特征进行匹配，提高设备进行姿态估计的效率和准确度。

第一方面，本申请提供一种图像处理方法，包括：

获取第一图像中的第一检测框和第二图像中的第二检测框，以及所述第一检测框中第一被拍摄对象的第一关键点和所述第二检测框中第二被拍摄对象的第二关键点，其中，所述第二图像为所述第一图像的前一帧图像，检测框用于指示对应的被拍摄对象在图像中的区域，关键点包括用于描述所述被拍摄对象的关键位置的像素点；

根据所述第一检测框、所述第二检测框、所述第一关键点以及所述第二关键点，确定所述第一检测框与所述第二检测框的匹配情况，所述匹配情况用于指示被拍摄对象在前后两帧图像中被拍摄的状态；

根据所述匹配情况确定所述第一图像的姿态估计结果，所述姿态估计结果包括检测框和所述检测框包含的关键点。

可以看出，本申请实施例中，设备能够根据第一图像中的第一检测框和第二图像中的第二检测框、第一检测框的第一关键点和第二检测框的第二关键点确定第一检测框与第二检测框的匹配情况，由于检测框和关键点都是姿态估计任务中的数据，从而设备无需耗费额外的时间提取其他图像特征进行匹配处理，有利于提高设备进行姿态估计的效率和准确度。

第二方面，本申请提供一种图像处理装置，包括：

获取单元，用于获取第一图像中的第一检测框和第二图像中的第二检测框，以及所述第一检测框中第一被拍摄对象的第一关键点和所述第二检测框中第二被拍摄对象的第二关键点，其中，所述第二图像为所述第一图像的前一帧图像，检测框用于指示对应的被拍摄对象在图像中的区域，关键点包括用于描述所述被拍摄对象的关键位置的像素点；

确定单元，用于根据所述第一检测框、所述第二检测框、所述第一关键点以及所述第二关键点，确定所述第一检测框与所述第二检测框的匹配情况，所述匹配情况用于指示被拍摄对象在前后两帧图像中被拍摄的状态；

所述确定单元，还用于根据所述匹配情况确定所述第一图像的姿态估计结果，所述姿态估计结果包括检测框和所述检测框包含的关键点。

第三方面，本申请提供一种电子设备，一个或多个处理器；

一个或多个存储器，用于存储程序，

所述一个或多个存储器和所述程序被配置为，由所述一个或多个处理器控制所述电子设备执行如本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请提供一种芯片，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第六方面，本申请提供一种计算机程序，其中，所述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序可以为一个软件安装包。

附图说明

图1是本申请实施例提供的一种电子设备100的结构示意图；

图2a是本申请实施例提供的一种图像处理方法的流程示意图；

图2b是本申请实施例提供的一种人体关节点的分布示意图；

图2c是本申请实施例提供的一种针对单个用户的姿态跟踪的示意图；

图2d是本申请实施例提供的另一种图像处理方法的流程示意图；

图3是本申请实施例提供的一种图像处理装置的功能单元组成框图；

图4是本申请实施例提供的另一种图像处理装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请中的“至少一个”指的是一个或多个，多个指的是两个或两个以上。本申请中和/或，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一(项)个”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a、b或c中的至少一项(个)，可以表示：a，b，c，a和b，a和c，b和c，或a、b和c，其中a、b、c中的每一个本身可以是元素，也可以是包含一个或多个元素的集合。

需要指出的是，本申请实施例中涉及的等于可以与大于连用，适用于大于时所采用的技术方案，也可以与小于连用，适用于与小于时所采用的技术方案，需要说明的是，当等于与大于连用时，不与小于连用；当等于与小于连用时，不与大于连用。本申请实施例中“的(of)”，“相应的(corresponding，relevant)”和“对应的(corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

首先，对本申请实施例中涉及的部分名词进行解释，以便于本领域技术人员理解。

1、电子设备。本申请实施例中电子设备是一种具有图像信号处理功能的设备，可以称为用户设备(user equipment，UE)、终端(terminal)、终端设备、移动台(mobilestation，MS)、移动终端(mobile terminal，MT)、接入终端设备、车载终端设备、工业控制终端设备、UE单元、UE站、移动站、远方站、远程终端设备、移动设备、UE终端设备、无线通信设备、UE代理或UE装置等。用户设备可以是固定的或者移动的。例如，用户设备可以是手机(mobile phone)、平板电脑(pad)、台式机、笔记本电脑、一体机、车载终端、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、蜂窝电话、无绳电话、会话启动协议(session initiationprotocol，SIP)电话、无线本地环路(wireless local loop，WLL)站、个人数字助理(personal digital assistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、可穿戴设备、未来移动通信网络中的终端设备或者未来演进的公共移动陆地网络(public land mobile network，PLMN)中的终端设备等。在本申请的一些实施例中，用户设备还可以是具有收发功能的装置，例如芯片***。其中，芯片***可以包括芯片，还可以包括其它分立器件。

2、人体姿态估计。本申请实施例中人体姿态估计是通过算法估计出图片中人体骨骼点的二维坐标或者三维坐标。

3、多目标跟踪。本申请实施例中多目标跟踪是指对多人进行持续的跟踪拍摄，在视频流或者预览帧中，能够稳定的对多人进行持续的跟踪，每个人的检测框的身份标识(Identity Document，ID)保持不变，这样有利于对前后帧的姿态估计结果做平滑处理，保持稳定的结果输出。

4、交并比(Intersection over Union，IOU)。本申请实施例中IOU是在目标检测中使用的一个概念，是当前帧图像中预测的检测框与前一帧图像中预测的检测框的重叠率；简单来说，即两个矩形框面积的交集和并集的比值；它是一个在特定数据集中检测相应物体准确度的测量标准。

5、KM(Kuhn-Munkras，人名，无中文释义)算法。本申请实施例中KM算法是一种计算机算法，功能是求完备匹配下的最大权匹配。在一个二分图内，左顶点为X，右顶点为Y，现对于每组左右连接XiYj有权重wij，求一种匹配使得所有wij的和最大。

目前，多目标跟踪一般分为两种，一种是只通过检测框的IOU进行匹配，例如交并比跟踪IoU Tracker算法，这种算法的效率很高，但是精度不够高，对于多个框有很大重叠区域时，会导致匹配错误，且很难纠正。而且这类方法强依赖于检测框的预测，如果中间出现丢框，则会无法匹配。另一种是加入了额外的特征，例如视觉交并比跟踪V-IoU Tracker算法，采用跟踪的方法，单独提取图片特征，再利用特征进行匹配，但是提取特征会增加额外的耗时。这些方法通常由于算法复杂度高实时性低只能处理离线视频，无法在线实时处理预览帧。

针对上述问题，本申请实施例提供一种图像处理方法及相关装置，以期基于已有的关键点特征结合检测框的IOU，计算最大匹配框，无需耗费额外的时间提取特征进行匹配，提高设备进行姿态估计的效率和准确度，下面结合附图进行说明。

请参阅图1，图1是本申请实施例提供的一种电子设备100的示意图。所述电子设备100包括应用处理器120、存储器130、通信模块140、以及一个或多个程序131，所述应用处理器120通过内部通信总线与所述存储器130、所述通信模块140均通信连接。

具体实现中，所述一个或多个程序131被存储在上述存储器130中，且被配置由上述应用处理器120执行，所述一个或多个程序131包括用于执行本申请实施例中电子设备所执行的部分或全部步骤的指令。

其中，所述通信模块140包括局域网无线通信模块和有线通信模块。

其中，应用处理器120例如可以是中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，单元和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。

所述存储器130可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，RAM)可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double datarate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

请参阅图2a，图2a是本申请实施例提供的一种图像处理方法的流程示意图，应用于车辆的电子设备100；如图所示，本图像处理方法包括以下步骤。

步骤201，获取第一图像中的第一检测框和第二图像中的第二检测框，以及所述第一检测框中第一被拍摄对象的第一关键点和所述第二检测框中第二被拍摄对象的第二关键点，其中，所述第二图像为所述第一图像的前一帧图像，检测框用于指示对应的被拍摄对象在图像中的区域，关键点包括用于描述所述被拍摄对象的关键位置的像素点。

示例的，所述第一检测框的数量可以是一个或多个，所述第二检测框的数量可以是一个或多个，此处不做唯一限定。所述第一被拍摄对象和所述第二被拍摄对象可以是同一个被拍摄对象也可以是不同被拍摄对象，此处不做唯一限定。

举例来说，假设第一被拍摄对象和第二被拍摄对象均为人体，则所述第一关键点和所述第二关键点可以为如图2b所示的人体的关节点中的任意一个。

步骤202，根据所述第一检测框、所述第二检测框、所述第一关键点以及所述第二关键点，确定所述第一检测框与所述第二检测框的匹配情况，所述匹配情况用于指示被拍摄对象在前后两帧图像中被拍摄的状态。

举例来说，如图2c所示，假设第一检测框和第二检测框均为一个，且第一被拍摄对象和第二被拍摄对象均为目标用户，则电子设备确定出的匹配情况可以是：第一检测框与第二检测框匹配。

步骤203，根据所述匹配情况确定所述第一图像的姿态估计结果，所述姿态估计结果包括检测框和所述检测框包含的关键点。

具体实现中，对于第一检测框和第二检测框的数量均为单个的情况；

若第一检测框与第二检测框匹配，则说明第一检测框和第二检测框对应同一个被姿态跟踪的对象，电子设备具体可以在预设的用于维护对象姿态信息的姿态跟踪集合中与第二检测框对应的姿态跟踪子集中添加第一检测框的真实信息，该真实信息具体可以包括第一图像的标识信息(例如帧号)、第一检测框的位置信息以及第一关键点的位置信息。所述姿态跟踪集合用于跟踪记录至少一个对象在连续帧中的姿态信息，姿态跟踪子集用于跟踪记录单个对象在连续帧中的姿态信息。

可以看出，本申请实施例中，设备能够根据第一图像中的第一检测框和第二图像中的第二检测框、第一检测框的第一关键点和第二检测框的第二关键点确定第一检测框与第二检测框的匹配情况，由于检测框和关键点都是姿态估计任务中的数据，从而设备无需耗费额外的时间提取其他图像特征进行匹配处理，计算量在毫秒级别，有利于提高设备进行姿态估计的效率和准确度。

在一个可能的实施例中，所述根据所述第一检测框、所述第二检测框、所述第一关键点以及所述第二关键点，确定所述第一检测框与所述第二检测框的匹配情况，包括：

计算至少一个检测框组合中每个检测框组合的两个检测框的交并比IOU以得到所述每个检测框组合的检测框匹配权重，所述至少一个检测框组合是按照如下方式划分所述第一检测框和所述第二检测框而得到的：一个第一检测框和一个第二检测框组成一个检测框组合；

其中，所述检测框匹配权重的数值可以等于所述检测框组合的交并比。

示例的，假设第一检测框的数量为N，第二检测框的数量为M，则检测框组合的数量为N*M，N、M均为正整数。

计算所述每个检测框组合的至少一个关键点组合中每个关键点组合的两个关键点的欧氏距离，并计算所述至少一个关键点组合的欧氏距离的和以得到所述每个检测框组合的关键点匹配权重，所述至少一个关键点组合是如下方式划分所述每个检测框组合中两个检测框的关键点而得到的：一个第一关键点和一个第二关键点组成一个关键点组合，且所述第二关键点的位置类型与所述一个第一关键点的位置类型一致；

其中，所述关键点匹配权重的数值可以等于至少一个关键点组合的至少一个欧氏距离的和。

示例的，如图2b所示，若检测框组合中第一关键点和第二关键点的数量为17个，则对应的，每个检测框组合包括的关键点组合的数量为17。

根据所述每个检测框组合的所述检测框匹配权重和所述关键点匹配权重确定所述每个检测框组合的参考匹配权重；

示例的，可以通过如下公式计算参考匹配权重：

V＝C1*Vbox+C2*Vjoint，

其中，V为参考匹配权重，Vbox为检测框匹配权重，Vjoint为关键点匹配权重，C1、C2为常数。

根据所述至少一个检测框组合的参考匹配权重进行二分图最大权匹配，得到所述第一检测框与所述第二检测框之间的匹配情况。

具体实现中，电子设备进行二分图最大权匹配的算法包括但不限于KM算法。

可见，本示例中，电子设备具体可以根据检测框和关键点计算出检测框匹配权重和关键点匹配权重，并综合检测框匹配权重和关键点匹配权重计算出参考匹配权重，最后根据参考匹配权重进行二分图最大权匹配，得到检测框之间的匹配情况，无需耗费额外的时间提取特征进行匹配，提高效率和准确度。

在一个可能的实施例中，所述匹配情况包括以下至少一种：

目标匹配权重大于或等于预设匹配权重的第一检测框组合，所述目标匹配权重为所述第一检测框组合经过所述二分图最大权匹配处理后得到的匹配权重，所述第一检测框组合属于所述至少一个检测框组合；

所述目标匹配权重小于所述预设匹配权重的第二检测框组合，所述第二检测框组合属于所述至少一个检测框组合；

未匹配到任何第二检测框的第一检测框a1；以及，

未与任何第一检测框匹配的第二检测框b1。

其中，所述预设匹配权重可以是预先设置的经验值。

可见，本示例中，电子设备能够对第一检测框和第二检测框的匹配情况进行准确的分类，从而针对不同分类结果进行针对性的处理，提高准确度和精细化程度。

在一个可能的实施例中，所述根据所述匹配情况确定所述第一图像的姿态估计结果，包括：

针对所述第一检测框组合，将所述第一检测框组合中的第一检测框a2的真实信息添加至与所述第二检测框b2对应的姿态跟踪子集B2中，所述真实信息包括所述第一图像的标识信息、检测框的位置信息以及所述检测框中关键点的位置信息；

其中，所述第一检测框组合的数量可以是一个或者多个，每个第一检测框组合所包含的检测框的影像对应同一个对象被跟踪拍摄的影像，即第一检测框组合中的第一检测框a2与第二检测框b2对应同一个对象，因此将当前图像帧即第一图像的第一检测框a2的真实信息添加至用于跟踪记录对应对象的影像信息的姿态跟踪子集B2，就可以实现对该对象的姿态的跟踪记录。

针对所述第二检测框组合，为所述第二检测框组合中的第一检测框a3创建对应的姿态跟踪子集A3，并存储所述第二检测框组合中的第一检测框a3的真实信息；

其中，所述第二检测框组合的数量可以是一个或者多个，由于第二检测框组合的目标匹配权重小于预设匹配权重，电子设备确定第二检测框组合的第一检测框a3与第一检测框b3并不匹配，从而第一检测框a2未能够找出前一帧中存在的与之匹配的检测框，因此需要为第一检测框a3创建对应的姿态跟踪子集A3，并存储第一检测框a3的真实信息以实现对第一检测框a3所对应的对象的姿态的跟踪记录。

针对所述第一检测框a1，为所述第一检测框a1创建对应的姿态跟踪子集A1，并存储所述第一检测框a1的真实信息。

可见，本示例中，电子设备能够针对当前帧新拍摄到的对象和前一帧已经拍摄到的对象的姿态估计结果进行记录，确保当前帧被拍摄到的每个对象的姿态估计结果不会被遗漏，提高设备进行对象姿态跟踪的准确度。

在一个可能的实施例中，所述方法还包括：针对所述第二检测框组合，将所述第二检测框组合中的第二检测框b3所对应的姿态跟踪子集B3的计数标识的数值增加1，并在所述姿态跟踪子集B3中添加所述第二检测框b3的补偿信息，所述补偿信息包括所述第一图像的标识信息、所述检测框b3的位置信息、以及所述检测框b3的关键点的位置信息；

判断所述姿态跟踪子集B3的所述计数标识的数值是否大于或等于预设数值；

若是，则在所述第一图像的姿态估计结果中删除所述姿态跟踪子集B3；

若否，则在所述姿态跟踪子集B3中添加所述第一图像的标识信息、所述第二检测框b3的位置信息和所述第二检测框b3的第二关键点的位置信息。

示例的，所述方法还包括：针对所述第一检测框组合，重置所述姿态跟踪子集B2的计数标识。

其中，所述预设数值可以是5、6、7、10等，此处不做唯一限定。

可见，本示例中，针对在当前帧中首次丢失检测框的对象，电子设备能够针对该对象的姿态跟踪子集进行丢失次数的统计，以及在当前帧中进行丢失姿态信息的补偿，避免针对以下情况进行误判：因电子设备的拍摄角度等问题在当前帧未能拍摄到对象、但对象实际还处于取景范围空间内的情况，有利于提高姿态跟踪的连续性和准确度。

在一个可能的实施例中，所述方法还包括：针对所述第二检测框b1，将与所述第二检测框b1对应的姿态跟踪子集B1的计数标识的数值增加1，并在所述姿态跟踪子集B1中添加所述第二检测框b1的补偿信息，所述补偿信息包括所述第一图像的标识信息、所述检测框b1的位置信息、以及所述检测框b1的关键点的位置信息。

其中，所述标识信息包括但不限于帧号等能够表征第一图像的时序位置的信息。

在一个可能的实施例中，所述方法还包括：获取预设的姿态跟踪集合中的至少一个姿态跟踪子集，所述至少一个姿态跟踪子集为所述姿态跟踪集合中除参考姿态跟踪子集之外的姿态跟踪子集，所述参考姿态跟踪子集是指与所述第一检测框和/或所述第二检测框关联的姿态跟踪子集，所述姿态跟踪集合用于记录被跟踪拍摄的对象的姿态估计结果；

针对所述至少一个姿态跟踪子集中每个姿态跟踪子集，执行如下操作：

将当前处理的姿态跟踪子集的计数标识的数值加1；

判断所述当前处理的姿态跟踪子集的所述计数标识的数值是否大于或等于预设数值；

若是，则在所述姿态跟踪集合中删除所述当前处理的姿态跟踪子集；

若否，则在所述当前处理的姿态跟踪子集中添加所述第一图像的标识信息、所述当前处理的姿态跟踪子集中与所述第二图像关联的检测框的位置信息以及所述检测框的关键点的位置信息。

可见，本示例中，针对连续多帧未检测到检测框的对象，电子设备能够通过统计方式进行智能检测和设置，具体针对未达到预设数值丢失次数的对象，持续统计丢失次数，并在当前帧中进行丢失姿态信息的补偿，针对已经达到预设数值丢失次数的对象，删除用于跟踪该对象的姿态跟踪子集，有利于提高姿态跟踪的连续性和准确度。

在一个可能的实施例中，所述获取第一图像中的第一检测框和第二图像中的第二检测框，以及所述第一检测框中第一被拍摄对象的第一关键点和所述第二检测框中第二被拍摄对象的第二关键点，包括：获取预存的姿态跟踪集合中与所述第二图像的标识信息对应的所述第二检测框和所述第二关键点；利用预先训练好的检测框预测模型处理所述第一图像，得到所述第一检测框，以及利用预先训练好的姿态估计预测模型处理所述第一检测框，得到所述第一关键点。

示例的，检测框预测模型和姿态估计预测模型可以是任意一种神经网络模型，此处不做唯一限定。

此外，电子设备在预测出检测框后，还可以通过非极大值抑制(Non-MaximumSuppression，NMS)算法进行进一步地筛选，以及时消除误检框，提高准确度。

可见，本示例中，电子设备能够通过姿态跟踪集合维护姿态跟踪的对象的姿态估计结果，且针对每帧图像可以先预测检测框，在根据检测框高效预测关键点，避免过多背景图像的干扰，提高准确度和效率。

在一个可能的实施例中，所述方法还包括：获取所述第二图像；利用所述检测框预测模型处理所述第二图像，得到所述第二检测框，以及利用所述姿态估计预测模型处理所述第二检测框，得到所述第二检测框的所述第二关键点；检测到所述第二图像为第一帧图像；为所述第二检测框创建所述姿态跟踪集合，并存储所述第二检测框的真实信息，所述真实信息包括所述第二图像的标识信息、所述第二检测框的位置信息和所述第二关键点的位置信息。

可见，本示例中，电子设备从第一帧图像开始为拍摄到的至少一个用户创建姿态跟踪集合，并为每个用户维护一个姿态跟踪子集以实现对该用户的每帧的姿态信息的连续记录，提高姿态跟踪的全面性和准确度。

下面结合具体应用示例对本申请的图像处理方法进行详细说明，假设电子设备进行姿态跟踪的对象为人体，姿态跟踪集合包括多个姿态跟踪子集，每个姿态跟踪子集包括对应的用户在至少一帧图像中检测框的信息，第二图像中用户包括用户a、用户b、用户c和用户d，第一图像中用户包括用户a、用户b、用户e和用户f，且用户和框的对应关系如下：

用户a对应的框包括第二图像中的框1和第一图像中的框4，

用户b的框包括第二图像中的框2和第一图像中的框5，

用户c的框包括第二图像中的框3，

用户d的框包括第二图像中的框7，

用户e的框包括第一图像中的框6，

用户f的框包括第一图像中的框8；

则如图2d所示，本申请实施例提供的图像处理方法包括以下步骤：

步骤2d01，电子设备预测第一图像中框4、框5、框6、框8的人体姿态关节点。

步骤2d02，电子设备判断出第一图像不是第一帧图像。

步骤2d03，电子设备两两一组计算出检测框组合的交并比IOU以得到检测框组合的检测框匹配权重Vbox。

具体的，框4相对于框1、框2、框3、框7的四个检测框组合的检测框匹配权重为Vbox4_1＝IOU4_1，Vbox4_2＝IOU4_2，Vbox4_3＝IOU4_3、Vbox4_7＝IOU4_7，IOUx_y为检测框组合[x，y]的交并比；

框5相对于框1、框2、框3、框7的四个检测框组合的检测框匹配权重为Vbox5_1＝IOU5_1，Vbox5_2＝IOU5_2，Vbox5_3＝IOU5_3，Vbox5_7＝IOU5_7；

框6相对于框1、框2、框3、框7的四个检测框组合的检测框匹配权重为Vbox6_1＝IOU6_1，Vbox6_2＝IOU6_2，Vbox6_3＝IOU6_3，Vbox6_7＝IOU6_7；

框8相对于框1、框2、框3、框7的四个检测框组合的检测框匹配权重为Vbox8_1＝IOU8_1，Vbox8_2＝IOU8_2，Vbox8_3＝IOU8_3，Vbox8_7＝IOU8_7。

步骤2d04，电子设备针对每个检测框组合，两两一组计算出姿态关节点的欧氏距离的和以得到关节点匹配权重Vjoint。

具体的，假设人体姿态关节点包括关节点1、关键点2，则：

检测框组合[框4，框1]关键点匹配权重Vjoint4_1＝Ρ41_1+Ρ41_2，Ρ表示欧氏距离，Ρxy_i表示检测框组合[框x，框y]的关键点i组合的欧式距离；

检测框组合[框4，框2]关键点匹配权重Vjoint4_2＝Ρ42_1+Ρ42_2；

检测框组合[框4，框3]关键点匹配权重Vjoint4_3＝Ρ43_1+Ρ43_2；

检测框组合[框4，框7]关键点匹配权重Vjoint4_7＝Ρ47_1+Ρ47_2；

检测框组合[框5，框1]关键点匹配权重Vjoint5_1＝Ρ51_1+Ρ51_2；

检测框组合[框5，框2]关键点匹配权重Vjoint5_2＝Ρ52_1+Ρ52_2；

检测框组合[框5，框3]关键点匹配权重Vjoint5_3＝Ρ53_1+Ρ53_2；

检测框组合[框5，框7]关键点匹配权重Vjoint5_7＝Ρ57_1+Ρ57_2；

检测框组合[框6，框1]关键点匹配权重Vjoint6_1＝Ρ61_1+Ρ61_2；

检测框组合[框6，框2]关键点匹配权重Vjoint6_2＝Ρ62_1+Ρ62_2；

检测框组合[框6，框3]关键点匹配权重Vjoint6_3＝Ρ63_1+Ρ63_2；

检测框组合[框6，框7]关键点匹配权重Vjoint6_7＝Ρ67_1+Ρ67_2；

检测框组合[框8，框1]关键点匹配权重Vjoint8_1＝Ρ81_1+Ρ81_2；

检测框组合[框8，框2]关键点匹配权重Vjoint8_2＝Ρ82_1+Ρ82_2；

检测框组合[框8，框3]关键点匹配权重Vjoint8_3＝Ρ83_1+Ρ83_2；

检测框组合[框8，框7]关键点匹配权重Vjoint8_7＝Ρ87_1+Ρ87_2。

步骤2d05，电子设备根据每个检测框组合的检测框匹配权重和关键点匹配权重计算每个检测框组合的参考匹配权重。

具体的，检测框组合[框4，框1]的参考匹配权重V4_1＝C1*Vbox4_1+C2*Vjoint4_1，

检测框组合[框4，框2]的参考匹配权重V4_2＝C1*Vbox4_2+C2*Vjoint4_2，

检测框组合[框4，框3]的参考匹配权重V4_3＝C1*Vbox4_3+C2*Vjoint4_3，

检测框组合[框4，框7]的参考匹配权重V4_7＝C1*Vbox4_7+C2*Vjoint4_7，

检测框组合[框5，框1]的参考匹配权重V5_1＝C1*Vbox5_1+C2*Vjoint5_1，

检测框组合[框5，框2]的参考匹配权重V5_2＝C1*Vbox5_2+C2*Vjoint5_2，

检测框组合[框5，框3]的参考匹配权重V5_3＝C1*Vbox5_3+C2*Vjoint5_3，

检测框组合[框5，框7]的参考匹配权重V5_7＝C1*Vbox5_7+C2*Vjoint5_7，

检测框组合[框6，框1]的参考匹配权重V6_1＝C1*Vbox6_1+C2*Vjoint6_1，

检测框组合[框6，框2]的参考匹配权重V6_2＝C1*Vbox6_2+C2*Vjoint6_2，

检测框组合[框6，框3]的参考匹配权重V6_3＝C1*Vbox6_3+C2*Vjoint6_3，

检测框组合[框6，框7]的参考匹配权重V6_7＝C1*Vbox6_7+C2*Vjoint6_7，

检测框组合[框8，框1]的参考匹配权重V8_1＝C1*Vbox8_1+C2*Vjoint8_1，

检测框组合[框8，框2]的参考匹配权重V8_2＝C1*Vbox8_2+C2*Vjoint8_2，

检测框组合[框8，框3]的参考匹配权重V8_3＝C1*Vbox8_3+C2*Vjoint8_3，

检测框组合[框8，框7]的参考匹配权重V8_7＝C1*Vbox8_7+C2*Vjoint8_7。

步骤2d06，电子设备根据KM算法，求解二分图最大权匹配，得到第一图像的检测框和第二图像的检测框之间的匹配情况。

其中，所述KM算法的输入包括：参考匹配权重V4_1、V4_2、V4_3、V4_7，V5_1、V5_2、V5_3、V6_7，V6_1、V6_2、V6_3、V6_7；

所述KM算法的输出包括：

检测框组合[框4，框1]的目标匹配权重V’4_1；

检测框组合[框5，框2]的目标匹配权重V’5_2；

检测框组合[框6，框3]的目标匹配权重V’6_3；

框8无匹配，框7无匹配，即框7与第一图像中的检测框均不匹配，框8是第一图像中存在的、且与第二图像中的检测框均不匹配的检测框。

步骤2d07，电子设备遍历匹配情况中的检测框，具体包括如下：

针对框4和框1，检测到V’4_1大于预设权重|V|，将框4的信息(标识信息、检测框位置和关节点的坐标)添加至姿态跟踪集合(具体可以是名称为Track的数组)中框1的姿态跟踪子集1中，并将姿态跟踪子集1的计数标识重置；

针对框5和框2，检测到V’5_2大于预设权重|V|，将框5的信息添加至姿态跟踪集合中框2的姿态跟踪子集2中，并将姿态跟踪子集2的计数标识重置；

针对框6和框3，检测到V’6_3小于预设权重|V|，在姿态跟踪集合中创建框6对应的姿态跟踪子集6，并将框6的信息添加至姿态跟踪子集6，以及，将姿态跟踪子集3的计数标识的数值加1；判断姿态跟踪子集3的所述计数标识的数值是否大于10次；

若姿态跟踪子集3的计数标识的数值大于或等于10次，则在姿态跟踪集合中删除姿态跟踪子集3；

若姿态跟踪子集3的计数标识的数值小于10次，则保持计数数值加1，且在姿态跟踪子集3中增加框3的补偿信息，该补偿信息包括第一图像的标识信息、检测框3的位置信息以及检测框3中关节点的坐标。

针对框8，在姿态跟踪集合中创建框8对应的姿态跟踪子集8，并将框8的信息添加至姿态跟踪子集8。

针对框7，框7对应的姿态跟踪子集7的计数标识加1，并判断计数标识的数值是否大于10次；

若姿态跟踪子集7的计数标识的数值大于或等于10次，则在姿态跟踪集合中删除姿态跟踪子集7；

若姿态跟踪子集7的计数标识的数值小于10次，则保持计数数值，且在姿态跟踪子集7中增加框7的补偿信息，该补偿信息包括第一图像的标识信息、检测框7的位置信息以及检测框7中关节点的坐标。

步骤2d08，电子设备遍历姿态跟踪集合中除参考姿态跟踪子集之外的姿态跟踪子集，参考姿态跟踪子集是指与所述第一检测框和/或所述第二检测框关联的姿态跟踪子集，具体包括如下：

针对遍历出的每个姿态跟踪子集，执行如下操作：

将当前处理的姿态跟踪子集的计数标识的数值加1；

若否，则在所述当前处理的姿态跟踪子集中添加所述第一图像的标识信息、所述当前处理的姿态跟踪子集中与所述第二图像关联的检测框的信息或者补偿信息。

可见，本示例中，针对多用户姿态跟踪场景，电子设备能够基于已有的关键点特征结合人体框的IOU，计算最大匹配框，无需耗费额外的时间提取特征进行匹配，提高设备进行姿态估计的效率和准确度。

本申请实施例提供一种图像处理装置，该图像处理装置可以为电子设备。具体的，图像处理装置用于执行以上图像处理方法中电子设备所执行的步骤。本申请实施例提供的图像处理装置可以包括相应步骤所对应的模块。

本申请实施例可以根据上述方法示例对图像处理装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图3示出上述实施例中所涉及的图像处理装置的一种可能的结构示意图。如图3所示，图像处理装置3应用于电子设备；所述装置包括：

获取单元30，用于获取第一图像中的第一检测框和第二图像中的第二检测框，以及所述第一检测框中第一被拍摄对象的第一关键点和所述第二检测框中第二被拍摄对象的第二关键点，其中，所述第二图像为所述第一图像的前一帧图像，检测框用于指示对应的被拍摄对象在图像中的区域，关键点包括用于描述所述被拍摄对象的关键位置的像素点；

确定单元31，用于根据所述第一检测框、所述第二检测框、所述第一关键点以及所述第二关键点，确定所述第一检测框与所述第二检测框的匹配情况，所述匹配情况用于指示被拍摄对象在前后两帧图像中被拍摄的状态；

所述确定单元31，还用于根据所述匹配情况确定所述第一图像的姿态估计结果，所述姿态估计结果包括检测框和所述检测框包含的关键点。

在一个可能的实施例中，在所述根据所述第一检测框、所述第二检测框、所述第一关键点以及所述第二关键点，确定所述第一检测框与所述第二检测框的匹配情况方面，所述确定单元具体用于：计算至少一个检测框组合中每个检测框组合的两个检测框的交并比IOU以得到所述每个检测框组合的检测框匹配权重，所述至少一个检测框组合是按照如下方式划分所述第一检测框和所述第二检测框而得到的：一个第一检测框和一个第二检测框组成一个检测框组合；以及计算所述每个检测框组合的至少一个关键点组合中每个关键点组合的两个关键点的欧氏距离，并计算所述至少一个关键点组合的欧氏距离的和以得到所述每个检测框组合的关键点匹配权重，所述至少一个关键点组合是如下方式划分所述每个检测框组合中两个检测框的关键点而得到的：一个第一关键点和一个第二关键点组成一个关键点组合，且所述第二关键点的位置类型与所述一个第一关键点的位置类型一致；以及根据所述每个检测框组合的所述检测框匹配权重和所述关键点匹配权重确定所述每个检测框组合的参考匹配权重；以及根据所述至少一个检测框组合的参考匹配权重进行二分图最大权匹配，得到所述第一检测框与所述第二检测框之间的匹配情况。

在一个可能的实施例中，所述匹配情况包括以下至少一种：

未匹配到任何第二检测框的第一检测框a1；

未与任何第一检测框匹配的第二检测框b1。

在一个可能的实施例中，在所述根据所述匹配情况确定所述第一图像的姿态估计结果方面，所述确定单元31具体用于：针对所述第一检测框组合，将所述第一检测框组合中的第一检测框a2的真实信息添加至与所述第二检测框b2对应的姿态跟踪子集B2中，所述真实信息包括所述第一图像的标识信息、检测框的位置信息以及所述检测框中关键点的位置信息；

在一个可能的实施例中，所述装置还包括：

计数单元32，用于针对所述第二检测框组合，将所述第二检测框组合中的第二检测框b3所对应的姿态跟踪子集B3的计数标识的数值增加1，并在所述姿态跟踪子集B3中添加所述第二检测框b3的补偿信息，所述补偿信息包括所述第一图像的标识信息、所述检测框b3的位置信息、以及所述检测框b3的关键点的位置信息；

判断单元33，用于判断所述姿态跟踪子集B3的所述计数标识的数值是否大于或等于预设数值；

删除单元34，用于若是，则在所述第一图像的姿态估计结果中删除所述姿态跟踪子集B3；

添加单元35，用于若否，则在所述姿态跟踪子集B3中添加所述第一图像的标识信息、所述第二检测框b3的位置信息和所述第二检测框b3的第二关键点的位置信息。

在一个可能的实施例中，所述计数单元32还用于：针对所述第二检测框b1，将与所述第二检测框b1对应的姿态跟踪子集B1的计数标识的数值增加1；

所述添加单元35，还用于在所述姿态跟踪子集B1中添加所述第二检测框b1的补偿信息，所述补偿信息包括所述第一图像的标识信息、所述检测框b1的位置信息、以及所述检测框b1的关键点的位置信息。

在一个可能的实施例中，所述获取单元30，还用于获取预设的姿态跟踪集合中的至少一个姿态跟踪子集，所述至少一个姿态跟踪子集为所述姿态跟踪集合中除参考姿态跟踪子集之外的姿态跟踪子集，所述参考姿态跟踪子集是指与所述第一检测框和/或所述第二检测框关联的姿态跟踪子集，所述姿态跟踪集合用于记录被跟踪拍摄的对象的姿态估计结果；

所述添加单元35，还用于针对所述至少一个姿态跟踪子集中每个姿态跟踪子集，执行如下操作：将当前处理的姿态跟踪子集的计数标识的数值加1；

所述判断单元33还用于：判断所述当前处理的姿态跟踪子集的所述计数标识的数值是否大于或等于预设数值；

所述删除单元34，还用于若是，则在所述姿态跟踪集合中删除所述当前处理的姿态跟踪子集；

所述添加单元35，还用于若否，则在所述当前处理的姿态跟踪子集中添加所述第一图像的标识信息、所述当前处理的姿态跟踪子集中与所述第二图像关联的检测框的位置信息以及所述检测框的关键点的位置信息。

在一个可能的实施例中，在所述获取第一图像中的第一检测框和第二图像中的第二检测框，以及所述第一检测框中第一被拍摄对象的第一关键点和所述第二检测框中第二被拍摄对象的第二关键点方面，所述获取单元30具体用于：获取预存的姿态跟踪集合中与所述第二图像的标识信息对应的所述第二检测框和所述第二关键点；以及利用预先训练好的检测框预测模型处理所述第一图像，得到所述第一检测框，以及利用预先训练好的姿态估计预测模型处理所述第一检测框，得到所述第一关键点。

在一个可能的实施例中，所述获取单元30还用于：获取所述第二图像；

所述确定单元31还用于：利用所述检测框预测模型处理所述第二图像，得到所述第二检测框，以及利用所述姿态估计预测模型处理所述第二检测框，得到所述第二检测框的所述第二关键点；

所述装置还包括：

检测单元36，用于检测到所述第二图像为第一帧图像；

创建单元37，用于为所述第二检测框创建所述姿态跟踪集合，并存储所述第二检测框的真实信息，所述真实信息包括所述第二图像的标识信息、所述第二检测框的位置信息和所述第二关键点的位置信息。

在采用集成的单元的情况下，本申请实施例提供的另一种图像处理装置的结构示意图如图4所示。在图4中，图像处理装置4包括：处理模块40和通信模块41。处理模块40用于对设备控制装置的动作进行控制管理，例如，获取单元30、确定单元31、计数单元32、判断单元33、删除单元34、添加单元35、检测单元36、创建单元37所执行的步骤，和/或用于执行本文所描述的技术的其它过程。通信模块41用于支持设备控制装置与其他设备之间的交互。如图4所示，图像处理装置还可以包括存储模块42，存储模块42用于存储图像处理装置的程序代码和数据。

其中，处理模块40可以是处理器或控制器，例如可以是中央处理器(CentralProcessing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信模块41可以是收发器、RF电路或通信接口等。存储模块42可以是存储器。

其中，上述方法实施例涉及的各场景的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。上述图像处理装置3和图像处理装置4均可执行上述图2a所示的图像处理方法中电子设备所执行的步骤。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应该理解为对本申请的限制。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和***，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，可轻易想到变化或替换，均可作各种更动与修改，包含上述不同功能、实施步骤的组合，包含软件和硬件的实施方式，均在本发明的保护范围。

Claims

1.一种图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一检测框、所述第二检测框、所述第一关键点以及所述第二关键点，确定所述第一检测框与所述第二检测框的匹配情况，包括：

3.根据权利要求2所述的方法，其特征在于，所述匹配情况包括以下至少一种：

未匹配到任何第二检测框的第一检测框a1；以及，

未与任何第一检测框匹配的第二检测框b1。

4.根据权利要求3所述的方法，其特征在于，所述根据所述匹配情况确定所述第一图像的姿态估计结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

针对所述第二检测框组合，将所述第二检测框组合中的第二检测框b3所对应的姿态跟踪子集B3的计数标识的数值增加1，并在所述姿态跟踪子集B3中添加所述第二检测框b3的补偿信息，所述补偿信息包括所述第一图像的标识信息、所述检测框b3的位置信息、以及所述检测框b3的关键点的位置信息；

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

针对所述第二检测框b1，将与所述第二检测框b1对应的姿态跟踪子集B1的计数标识的数值增加1，并在所述姿态跟踪子集B1中添加所述第二检测框b1的补偿信息，所述补偿信息包括所述第一图像的标识信息、所述检测框b1的位置信息、以及所述检测框b1的关键点的位置信息。

7.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

获取预设的姿态跟踪集合中的至少一个姿态跟踪子集，所述至少一个姿态跟踪子集为所述姿态跟踪集合中除参考姿态跟踪子集之外的姿态跟踪子集，所述参考姿态跟踪子集是指与所述第一检测框和/或所述第二检测框关联的姿态跟踪子集，所述姿态跟踪集合用于记录被跟踪拍摄的对象的姿态估计结果；

将当前处理的姿态跟踪子集的计数标识的数值加1；

8.根据权利要求1-7任一项所述的方法，其特征在于，所述获取第一图像中的第一检测框和第二图像中的第二检测框，以及所述第一检测框中第一被拍摄对象的第一关键点和所述第二检测框中第二被拍摄对象的第二关键点，包括：

获取姿态跟踪集合中与所述第二图像的标识信息对应的所述第二检测框和所述第二关键点；

利用预先训练好的检测框预测模型处理所述第一图像，得到所述第一检测框，以及利用预先训练好的姿态估计预测模型处理所述第一检测框，得到所述第一关键点。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取所述第二图像；

利用所述检测框预测模型处理所述第二图像，得到所述第二检测框，以及利用所述姿态估计预测模型处理所述第二检测框，得到所述第二检测框的所述第二关键点；

检测到所述第二图像为第一帧图像；

为所述第二检测框创建所述姿态跟踪集合，并存储所述第二检测框的真实信息，所述真实信息包括所述第二图像的标识信息、所述第二检测框的位置信息和所述第二关键点的位置信息。

10.一种图像处理装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

一个或多个存储器，用于存储程序，

所述一个或多个存储器和所述程序被配置为，由所述一个或多个处理器控制所述设备执行如权利要求1-9任一项所述的方法中的步骤。

12.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-9任一项所述的方法。