CN109918975A

CN109918975A - 一种增强现实的处理方法、对象识别的方法及终端

Info

Publication number: CN109918975A
Application number: CN201711329984.8A
Authority: CN
Inventors: 朱晓龙; 王一同; 黄凯宁; 梅利健; 黄生辉; 罗镜民
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2019-06-21
Anticipated expiration: 2037-12-13
Also published as: EP3617995A1; US10891799B2; CN109918975B; WO2019114696A1; US20200082635A1; EP3617995A4

Abstract

本发明公开了一种对象识别的方法，包括：获取第一图像中第一对象的关键点集合；通过神经网络预测模型获取关键点集合所对应的第一姿态关键点集合，神经网络预测模型用于获取相同对象在不同图像中的关键点集合；根据关键点集合获取在第二图像中的第二姿态关键点集合；根据至少一个第一姿态关键点以及至少一个第二姿态关键点，确定第一姿态关键点集合与第二姿态关键点集合之间的目标距离；当所述目标距离满足第一预设条件，将所述第一姿态关键点集合确定为第二对象的关键点集合。本发明还公开了一种增强现实的处理方法以及终端。本发明在多人互动的场景下，能够在视频流中识别出属于同一个对象的关键点集合，从而提升了识别的准确率。

Description

一种增强现实的处理方法、对象识别的方法及终端

技术领域

本发明涉及计算机视觉领域，尤其涉及一种增强现实的处理方法、对象识别的方法及终端。

背景技术

随着互联网技术的发展，视频社交也逐渐成为人们津津乐道的通信方式。即时社交应用程序在用户的渗透率较高，为了增加社交的趣味性，还可以通过识别不同用户的姿态信息来搭建不同的场景或视讯环境。

目前，能够基于神经网络来识别用户姿态信息，比如采用“自底向上”的方法，通过神经网络预测图像中所有姿态关键点所对应的概率热力图以及基于向量热力图(partaffinity fields，PAF)，然后再通过处理算法将所有姿态关键点连接成每个人的姿态。

然而，现有的姿态识别算法只能将每一帧中所有人的姿态识别出来，但无法将视频序列中某个特定人的姿态串联起来。换言之，在处理视频流中多人互动时，采用现有的姿态识别算法无法确定当前帧的某个姿态信息和其他帧的某个姿态信息是否属于同一个人，降低了识别的准确率。

发明内容

本发明实施例提供了一种增强现实的处理方法、对象识别的方法及终端，在多人互动的场景下，终端能够在视频流中识别出属于同一个对象的关键点集合，从而提升了识别的准确率。

本发明实施例的第一方面提供一种增强现实的处理方法，所述方法应用于多帧图像，所述多帧图像包含第一图像以及第二图像，所述第二图像为所述第一图像之后相邻的一帧图像，所述方法包括：包括：

获取所述第一图像中第一对象的关键点集合，其中，所述第一对象对应于目标虚拟物；

通过神经网络预测模型获取所述关键点集合所对应的第一姿态关键点集合，其中，所述神经网络预测模型用于获取相同对象在不同图像中的关键点集合，所述第一姿态关键点集合中包含至少一个第一姿态关键点；

根据所述关键点集合获取在所述第二图像中的第二姿态关键点集合，其中，所述第二姿态关键点集合中包含至少一个第二姿态关键点；

根据所述至少一个第一姿态关键点以及所述至少一个第二姿态关键点，确定所述第一姿态关键点集合与所述第二姿态关键点集合之间的目标距离；

当所述目标距离大于或等于预设门限，将所述第一姿态关键点集合确定为第二对象的关键点集合；

当所述目标距离小于所述预设门限时，根据所述第一对象以及所述第一对象的关键点信息，生成增强信息图像。

本发明实施例的第二方面提供一种对象识别的方法，所述方法应用于多帧图像，所述多帧图像包含第一图像以及第二图像，所述第二图像为所述第一图像之后相邻的一帧图像，所述方法包括：

获取所述第一图像中第一对象的关键点集合；

当所述目标距离满足第一预设条件，将所述第一姿态关键点集合确定为第二对象的关键点集合。

本发明实施例的第三方面提供一种终端，所述终端应用于多帧图像，所述多帧图像包含第一图像以及第二图像，所述第二图像为所述第一图像之后相邻的一帧图像，所述终端包括：

获取模块，用于获取所述第一图像中第一对象的关键点集合；

所述获取模块，用于通过神经网络预测模型获取所述关键点集合所对应的第一姿态关键点集合，其中，所述神经网络预测模型用于获取相同对象在不同图像中的关键点集合，所述第一姿态关键点集合中包含至少一个第一姿态关键点；

所述获取模块，用于根据所述关键点集合获取在所述第二图像中的第二姿态关键点集合，其中，所述第二姿态关键点集合中包含至少一个第二姿态关键点；

确定模块，用于根据所述获取模块获取的所述至少一个第一姿态关键点以及所述至少一个第二姿态关键点，确定所述第一姿态关键点集合与所述第二姿态关键点集合之间的目标距离；

所述确定模块，用于当所述目标距离满足第一预设条件，将所述第一姿态关键点集合确定为第二对象的关键点集合。

本发明实施例的第四方面提供一种终端，包括：存储器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，具体包括如下步骤：

获取所述第一图像中第一对象的关键点集合；

当所述目标距离满足第一预设条件，将所述第一姿态关键点集合确定为第二对象的关键点集合；

所述总线***用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本发明的第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，提供了一种对象识别的方法，该方法应用于多帧图像，多帧图像包含第一图像以及第二图像，第二图像为第一图像之后相邻的一帧图像，首先终端获取第一图像中第一对象的关键点集合，然后通过神经网络预测模型获取关键点集合所对应的第一姿态关键点集合，其中，神经网络预测模型用于获取相同对象在不同图像中的关键点集合，此外，终端也需要根据关键点集合获取在第二图像中的第二姿态关键点集合，接下来，终端根据至少一个第一姿态关键点以及至少一个第二姿态关键点，确定第一姿态关键点集合与第二姿态关键点集合之间的目标距离，若目标距离满足第一预设条件，则将第一姿态关键点集合确定为第二对象的关键点集合。通过上述方式，在多人互动的场景下，终端能够在视频流中识别出属于同一个对象的关键点集合，从而提升了识别的准确率。

附图说明

图1为本发明实施例中多人互动姿态识别的流程示意图；

图2为本发明实施例中增强现实的处理方法一个实施例示意图；

图3为本发明应用场景中多人互动姿态识别的一个示意图；

图4为本发明实施例中对象识别的方法一个实施例示意图；

图5为本发明实施例中单帧图像内获取关键点集合的一个示意图；

图6为本发明实施例中识别对象的一个流程示意图；

图7为本发明实施例中终端一个实施例示意图；

图8为本发明实施例中终端一个结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明主要应用于计算机视觉领域，具体应用于人体姿态识别，人体姿态识别技术可以帮助计算机理解用户动作、姿态和行为，是众多人体姿态应用的基础。目前，较多社交类应用程序采用人体姿态识别技术，比如用户在自拍的过程中可以通过识别出用户五官的位置来覆盖相应的贴图，或者用户在直播的过程中，可以在用户头顶上方出现弹幕。而本发明可以在多人场景中识别出同一个人，请参阅图1，图1为本发明实施例中多人互动姿态识别的流程示意图，如图所示，具体地：

步骤101中，输入视频，其中，视频中包含多帧图像；

步骤102中，对视频中的每一帧进行人体姿态估计；

步骤103中，判断步骤102中的这帧图像是否为视频中的第一帧图像，如果是，则进入步骤104，反之，如果不是第一帧图像，则跳转至步骤105；

步骤104中，在首帧图像中对每个人体姿态赋予一个唯一的身份标识号码(identity，ID)；

步骤105中，如果不是首帧图像，那么继续对该帧图像进行人体姿态估计，并对先前帧图像的人体姿态关键点进行跟踪；

步骤106中，结合当前帧图像的关键点跟踪结果和姿态估计结果，确定当前帧每个人体姿态的ID。

下面将从终端的角度，对本发明中增强现实的处理方法进行介绍，请参阅图2，本发明实施例中增强现实的处理方法一个实施例包括：

201、获取第一图像中第一对象的关键点集合；

本实施例中，在多帧图像中包含第一图像以及第二图像，第二图像为第一图像之后相邻的一帧图像，首先，终端获取第一图像中第一对象的关键点集合，其中，第一对象对应一个增强信息图像。

具体地，第一对象可以是一位用户，增强信息图像可以是一个贴图，比如“衣服”、“飞机”或者“花朵”等贴图，可以采用虚拟现实(augmented reality，AR)技术将两者合成为一个对象。

202、通过神经网络预测模型获取关键点集合所对应的第一姿态关键点集合，其中，神经网络预测模型用于获取相同对象在不同图像中的关键点集合，第一姿态关键点集合中包含至少一个第一姿态关键点；

本实施例中，终端采用神经网络预测模型获取关键点集合所对应的第一姿态关键点集合。这里的神经网络预测模型具体为OpenPose，此外，还可以是一种基于卷积神经网络的姿态估计算法(convolutional pose machines，CPM)，将第一图像中的关键点集合所对应的位置信息输入至神经网络预测模型，便可以输出相应的第一姿态关键点集合，其中，第一姿态关键点集合中包含至少一个第一姿态关键点。

203、根据关键点集合获取在第二图像中的第二姿态关键点集合，其中，第二姿态关键点集合中包含至少一个第二姿态关键点；

本实施例中，终端采用光流法、卡尔曼滤波算法和滑动窗口算法中的至少一种对第一图像中的关键点集合进行预测，并得到第二图像中的第二姿态关键点集合，其中，第二姿态关键点集合中包含至少一个第二姿态关键点。

204、根据至少一个第一姿态关键点以及至少一个第二姿态关键点，确定第一姿态关键点集合与第二姿态关键点集合之间的目标距离；

本实施例中，终端计算第一姿态关键点集合中至少一个第一姿态关键点，与第二姿态关键点集合中至少一个第二姿态关键点直接的距离，比如，第一姿态关键点为(1.1)，第二姿态关键点为(3,3)，那么可以采用如下方式进行计算：

Dist²＝(3-1)²+(3-1)²

＝8

即Dist为2.828。

205、当目标距离大于或等于预设门限，将第一姿态关键点集合确定为第二对象的关键点集合；

本实施例中，如果目标距离大于或等于预设门限，那么终端将第一姿态关键点集合确定为第二对象的关键点集合，也就是认为目前识别到的对象已经不是第一对象，而是第二对象。

206、当目标距离小于预设门限时，根据第一对象以及第一对象的关键点信息，生成增强信息图像。

本实施例中，如果目标距离小于预设门限，那么终端就利用AR技术，根据第一对象的关键点信息对第一对象与增强信息图像进行叠加，生成增强信息图像，并在终端显示界面上予以展示，进而可以生成增强现实图像，该增强现实图像包括第二图像以及增强信息图像。

其中，AR技术是一种将真实世界信息和虚拟世界信息“无缝”集成的技术，是把原本在现实世界的一定时间空间范围内很难体验到的实体信息(视觉信息、声音、味道和触觉等)通过电脑等科学技术，模拟仿真后再叠加，将虚拟的信息应用到真实世界，被人类感官所感知，从而达到超越现实的感官体验。真实的环境和虚拟的物体实时地叠加到了同一个画面或空间同时存在。AR技术包含了多媒体、三维建模、实时视频显示及控制、多传感器融合、实时跟踪及注册、场景融合等技术。

AR***具有三个突出的特点，第一、真实世界和虚拟的信息集成；第二、具有实时交互性；第三、是在三维尺度空间中增添定位虚拟物体。

为了便于理解，下面将说明如何在多人互动场景中识别同一个对象，并结合增强现实技术对该对象生成相应的增强现实信息。请参阅图3，图3为本发明应用场景中多人互动姿态识别的一个示意图，如图所示，在视频的第一帧图像中有两位用户正在直播，即左边的用户A和右边的用户B，利用AR技术在用户A的手上放置一台虚拟直升机。在下一帧图像中，用户A和用户B的动作的发生了变化，这个时候，虚拟直升机仍然只跟着用户A，于是在这帧图像中也能看到用户A的手上放置一台虚拟直升机。

下面将从终端的角度，对本发明中对象识别的方法进行介绍，请参阅图4，本发明实施例中对象识别的方法一个实施例包括：

301、获取第一图像中第一对象的关键点集合；

本实施例中，在多帧图像中包含第一图像以及第二图像，第二图像为第一图像之后相邻的一帧图像，首先，终端获取第一图像中第一对象的关键点集合。具体地，第一对象可以是指活动中的人物。

为了便于理解，请参阅图5，图5为本发明实施例中单帧图像内获取关键点集合的一个示意图，如图所示，输入单张静态静态图像(第一图像)之后，输出所有人的字体，一个人的姿态包含N个预先定义的关键点位置及其对应的连接，比如可以识别到图5有三个对象对象，且每个对象上的点即为关键点，通常情况下，可以预先定义N个预设关键点，比如一个关键点对应鼻子，一个关键点对应眼睛，一个关键点对应脖子等。

302、通过神经网络预测模型获取关键点集合所对应的第一姿态关键点集合，其中，神经网络预测模型用于获取相同对象在不同图像中的关键点集合，第一姿态关键点集合中包含至少一个第一姿态关键点；

本实施例中，终端采用神经网络预测模型获取关键点集合所对应的第一姿态关键点集合。这里的神经网络预测模型具体为OpenPose，此外，还可以是CPM，将第一图像中的关键点集合所对应的位置信息输入至神经网络预测模型，便可以输出相应的第一姿态关键点集合，其中，第一姿态关键点集合中包含至少一个第一姿态关键点。

303、根据关键点集合获取在第二图像中的第二姿态关键点集合，其中，第二姿态关键点集合中包含至少一个第二姿态关键点；

304、根据至少一个第一姿态关键点以及至少一个第二姿态关键点，确定第一姿态关键点集合与第二姿态关键点集合之间的目标距离；

Dist²＝(3-1)²+(3-1)²

＝8

即Dist为2.828。

305、当目标距离满足第一预设条件，将第一姿态关键点集合确定为第二对象的关键点集合。

本实施例中，如果目标距离大于或等于预设门限，那么终端将第一姿态关键点集合确定为第二对象的关键点集合，也就是认为目前识别到的对象已经不是第一对象，而是第二对象。此外，也需要将第一姿态关键点集合作为第二图像中第二对象的关键点集合，用于对下一帧图像进行对象识别。

可以理解的是，目标距离通常指欧氏距离，也可以是其他距离，比如曼哈顿距离，此处不做限定。

本发明实施例中，提供了一种对象识别的方法，该方法应用于多帧图像，多帧图像包含第一图像以及第二图像，第二图像为第一图像之后相邻的一帧图像，首先终端获取第一图像中第一对象的关键点集合，然后通过神经网络预测模型获取关键点集合所对应的第一姿态关键点集合，其中，神经网络预测模型用于获取相同对象在不同图像中的关键点集合，此外，终端也需要根据关键点集合获取在第二图像中的第二姿态关键点集合，接下来，终端根据至少一个第一姿态关键点以及至少一个第二姿态关键点，确定第一姿态关键点集合与第二姿态关键点集合之间的目标距离，若目标距离大于或等于预设门限，则将第一姿态关键点集合确定为第二对象的关键点集合。通过上述方式，在多人互动的场景下，终端能够在视频流中识别出属于同一个对象的关键点集合，从而提升了识别的准确率。

可选地，在上述图4对应的实施例的基础上，本发明实施例提供的对象识别的方法第一个可选实施例中，根据至少一个第一姿态关键点以及至少一个第二姿态关键点，确定第一姿态关键点集合与第二姿态关键点集合之间的目标距离之后，还可以包括：

当目标距离满足第二预设条件，确定第一姿态关键点集合属于第一对象。

本实施例中，多人估计方法一般分为两大类，即自顶向下和自底向上，其中自顶向下是指先把人框出来，然后再用单人的方法去定位人的关节，而自底向上的方法是先把所有关节位置弄出来，然后再区分关节属于谁。本发明主要采用自底向上的方式对一帧图像中的对象进行识别。

具体地，第一预设条件为目标距离大于或等于预设门限的条件，第二预设条件为目标距离小于预设门限的条件。

如果目标距离小于预设门限，那么终端就认为第一姿态关键点集合属于第一对象，还可以进一步利用AR技术，对第一对象与目标虚拟物进行叠加，生成AR信息，并在终端显示界面上予以展示。

为了便于介绍，请参阅图6，图6为本发明实施例中识别对象的一个流程示意图，如图所示，在步骤401中，终端对输入的关键点集合进行预测，采用姿态估计算法得到的第一姿态关键点集合(记为集合A)，采用人体姿态关键点跟踪算法得到的第二姿态关键点集合(记为集合B)；

在步骤402中，终端先将集合B中所有第二姿态关键点标记为“未使用”；

在步骤403中，对于集合A中的每组关键点，计算其与集合B中每组被标记为“未使用”的关键点的距离，对于A中的每组关键点，记录与其距离最小的B组中“未使用”的关键点对应的上一帧ID(记为ID_pre)以及其对应的距离，即目标距离；

在步骤404中，判断距离是否小于预设的阈值，若是，则进入步骤406，若否，则进入步骤405；

在步骤405中，距离大于或等于预设的阈值时，将该组关键点对应的人体姿态的ID标记为一个新的(和之前不冲突的)ID；

在步骤406中，距离小于预设的阈值时，认为集合A中的一组关键点和B中的一组关键点匹配成功，因此可将集合A中的这组关键点对应的人体姿态的ID标记为其对应的集合B中这组关键点ID(ID_pre)，同时将对B中对应的这组的关键点标记为“已使用”；

其次，本发明实施例中，如果目标距离小于预设门限，那么终端确定第一姿态关键点集合属于第一对象。通过上述方式，在多人互动的场景下，终端能够在视频流中识别出属于同一个对象的关键点集合，从而提升了识别的准确率。

可选地，在上述图4对应的实施例的基础上，本发明实施例提供的对象识别的方法第二个可选实施例中，通过神经网络预测模型获取关键点集合所对应的第一姿态关键点集合，可以包括：

通过神经网络预测模型获取关键点集合所对应的热力图，其中，热力图包含概率热力图以及基于向量的热力图；

通过热力图确定第一姿态关键点集合。

本实施例中，可以采用神经网络预测模型来预测第二图像中的第一姿态关键点集合。具体地，神经网络预测模型可以为OpenPose，通过OpenPose预测图像中所有姿态关键点对应的概率热力图及对应的基于向量热力图(part affinity fields，PAF)热力图，然后再通过后处理算法将所有姿态关键点连接成每个人的姿态。检测过程为输入一帧图像，然后得到概率热力图和PAF，然后根据PAF生成一系列的偶匹配，由于PAF自身的矢量性，使得生成的偶匹配很正确，最终合并为一个人的整体骨架。

其次，本发明实施例中，终端利用神经网络预测模型获取关键点集合所对应的热力图，然后通过热力图预测第一姿态关键点集合。通过上述方式，采用类似OpenPose的神经网络预测模型预测第一姿态关键点集合具有较好的可靠性，且这类神经网络预测模型的运行速度较快，即时同一帧图像中有较多对象也不会增大姿态关键点集合预测的难度。

可选地，在上述图4对应的实施例的基础上，本发明实施例提供的对象识别的方法第三个可选实施例中，根据关键点集合获取在第二图像中的第二姿态关键点集合，可以包括：

采用预设算法对关键点集合进行计算，并得到第二图像中的第二姿态关键点集合，其中，预设算法为光流算法、卡尔曼滤波算法和滑动窗口算法中的至少一种。

本实施例中，终端可以采用光流算法、卡尔曼滤波算法和滑动窗口算法中的至少一种计算第二姿态关键点集合。举个例子，若第一图像中第一对象的关键点集合有3个，分别为(1,1)、(2,2)和(3,3)，采用滑动窗口算法预测关键点集合的位置为线性变化，那么第一图像中的关键点(1,1)在第二图像中的位置为(2,2)，第一图像中的关键点(2,2)在第二图像中的位置为(3,3)，第一图像中的关键点(3,3)在第二图像中的位置为(4,4)。

当然，在实际应用中，还可以采用光流算法和/或卡尔曼滤波算法。

光流算法可以是基于以下假设，图像灰度分布的变化是目标或者场景的运动引起的，也就是说，目标与场景的灰度不随时间变化。这使得光流方法抗噪声能力较差，其应用范围一般局限于目标与场景的灰度保持不变这个假设条件下。

卡尔曼滤波算法是一种利用线性***状态方程，通过***输入输出观测数据对***状态进行最优估计的算法。由于观测数据中包括***中的噪声和干扰的影响，所以最优估计也可看作是滤波过程。卡尔曼滤波算法不要求信号和噪声都是平稳过程的假设条件。对于每个时刻的***扰动和观测误差，只要对它们的统计性质作某些适当的假定，通过对含有噪声的观测信号进行处理，就能在平均的意义上，求得误差为最小的真实信号的估计值。在图像处理方面，应用卡尔曼滤波算法对由于某些噪声影响而造成模糊的图像进行复原，在对噪声作了某些统计性质的假定后，就可以用卡尔曼的算法以递推的方式从模糊图像中得到均方差最小的真实图像，使模糊的图像得到复原。

其次，本发明实施例中，可以采用光流算法、卡尔曼滤波算法和滑动窗口算法中的至少一种，对关键点集合进行计算，并得到第二图像中的第二姿态关键点集合。通过上述方式，能够在多帧图像中对关键点集合进行跟踪，并得到第二姿态关键点集合，光流算法、卡尔曼滤波算法和滑动窗口算法都是计算量较小的算法，从而提升了关键点集合跟踪的效率。

可选地，在上述图4以及图4对应的第一至第三个实施例中任一项的基础上，本发明实施例提供的对象识别的方法第四个可选实施例中，根据至少一个第一姿态关键点以及至少一个第二姿态关键点，确定第一姿态关键点集合与第二姿态关键点集合之间的目标距离，可以包括：

从至少一个第一姿态关键点中获取第一目标关键点的位置信息，并从至少一个第二姿态关键点中获取第二目标关键点的位置信息，第二目标关键点是与第一目标关键点之间直线距离最小的一个关键点；

根据第一目标关键点的位置信息以及第二目标关键点的位置信息计算目标距离。

本实施例中，终端可以从至少一个第一姿态关键点中获取一个第一目标关键点的位置信息，并从至少一个第二姿态关键点中获取一个第二目标关键点的位置信息。假设，有2个第一姿态关键点(即a点和b点)和2个第二姿态关键点(即A点和B点)，其中，a点和A点均为头部关键点，b点和B点均为脖子关键点。首先，终端根据a点到A点之间的距离和b点到B点之间的距离，选择一条最短的路径，比如a点到A点之间的距离为10，b点到B点之间的距离为20，那么目标距离即为10。

再次，本发明实施例中，提供了一种利用最小值法计算目标距离的方式，即计算两组姿态关键点中距离最近的两个关键点之间的距离，该距离即为目标距离。通过上述方式，在计算目标距离时只需计算一组关键点之间的距离即可，无需进行多次计算，有利于提升处理效率，节省计算资源，从而提升方案的实用性。

可选地，在上述图4以及图4对应的第一至第三个实施例中任一项的基础上，本发明实施例提供的对象识别的方法第五个可选实施例中，根据至少一个第一姿态关键点以及至少一个第二姿态关键点，确定第一姿态关键点集合与第二姿态关键点集合之间的目标距离，可以包括：

获取至少一个第一姿态关键点中各个第一目标关键点的位置信息，并获取至少一个第二姿态关键点中各个第二目标关键点的位置信息，其中，每个第一目标关键点与每个第二目标关键点之间具有一一对应关系；

根据各个第一目标关键点的位置信息以及各个第二目标关键点的位置信息，计算每个第一目标关键点与每个第二目标关键点之间的最小距离；

计算至少一个最小距离的平均值，并得到目标距离。

本实施例中，终端可以获取至少一个第一姿态关键点中各个第一目标关键点的位置信息，以及至少一个第二姿态关键点中各个第二目标关键点的位置信息。假设，有2个第一姿态关键点(即a点和b点)和2个第二姿态关键点(即A点和B点)，其中，a点和A点均为头部关键点，b点和B点均为脖子关键点。首先，终端计算头部关键点之间的最小距离，即a点到A点之间的距离，假设计算得到的距离为10，然后计算脖子关键点之间的最小距离，即b点到B点之间的距离，假设计算得到的距离为20。于是，终端将对这两个距离进行平均，并计算得到目标距离为15。

再次，本发明实施例中，提供了一种利用平均值法计算目标距离的方式，即将一组姿态关键点集合中的关键点与另一组姿态关键点集合中的关键点进行两两匹配计算，并得到多个最小距离，然后取所有最小距离的平均值，即可确定目标距离。通过上述方式，在计算目标距离时采用平均值法具有更高的可靠性，从而有利于提升方案的可行性和可操作性。

可选地，在上述图4对应的实施例的基础上，本发明实施例提供的对象识别的方法第六个可选实施例中，第一对象与第一对象标识具有唯一对应关系，第二对象与第二对象标识具有唯一对应关系；

第一对象标识用于在多帧图像中标识第一对象，第二对象标识用于在多帧图像中标识第二对象。

本实施例中，还可以对不同的对象进行标识，且每个对象只对应唯一一个标识，标识之间是不具有重复性的。

比如，在第一帧图像中有4个对象，分别为甲、乙、丙和丁，这个时候每个对象与其对应的标识关系如表1所示。

表1

对象	对象标识
		甲	ID-1
乙	ID-2
		丙	ID-3
丁	ID-4

在第二帧图像中的对象与其对应的标识关系如表2所示。

表2

需要说明的是，在给对象进行标识赋值的时候，可以按照从左到右赋值的规则对不同的对象进行赋值，也可以按照置信度从大到小赋值的规则对不同的对象进行赋值，此处不做限定。

其次，本发明实施例中，采用不同的对象标识来标识不同的对象，在多帧图像中通过标识即可确定是否属于同一个对象。通过上述方式，可以直接根据标识确定对象的唯一性，并对唯一的对象进行相应的处理，从而提升方案的实用性和可行性。

下面对本发明中的终端进行详细描述，请参阅图7，图7为本发明实施例中终端一个实施例示意图，终端应用于多帧图像，多帧图像包含第一图像以及第二图像，第二图像为第一图像之后相邻的一帧图像，终端50包括：

获取模块501，用于获取所述第一图像中第一对象的关键点集合；

所述获取模块501，用于通过神经网络预测模型获取所述关键点集合所对应的第一姿态关键点集合，其中，所述神经网络预测模型用于获取相同对象在不同图像中的关键点集合，所述第一姿态关键点集合中包含至少一个第一姿态关键点；

所述获取模块501，用于根据所述关键点集合获取在所述第二图像中的第二姿态关键点集合，其中，所述第二姿态关键点集合中包含至少一个第二姿态关键点；

确定模块502，用于根据所述获取模块501获取的所述至少一个第一姿态关键点以及所述至少一个第二姿态关键点，确定所述第一姿态关键点集合与所述第二姿态关键点集合之间的目标距离；

所述确定模块502，用于当所述目标距离满足第一预设条件，将所述第一姿态关键点集合确定为第二对象的关键点集合。

本实施例中，获取模块501获取所述第一图像中第一对象的关键点集合，所述获取模块501通过神经网络预测模型获取所述关键点集合所对应的第一姿态关键点集合，其中，所述神经网络预测模型用于获取相同对象在不同图像中的关键点集合，所述第一姿态关键点集合中包含至少一个第一姿态关键点，所述获取模块501根据所述关键点集合获取在所述第二图像中的第二姿态关键点集合，其中，所述第二姿态关键点集合中包含至少一个第二姿态关键点，确定模块502根据所述获取模块501获取的所述至少一个第一姿态关键点以及所述至少一个第二姿态关键点，确定所述第一姿态关键点集合与所述第二姿态关键点集合之间的目标距离，当所述目标距离满足第一预设条件，所述确定模块502将所述第一姿态关键点集合确定为第二对象的关键点集合。

本发明实施例中，提供了一种终端，首先终端获取第一图像中第一对象的关键点集合，然后通过神经网络预测模型获取关键点集合所对应的第一姿态关键点集合，神经网络预测模型用于获取相同对象在不同图像中的关键点集合，此外，终端也需要根据关键点集合获取在第二图像中的第二姿态关键点集合，终端根据至少一个第一姿态关键点以及至少一个第二姿态关键点，确定第一姿态关键点集合与第二姿态关键点集合之间的目标距离，若目标距离大于或等于预设门限，则将第一姿态关键点集合确定为第二对象的关键点集合。通过上述方式，在多人互动的场景下，终端能够在视频流中识别出属于同一个对象的关键点集合，从而提升了识别的准确率。

可选地，在上述图7所对应的实施例的基础上，本发明实施例提供的终端50的另一实施例中，

所述确定模块502，还用于根据所述至少一个第一姿态关键点以及所述至少一个第二姿态关键点，确定所述第一姿态关键点集合与所述第二姿态关键点集合之间的目标距离之后，当所述目标距离满足第二预设条件，确定所述第一姿态关键点集合属于所述第一对象。

其中，所述确定模块502，具体用于当所述目标距离大于或等于预设门限，将所述第一姿态关键点集合确定为第二对象的关键点集合；

当所述目标距离小于所述预设门限，确定所述第一姿态关键点集合属于所述第一对象。

所述获取模块501，具体用于通过所述神经网络预测模型获取所述关键点集合所对应的热力图，其中，所述热力图包含概率热力图以及基于向量的热力图；

通过所述热力图确定所述第一姿态关键点集合。

所述获取模块501，具体用于采用预设算法对所述关键点集合进行计算，并得到所述第二图像中的所述第二姿态关键点集合，其中，所述预设算法为光流算法、卡尔曼滤波算法和滑动窗口算法中的至少一种。

所述确定模块502，具体用于从所述至少一个第一姿态关键点中获取第一目标关键点的位置信息，并从所述至少一个第二姿态关键点中获取第二目标关键点的位置信息，所述第二目标关键点是与所述第一目标关键点之间直线距离最小的一个关键点；

根据所述第一目标关键点的位置信息以及所述第二目标关键点的位置信息计算所述目标距离。

所述确定模块502，具体用于获取所述至少一个第一姿态关键点中各个第一目标关键点的位置信息，并获取所述至少一个第二姿态关键点中各个第二目标关键点的位置信息，其中，每个第一目标关键点与每个第二目标关键点之间具有一一对应关系；

根据所述各个第一目标关键点的位置信息以及所述各个第二目标关键点的位置信息，计算所述每个第一目标关键点与所述每个第二目标关键点之间的最小距离；

计算至少一个所述最小距离的平均值，并得到所述目标距离。

所述第一对象与第一对象标识具有唯一对应关系，所述第二对象与第二对象标识具有唯一对应关系；

所述第一对象标识用于在所述多帧图像中标识所述第一对象，所述第二对象标识用于在所述多帧图像中标识所述第二对象。

本发明实施例还提供了另一种终端，如图8所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端(Point of Sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图8示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图8，手机包括：射频(Radio Frequency，RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity，WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图8中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对手机的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图8中，触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在手机移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路660、扬声器661，传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一手机，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器680可包括一个或多个处理单元；可选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

手机还包括给各个部件供电的电源690(比如电池)，可选的，电源可以通过电源管理***与处理器680逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器680还具有以下功能：

获取所述第一图像中第一对象的关键点集合；

可选地，处理器680还用于执行如下步骤：

获取所述第一图像中第一对象的关键点集合；

可选地，处理器680还用于执行如下步骤：

当所述目标距离满足第二预设条件，确定所述第一姿态关键点集合属于所述第一对象。

可选地，处理器680具体用于执行如下步骤：

通过所述神经网络预测模型获取所述关键点集合所对应的热力图，其中，所述热力图包含概率热力图以及基于向量的热力图；

通过所述热力图确定所述第一姿态关键点集合。

可选地，处理器680具体用于执行如下步骤：

采用预设算法对所述关键点集合进行计算，并得到所述第二图像中的所述第二姿态关键点集合，其中，所述预设算法为光流算法、卡尔曼滤波算法和滑动窗口算法中的至少一种。

可选地，处理器680具体用于执行如下步骤：

从所述至少一个第一姿态关键点中获取第一目标关键点的位置信息，并从所述至少一个第二姿态关键点中获取第二目标关键点的位置信息，所述第二目标关键点是与所述第一目标关键点之间直线距离最小的一个关键点；

可选地，处理器680具体用于执行如下步骤：

获取所述至少一个第一姿态关键点中各个第一目标关键点的位置信息，并获取所述至少一个第二姿态关键点中各个第二目标关键点的位置信息，其中，每个第一目标关键点与每个第二目标关键点之间具有一一对应关系；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种增强现实的处理方法，其特征在于，所述方法应用于多帧图像，所述多帧图像包含第一图像以及第二图像，所述第二图像为所述第一图像之后相邻的一帧图像，所述方法包括：包括：

获取所述第一图像中第一对象的关键点集合；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

生成增强现实图像，所述增强现实图像包括所述第二图像以及所述增强信息图像。

3.一种对象识别的方法，其特征在于，所述方法应用于多帧图像，所述多帧图像包含第一图像以及第二图像，所述第二图像为所述第一图像之后相邻的一帧图像，所述方法包括：

获取所述第一图像中第一对象的关键点集合；

4.根据权利要求3所述的方法，其特征在于，所述根据所述至少一个第一姿态关键点以及所述至少一个第二姿态关键点，确定所述第一姿态关键点集合与所述第二姿态关键点集合之间的目标距离之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述当所述目标距离满足第一预设条件，将所述第一姿态关键点集合确定为第二对象的关键点集合，包括：

所述当所述目标距离满足第二预设条件，确定所述第一姿态关键点集合属于所述第一对象，包括：

6.根据权利要求3所述的方法，其特征在于，所述通过神经网络预测模型获取所述关键点集合所对应的第一姿态关键点集合，包括：

通过所述热力图确定所述第一姿态关键点集合。

7.根据权利要求3所述的方法，其特征在于，所述根据所述关键点集合获取在所述第二图像中的第二姿态关键点集合，包括：

8.根据权利要求3至7中任一项所述的方法，其特征在于，所述根据所述至少一个第一姿态关键点以及所述至少一个第二姿态关键点，确定所述第一姿态关键点集合与所述第二姿态关键点集合之间的目标距离，包括：

9.根据权利要求3至7中任一项所述的方法，其特征在于，所述根据所述至少一个第一姿态关键点以及所述至少一个第二姿态关键点，确定所述第一姿态关键点集合与所述第二姿态关键点集合之间的目标距离，包括：

10.根据权利要求3所述的方法，其特征在于，

11.一种终端，其特征在于，所述终端应用于多帧图像，所述多帧图像包含第一图像以及第二图像，所述第二图像为所述第一图像之后相邻的一帧图像，所述终端包括：

12.根据权利要求11所述的终端，其特征在于，

所述确定模块，还用于根据所述至少一个第一姿态关键点以及所述至少一个第二姿态关键点，确定所述第一姿态关键点集合与所述第二姿态关键点集合之间的目标距离之后，当所述目标距离满足第二预设条件，确定所述第一姿态关键点集合属于所述第一对象。

13.一种终端，其特征在于，包括：存储器、处理器以及总线***；

其中，所述存储器用于存储程序；

获取所述第一图像中第一对象的关键点集合；

14.根据权利要求13所述的终端，其特征在于，所述处理器还用于执行如下步骤：

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求3至10中任一项所述的方法。