CN114758124A

CN114758124A - 目标对象的遮挡检测方法、装置、设备及计算机可读介质

Info

Publication number: CN114758124A
Application number: CN202210333543.XA
Authority: CN
Inventors: 屈杨
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-07-15

Abstract

本申请涉及一种目标对象的遮挡检测方法、装置、设备及计算机可读介质。该方法包括：在第一图像中确定目标对象所在的目标区域，其中，第一图像为视频序列中的单帧图像；截取目标区域的第二图像，并基于第二图像确定目标对象的关键点信息；利用关键点信息确定目标对象在第一图像中的方位；将关键点信息映射到人体关键点分布图中，以通过关键点信息在人体关键点分布图上的映射关系结合目标对象在第一图像中的方位，确定目标对象在第一图像中的遮挡状态。本申请基于2D的关键点检测算法进行人体遮挡状态的检测，通过判断特定关键点是否被检测到，来预测人体方位的信息，进而确定人体的遮挡状态。解决了相关技术中人体遮挡状态检测精度低的技术问题。

Description

目标对象的遮挡检测方法、装置、设备及计算机可读介质

技术领域

本申请涉及目标检测技术领域，尤其涉及一种目标对象的遮挡检测方法、装置、设备及计算机可读介质。

背景技术

随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪研究越来越热门，对目标进行动态实时跟踪定位在智能化交通***、智能监控***、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。普通用户经常使用的，如通过用户的运动健身视频，得到用户的人体正对/侧对/背对镜头等人体方位信息，利用人体方位信息分析人体姿态，从而进行体育训练分析。又如在影视剧中，通过检测剧中人物正对/侧对/背对镜头等人体方位信息，利用人体方位信息分析人体是否被遮挡、哪些部位被遮挡，从而进行关键帧筛选。

目前，相关技术中，通常有两种方式可以对视频中的人体的遮挡状态进行检测，一是利用深度学习算法对人体姿态进行分类，二是利用人体的3D信息进行判断。但是现有的两种方法都由于自身存在的问题而无法满足用户需求，无法广泛推广，如利用深度学习算法对人体姿态进行分类的方案中，存在分类算法存在精度不高，以及标签之间界限模糊的问题，例如，当人体是面对镜头的角度在30度到60度之间时，不好判断应该归类为正对还是侧对镜头的标签。又如在利用人体的3D信息进行判断的方案中，3D模型存在运算量大以及数据难以收集的问题，3D数据需要由专业的设备进行数据采集和标注，获取数据成本巨大。

针对相关技术中人体遮挡状态检测精度低、成本高的技术问题，目前尚未提出有效的解决方案。

发明内容

本申请提供了一种目标对象的遮挡检测方法、装置、设备及计算机可读介质，以解决人体遮挡状态检测精度低、成本高的技术问题。

根据本申请实施例的一个方面，本申请提供了一种目标对象的遮挡检测方法，包括：

在第一图像中确定目标对象所在的目标区域，其中，第一图像为视频序列中的单帧图像；

截取目标区域的第二图像，并基于第二图像确定目标对象的关键点信息；

利用关键点信息确定目标对象在第一图像中的方位；

将关键点信息映射到人体关键点分布图中，以通过关键点信息在人体关键点分布图上的映射关系结合目标对象在第一图像中的方位，确定目标对象在第一图像中的遮挡状态。

可选地，基于第二图像确定目标对象的关键点信息包括：

将第二图像输入第一神经网络模型，以利用第一神经网络模型对第二图像进行人体特征提取，得到第二图像的第一特征图；

将第一特征图转换为多个热力图，其中，一个热力图对应一个预设关键点；

在每个热力图中确定所述热力图上每个点的热力值，并按照热力值对热力图上的每个点进行排序；

将目标排序位置之前的点的坐标位置进行加权平均，得到每个预设关键点对应的预测关键点的坐标信息，其中，关键点信息包括预测关键点的坐标信息；

按照坐标信息在第一图像中绘制预测关键点。

可选地，利用关键点信息确定目标对象在第一图像中的方位包括：

将目标排序位置之前的点的热力值进行加权平均，得到预测关键点的检测置信度，其中，关键点信息包括所述预测关键点的检测置信度；

将检测置信度大于或等于预设检测置信度阈值的预测关键点确定为实际检测到的第一目标关键点；

将第一图像上的所有第一目标关键点组成第一识别组合；

在预设的人体方位与关键点对应关系表中查找与第一识别组合匹配的第二识别组合；

将第二识别组合对应的预设人体方位确定为目标对象在第一图像中的方位。

可选地，将关键点信息映射到人体关键点分布图中，以通过关键点信息在人体关键点分布图上的映射关系结合目标对象在所述第一图像中的方位，确定目标对象在第一图像中的遮挡状态包括：

在人体关键点分布图中确定所有第一目标关键点的分布区域；

根据分布区域确定目标对象在第一图像中的遮挡比例；

根据遮挡比例和目标对象在第一图像中的方位确定目标对象的被遮挡部位，其中，遮挡状态包括遮挡比例和被遮挡部位。

可选地，在第一图像中确定目标对象所在的目标区域包括：

将第一图像输入第二神经网络模型，以利用第二神经网络模型对第一图像进行位置特征提取，得到第一图像的第二特征图；

为第二特征图上的每一个点生成多个锚框，其中，每个锚框的尺寸不同；

确定每个锚框内的像素属于目标对象的像素的像素占比，并确定每个锚框相对目标对象的外轮廓线的偏移量；

利用像素占比和偏移量确定每个锚框包围目标对象的包围置信度；

保留包围置信度大于或等于预设包围置信度阈值的第一目标锚框，并将第一目标锚框包围的区域确定为目标对象所在的目标区域。

可选地，保留置信度大于或等于预设包围置信度阈值的第一目标锚框之后，所述方法还包括：

在存在多个第一目标锚框的情况下，确定多个第一目标锚框的交并比；

在交并比大于或等于预设交并比阈值的情况下，保留置信度最高的第二目标锚框，并将第二目标锚框包围的区域确定为目标对象所在的目标区域。

可选地，利用关键点信息确定目标对象在第一图像中的方位还包括：

获取当前业务的检测需求配置数据；

利用检测需求配置数据确定当前业务关注的第二目标关键点；

利用关键点信息确定第二目标关键点的检测结果；

根据第二目标关键点的检测结果确定目标对象在第一图像中的方位。

根据本申请实施例的另一方面，本申请提供了一种关键帧提取方法，包括：

获取目标视频序列；

从目标视频序列中抽取出单帧图像；

对单帧图像进行人体遮挡检测，以确定单帧图像中的目标对象的遮挡状态；

将目标对象的遮挡状态满足目标条件的单帧图像确定为关键帧；

其中，对单帧图像进行人体遮挡检测的步骤中包括上述的目标对象的遮挡检测方法。

根据本申请实施例的另一方面，本申请提供了一种目标对象的遮挡检测装置，包括：

人体区域检测模块，用于在第一图像中确定目标对象所在的目标区域，其中，第一图像为视频序列中的单帧图像；

人体关键点检测模块，用于截取目标区域的第二图像，并基于第二图像确定目标对象的关键点信息；

人体方位识别模块，用于利用关键点信息确定目标对象在第一图像中的方位；

遮挡状态确定模块，用于将关键点信息映射到人体关键点分布图中，以通过关键点信息在人体关键点分布图上的映射关系结合目标对象在第一图像中的方位，确定目标对象在第一图像中的遮挡状态。

根据本申请实施例的另一方面，本申请提供了一种电子设备，包括存储器、处理器、通信接口及通信总线，存储器中存储有可在处理器上运行的计算机程序，存储器、处理器通过通信总线和通信接口进行通信，处理器执行计算机程序时实现上述方法的步骤。

根据本申请实施例的另一方面，本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，程序代码使处理器执行上述的方法。

本申请实施例提供的上述技术方案与相关技术相比具有如下优点：

本申请技术方案为在第一图像中确定目标对象所在的目标区域，其中，第一图像为视频序列中的单帧图像；截取目标区域的第二图像，并基于第二图像确定目标对象的关键点信息；利用关键点信息确定目标对象在第一图像中的方位；将关键点信息映射到人体关键点分布图中，以通过关键点信息在人体关键点分布图上的映射关系结合目标对象在第一图像中的方位，确定目标对象在第一图像中的遮挡状态。本申请基于2D的关键点检测算法进行人体遮挡状态的检测，通过判断特定关键点是否被检测到，来预测人体方位的信息，进而确定人体的遮挡状态。由于关键点只有检测到和未检测到两种状态，因此可以通过判定特定关键点是否被检测到即可准确预测人体方位，不仅避免了深度学习的分类算法中标签边界不清晰的问题，还提升了检测精度，不仅如此，相比3D模型算法的数据采集和标注，本申请基于2D的关键点检测算法的数据获取成本都小很多，解决了相关技术中人体遮挡状态检测精度低、成本高的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请实施例提供的一种可选的目标对象的遮挡检测方法硬件环境示意图；

图2为根据本申请实施例提供的一种可选的目标对象的遮挡检测方法流程示意图；

图3为根据本申请实施例提供的一种可选的人体关键点分布示意图；

图4为根据本申请实施例提供的一种可选的目标对象正面面对镜头的人体方位示意图；

图5为根据本申请实施例提供的一种可选的目标对象左侧面面对镜头的人体方位示意图；

图6为根据本申请实施例提供的一种可选的目标对象背对镜头的人体方位示意图；

图7为根据本申请实施例提供的一种可选的目标对象正面无遮挡的示意图；

图8为根据本申请实施例提供的一种可选的目标对象正面下半身遮挡的示意图；

图9为根据本申请实施例提供的一种可选的目标对象仅正面头部露出的示意图；

图10为根据本申请实施例提供的一种可选的目标对象的遮挡检测装置框图；

图11为本申请实施例提供的一种可选的电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。

相关技术中，通常有两种方式可以对视频中的人体遮挡状态进行检测，一是利用深度学习算法对人体姿态进行分类，二是利用人体的3D信息进行判断。但是现有的两种方法都由于自身存在的问题而无法满足用户需求，无法广泛推广，如利用深度学习算法对人体姿态进行分类的方案中，存在分类算法存在精度不高，以及标签之间界限模糊的问题，例如，当人体是面对镜头的角度在30度到60度之间时，不好判断应该归类为正对还是侧对镜头的标签。又如在利用人体的3D信息进行判断的方案中，3D模型存在运算量大以及数据难以收集的问题，3D数据需要由专业的设备进行数据采集和标注，获取数据成本巨大。

为了解决背景技术中提及的问题，根据本申请实施例的一方面，提供了一种目标对象的遮挡检测方法的实施例。

可选地，在本申请实施例中，上述目标对象的遮挡检测方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示，服务器103通过网络与终端101进行连接，可用于为终端或终端上安装的客户端提供服务(如遮挡状态的检测服务)，可在服务器上或独立于服务器设置数据库105，用于为服务器103提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端101包括但不限于PC、手机、平板电脑等。

本申请实施例中的一种目标对象的遮挡检测方法可以由服务器103来执行，还可以是由服务器103和终端101共同执行，如图2所示，该方法可以包括以下步骤：

步骤S202，在第一图像中确定目标对象所在的目标区域，其中，第一图像为视频序列中的单帧图像；

步骤S204，截取目标区域的第二图像，并基于第二图像确定目标对象的关键点信息；

步骤S206，利用关键点信息确定目标对象在第一图像中的方位；

步骤S208，将关键点信息映射到人体关键点分布图中，以通过关键点信息在人体关键点分布图上的映射关系结合目标对象在第一图像中的方位，确定目标对象在第一图像中的遮挡状态。

通过步骤S202至S206，本申请基于2D的关键点检测算法进行人体遮挡状态的检测，通过判断特定关键点是否被检测到，来预测人体方位的信息，进而确定人体的遮挡状态。由于关键点只有检测到和未检测到两种状态，因此可以通过判定特定关键点是否被检测到即可准确预测人体方位，不仅避免了深度学习的分类算法中标签边界不清晰的问题，还提升了检测精度，不仅如此，相比3D模型算法的数据采集和标注，本申请基于2D的关键点检测算法的数据获取成本都小很多，解决了相关技术中人体遮挡状态检测精度低、成本高的技术问题。

在步骤S204中，基于第二图像确定目标对象的关键点信息包括：

步骤S302，将第二图像输入第一神经网络模型，以利用第一神经网络模型对第二图像进行人体特征提取，得到第二图像的第一特征图。

本申请实施例中，为了满足第一神经网络模型的输入要求，可以将第二图像缩放为固定尺寸，再输入第一神经网络模型。第一神经网络模型可以基于卷积神经网络、循环神经网络等深度学习网络训练得到，第一神经网络模型用于提取第二图像中目标对象的人体特征，得到第一特征图。

步骤S304，将第一特征图转换为多个热力图，其中，一个热力图对应一个预设关键点。

步骤S306，在每个热力图中确定热力图上每个点的热力值，并按照热力值对热力图上的每个点进行排序。

如图3所示，图中标点位置即为本申请实施例提供的作为优选的预设关键点，通过在实际图像中对人体的上述预设关键点的位置进行预测，从而确定人物在图中的方位。本申请实施例可以对多个预设关键点进行实际位置的预测。上述热力图的数量与预设关键点的数量相同且一一对应，每个热力图上每个点的热力值为该点属于对应预设关键点的概率值，该概率值即为第二神经网络模型计算得到的。

步骤S308，将目标排序位置之前的点的坐标位置进行加权平均，得到每个预设关键点对应的预测关键点的坐标信息，其中，关键点信息包括预测关键点的坐标信息；

本申请实施例中，该目标排序位置可以是排名前2、前3等，可以根据实际需求进行设置。对该目标排序位置之前的点的坐标位置进行加权平均，可以得到该预设关键点对应的预测关键点的实际位置。

步骤S310，按照坐标信息在第一图像中绘制预测关键点。

在步骤S206中，利用关键点信息确定目标对象在第一图像中的方位包括：

步骤S402，将目标排序位置之前的点的热力值进行加权平均，得到预测关键点的检测置信度，其中，关键点信息包括预测关键点的检测置信度。

步骤S404，将检测置信度大于或等于预设检测置信度阈值的预测关键点确定为实际检测到的第一目标关键点。

本申请实施例中，由于目标对象不可能在一个画面(单帧图像)中完整显示，因此，暴露在镜头中的点能够以更高的概率(即检测置信度)被检测到，被检测到的概率高，检测置信度即高，而没有暴露在镜头中的点则以较低的概率被识别出来，被检测到的概率低，检测置信度即低。因此为了确定目标对象在当前画面中的方位，可以保留概率较高的预测关键点为实际检测到的第一目标关键点，而忽略概率较低的预测关键点。可以在热力图中将目标排序位置之前的点的热力值进行加权平均，得到对应预测关键点的检测置信度。上述预设检测置信度阈值可以根据实际情况进行设置。

步骤S406，将第一图像上的所有第一目标关键点组成第一识别组合。

本申请实施例中，可以将所有检测到的第一目标关键点进行组合，得到第一识别组合，如检测到头顶，左耳，右耳，左眼，右眼，鼻子，则第一识别组合为[头顶，左耳，右耳，左眼，右眼，鼻子]。

本申请实施例中可以检测出的人体关键点包括但不限于[头顶，左耳，右耳，左眼，右眼，鼻子，左肩，右肩，左手肘，左手腕，右手肘，右手腕，左骻部，右胯部，左膝，左脚踝，右膝，右脚踝，左胸，右胸，肚脐]。

步骤S408，在预设的人体方位与关键点对应关系表中查找与第一识别组合匹配的第二识别组合。

步骤S410，将第二识别组合对应的预设人体方位确定为目标对象在第一图像中的方位。

本申请实施例中，可以预先配置不同的关键点组合对应的人体方位，进而可以通过检测出来的第一识别组合按照预设的人体方位与关键点对应关系，来确定目标对象在第一图像中的方位。如有的关键点为左右对称的关键点，通过判断左右对称的关键点是否被检测到，例如[左肩，右肩]，[左胸，右胸]，[左眼，右眼]，[左耳，右耳]，[左胯骨，右胯骨]，如果所有左右对称的关键点都被检测出来，则代表人物是正面面对镜头，如图4所示。而当对称的关键点中只有一侧关键点被检测到，例如只有[左耳，左肩，左眼]被检测出来，[右耳，右肩，右眼]没有被检测出来，说明目标对象左侧面面对镜头，如图5所示。而有的关键点仅在正面时能够被检测到，目标对象背对镜头则无法检测到，例如只有[头顶，脖子，左肩，右肩]被检测出来，[左眼，右眼，鼻子，左胸，右胸]都没有被检测出来，说明目标对象背对镜头，如图6所示。

另外，本申请实施例还可以根据业务实际需要来提取特殊的关键点进行人体方位检测。

步骤S502，获取当前业务的检测需求配置数据；

步骤S504，利用检测需求配置数据确定当前业务关注的第二目标关键点；

步骤S506，利用关键点信息确定第二目标关键点的检测结果；

步骤S508，根据第二目标关键点的检测结果确定目标对象在第一图像中的方位。

本申请实施例中，可以灵活地根据实际业务需求来选择特定的关键点进行人体方位检测。当被关注的关键点有被检测到，或者没有被检测到时，则可以根据关键点是否被检出的结果，来判断人体具体的方位信息。

在步骤S208中，将关键点信息映射到人体关键点分布图中，以通过关键点信息在人体关键点分布图上的映射关系结合目标对象在第一图像中的方位，确定目标对象在第一图像中的遮挡状态包括：

步骤S602，在人体关键点分布图中确定所有第一目标关键点的分布区域；

步骤S604，根据分布区域确定目标对象在第一图像中的遮挡比例；

步骤S606，根据遮挡比例和目标对象在第一图像中的方位确定目标对象的被遮挡部位，其中，遮挡状态包括遮挡比例和被遮挡部位。

本申请实施例中，可以先在人体关键点分布图中确定实际检测出来的第一目标关键点的分布区域，如图7所示人物检测出的第一目标关键点映射到图3所示人体关键点分布图中，即可确定图7所示人物实际检测出来的第一目标关键点分布于全身各处，因此该图中，第一目标关键点的分布区域为全身。根据第一目标关键点的分布区域确定目标对象在第一图中的遮挡比例。图7中，全身关键点都被检测出，因此遮挡比例为0。最后，根据遮挡比例和该目标对象在第一图像中的方位确定目标对象的被遮挡部位，在图7中，由于遮挡比例为0，目标对象在图中的方位为正面面对镜头，得出目标对象无被遮挡部位，因此其遮挡状态为正面无遮挡的状态。又如图8中，仅胸部以上的关键点被检测到，确定第一目标关键点的分布区域为上半身，据此得出遮挡比例为0.5，进一步由于目标对象的方位为正面面对镜头，确定目标对象的被遮挡部位为下半身，因此其遮挡状态为正面遮挡下半身的状态。又如图9中，仅检测出分布于头部的第一目标关键点，确定第一目标关键点的分布区域为头部，进一步由于目标对象的方位为正面面对镜头，因此其遮挡状态为正面仅头部露出的状态。

本申请基于2D的关键点检测算法进行人体遮挡状态的检测，通过判断特定关键点是否被检测到，来预测人体方位的信息，进而确定人体的遮挡状态。由于关键点只有检测到和未检测到两种状态，因此可以通过判定特定关键点是否被检测到即可准确预测人体方位，不仅避免了深度学习的分类算法中标签边界不清晰的问题，还提升了检测精度，不仅如此，相比3D模型算法的数据采集和标注，本申请基于2D的关键点检测算法的数据获取成本都小很多，解决了相关技术中人体遮挡状态检测精度低、成本高的技术问题。

在步骤S202中，第一图像为视频序列中的单帧图像，该视频序列可以包括但不限于现有各个业务领域内的视频，如安防领域的监控视频，体育健身的记录视频、文化影视作品的视频等。该单帧图像为对视频序列抽帧得到的。

可选地，在第一图像中确定目标对象所在的目标区域包括：

步骤S702，将第一图像输入第二神经网络模型，以利用第一神经网络模型对第一图像进行位置特征提取，得到第一图像的第二特征图。

本申请实施例中，为了满足第二神经网络模型的输入要求，可以将第一图像缩放为固定尺寸，再输入第二神经网络模型。第二神经网络模型可以基于卷积神经网络、循环神经网络等深度学习网络训练得到，第二神经网络模型用于提取第一图像中人体区域的位置特征，得到第二特征图。

步骤S704，为第二特征图上的每一个点生成多个锚框，其中，每个锚框的尺寸不同。

本申请实施例中，得到第二特征图后，可以为第二特征图上的每一个点生成多个锚框，每个锚框的尺寸不同，用于匹配不同尺寸的人体目标。锚框数量可以根据实际需求进行设置。

步骤S706，确定每个锚框内的像素属于目标对象的像素的像素占比，并确定每个锚框相对目标对象的外轮廓线的偏移量。

步骤S708，利用像素占比和偏移量确定每个锚框包围目标对象的包围置信度。

步骤S710，保留置信度大于或等于预设包围置信度阈值的第一目标锚框，并将第一目标锚框包围的区域确定为目标对象所在的目标区域。

本申请实施例中，可以通过计算每个锚框内的像素属于目标对象的像素的像素占比和每个锚框相对目标对象的外轮廓线的偏移量来计算第二特征图中的每一个锚框中有人的分数(置信度)，从而可以根据该预测分数确定每一个锚框中是否存在人体。本申请实施例中，有人体的锚框为置信度大于或等于预设包围置信度阈值的第一目标锚框，第一目标锚框包围的区域即为第一图像中目标对象所在的目标区域，该预设包围置信度阈值可以根据实际需求进行设置。

步骤S802，在存在多个第一目标锚框的情况下，确定多个第一目标锚框的交并比；

步骤S804，在交并比大于或等于预设交并比阈值的情况下，保留置信度最高的第二目标锚框，并将第二目标锚框包围的区域确定为目标对象所在的目标区域。

本申请实施例中，为了避免多个锚框命中同一个物体时，出现重复检测的情况，可以采用非极大抑制值算法来从该多个锚框中挑选出最佳的一个，具体的，先计算多个第一目标锚框的交并比，从而通过交并比来识别有哪些第一目标锚框命中了同一个人体，其中，交并比大于或等于第二阈值的第一目标锚框为命中同一个人体的锚框，该第二阈值可以根据实际需求进行设置；再从命中同一个人体的多个第一目标锚框中，选择出置信度最高的第二目标锚框来作为最终人体区域检测结果的锚框，并将第二目标锚框包围的区域确定为目标对象所在的目标区域。

步骤S902，获取目标视频序列；

步骤S904，从目标视频序列中抽取出单帧图像；

步骤S906，对单帧图像进行人体遮挡检测，以确定单帧图像中的目标对象的遮挡状态；

步骤S908，将目标对象的遮挡状态满足目标条件的单帧图像确定为关键帧；

本申请实施例中，可以输入一个视频，对视频进行抽帧操作，将抽帧后得到的图片，进行人体检测，得到视频中人体的位置信息，再将人体的位置信息，输入到对应的关键点检测算法中，得到关键点信息，在这里，被检测出来的点位暴露在镜头中的点，没有被检测出来的点位没有暴露在镜头中的点。得到对应的关键点后，通过判断特定关键点是否有被检测出来，或者特定关键点之间的距离，则可以得到人体面对镜头的角度和人体在画面中的遮挡状态，最终可以根据实际业务需求，挑选出所需要的人体画面。如需要从短视频中挑选出一个图像来作为该短视频的封面，应该将人物最完整无遮挡且最清晰可见的画面作为封面，因此可以设定检测左眼、右眼、鼻子等代表正面组合的关键点，当检测到以上特定关键点的识别组合，且确定人物无遮挡的情况下，即可得到该实际业务所需的关键帧。

根据本申请实施例的又一方面，如图10所示，提供了一种目标对象的遮挡检测装置，包括：

人体区域检测模块1001，用于在第一图像中确定目标对象所在的目标区域，其中，第一图像为视频序列中的单帧图像；

人体关键点检测模块1003，用于截取目标区域的第二图像，并基于第二图像确定目标对象的关键点信息；

人体方位识别模块1005，用于利用关键点信息确定目标对象在第一图像中的方位；

遮挡状态确定模块1007，用于将关键点信息映射到人体关键点分布图中，以通过关键点信息在人体关键点分布图上的映射关系结合目标对象在第一图像中的方位，确定目标对象在第一图像中的遮挡状态。

需要说明的是，该实施例中的人体区域检测模块1001可以用于执行本申请实施例中的步骤S202，该实施例中的人体关键点检测模块1003可以用于执行本申请实施例中的步骤S204，该实施例中的人体方位识别模块1005可以用于执行本申请实施例中的步骤S206，该实施例中的遮挡状态确定模块1007可以用于执行本申请实施例中的步骤S208。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

可选地，该人体关键点检测模块，具体用于：

按照坐标信息在第一图像中绘制预测关键点。

可选地，该人体方位识别模块，具体用于：

将第一图像上的所有第一目标关键点组成第一识别组合；

可选地，该遮挡状态识别模块，具体用于：

根据分布区域确定目标对象在第一图像中的遮挡比例；

可选地，该人体区域检测模块，具体用于：

可选地，该人体区域检测模块，还用于：

可选地，该人体方位识别模块，还用于：

获取当前业务的检测需求配置数据；

利用关键点信息确定第二目标关键点的检测结果；

根据本申请实施例的另一方面，本申请提供了一种电子设备，如图11所示，包括存储器1101、处理器1103、通信接口1105及通信总线1107，存储器1101中存储有可在处理器1103上运行的计算机程序，存储器1101、处理器1103通过通信接口1105和通信总线1107进行通信，处理器1103执行计算机程序时实现上述方法的步骤。

上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

根据本申请实施例的又一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一实施例的步骤。

可选地，在本申请实施例中，计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码：

利用关键点信息确定目标对象在第一图像中的方位；

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本申请实施例在具体实现时，可以参阅上述各个实施例，具有相应的技术效果。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种目标对象的遮挡检测方法，其特征在于，包括：

在第一图像中确定目标对象所在的目标区域，其中，所述第一图像为视频序列中的单帧图像；

截取所述目标区域的第二图像，并基于所述第二图像确定所述目标对象的关键点信息；

利用所述关键点信息确定所述目标对象在所述第一图像中的方位；

将所述关键点信息映射到人体关键点分布图中，以通过所述关键点信息在所述人体关键点分布图上的映射关系结合所述目标对象在所述第一图像中的方位，确定所述目标对象在所述第一图像中的遮挡状态。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二图像确定所述目标对象的关键点信息包括：

将所述第二图像输入第一神经网络模型，以利用所述第一神经网络模型对所述第二图像进行人体特征提取，得到所述第二图像的第一特征图；

将所述第一特征图转换为多个热力图，其中，一个热力图对应一个预设关键点；

在每个所述热力图中确定所述热力图上每个点的热力值，并按照所述热力值对所述热力图上的每个点进行排序；

将目标排序位置之前的点的坐标位置进行加权平均，得到每个所述预设关键点对应的预测关键点的坐标信息，其中，所述关键点信息包括所述预测关键点的所述坐标信息；

按照所述坐标信息在所述第一图像中绘制所述预测关键点。

3.根据权利要求2所述的方法，其特征在于，所述利用所述关键点信息确定所述目标对象在所述第一图像中的方位包括：

将所述目标排序位置之前的点的所述热力值进行加权平均，得到所述预测关键点的检测置信度，其中，所述关键点信息包括所述预测关键点的所述检测置信度；

将所述检测置信度大于或等于预设检测置信度阈值的所述预测关键点确定为实际检测到的第一目标关键点；

将所述第一图像上的所有所述第一目标关键点组成第一识别组合；

在预设的人体方位与关键点对应关系表中查找与所述第一识别组合匹配的第二识别组合；

将所述第二识别组合对应的预设人体方位确定为所述目标对象在所述第一图像中的方位。

4.根据权利要求3所述的方法，其特征在于，所述将所述关键点信息映射到人体关键点分布图中，以通过所述关键点信息在所述人体关键点分布图上的映射关系结合所述目标对象在所述第一图像中的方位，确定所述目标对象在所述第一图像中的遮挡状态包括：

在所述人体关键点分布图中确定所有所述第一目标关键点的分布区域；

根据所述分布区域确定所述目标对象在所述第一图像中的遮挡比例；

根据所述遮挡比例和所述目标对象在所述第一图像中的方位确定所述目标对象的被遮挡部位，其中，所述遮挡状态包括所述遮挡比例和所述被遮挡部位。

5.根据权利要求1所述的方法，其特征在于，所述在第一图像中确定目标对象所在的目标区域包括：

将所述第一图像输入第二神经网络模型，以利用所述第二神经网络模型对所述第一图像进行位置特征提取，得到所述第一图像的第二特征图；

为所述第二特征图上的每一个点生成多个锚框，其中，每个锚框的尺寸不同；

确定每个锚框内的像素属于所述目标对象的像素的像素占比，并确定每个锚框相对所述目标对象的外轮廓线的偏移量；

利用所述像素占比和所述偏移量确定每个锚框包围所述目标对象的包围置信度；

保留所述包围置信度大于或等于预设包围置信度阈值的第一目标锚框，并将所述第一目标锚框包围的区域确定为所述目标对象所在的所述目标区域。

6.根据权利要求5所述的方法，其特征在于，所述保留所述置信度大于或等于预设包围置信度阈值的第一目标锚框之后，所述方法还包括：

在存在多个第一目标锚框的情况下，确定所述多个第一目标锚框的交并比；

在所述交并比大于或等于预设交并比阈值的情况下，保留所述置信度最高的第二目标锚框，并将所述第二目标锚框包围的区域确定为所述目标对象所在的所述目标区域。

7.根据权利要求1至6任一所述的方法，其特征在于，所述利用所述关键点信息确定所述目标对象在所述第一图像中的方位还包括：

获取当前业务的检测需求配置数据；

利用所述检测需求配置数据确定所述当前业务关注的第二目标关键点；

利用所述关键点信息确定所述第二目标关键点的检测结果；

根据所述第二目标关键点的所述检测结果确定所述目标对象在所述第一图像中的方位。

8.一种关键帧提取方法，其特征在于，包括：

获取目标视频序列；

从所述目标视频序列中抽取出单帧图像；

对所述单帧图像进行人体遮挡检测，以确定所述单帧图像中的目标对象的遮挡状态；

将所述目标对象的所述遮挡状态满足目标条件的所述单帧图像确定为所述关键帧；

其中，对所述单帧图像进行人体遮挡检测的步骤中包括上述权利要求1至7任一所述的目标对象的遮挡检测方法。

9.一种目标对象的遮挡检测装置，其特征在于，包括：

人体区域检测模块，用于在第一图像中确定目标对象所在的目标区域，其中，所述第一图像为视频序列中的单帧图像；

人体关键点检测模块，用于截取所述目标区域的第二图像，并基于所述第二图像确定所述目标对象的关键点信息；

人体方位识别模块，用于利用所述关键点信息确定所述目标对象在所述第一图像中的方位；

遮挡状态确定模块，用于将所述关键点信息映射到人体关键点分布图中，以通过所述关键点信息在所述人体关键点分布图上的映射关系结合所述目标对象在所述第一图像中的方位，确定所述目标对象在所述第一图像中的遮挡状态。

10.一种电子设备，包括存储器、处理器、通信接口及通信总线，所述存储器中存储有可在所述处理器上运行的计算机程序，所述存储器、所述处理器通过所述通信总线和所述通信接口进行通信，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7或8任一项所述的方法的步骤。

11.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1至7或8任一所述方法。