CN108229488A

CN108229488A - 用于检测物体关键点的方法、装置及电子设备

Info

Publication number: CN108229488A
Application number: CN201611227629.5A
Authority: CN
Inventors: 方治炜; 闫俊杰
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-12-27
Filing date: 2016-12-27
Publication date: 2018-06-29
Anticipated expiration: 2036-12-27
Also published as: US10885365B2; WO2018121567A1; US20190279014A1; CN108229488B

Abstract

本发明实施例提供一种检测物体关键点方法、装置及电子设备。其中，用于检测物体关键点的方法包括：获取待检测图像的多个局部区域候选框各自的特征图，所述多个局部区域候选框与至少一种目标物体对应；根据各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测。本发明实施例的检测物体关键点方法、装置及电子设备能够有效地抑制背景对物体检测的影响，可应用于例如物体相互遮挡的复杂应用场景，即使提取的局部区域候选框位置不准确，也不影响图像中关键点的检测。

Description

用于检测物体关键点的方法、装置及电子设备

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种用于检测物体关键点的方法、装置及电子设备。

背景技术

物体的关键点是指物体上具有稳定且重要的语义信息的部位。物体的关键点的检测对于物体的深层次分析具有极其重要的辅助作用，因而被广泛应用于行为识别、跟踪以及人体再认证等。

通用物体关键点的检测是指在现实复杂场景中对场景中指定的多种物体的每个实例进行关键点检测。目前的关键点检测方法通常分为两种。

在第一种方法中，对关键点的几何位置分布进行建模，然后根据检测的分数并基于关键点空间结构来预测关键点。在这种方法中一般人工定义用于预测的特征。

在第二种方法中，采用深度卷积神经网络来产生特征，然后加入关键点位置的回归或者分类以预测关键点。在这种方法中，设计者会根据特定目标的关键点布局，在卷积神经网络中加入反映关键点空间结构的图模型。

发明内容

本发明实施例的目的在于，提供一种用于检测物体关键点的方法、装置及电子设备，以从各种场景中的图像中对多个类别的物体进行关键点检测。

根据本发明实施例的一方面，提供一种用于检测物体关键点的方法，包括：获取待检测图像的多个局部区域候选框各自的特征图，所述多个局部区域候选框与至少一种目标物体对应；根据各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测。

可选地，结合本发明实施例提供的任一种方法，其中，所述根据各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测包括：以每个所述局部区域候选框的特征图作为深度神经网络模型的输入，分别获取每个所述局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率，所述第一个数为所述至少一种目标物体预定的关键点的个数总和，所述深度神经网络模型用于预测物体区域候选框的第一个数的检测关键点热度图以及各个检测关键点热度图中各个位置为关键点的关键点预测概率；根据任一局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率预测所述局部区域候选框中的关键点。

可选地，结合本发明实施例提供的任一种方法，其中，在以每个所述局部区域候选框的特征图作为深度神经网络模型的输入，分别获取每个所述局部区域候选框的第一个数的检测关键点热度图之前，通过以下处理训练得到所述预先训练的深度神经网络模型：通过多个样本图像训练所述深度神经网络模型，所述样本图像配有至少一种物体的局部区域候选框的第二个数标定关键点热度图，所述深度神经网络模型包括多个卷积层和分类器层，其中，在所述多个卷积层的末端获得每个局部区域候选框的第二个数的预测关键点热度图，从所述分类器层输出每个所述预测关键点热度图中各个位置的关键点预测概率。

可选地，结合本发明实施例提供的任一种方法，其中，所述通过多个样本图像训练所述深度神经网络模型包括：对所述多个样本图像的特征向量进行卷积，获得所述多个样本图像的卷积特征向量；对所述卷积特征向量进行1×1卷积，分别获得所述每个样本图像的N+1个预测关键点热度图，N为第二个数；根据各个局部区域候选框的位置，从每个所述样本图像的前第二个数所述预测关键点热度图分别剪切出各个局部区域候选框的第二个数的预测关键点热度图；分别获取所述各个局部区域候选框的第二个数的预测关键点热度图与相应的第二个数标定关键点热度图之间的差异；使用获取到的差异和所述多个样本图像迭代地更新所述深度神经网络模型的网络参数。

可选地，结合本发明实施例提供的任一种方法，其中，所述检测关键点热度图和预测关键点热度图的大小均小于所述局部区域候选框的大小，所述根据任一局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率预测所述局部区域候选框中的关键点还包括：将所述第一个数的检测关键点热度图放大到所述局部区域候选框的大小。

可选地，结合本发明实施例提供的任一种方法，其中，所述根据任一局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率预测所述局部区域候选框中的关键点包括：将所述第一个数的检测关键点热度图当中的第M个检测关键点热度图中关键点预测概率超过概率阈值的位置作为所述任一局部区域候选框中第M个关键点的位置，M为小于等于所述第一个数的正整数。

可选地，结合本发明实施例提供的任一种方法，其中，在以每个所述局部区域候选框的特征图作为深度神经网络模型的输入，分别获取每个所述局部区域候选框的第一个数的检测关键点热度图之前，将所述任一局部区域候选框的特征图缩放到预定的尺寸，所述根据任一局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率预测所述局部区域候选框中的关键点还包括：将确定的关键点的位置按照与缩放前的特征图相应的比例进行缩放。

可选地，结合本发明实施例提供的任一种方法，其中，所述获取各个所述局部区域候选框的特征图包括：获取所述待检测图像的特征图，并且根据各个所述局部区域候选框的位置从所述特征图分别剪切出各个所述局部区域候选框的特征图。

可选地，结合本发明实施例提供的任一种方法，其中，所述获取各个所述局部区域候选框的特征图包括：根据各个所述局部区域候选框的位置从所述待检测图像分别剪切出各个所述局部区域候选框图像，并且分别获取所述各个所述局部区域候选框图像的特征图。

可选地，结合本发明实施例提供的任一种方法，其中，所述方法还包括：显示所述待检测图像，在显示的图像中标注所述局部区域候选框及关键点。

根据本发明实施例的第二方面，还提供一种用于检测物体关键点的装置，包括：特征图获取模块，用于获取待检测图像的多个局部区域候选框各自的特征图，所述多个局部区域候选框与至少一种目标物体对应；关键点检测模块，用于根据所述特征图获取模块获取的各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测。

可选地，结合本发明实施例提供的任一种装置，其中，所述关键点检测模块包括：检测热度图获取单元，用于以每个所述局部区域候选框的特征图作为深度神经网络模型的输入，分别获取每个所述局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率，所述第一个数为所述至少一种目标物体预定的关键点的个数总和，所述深度神经网络模型用于预测物体区域候选框的第一个数的检测关键点热度图以及各个检测关键点热度图中各个位置为关键点的关键点预测概率；以及关键点预测单元，用于根据任一局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率预测所述局部区域候选框中的关键点。

可选地，结合本发明实施例提供的任一种装置，其中，所述装置还包括：热度图模型训练模块，用于通过多个样本图像训练所述深度神经网络模型，所述样本图像配有至少一种物体的局部区域候选框的第二个数标定关键点热度图，所述深度神经网络模型包括多个卷积层和分类器层，其中，在所述多个卷积层的末端获得每个局部区域候选框的第二个数的预测关键点热度图，从所述分类器层输出每个所述预测关键点热度图中各个位置的关键点预测概率。

可选地，结合本发明实施例提供的任一种装置，其中，所述热度图模型训练模块包括：卷积处理单元，用于对所述多个样本图像的特征向量进行卷积，获得所述多个样本图像的卷积特征向量；预测热度图获取单元，用于对所述卷积特征向量进行1×1卷积，分别获得所述每个样本图像的N+1个预测关键点热度图，N为第二个数；预测热度图剪切单元，用于根据各个局部区域候选框的位置，从每个所述样本图像的前第二个数所述预测关键点热度图分别剪切出各个局部区域候选框的第二个数的预测关键点热度图；差异确定单元，用于分别获取所述各个局部区域候选框的第二个数的预测关键点热度图与相应的第二个数标定关键点热度图之间的差异；网络训练单元，用于使用所述差异确定单元获取到的差异和所述多个样本图像迭代地更新所述深度神经网络模型的网络参数。

可选地，结合本发明实施例提供的任一种装置，其中，所述检测关键点热度图和预测关键点热度图的大小均小于所述局部区域候选框的大小，所述关键点预测单元还用于将所述第一个数的检测关键点热度图放大到所述局部区域候选框的大小。

可选地，结合本发明实施例提供的任一种装置，其中，所述关键点预测单元用于将所述第一个数的检测关键点热度图当中的第M个检测关键点热度图中关键点预测概率超过概率阈值的位置作为所述任一局部区域候选框中第M个关键点的位置，M为小于等于所述第一个数的正整数。

可选地，结合本发明实施例提供的任一种装置，其中，所述装置还包括：特征图缩放单元，用于在以每个所述局部区域候选框的特征图作为深度神经网络模型的输入，分别获取每个所述局部区域候选框的第一个数的检测关键点热度图之前，将所述任一局部区域候选框的特征图缩放到预定的尺寸，所述关键点预测单元还用于将确定的关键点的位置按照与缩放前的特征图相应的比例进行缩放。

可选地，结合本发明实施例提供的任一种装置，其中，所述特征图获取模块用于获取所述待检测图像的特征图，并且根据各个所述局部区域候选框的位置从所述特征图分别剪切出各个所述局部区域候选框的特征图。

可选地，结合本发明实施例提供的任一种装置，其中，所述特征图获取模块用于根据各个所述局部区域候选框的位置从所述待检测图像分别剪切出各个所述局部区域候选框图像，并且分别获取所述各个所述局部区域候选框图像的特征图。

可选地，结合本发明实施例提供的任一种装置，其中，所述装置还包括：显示模块，用于显示所述待检测图像，在显示的图像中标注所述局部区域候选框及关键点。

根据本发明实施例的第三方面，还提供一种电子设备。所述电子设备包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上述第一方面提供的检测物体关键点方法对应的操作。

根据本发明实施例提供的检测物体关键点方法、装置及电子设备能够有效地抑制背景对物体检测的影响，可应用于例如物体相互遮挡的复杂应用场景，即使提取的局部区域候选框位置不准确，也不影响图像中关键点的检测。

附图说明

图1是示出根据本发明实施例一的用于检测物体关键点的方法的流程图；

图2是示出根据本发明实施例二的用于检测物体关键点的方法的流程图；

图3是示出根据本发明实施例三的用于训练深度神经网络模型的处理的流程图；

图4是示出根据本发明实施例四的用于检测物体关键点的装置的逻辑框图；

图5是示出根据本发明实施例五的用于检测物体关键点的装置的逻辑框图；

图6A、图6B、图6C和图6D分别示出通过根据本发明实施例的用于检测物体关键点的方法处理的示例性图像；

图7示出根据本发明实施例六的电子设备的结构示意图。

具体实施方式

下面结合附图详细描述本发明实施例的示例性实施例。

实施例一

图1是示出根据本发明实施例一的用于检测物体关键点的方法的流程图。

参照图1，在步骤S110，获取待检测图像的多个局部区域候选框各自的特征图，所述多个局部区域候选框与至少一种目标物体对应。

在对图像中拍摄的物体进行检测时，通常先从图像提取可能包含目标物体(如行人、人脸、车辆等)的局部区域候选框。可通过现有的区域提取方法(如区域候选网络、卷积神经网络等)从图像提取目标物体的多个局部区域候选框，在提取局部区域候选框的过程中还可获得这些局部区域候选框的置信度或预测概率的信息。例如，通过区域候选网络(Regional Proposal Network)可从每幅图像提取例如300个局部区域候选框。

在一个图像中，可能捕捉有多种不同的物体对象，因此提取的局部区域候选框可能含有多种物体。在本发明实施例提供的检测物体关键点的方法中，可事先确定要检测的一种或多种目标物体，以用于在后续处理中从待检测图像检测这些目标物体的关键点。

此后，可通过任何现有的图像处理方法来获取表征图像特征的特征图。例如，但不限于，可通过对待检测图像进行卷积处理，在某个卷积层获取与各个局部区域候选框对应的特征图；另一方面，也可以获取已为待检测图像生成的特征图进行后续处理。

在步骤S120，根据各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测。

由于获取的局部区域候选框的特征图表征框内的特征响应，因此在该步骤，以从图像中提取的局部区域候选框为单位进行分析、检测来预测每个局部区域候选框中是否出现目标物体的关键点。可以通过多种对特征图的处理方式来分析局部区域候选框内的特征响应程度，以定位目标物体的关键点。

在目前的关键点检测技术中，大多对整个图像的图像特征进行分析来检测关键点。这些关键点检测方法大多适用于理想的应用场景，即完整的目标物体已被人为提取并被缩放到固定的尺寸、目标物体种别单一的情形。然而，现实场景中的环境较复杂：在一幅图片中需要跟踪不止一种尺寸大小各异的物体，物体之间可能互相遮挡，并且不同物体的关键点空间结构不相容。这些复杂的情形使得在现实场景下在对多种物体进行关键点检测时，检测出的结果不准确，效果不理想。

根据本发明实施例的用于检测物体关键点的方法，基于从图像中预测的物体的局部区域候选框的特征图来预测至少一种目标物体的关键点，从而实现通用物体的关键点检测。这种根据局部区域候选框的特征响应实现的通用物体的关键点检测，能够有效地抑制背景对物体检测的影响，可应用于例如物体相互遮挡的复杂应用场景，即使提取的局部区域候选框位置不准确，也不影响图像中关键点的检测。

实施例二

图2是示出根据本发明实施例二的用于检测物体关键点的方法的流程图。

参照图2，在步骤S210，获取待检测图像的多个局部区域候选框各自的特征图，所述多个局部区域候选框与至少一种目标物体对应。

如前所述，可通过多种方式获取各个所述局部区域候选框的特征图。例如，可获取待检测图像的特征图，再根据各个所述局部区域候选框的位置从整个图像的特征图分别剪切出各个局部区域候选框的特征图。再例如，还可根据各个所述局部区域候选框的位置从所述待检测图像分别剪切出各个所述局部区域候选框图像，并且分别获取所述各个所述局部区域候选框图像的特征图。这些局部区域候选框的特征图可反映各个局部区域候选框的图像属性特征。

在前述处理中，在获取待检测图像的特征图或获取所述各个所述局部区域候选框图像的特征图前，可将待检测图像或各个局部区域候选框图像进行缩放，将待检测图像或各个局部区域候选框图像拉伸或缩小到预定的尺寸，以使用统一尺寸的待检测图像或各个局部区域候选框图像获取相应的特征图。

在步骤S220，以每个所述局部区域候选框的特征图作为预先训练的深度神经网络模型的输入，分别获取每个所述局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率，第一个数为所述至少一种目标物体预期设定的关键点的个数总和，所述深度神经网络模型用于预测物体区域候选框的第一个数的检测关键点热度图以及各个检测关键点热度图中各个位置为关键点的关键点预测概率。

具体地，假设需要根据本方法检测200个物体种别(例如猫、狗、人、车辆、飞机等)的关键点。各个种别的物体的关键点的个数通常不同，例如，人的关键点为10个，狗的关键点为8个等。将这200个物体种别的关键点的个数相加，10+8+…，假设共有第一个数的关键点。

在该步骤，根据预先训练的深度神经网络模型为每个局部区域候选框预测第一个数的通道的检测关键点热度图，以在后续处理中预测在某个局部区域候选框中出现该第一个数的关键点的概率，从而确定局部区域候选框中是否存在任一种型的关键点。关键点热度图可反映图中各个位置的特征响应程度。如果某个关键点出现在局部区域候选框(或图像)中的某个位置，则在获取到的关键点热度图的相应位置也会出现高响应，而在其他位置出现低响应。根据关键点热度图各位置的响应程度，可预测该关键点热度图中是否存在第一个数的关键点中的某个关键点。

稍后将详细介绍训练前述深度神经网络模型的示例性处理，当然，该深度神经网络模型的训练不限于在此描述的示例性处理，可使用任何可预测物体区域候选框的第一个数的检测关键点热度图以及各个检测关键点热度图中各个位置的关键点预测概率的模型来执行步骤S220的处理。

假设获取的局部区域候选框的个数为N个，前述第一个数为K个，则通过步骤S220的处理，为每个局部区域候选框生成K个检测关键点热度图，可获得全部N个局部区域候选框的共N×K个检测关键点热度图。

此后，在步骤S230，根据任一局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率预测所述局部区域候选框中的关键点。

如前所述，预先训练的深度神经网络模型用于预测物体区域候选框的第一个数的检测关键点热度图以及各个检测关键点热度图中各个位置的关键点预测概率。因此，在一种可行方案中，可将第一个数的检测关键点热度图当中的第M个检测关键点热度图中关键点预测概率超过概率阈值的位置(即点)作为所述任一局部区域候选框中第M个关键点的位置，M为小于等于第一个数的正整数。也就是说，任一局部区域候选框的第一个数的检测关键点热度图逐个进行如下判断：如果当前的检测关键点热度图(第M个检测关键点热度图)中存在关键点预测概率超过概率阈值的位置，则可以确定该局部区域候选框中存在第一个数的关键点当中的第M个关键点。

可以理解的是，上述的可行方案仅是其中一种实现方式，在实际应用中，用户可以根据实际需求调整实现条件或具体参数，上述可行方案的举例不应理解为唯一的实现方式。

如果在前述获取待检测图像或各个局部区域候选框图像的特征图处理前，对待检测图像或各个局部区域候选框图像进行过缩放处理，则可将相应的局部区域候选框中的该第M个关键点进行相应的缩放映射处理，以准确地反映该第M个关键点在局部区域候选框中的实际位置。

在实际应用中，在预测出各个局部区域候选框中的关键点后，还可显示该图像，并且在显示的图像中标注所述局部区域候选框及关键点，以直观地展示关键点检测的结果。

图6A示出标注有局部区域候选框的示例图像。示例图像拍摄到人和狗在海边嬉戏的画面。为了便于说明，在示例图像中示出较少的物体局部区域候选框，共8个。这里，假设要检测3种物体，分别为狗、人和短裤，为该3种物体设定的关键点的个数分别为8个、10个和4个。相应地，这3种物体的关键点的个数总和为22个。在实际运行中，检测的物体种类通常更多，达到上百种，关键点的个数总和可能达到近千个，这里进行了精简。

图6B～图6D分别示出根据前述步骤S210～S230对图6A中的示例图像中的3个局部区域候选框的示例处理。局部区域候选框610A内含有人和短裤，局部区域候选框610B内框有狗，局部区域候选框610C内含有作为背景的山坡。

参照图6B～图6D，在步骤S210，根据局部区域候选框610A、610B和610C的位置从示例图像分别剪切出局部区域候选框图像，将剪切出的局部区域候选框图像分别拉伸到统一的尺寸得到拉伸的局部区域候选框图像620A、620B和620C，再从拉伸的局部区域候选框图像620A、620B和620C获取相应的特征图。

此后，通过步骤S220对拉伸的局部区域候选框图像620A的处理，得到22个通道的检测关键点热度图630A，类似地，得到局部区域候选框610B和610C的22个通道的检测关键点热度图630B和630C。在这些热度图中，关键点出现的位置出现高响应，在示出的热度图中表征为高亮度。示出的检测关键点热度图630A、630B和630C均分为3排，上排的8个通道是狗的8个关键点通道；中间的10个通道是人的10个关键点通道；下排的4个通道是短裤的4个关键点通道。

最后，在步骤S230，根据局部区域候选框610A的22个通道的检测关键点热度图630A中各个位置的关键点预测概率预测到局部区域候选框610A中的人和短裤的共14个关键点。由于局部区域候选框610A不含狗，所以预测狗的关键点的8个通道的热度图将会根据对应的预测概率全部失效，根据预测人的关键点的10个通道的热度图和预测短裤的关键点的4个通道的热度图，预测到相应的10个人的关键点的位置以及4个短裤的关键点的位置。此后，将预测到的关键点的位置相应地还原到原始的示例图像中。

同理，根据局部区域候选框610B的22个通道的检测关键点热度图630B预测到狗的8个关键点。

由于局部区域候选框610C仅包含背景山坡，而不包含人、狗或短裤，因此，其22个通道的检测关键点热度图630C全部失效，没有检测到关键点。

根据本发明实施例二的用于检测物体关键点的方法，通过为待检测的图像中的至少一种目标物体的每个局部区域候选框根据其图像特征分别生成多个关键点通道的关键点预测热度图，再根据生成的多个关键点通道的关键点预测热度图来预测该局部区域候选框中是否存在对应通道的关键点，适用于多种物体的关键点的检测，具有较强的通用性，无需单独检测/提取每种物体的关键点。此外，通过关键点预测热度图来执行关键点的检测，能够有效地抑制背景对物体检测的影响，可应用于例如物体相互遮挡的复杂应用场景，即使提取的局部区域候选框位置不准确，也不影响图像中关键点的检测，具有较强的鲁棒性。

实施例三

以下具体描述训练前述深度神经网络模型的一种示例性处理。图3是示出根据本发明实施例三的用于训练深度神经网络模型的处理的流程图。

总体说来，训练的深度神经网络模型包括多个卷积层和分类器层。通过多个样本图像训练所述深度神经网络模型，所述样本图像配有至少一种物体的局部区域候选框的第二个数标定关键点热度图。其中，在所述多个卷积层的末端获得每个局部区域候选框的第二个数的预测关键点热度图，从所述分类器层输出每个所述预测关键点热度图中各个位置的关键点预测概率。也就是说，训练的该深度神经网络模型输出第二个数的预测关键点热度图以及预测关键点热度图中各个位置的关键点预测概率。

图3示出根据本发明实施例三的用于训练深度神经网络模型的处理的流程图。

参照图3，在步骤S310，对所述多个样本图像的特征向量进行卷积，获得所述多个样本图像的卷积特征向量。从通过卷积获得的特征向量可获得多个样本图像的特征图。

在步骤S320，对所述卷积特征向量进行1×1卷积，分别获得每个样本图像的(第二个数+1)个预测关键点热度图。

这里，与前述实施例二中提及的第一个数的确定类似，根据要训练的深度神经网络模型要预测的物体的类别以及预测的物体的关键点的个数来确定第二个数。如果训练的深度神经网络模型要预测物体的类别与前述实施例中要检测的目标物体的类别相同，则第二个数与第一个数相同。

通过进一步对在步骤S310获得的任一样本图像的卷积特征向量进行1×1卷积，可获得该样本图像的共(第二个数+1)个通道的预测关键点热度图，(第二个数+1)个通道包括第二个数的预测关键点以及不属于任何关键点的背景通道。

在步骤S330，根据各个局部区域候选框的位置，从每个样本图像的前第二个数的预测关键点热度图分别剪切出各个局部区域候选框的第二个数的预测关键点热度图。

具体地，在步骤S320获得的(第二个数+1)个预测关键点热度图中，前第二个数的预测关键点热度图被认为是对要检测的第二个数关键点的预测有意义的，因此从获得的(第二个数+1)个预测关键点热度图中的前第二个数的预测关键点热度图分别剪切出各个局部区域候选框的第二个数的预测关键点热度图。

在步骤S340，分别获取各个局部区域候选框的第二个数的预测关键点热度图与相应的第二个数标定关键点热度图之间的差异。这些差异表征了训练中的深度神经网络模型的位置预测偏差。

此外，该步骤，还通过设置在多个卷积层的末端的分类器层，分别对在步骤S330获取到的各个局部区域候选框的第二个数的预测关键点热度图预测各个位置(点)的关键点预测概率。

例如，可在多个卷积层的末端设置二分类或N分类的全连接层来执行步骤S340的预测。

此后，在步骤S350，使用获取到的差异和所述多个样本图像迭代地更新所述深度神经网络模型的网络参数，直至满足预定的迭代终止条件为止。

具体地，可根据获取到的差异来对深度神经网络模型的网络参数迭代地进行优化更新(如批量随机梯度下降方法等)，直至获得满足收敛条件的深度神经网络模型的网络参数。这里更新的深度神经网络模型的网络参数包括各个卷积层的网络参数以及分类器层的网络参数。

在卷积神经网络中，在卷积层通常设置缩小因数，以控制卷积神经网络的训练和预测过程涉及的运算量。例如，如果在深度神经网络模型的最后一个特征层设置值为8的缩小因数，而局部区域候选框的尺寸是332×332，那么通过前述步骤S310～S330获取到的预测关键点热度图的尺寸为512×42×42。由此，检测关键点热度图和预测关键点热度图的大小均小于所述局部区域候选框的大小。在这种情况下，前述图1中的步骤S240还包括，将所述第一个数的检测关键点热度图放大到所述局部区域候选框的大小。

根据本发明实施例二的深度神经网络模型的处理，通过配有至少一种物体的局部区域候选框的第二个数标定关键点热度图的多个样本图像训练深度神经网络模型，在所述多个卷积层的末端获得每个局部区域候选框的第二个数的预测关键点热度图，从所述分类器层输出每个所述预测关键点热度图中各个位置的关键点预测概率。训练得到的深度神经网络模型输出具有一种或多种物体的多个通道的预测关键点热度图以及预测关键点热度图中各个位置的关键点预测概率，适用于多种物体的关键点的检测，具有较强的通用性，无需单独检测/提取每种物体的关键点。此外，通过关键点预测热度图来执行关键点的检测，能够有效地抑制背景对物体检测的影响，可应用于例如物体相互遮挡的复杂应用场景，即使提取的局部区域候选框位置不准确，也不影响图像中关键点的检测，具有较强的鲁棒性。

实施例四

图4是示出根据本发明实施例四的用于检测物体关键点的装置的逻辑框图。

参照图4，本实施例的用于检测物体关键点的装置包括特征图获取模块410和关键点检测模块420。

特征图获取模块410用于获取待检测图像的多个局部区域候选框各自的特征图，所述多个局部区域候选框与至少一种目标物体对应。

关键点检测模块420用于根据各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测。

本实施例的用于检测物体关键点的装置用于实现前述方法实施例中相应的检测物体关键点的方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例五

图5是示出根据本发明实施例五的用于检测物体关键点的装置的逻辑框图。

可选地，所述特征图获取模块510用于根据各个所述局部区域候选框的位置从所述待检测图像分别剪切出各个所述局部区域候选框图像，并且分别获取所述各个所述局部区域候选框图像的特征图。

参照图5，可选地，关键点预测模块520包括检测热度图获取单元5201和关键点预测单元5202。

检测热度图获取单元5201用于以每个所述局部区域候选框的特征图作为深度神经网络模型的输入，分别获取每个所述局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率，所述第一个数为所述至少一种目标物体预定的关键点的个数总和，所述深度神经网络模型用于预测物体区域候选框的第一个数的检测关键点热度图以及各个检测关键点热度图中各个位置为关键点的关键点预测概率。

关键点预测单元5202用于根据任一局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率预测所述局部区域候选框中的关键点。

可选地，所述关键点预测单元5202还用于将所述第一个数的检测关键点热度图放大到所述局部区域候选框的大小。

可选地，所述装置还包括：热度图模型训练模块530，用于通过多个样本图像训练所述深度神经网络模型，所述样本图像配有至少一种物体的局部区域候选框的第二个数标定关键点热度图，所述深度神经网络模型包括多个卷积层和分类器层，其中，在所述多个卷积层的末端获得每个局部区域候选框的第二个数的预测关键点热度图，从所述分类器层输出每个所述预测关键点热度图中各个位置的关键点预测概率。

可选地，所述热度图模型训练模块包括：

卷积处理单元5301，用于对所述多个样本图像的特征向量进行卷积，获得所述多个样本图像的卷积特征向量；

预测热度图获取单元5302，用于对所述卷积特征向量进行1×1卷积，分别获得所述每个样本图像的(第二个数+1)个预测关键点热度图；

预测热度图剪切单元5303用于根据各个局部区域候选框的位置，从每个所述样本图像的前第二个数所述预测关键点热度图分别剪切出各个局部区域候选框的第二个数的预测关键点热度图；

差异确定单元5304，用于分别获取所述各个局部区域候选框的第二个数的预测关键点热度图与相应的第二个数标定关键点热度图之间的差异；

网络训练单元5305，用于使用所述差异确定单元获取到的差异和所述多个样本图像迭代地更新所述深度神经网络模型的网络参数。

可选地，所述装置还包括：特征图缩放单元5209，用于在以每个所述局部区域候选框的特征图作为深度神经网络模型的输入，分别获取每个所述局部区域候选框的第一个数的检测关键点热度图之前，将所述任一局部区域候选框的特征图缩放到预定的尺寸。

可选地，所述关键点预测单元5202还用于将确定的关键点的位置按照与缩放前的特征图相应的比例进行缩放。

可选地，所述装置还包括：显示模块540，用于显示所述待检测图像，在显示的图像中标注所述局部区域候选框及关键点。

实施例六

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图7，其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备700的结构示意图。

如图7所示，电子设备700包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)701，和/或一个或多个图像处理器(GPU)713等，处理器可以根据存储在只读存储器(ROM)702中的可执行指令或者从存储部分708加载到随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件712和通信接口709。其中，通信组件712可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口709包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口709经由诸如因特网的网络执行通信处理。

处理器可与只读存储器702和/或随机访问存储器730中通信以执行可执行指令，通过总线704与通信组件712相连、并经通信组件712与其他目标设备通信，从而完成本发明实施例提供的任一项方法对应的操作，例如，获取待检测图像的多个局部区域候选框各自的特征图，所述多个局部区域候选框与至少一种目标物体对应；根据各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测。

此外，在RAM 703中，还可存储有装置操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。在有RAM703的情况下，ROM702为可选模块。RAM703存储可执行指令，或在运行时向ROM702中写入可执行指令，可执行指令使处理器701执行上述通信方法对应的操作。输入/输出(I/O)接口705也连接至总线704。通信组件712可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口709。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

需要说明的，如图7所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信组件可712分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，获取待检测图像的多个局部区域候选框各自的特征图，所述多个局部区域候选框与至少一种目标物体对应；根据各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明实施例的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于检测物体关键点的方法，包括：

获取待检测图像的多个局部区域候选框各自的特征图，所述多个局部区域候选框与至少一种目标物体对应；

根据各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测。

2.根据权利要求1所述的方法，其中，所述根据各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测包括：

以每个所述局部区域候选框的特征图作为深度神经网络模型的输入，分别获取每个所述局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率，所述第一个数为所述至少一种目标物体预定的关键点的个数总和，所述深度神经网络模型用于预测物体区域候选框的第一个数的检测关键点热度图以及各个检测关键点热度图中各个位置为关键点的关键点预测概率；

根据任一局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率预测所述局部区域候选框中的关键点。

3.根据权利要求2所述的方法，其中，所述方法还包括，在以每个所述局部区域候选框的特征图作为深度神经网络模型的输入，分别获取每个所述局部区域候选框的第一个数的检测关键点热度图之前，通过以下处理训练得到所述预先训练的深度神经网络模型：

通过多个样本图像训练所述深度神经网络模型，所述样本图像配有至少一种物体的局部区域候选框的第二个数标定关键点热度图，所述深度神经网络模型包括多个卷积层和分类器层，其中，在所述多个卷积层的末端获得每个局部区域候选框的第二个数的预测关键点热度图，从所述分类器层输出每个所述预测关键点热度图中各个位置的关键点预测概率。

4.根据权利要求3所述的方法，其中，所述通过多个样本图像训练所述深度神经网络模型包括：

对所述多个样本图像的特征向量进行卷积，获得所述多个样本图像的卷积特征向量；

对所述卷积特征向量进行1×1卷积，分别获得所述每个样本图像的N+1个预测关键点热度图，N为所述第二个数；

根据各个局部区域候选框的位置，从每个所述样本图像的前第二个数所述预测关键点热度图分别剪切出各个局部区域候选框的第二个数的预测关键点热度图；

分别获取所述各个局部区域候选框的第二个数的预测关键点热度图与相应的第二个数标定关键点热度图之间的差异；

使用获取到的差异和所述多个样本图像迭代地更新所述深度神经网络模型的网络参数。

5.根据权利要求4所述的方法，其中，所述检测关键点热度图和预测关键点热度图的大小均小于所述局部区域候选框的大小，

所述根据任一局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率预测所述局部区域候选框中的关键点还包括：

将所述第一个数的检测关键点热度图放大到所述局部区域候选框的大小。

6.根据权利要求2～5中任一项所述的方法，其中，所述根据任一局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率预测所述局部区域候选框中的关键点包括：

将所述第一个数的检测关键点热度图当中的第M个检测关键点热度图中关键点预测概率超过概率阈值的位置作为所述任一局部区域候选框中第M个关键点的位置，M为小于等于所述第一个数的正整数。

7.一种用于检测物体关键点的装置，包括：

特征图获取模块，用于获取待检测图像的多个局部区域候选框各自的特征图，所述多个局部区域候选框与至少一种目标物体对应；

关键点检测模块，用于根据所述特征图获取模块获取的各局部区域候选框的特征图，分别对所述待检测图像的相应局部区域候选框进行目标物体关键点检测。

8.根据权利要求7所述的装置，其中，所述关键点检测模块包括：

检测热度图获取单元，用于以每个所述局部区域候选框的特征图作为深度神经网络模型的输入，分别获取每个所述局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率，所述第一个数为所述至少一种目标物体预定的关键点的个数总和，所述深度神经网络模型用于预测物体区域候选框的第一个数的检测关键点热度图以及各个检测关键点热度图中各个位置为关键点的关键点预测概率；以及

关键点预测单元，用于根据任一局部区域候选框的第一个数的检测关键点热度图以及关键点预测概率预测所述局部区域候选框中的关键点。

9.根据权利要求8所述的装置，其中，所述装置还包括：

热度图模型训练模块，用于通过多个样本图像训练所述深度神经网络模型，所述样本图像配有至少一种物体的局部区域候选框的第二个数标定关键点热度图，所述深度神经网络模型包括多个卷积层和分类器层，其中，在所述多个卷积层的末端获得每个局部区域候选框的第二个数的预测关键点热度图，从所述分类器层输出每个所述预测关键点热度图中各个位置的关键点预测概率。

10.一种电子设备，其特征在于，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1～6中任一所述的用于检测物体关键点的方法对应的操作。