CN109598234B

CN109598234B - 关键点检测方法和装置

Info

Publication number: CN109598234B
Application number: CN201811474069.2A
Authority: CN
Inventors: 杨思远; 曲晓超; 姜浩; 闫帅; 张伟
Original assignee: Shenzhen Meitu Innovation Technology Co ltd
Current assignee: Shenzhen Meitu Innovation Technology Co ltd
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2021-03-23
Anticipated expiration: 2038-12-04
Also published as: CN109598234A

Abstract

本发明实施例提供一种关键点检测方法和装置，其中，该关键点检测方法包括将视频信息中的当前帧图像作为人体检测器的输入，以计算并输出用于对所述当前帧图像进行剪裁的人体检测框向量以及所述当前帧图像中的姿态概率值；根据所述人体检测框对所述当前帧图像进行剪裁以得到人体图像块；将所述姿态概率值和所述人体图像块作为特征检测器的输入，以计算并输出所述当前帧图像中的关键点。本发明能够有效解决人体特征检测难以在移动终端实时执行的问题，降低关键点检测过程中的网络复杂度，提供检测精度。

Description

关键点检测方法和装置

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种关键点检测方法和装置。

背景技术

在现有的基于深度学习的人体关键点检测方法中，主要包括自顶向下和自低向上两个模型架构设计方式。其中，自顶向下方式通常首先采用人体检测网络获取人物的检测框，然后再采用一个特征检测网络获取框中人物各个肢体的关键点；而自底向上方式则首先检测出图像中所有的肢体关键点，然后通过一定的连接规则将这些点连接成不同的人。但由于人体姿态丰富多变，且容易被背景物体、自身衣物遮挡等，因此无论是自低向上还是自顶向下的方式，往往都需要比较大的神经网络去完成肢体检测任务，一旦网络没有足够的表达能力，将难以顾及到所有的复杂场景，导致基于深度学习的人体关键点检测方法的数据处理速度欠佳，难以运用到实时场景上，尤其是移动终端。

发明内容

有鉴于此，本发明提供一种关键点检测方法和装置，能够有效解决上述问题。

为了达到上述目的，本发明较佳实施例提供一种关键点检测方法，应用于移动终端，所述关键点检测方法包括特征检测过程，该特征检测过程包括：

将视频信息中的当前帧图像作为人体检测器的输入，以计算并输出用于对所述当前帧图像进行剪裁的人体检测框以及所述当前帧图像中的姿态概率值；

根据所述人体检测框对所述当前帧图像进行剪裁以得到人体图像块；

将所述姿态概率值和所述人体图像块作为特征检测器的输入，使得该特征检测器选取与所述姿态概率值匹配的特征检测网络以计算并输出所述当前帧图像中的关键点。

在本发明较佳实施例的选择中，所述人体检测器包括第一特征提取网络、区域建议网络和分类回归网络；计算并输出用于对所述当前帧图像进行剪裁的人体检测框以及所述当前帧图像中的姿态概率值的步骤，包括：

将所述当前帧图像作为所述第一特征提取网络的输入以提取并输出所述当前帧图像中的图像特征；

将提取到的图像特征作为所述区域建议网络的输入以生成初始检测框，并根据所述初始检测框对所述当前帧图像中的图像特征进行裁剪以得到初始图像特征块；

将所述初始图像特征块作为所述分类回归网络的输入，以计算用于表征人体姿态类别的姿态概率值，以及对所述初始检测框进行精修校正得到人体检测框。

在本发明较佳实施例的选择中，所述特征检测器包括第二特征提取网络以及多个特征检测网络；将所述姿态概率值和所述人体图像块作为特征检测器的输入，以计算并输出所述当前帧图像中的关键点的步骤，包括：

将所述人体图像块作为所述第二特征提取网络的输入以计算并提取该人体图像块中的人体特征；

根据所述姿态概率值从多个所述特征检测网络中选取对应的特征检测网络并作为目标检测网络，将所述人体特征作为所述目标检测网络的输入以检测所述人体特征的关键点。

在本发明较佳实施例的选择中，在执行所述姿态概率值作为特征检测器的输入，以从多个特征检测网络中选取与所述姿态概率值最匹配的特征检测网络的步骤之前，所述方法还包括：

获取训练数据集，将该训练数据集划分为多个训练子集，所述训练子集与所述特征检测网络一一对应；

针对每一个所述训练子集，将该训练子集作为对应特征检测网络的输入以计算并输出所述训练子集的测试特征点，将该训练子集作为回归网络的输入以计算并输出测试跟踪值；

根据所述测试特征点和所述测试跟踪值计算所述特征检测网络的损失函数值，并根据损失函数值对所述特征检测网络进行优化直到所述损失函数值的输出满足预设需求。

在本发明较佳实施例的选择中，所述损失函数值Loss的计算步骤包括：

其中，o_c代表测试特征点；δX_c代表测试跟踪值，H_c代表实际特征点，δY_c代表实际跟踪值，C代表特征检测网络的数量，c代表第c个训练子集。

在本发明较佳实施例的选择中，所述关键点检测方法还包括特征跟踪过程，该特征跟踪过程包括：

将所述人体检测框作为检测回归网络的输入，以对该人体检测框进行精修校正，并基于校正后的人体检测框进行人体跟踪。

在本发明较佳实施例的选择中，所述移动终端中运行有第一线程和第二线程；

所述第一线程用于执行所述特征检测过程，所述第二线程用于基于所述第一线程的运行结果执行所述特征跟踪过程，其中，所述第一线程和所述第二线程按照预设周期交替运行。

本发明较佳实施例还提供一种关键点检测装置，应用于移动终端，所述关键点检测装置包括：

姿态概率计算模块，用于将视频信息中的当前帧图像作为人体检测器的输入，以计算并输出用于对所述当前帧图像进行剪裁的人体检测框以及所述当前帧图像中的姿态概率值；

图像裁剪模块，用于根据所述人体检测框对所述当前帧图像进行剪裁以得到人体图像块；

关键点提取模块，用于将所述姿态概率值和所述人体图像块作为特征检测器的输入，使得该特征检测器选取与所述姿态概率值匹配的特征检测网络以计算并输出所述当前帧图像中的关键点。

在本发明较佳实施例的选择中，所述人体检测器包括第一特征提取网络、区域建议网络和分类回归网络；所述姿态概率计算模块包括；

第一特征提取单元，用于将所述当前帧图像作为所述第一特征提取网络的输入以提取并输出所述当前帧图像中的图像特征；

图像裁剪单元，用于将提取到的图像特征作为所述区域建议网络的输入以生成初始检测框，并根据所述初始检测框对所述当前帧图像中的图像特征进行裁剪以得到初始图像特征块；

姿态概率计算单元，用于将所述初始图像特征块作为所述分类回归网络的输入，以计算用于表征人体姿态类别的姿态概率值，以及对所述初始检测框进行精修校正得到人体检测框。

在本发明较佳实施例的选择中，所述特征检测器包括第二特征提取网络以及多个特征检测网络，所述关键点提取模块包括：

第二特征提取单元，用于将所述人体图像块作为所述第二特征提取网络的输入以计算并提取该人体图像块中的人体特征；

关键点检测单元，用于根据所述姿态概率值从多个所述特征检测网络中选取对应的特征检测网络并作为目标检测网络，将所述人体特征作为所述目标检测网络的输入以检测所述人体特征的关键点。

与现有技术相比，本发明实施例提供一种关键点检测方法和装置，其中，本发明采用的特征检测器是由多个分别处理一种姿态的小型网络模型构成，从而有效降低检测模型的网络训练难度，提高了数据处理速度，使得每个小网络能够在其对应的姿态上实现比较高的精度。同时，本发明在检测人体的同时也会同步输出人体姿态的类型，根据该类型即可选择合适的特征检测网络进行关键点检测。

此外，本发明在进行关键点检测时采用了并行的检测逻辑以进一步提高运行速度

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的移动终端的方框结构示意图。

图2为本发明实施例提供的关键点检测方法的流程示意图。

图3为图2中所示的步骤S11的子流程示意图。

图4为图2中所示的步骤S13的子流程示意图。

图5为本发明实施例提供的特征检测器的网络结构示意图。

图6为本发明实施例提供的关键点检测方法的另一流程示意图。

图7为本发明实施例提供的一种关键点检测装置的功能模块框图。

图标：10-移动终端；100-关键点检测装置；110-姿态概率计算模块；1100-第一特征提取单元；1101-图像裁剪单元；1102-姿态概率计算单元；120-图像裁剪模块；130-关键点提取模块；1300-第二特征提取单元；1301-关键点检测单元；200-存储器；300-存储控制器；400-处理器。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

如图1所示，为本发明实施例提供的移动终端10的方框结构示意图，该移动终端10包括关键点检测装置100、存储器200、存储控制器300以及处理器400。其中，所述存储器200、存储控制器300和处理器400各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件之间通过一条或多条通讯总线或信号线实现电性连接。所述关键点检测装置100包括至少一个可以软件或固件的形式存储于所述存储器200中或固化在所述移动终端10的操作***中的软件功能模块。所述处理器400在所述存储控制器300的控制下访问所述存储器200，以用于执行所述存储器200中存储的可执行模块，例如所述关键点检测装置100所包括的软件功能模块及计算机程序等，进而实现本发明实施例中的关键点检测方法。

在此应当理解的是，图1所示的移动终端10的结构仅为示意，如所述移动终端10可以具有比图1所示更多或者更少的组件，或者具有与图1所示不同的配置。其中，图1所示的各组件可以由软件、硬件或者其组合实现。

如图2所示，为本发明较佳实施例提供的一种关键点检测方法的流程示意图，所述关键点检测方法应用于图2中所示的移动终端10。下面将结合图2对所述关键点检测方法的具体流程及步骤进行详细阐述。在此需要说明的是，本实施例给出的关键点检测方法的实际实施步骤不以图2以下述顺序为限制。

步骤S11，将视频信息中的当前帧图像作为人体检测器的输入，以计算并输出用于对所述当前帧图像进行剪裁的人体检测框以及所述当前帧图像中的姿态概率值；

步骤S12，根据所述人体检测框对所述当前帧图像进行剪裁以得到人体图像块；

步骤S13，将所述姿态概率值和所述人体图像块作为特征检测器的输入，使得该特征检测器选取与所述姿态概率值匹配的特征检测网络以计算并输出所述当前帧图像中的关键点。

上述步骤S11-步骤S13中给出的人体特征检测方法应用于移动终端10，以实现对人体关键点的实时检测。具体地，为了兼顾人体关键点检测过程中的检测器(如人体检测器、特征检测器等)的运行速度和精度，本发明摒弃了现有技术中应用一个较大的检测模型进行关键点检测的方式，而是基于自顶向下的人体关键点检测框架的设计方式，采用多分支的特征检测器实现关键点检测网络。其中，该关键点检测网络中的特征检测器包括多个特征检测网络，每个特征检测网络用于负责处理一种姿态下的关键点检测，从而可有效提高数据处理速度，降低在进行特征检测网络训练时的训练难度，使得每个小的特征检测网络能够在其对应的姿态上实现比较高的检测精度，同时确保在移动终端10上实现人体关键点的实时检测。

详细地，步骤S11中是采用聚类的方式获取人体姿态的分类，假设训练集中共有N个人体样本，每个人体共有L个关键点，将这些关键点的坐标归一化到区间[0,1]之间，则第n个人体上的第l个点的归一化坐标可以表示成

那么，对于每一个人体姿态，将其所有点的坐标

作为其特征向量，然后采用层次聚类算法将所有姿态进行聚类，聚类数目为C，采用的链接准则为maximum linkage，通过这种方式，可以将训练集中的所有数据分成C类，C的推荐数值为6。

具体地，在实际实施时，所述人体检测器可以包括第一特征提取网络、区域建议网络(Region Proposal Network，RPN)和分类回归网络，那么如图3所示，步骤S11可通过下述步骤S110-步骤S112实现，具体如下。

步骤S110，将所述当前帧图像作为所述第一特征提取网络的输入以提取并输出所述当前帧图像中的图像特征；

步骤S111，将提取到的图像特征作为所述区域建议网络的输入以生成初始检测框，并根据所述初始检测框对所述当前帧图像中的图像特征进行裁剪以得到初始图像特征块；

步骤S112，将所述初始图像特征块作为所述分类回归网络的输入，以计算用于表征人体姿态类别的姿态概率值，以及对所述初始检测框进行精修校正得到人体检测框。

在步骤S110-步骤S112中，所述第一特征提取网络用于提取所述当前帧图像中的图像特征(如人体图像特征等)。所述区域建议网络用于根据所述第一特征提取网络得到的图像特征生成粗略的检测框，即初始检测框，然后根据初始检测框对所述当前帧图像中的图像特征进行裁剪以得到初始图像特征块。所述分类回归网络可以是一个全连接网络，用于根据所述区域建议网络的输出结果进行计算并输出三个向量，其中，第一个向量是用于对初始包围框进行精修、校正以输出比较精确的人体检测框向量，第二个向量是长度可以为2的前景(如人体)概率向量和背景的概率向量，以用于前景和背景的分类，第三个向量是用于选择匹配的特征检测网络的姿态概率值向量。

应注意的是，与传统的Faster-RCNN(Faster Regions with ConvolutionalNeural Network Feature)略有不同的地方在于，本发明中的分类回归网络增加了一个用于人体姿态分类的姿态概率值的输出，但本发明给出的人体检测器的整个网络的训练方式与传统Faster-RCNN训练方式一致，本实施例在此不再赘述。

进一步地，在步骤S12中，所述人体图像块的形状、大小等取决于所述人体检测框的形状、大小，本实施例在此不做限制。实际实施时，假设人体检测框为一个长度为4的向量，如[x,y,w,h]，其中，x、y分别代表人体检测框左上角的坐标，w和h分别代表框的宽度和高度。在进行图像特征剪裁时，可将当前帧图像的横坐标x至x+w、纵坐标y至y+h处的矩形区域提取出来即完成剪裁，即得到人体图像块。

进一步地，在步骤S13中，所述特征检测器可以包括第二特征提取网络以及多个特征检测网络，多个特征检测网络共享一个第二特征提取网络(即基础网络)，且每个特征检测网络对应负责一种人体姿态下的关键点的检测。在本发明中，通过采用一个基础网络(第二特征提取网络)加上多分支网络(特征检测网络)的特征检测结构，能够大幅降低网络的参数量，使得特征检测器的模型在移动终端10中不会过分臃肿，同时还可大幅降低网络模型的训练难度。详细地，如图4所示，步骤S13可通过下述步骤S130-步骤131实现。

步骤S130，将所述人体图像块作为所述第二特征提取网络的输入以计算并提取该人体图像块中的人体特征；

步骤S131，根据所述姿态概率值从多个所述特征检测网络中选取对应的特征检测网络并作为目标检测网络，将所述人体特征作为所述目标检测网络的输入以检测所述人体特征的关键点。

可选地，在本实施例中，可采用热力图的形式表达关键点的空间信息。假设特征检测网络的输入大小为H×W，第l个点的坐标是(x_l，y_l)，输入与输出的比例为s，则一个人体姿态的热力图为一个

的三维矩阵H，其中，

z表示三维矩阵H的第三个维度，l表示人体关键点的编号，且0<l<L-1。

进一步地，基于上述步骤S10-步骤S13的描述，所述关键点检测方法还可包括特征跟踪过程，该特征跟踪过程包括将所述人体检测框作为跟踪回归网络的输入，以对该人体检测框进行精修校正，并基于校正后的人体检测框进行特征跟踪。

应注意的是，如图5所示，本实施例是通过在特征检测器中增加一个检测回归网络的方式实现特征跟踪，该检测回归网络与多个特征检测网络共同构成所述特征检测器的多个分支，以共享第二特征提取网络这一基础网络。详细地，所述检测回归网络用于对当前帧的人体检测框进行再次精修、校正，并基于精修后的人体检测框实现特征跟踪。实际实施时，当人体检测器执行一次获取人体检测框之后，该检测回归网络这一分支可以处理未来数帧人体检测框的位移，解放人体检测器的压力，减少运行时间。

作为一种实施方式，本发明采用并行的方式实现前述的特征检测过程和特征跟踪过程。具体地，所述移动终端10中可运行有第一线程和第二线程；所述第一线程用于执行所述特征检测过程，所述第二线程用于基于所述第一线程的运行结果执行所述特征跟踪过程，其中，所述第一线程和所述第二线程按照预设周期交替运行。例如，所述特征检测过程可在移动终端10的摄像头开启时执行，并每隔固定帧数执行一次。其中，人体检测器获取概率最高的人体检测框和姿态概率值，随后特征检测器根据人体检测框从当前帧图像中裁剪出感兴趣区域(如人体所在区域)，并根据姿态概率值选择合适的特征检测网络获取关键点检测结果和人体检测框的精修信息。特征跟踪过程可发生在两次特征检测过程之间，该特征检测过程中人体检测器为了节省功耗处于休眠状态，只有特征检测器处于工作状态，此时特征检测器的检测回归网络开始发挥作用，在每帧关键点检测完成后，对人体检测框进行精修，保证该人体检测框与该帧图像的人体对齐，以减少累计误差，然后作为下一帧的人体检测框。特征检测过程保证了人物出现和消失时可以及时进行人物的更新，而特征跟踪过程保证了人体检测线程不会满载，降低了整体功耗。

其中，由于本实施例中的特征检测过程和特征跟踪过程通过两个线程并行执行，因此特征检测器获取的必然是上一帧的人体检测框，但由于时间间隔太短，人体检测框框的误差可以忽略不计。

进一步地，根据实际需求，如图6所示，在执行所述姿态概率值作为特征检测器的输入，以从多个特征检测网络中选取与所述姿态概率值最匹配的特征检测网络的步骤之前，所述关键点检测方法还可通过下述步骤S14-步骤S16对特征检测器进行训练，具体如下。

步骤S14，获取训练数据集，将该训练数据集划分为多个训练子集，所述训练子集与所述特征检测网络一一对应；

步骤S15，针对每一个所述训练子集，将该训练子集作为对应特征检测网络的输入以计算并输出所述训练子集的测试特征点，将该训练子集作为回归网络的输入以计算并输出测试跟踪值；

步骤S16，根据所述测试特征点和所述测试跟踪值计算所述特征检测网络的损失函数值，并根据损失函数值对所述特征检测网络进行优化直到所述损失函数值的输出满足预设需求。

其中，在步骤S14-步骤S16中，所述预设需求是指损失函数值达到最小或者趋于平稳。另外，假设将训练数据集分成C个训练子集，并对训练集进行随机裁剪和位移变化，每次迭代时轮流从C个训练子集中取出一个批次(batch)的训练数据，分别放入特征检测器中以获取对应特征检测网络的输出和检测回归网络的输出。假设从第c个训练子集中获取的训练图像为I_c，其标准热力图为H_c，图像原先检测框坐标和随机裁剪、位移后的坐标之间的差为δY_c，第c个分支的输出为O_c，回归网络的输出为δX_c，则损失函数为:

在完成特征检测器的训练后，可以通过热力图中每个切片上的极大值的位置获取每个人体关键点的坐标。

基于前述关键点检测方法描述可以看出，本发明有效解决了现有技术中基于深度学习的关键点检测技术难以在移动终端10实时执行的缺点。通过并行执行(如特征检测过程和特征追踪过程)和小型化网络解决了特征检测的速度问题；通过人体姿态分类和多分支小网络(如多个特征检测网络)的策略解决了小网络表达能力弱的问题；通过对多个小型的特征检测网络以及检测框回归网络的仔细设计有效缓解了现有技术中多个模型执行时功耗过高的问题。

进一步地，请参阅图7，本发明实施例还提供一种关键点检测装置100，应用于图1所示的移动终端10。所述关键点检测装置100包括姿态概率计算模块110、图像裁剪模块120和关键点提取模块130。

所述姿态概率计算模块110，用于将视频信息中的当前帧图像作为人体检测器的输入，以计算并输出用于对所述当前帧图像进行剪裁的人体检测框以及所述当前帧图像中的姿态概率值；本实施例中，关于所述姿态概率计算模块110的描述具体可参考对步骤S11的详细描述，也即，所述步骤S11可以由所述姿态概率计算模块110执行。可选地，所述姿态概率计算模块110包括第一特征提取单元1100、图像裁剪单元1101和姿态概率计算单元1102。

所述第一特征提取单元1100，用于将所述当前帧图像作为所述第一特征提取网络的输入以提取并输出所述当前帧图像中的图像特征；本实施例中，关于所述第一特征提取单元1100的描述具体可参考对步骤S110的详细描述，也即，所述步骤S110可以由所述第一特征提取单元1100执行。

所述图像裁剪单元1101，用于将提取到的图像特征作为所述区域建议网络的输入以生成初始检测框，并根据所述初始检测框对所述当前帧图像中的图像特征进行裁剪以得到初始图像特征块；本实施例中，关于所述图像裁剪单元1101的描述具体可参考对步骤S111的详细描述，也即，所述步骤S111可以由所述图像裁剪单元1101执行。

所述姿态概率计算单元1102，用于将所述初始图像特征块作为所述分类回归网络的输入，以计算用于表征人体姿态类别的姿态概率值，以及对所述初始检测框进行精修校正得到人体检测框。本实施例中，关于所述姿态概率计算单元1102的描述具体可参考对步骤S112的详细描述，也即，所述步骤S112可以由所述姿态概率计算单元1102执行。

所述图像裁剪模块120，用于根据所述人体检测框对所述当前帧图像进行剪裁以得到人体图像块；本实施例中，关于所述图像裁剪模块120的描述具体可参考对步骤S12的详细描述，也即，所述步骤S12可以由所述图像裁剪模块120执行。

所述关键点提取模块130，用于将所述姿态概率值和所述人体图像块作为特征检测器的输入，使得该特征检测器选取与所述姿态概率值匹配的特征检测网络以计算并输出所述当前帧图像中的关键点。本实施例中，关于所述关键点提取模块130的描述具体可参考对步骤S13的详细描述，也即，所述步骤S13可以由所述关键点提取模块130执行。可选地，所述关键点提取模块130可以包括第二特征提取单1300元和关键点检测单元1301。

所述第二特征提取单元1300，用于将所述人体图像块作为所述第二特征提取网络的输入以计算并提取该人体图像块中的人体特征；本实施例中，关于所述第二特征提取单元1300的描述具体可参考对步骤S130的详细描述，也即，所述步骤S130可以由所述第二特征提取单元1300执行。

所述关键点检测单元1301，用于根据所述姿态概率值从多个所述特征检测网络中选取对应的特征检测网络并作为目标检测网络，将所述人体特征作为所述目标检测网络的输入以检测所述人体特征的关键点。本实施例中，关于所述关键点检测单元1301的描述具体可参考对步骤S131的详细描述，也即，所述步骤S131可以由所述关键点检测单元1301执行。

综上所述，本发明实施例提供一种关键点检测方法和装置，其中，本发明采用的特征检测器是由多个分别处理一种姿态的小型网络模型构成，从而有效降低检测模型的网络训练难度，提高了数据处理速度，使得每个小网络能够在其对应的姿态上实现比较高的精度。同时，本发明在检测人体的同时也会同步输出人体姿态的类型，根据该类型即可选择合适的特征检测网络进行关键点检测。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的***和方法，也可以通过其它的方式实现。以上所描述的***和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种关键点检测方法，应用于移动终端，其特征在于，所述关键点检测方法包括特征检测过程，该特征检测过程包括：

将所述姿态概率值和所述人体图像块作为特征检测器的输入，使得该特征检测器选取与所述姿态概率值匹配的特征检测网络以计算并输出所述当前帧图像中的关键点；

其中，所述特征检测器包括第二特征提取网络以及多个特征检测网络；将所述姿态概率值和所述人体图像块作为特征检测器的输入，以计算并输出所述当前帧图像中的关键点的步骤，包括：

2.根据权利要求1所述的关键点检测方法，其特征在于，所述人体检测器包括第一特征提取网络、区域建议网络和分类回归网络；计算并输出用于对所述当前帧图像进行剪裁的人体检测框以及所述当前帧图像中的姿态概率值的步骤，包括：

3.根据权利要求1所述的关键点检测方法，其特征在于，在执行所述姿态概率值作为特征检测器的输入，以从多个特征检测网络中选取与所述姿态概率值最匹配的特征检测网络的步骤之前，所述方法还包括：

4.根据权利要求3所述的关键点检测方法，其特征在于，所述损失函数值Loss的计算步骤包括：

5.根据权利要求1所述的关键点检测方法，其特征在于，所述关键点检测方法还包括特征跟踪过程，该特征跟踪过程包括：

6.根据权利要求5所述的关键点检测方法，其特征在于，所述移动终端中运行有第一线程和第二线程；

7.一种关键点检测装置，应用于移动终端，其特征在于，所述关键点检测装置包括：

关键点提取模块，用于将所述姿态概率值和所述人体图像块作为特征检测器的输入，使得该特征检测器选取与所述姿态概率值匹配的特征检测网络以计算并输出所述当前帧图像中的关键点；

其中，所述特征检测器包括第二特征提取网络以及多个特征检测网络，所述关键点提取模块包括：

8.根据权利要求7所述的关键点检测装置，其特征在于，所述人体检测器包括第一特征提取网络、区域建议网络和分类回归网络；所述姿态概率计算模块包括；