CN109919245B

CN109919245B - 深度学习模型训练方法及装置、训练设备及存储介质

Info

Publication number: CN109919245B
Application number: CN201910205457.9A
Authority: CN
Inventors: 金晟; 刘文韬; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2021-08-31
Anticipated expiration: 2039-03-18
Also published as: CN109919245A

Abstract

本发明实施例公开了一种深度学习模型训练方法及装置、训练设备及存储介质。所述深度学习模型训练方法，包括：利用训练图像对深度学习模型进行训练，获得所述深度学习模型输出的训练特征；利用辅助训练模块对所述训练特征进行转换处理，得到转换特征；基于所述转换特征确定损失值；基于所述损失值，确定是否继续训练所述深度学习模型。

Description

深度学习模型训练方法及装置、训练设备及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种深度学习模型训练方法及装置、训练设备及存储介质。

背景技术

在安防领域、动作分析领域等都会需要对图像中的人像等目标检测，然后基于目标检测进行目标行为分析、目标跟踪等后续处理。

在相关技术中一般使用深度学习模型等进行图像中目标检测。一般深度学习模型在上线之前需要利用训练图像进行训练。在一些应用场景下，若基于模型本身只能进行无监督的训练，而无监督的训练方式，一方面难以确保深度学习模型上线之后的处理精确度，另一方面为了提升确保精确度，开发者可能会有过度训练的倾向，而这导致了不必要的训练，从而使得训练效率也降低了。

发明内容

本发明实施例期望提供一种深度学习模型训练方法及装置、训练设备及存储介质。

本发明的技术方案是这样实现的：

一种深度学习模型训练方法，包括：

利用训练图像对深度学习模型进行训练，获得所述深度学习模型输出的训练特征；

利用辅助训练模块对所述训练特征进行转换处理，得到转换特征；

基于所述转换特征确定损失值；

基于所述损失值，确定是否继续训练所述深度学习模型。

基于上述方案，所述利用训练图像对深度学习模型进行训练，获得所述深度学习模型输出的训练特征，包括：

利用所述训练图像对所述深度学习模型进行训练，获得所述深度学习模型输出的第一类特征和第二类特征；

所述利用辅助训练模块对所述训练特征进行转换处理，得到转换特征，包括：

利用所述辅助训练模块基于第一类特征选择部分所述第二类特征进行转换处理，得到所述转换特征。

基于上述方案，所述利用所述辅助训练模块基于第一类特征选择部分所述第二类特征进行转换处理，得到所述转换特征，包括：

根据第一类特征图像包含所述第一类特征和特征阈值的比较结果，生成特征蒙版；

基于所述特征蒙版从所述第二类特征中选择进行转换处理的所述第二类特征。

基于上述方案，所述根据第一类特征图像包含所述第一类特征和特征阈值的比较结果，生成特征蒙版，包括：

将第一类特征图中第i个像素的所述第一类特征与所述特征阈值进行比较，i为像素编号；

若第i个像素的所述第一类特征大于所述特征阈值，则所述特征蒙版中第i个像素的像素值为第一取值；

和/或

若第i个像素的所述第一类特征小于或等于所述特征阈值，则所述特征蒙版中第i个像素的像素值为第二取值，其中，所述第二取值不同于所述第一取值。

基于上述方案，所述基于所述特征蒙版从所述第二类特征中选择进行转换处理的所述第二类特征，包括：

若所述特征蒙版的第j个像素为所述第一取值，则选择第二类特征图中第j个像素的所述第二类特征进行所述特征转换，j为像素编号。

基于上述方案，所述第一类特征图包括第一类特征，，所述第一类特征为置信度。

基于上述方案，所述利用辅助训练模块对所述训练特征进行转换处理，得到转换特征，包括：

利用所述辅助训练模块对训练特征进行聚类处理，得到所述转换特征。

基于上述方案，所述利用所述辅助训练模块对训练特征进行聚类处理，得到所述转换特征，包括：

根据从所述训练特征选择的第二类特征，计算高斯相似性矩阵；

对所述高斯相似性矩阵进行归一化处理，得到归一化矩阵系数；

基于所述高斯相似性矩阵和所述归一化矩阵系数，得到被选择部分的所述第二类特征的所述转换特征。

基于上述方案，所述第二类特征包括：表征所述训练图像中同一个目标不同属性的第一特征和/或第二特征。

基于上述方案，所述第一特征，包括：编码了目标的外观信息且能够区分不同目标的特征；

所述第二特征，包括：编码了同一个目标内部关键点的空间位置信息且能够区分不同目标的特征。

利用所述辅助训练模块对所述第一特征进行转换处理，得到第一转换特征；

利用所述辅助训练模块对所述第二特征进行转换处理，得到第二转换特征。

基于上述方案，所述基于所述转换特征确定损失值，包括：

基于所述第一转换特征得到所述损失值的第一损失项；

基于所述第二转换特征得到所述损失值的第二损失项；

基于所述第一损失项和所述第二损失项，得到所述损失值。

基于上述方案，所述方法还包括：

获取所述深度学习模型输出的第三类特征；

基于所述第三类特征和所述第二类特征确定第一类损失值；

所述基于所述转换特征确定损失值，包括：基于所述转换特征得到第二类损失值；

所述基于所述损失值，确定是否继续训练所述深度学习模型，包括：基于所述第一类损失值和所述第二类损失值，对所述深度学习模型进行模型训练。

基于上述方案，所述第三类特征包括：用于指示所述训练图像中不同目标之间的空间顺序的特征；

所述第二类特征包括：第一特征，所述第一特征，包括：编码了目标的外观信息且能够区分不同目标的特征；

所述基于所述第三类特征和所述第二类特征确定第一类损失值，包括：

根据不同目标的关键点嵌入特征得到所述不同目标的第一空间顺序；

基于所述第三类特征，得到所述不同目标的第二空间顺序；

基于所述第一空间顺序和所述第二空间顺序，确定所述第一类损失值。

基于上述方案，所述第三类特征包括以下至少之一：

指示不同对象在第一方向上的分布关系的第一第三类特征；

指示不同对象在第二方向上的分布关系的第二第三类特征，其中，第二方向为所述第一方向的反方向；

指示不同对象在第三方向上的分布关系的第三第三类特征，其中，所述第三方向与所述第一方向相反；

指示不同对象在第四方向上的分布关系的第四第三类特征，其中，所述第四方向与所述第三方向相反；

指示不同对象在第五方向上的分布关系的第五第三类特征，其中，所述第五方向分别垂直于所述第一方向和所述第三方向；

指示不同对象在第六方向上的分布关系的第六第三类特征，其中，所述第六方向为所述第五方向的反方向。

一种深度学习模型训练装置，包括：

训练模块，用于利用训练图像对深度学习模型进行训练，获得所述深度学习模型输出的训练特征；

辅助模块，用于利用辅助训练模块对所述训练特征进行转换处理，得到转换特征；

第一确定模块，用于基于所述转换特征确定损失值；

第二确定模块，还用于基于所述损失值，确定是否继续训练所述深度学习模型。

基于上述方案，所述训练模块，具体用于利用所述训练图像对所述深度学习模型进行训练，获得所述深度学习模型输出的第一类特征和第二类特征；

所述辅助模块，具体用于利用所述辅助训练模块基于第一类特征选择部分所述第二类特征进行转换处理，得到所述转换特征。

基于上述方案，所述辅助模块，具体用于根据第一类特征图像包含所述第一类特征和特征阈值的比较结果，生成特征蒙版；基于所述特征蒙版从所述第二类特征中选择进行转换处理的所述第二类特征。

基于上述方案，所述辅助模块，具体用于将第一类特征图中第i个像素的所述第一类特征与所述特征阈值进行比较，i为像素编号；若第i个像素的所述第一类特征大于所述特征阈值，则所述特征蒙版中第i个像素的像素值为第一取值；和/或若第i个像素的所述第一类特征小于或等于所述特征阈值，则所述特征蒙版中第i个像素的像素值为第二取值，其中，所述第二取值不同于所述第一取值。

基于上述方案，所述辅助模块，具体用于若所述特征蒙版的第j个像素为所述第一取值，则选择第二类特征图中第j个像素的所述第二类特征进行所述特征转换，j为像素编号。

基于上述方案，所述辅助模块，具体用于利用所述辅助训练模块对训练特征进行聚类处理，得到所述转换特征。

基于上述方案，所述辅助模块，具体用于根据从所述训练特征选择的第二类特征，计算高斯相似性矩阵；对所述高斯相似性矩阵进行归一化处理，得到归一化矩阵系数；基于所述高斯相似性矩阵和所述归一化矩阵系数，得到被选择部分的所述第二类特征的所述转换特征。

基于上述方案，所述辅助模块，具体用于利用所述辅助训练模块对所述第一特征进行转换处理，得到第一转换特征；利用所述辅助训练模块对所述第二特征进行转换处理，得到第二转换特征。

基于上述方案，所述第一确定模块，具体用于基于所述第一转换特征得到所述损失值的第一损失项；基于所述第二转换特征得到所述损失值的第二损失项；基于所述第一损失项和所述第二损失项，得到所述损失值。

基于上述方案，所述装置还包括：

获取模块，用于获取所述深度学习模型输出的第三类特征；

第三确定模块，用于基于所述第三类特征和所述第二类特征确定第一类损失值；

所述第一确定模块，具体用于基于所述转换特征得到第二类损失值；

所述第二确定模块，具体用于基于所述第一类损失值和所述第二类损失值，对所述深度学习模型进行模型训练。

基于上述方案，所述第三类特征包括：第三类特征，用于指示所述训练图像中不同目标之间的空间顺序；

基于所述第三类特征，得到所述不同目标的第二空间顺序；

基于上述方案，所述第三类特征包括以下至少之一：

指示不同对象在第一方向上的分布关系的第一第三类特征；

指示不同对象在第三方向上的分布关系的第三第三类特征，其中，所述第三方向垂直于所述第一方向；

指示不同对象在第四方向上的分布关系的第四第三类特征，其中，所述第四方向为所述第三方向的反方向；

一种图像处理方法，其特征在于，包括：

利用前述任意技术方案提供的深度学习模型训练方法训练深度学习模型进行图像检测，获得图像中目标的关键点。

所述利用前述任意技术方案提供的深度学习模型训练方法训练深度学习模型进行图像检测，获得图像中目标的关键点，包括：

利用所述深度学习模型从所述图像中检测出第一特征，其中，所述第一特征包括：外观信息且能够区分不同目标的特征；

利用所述深度学习模型从所述图像中检测出第二特征，其中，编码了同一个目标内部关键点的空间位置信息且能够区分不同目标的特征；

结合所述第一特征和所述第二特征，得到所述目标的关键点的特征值。

一种训练设备，所述训练设备包括：

存储器，用于存储计算机可执行指令；

处理器，与所述存储器连接，用于通过执行所述计算机可执行指令，实现前述任意技术方案提供的深度学习模型训练方法。

一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行之后，能够实现前述任意实施例提供的深度学习模型训练方法。

本发明实施例提供的技术方案，在进行深度学习模型时，会利用深度学习模型之外的辅助模块，对深度学习模型输出的训练特征进行特征转换，转换成能够被监督的转换特征，基于转换特征进行得到衡量模型是否需要继续训练的损失值，如此实现了对无监督的深度学习模型的有监督训练，利用这种训练监督可以确保训练出的深度学习模型具有足够的精确度；与此同时，还可以根据这种监督得到的损失值，及时终止不必要的继续训练，从而提升训练效率。

附图说明

图1为本发明实施例提供的第一种深度学习模型训练方法的流程示意图；

图2为本发明实施例提供的聚类方法的流程示意图；

图3为本发明实施例提供的一种人体的关键点示意图；

图4为本发明实施例提供的一种深度学习模型训练装置的结构示意图；

图5A为本发明实施例提供的基于关键点嵌入特征的训练流程示意图；

图5B为本发明实施例提供的基于空间实例嵌入特征的训练流程示意图；

图6A为本发明实施例提供的一种深度学习模型的结构示意图；

图6B为本发明实施例提供的一种深度学习模型的结构示意图

图7为本发明实施例提供的使用辅助训练模块进行深度学习模型训练的示意图；

图8为本发明实施例提供的一种深度学习模型训练的流程示意图；

图9为本发明实施例提供的一种训练设备的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

如图1所示，本实施例提供一种深度学习模型训练方法，包括：

步骤S110：利用训练图像对深度学习模型进行训练，获得所述深度学习模型输出的训练特征；

步骤S120：利用辅助训练模块对所述训练特征进行转换处理，得到转换特征；

步骤S130：基于所述转换特征确定损失值；

步骤S140：基于所述损失值，确定是否继续训练所述深度学习模型。

本实施例中所述深度学习模型可以为一种能够对图像进行处理的深度学习模型。

所述训练图像中可包括一个或多个后续需要深度学习模型识别或检测的目标。本实施例中所述目标可为人或动物或设备等可移动或可活动的对象。

在本实施例中，所述深度学习模型不包括所述辅助训练模块，或者，所述辅助训练模块是在后续模型上线之后不使用的模块。

在本实施例中，所述深度学习模型可包括：

特征提取层，用于从图像中提取图像特征；

特征转换层，用于将图像特征进行语义特征；

语义层，用于基于语义特征获得图像处理结果对应的语义。

在本实施例中，所述语义转换层输出的语义包括所述步骤S110中的训练特征。

在本实施例中，所述辅助训练模块可以桥接在所述特征转换层和所述语义层之间，或者，和所述语义层并联连接在所述特征转换层的后端，从所述特征转换层接收所述语义特征，然后对语义特征进行转换处理之后，由辅助训练模块将得到训练的损失值，然后基于这个损失值进行深度学习模型是否需要继续训练的确定等。

在本实施例中，所述深度学习模型的训练是端到端的训练，如此，基于所述损失值从所述深度学习模型的最底层开始参数调优。在本实施例中，所述深度学习模型的参数包括但不限于以下至少之一：

超参数，网络节点的数目、节点之间的连接关系、阈值；

节点的权值等。

在本实施例中，所述辅助训练模块嵌入到训练阶段的深度学习模型中从而通过自身的辅助处理会得到可以进行监督训练的转换特征，辅助原本无监督或者弱监督的深度学习模型进行监督或强监督训练，可以通过这种监督或强监督训练，可以使得训练结束后的模型具有足够的精确度，并且可以适时停止训练，减少不必要训练导致的训练效率低的现象。

在一些实施例中，所述步骤S110可包括：利用所述训练图像对所述深度学习模型进行训练，获得所述深度学习模型输出的第一类特征和第二类特征；

所述步骤S120可包括：利用所述辅助训练模块基于第一类特征选择部分所述第二类特征进行转换处理，得到所述转换特征。

在本实施例中，所述训练图像可同时输出第一类特征和第二类特征，此处的第一类特征和第二类特征可为不同形式的任意两种特征。

在本实施例中，所述第一类特征可以用于辅助选择进行特征转换的第二类特征。

在一些实施例中所述第一类特征为第一类特征图的像素值；所述第二类特征为第二类特征图的像素值。所述第一类特征图和所述第二类特征图可为同维度的特征图。例如，第一类特征图和第二类特征图均包括N*M个像素。N为特征图中的行数，M为特征图中的列数。

在本实施例中，为了降低计算量，提升深度学习模型的训练效率，不是将所有的第二类特征都进行特征转换，进行损失值的计算，而是会根据第一类特征选择部分第二类特征进行转换并参与损失值计算。

具体地，根据第一类特征指示的与深度学习模型的任务相关度大于预设值的部分第二类特征参与转换和损失值的计算。

例如，若训练图像中包括目标；所述第二类特征可包括：区分各像素是属于目标还是背景的特征；所述第一类特征可为对应像素的特征的置信度。

如此，在所述步骤S120中可以根据第一类特征的置信度选择出高置信度(例如，置信度排序靠前的预定个数像素)所对应的部分第二类特征，或者，选择置信度高于置信度阈值的部分第二类特征进行转换，得到所述转换特征。

再例如，所述第二类特征包括：指示对应像素是属于目标的第一特征值，指示对应像素为背景的第二特征值，所述第一类特征可包括对应像素的特征值的置信度。在步骤S120中可以根据所述第一类特征，直接选择出置信度大于置信度阈值或者排序靠前的预定个像素所对应的第一特征值进行后续转换处理，以获得计算损失值的转换特征，从而再一次减少计算量，提升计算效率。

在一些实施例中，所述步骤S120可包括：根据第一类特征图像包含所述第一类特征和特征阈值的比较结果，生成特征蒙版；所述第一类特征来自所述第一类特征图，是属于第一类特征图所包含像素的像素值；

在本实施例中，将第一类特征与对应的特征阈值进行比较，会得到比较结果包括以下至少之一：

第一类特征大于特征阈值，

第一类特征小于特征阈值；

第一类特征等于特征阈值。

在本实施例中，可以根据比较结果生成一个二值化的图像，该图像的维度与所述第一类特征图相同。

具体地，所述根据第一类特征图像包含所述第一类特征和特征阈值的比较结果，生成特征蒙版，包括：

将第一类特征图中第i个像素的所述第一类特征与所述特征阈值进行比较，所述i为像素编号；

和/或

此处所述特征蒙版为二值化的图像。所述第一取值和第二取值可以任意实数。

为了方便后续操作，所述第一取值和所述第二取值可为“0”和“1”。如此，后续在进行第二类特征的选择时，可以通过布尔运算简便的选择出所要的第二类特征。

例如，所述第一取值可为“1”；所述第二取值可为“0”，则可以通过布尔运算中的与运算选择出所需的第二类特征，未被选择的第二类特征通过和“0”的与运算都被置为了“0”。

故在一些实施例中，所述基于所述特征蒙版从所述第二类特征中选择进行转换处理的所述第二类特征，包括：

若所述特征蒙版的第j个像素为所述第一取值，则选择第二类特征图中第j个像素的所述第二类特征进行所述特征转换，j也为像素编号。此处的j与前述的i采用相同的像素编号方式形成的。

在一些实施例中，所述第一类特征图为第一类特征图，所述第一类特征为置信度。

进一步地，所述第一类特征图可为关键点第一类特征图。例如，训练图像中包括目标，所述关键点可为目标的关键点，目标的关键点包括：支架关键点和轮廓关键点等关键点中的一个或多个。此处，若目标为人或动物，则所述支架关键点可人或动物等骨架关键点；若所述目标为车或机器人等可为车的车架等支架体的关键点。所述第一类特征图为第一类特征图，对应的第一类特征图所包含的特征为高斯响应所产生的置信度。该置信度的取值可为0到1之间的任意一个数。通常在关键点第一类特征图中，置信度越高，表示训练图像中对应像素为关键点的概率就越高。

在一些实施例中，所述步骤S120可包括：利用所述辅助训练模块对训练特征进行聚类处理，得到所述转换特征。

例如，在一个训练图像中知道了多个关键点，而这些关键点分属不同的目标，在本实施例中，通过所述聚类处理，可以将同一个目标的关键点归属到一个集合中。

在本实施例中，所述聚类处理采用的算法包括但不限于高斯模糊均值偏移(Gaussian Blurring Mean Shift，GBMS)算法。

在另一些实施例中，基于第二类特征中的第一特征可为：关键点嵌入特征，该关键点嵌入特征，相同目标的关键点嵌入特征的嵌入值是相同或相等的；如此，此处的转换处理可以是简单根据各个关键点嵌入特征的嵌入值，直接划分到不同的目标中，得到所述转换特征，当然此处仅是举例，具体实现不局限于此。

在本实施例中，以下提供一种将训练特征转换为转换特征的具体实现方式，具体如，如图2所示，所述步骤S120可包括：

步骤S121：根据选择的第二类特征，计算高斯相似性矩阵；具体如，以第二特征为计算所述高斯相似性矩阵的已知量计算得到所述高斯相似性矩阵；

步骤S122：对所述高斯相似性矩阵进行归一化处理，得到归一化矩阵系数；

步骤S123：基于所述高斯相似性矩阵和所述归一化矩阵系数，得到被选择部分的所述第二类特征的所述转换特征。

在一些实施例中，所述第二类特征包括：表征所述训练图像中同一个目标不同属性的第一特征和/或第二特征。

在本实施例中所述第二类特征不止一个，可以为2个和3个等2个以上。此处第一特征和第二特征为不同的特征。

在一些实施例中，所述第一特征，包括：编码了目标的外观信息且能够区分不同目标的特征；

在一些实施例中所述第一特征包括但不限于关键点嵌入特征；所述第二特征包括但不限于空间实例嵌入特征。

例如，从图像中检测出关键点嵌入特征(Keypoints Embedding，KE)，该KE包括但不限于目标体表的外观信息。

在本发明实施例中，所述外观信息可为各种直接视觉可观察到的轮廓信息、纹理信息和皮肤质感信息等。

以人体为目标为例，所述外观信息包括但不限于：五官的轮廓信息；五官的分布信息等。

区分目标所包含的像素和背景的像素，在生成的包含所述第一类特征的特征图中使用不同的像素值(或称为特征值)表示，例如，在特征图中对应于检测的图像中背景的像素，采用像素值“0”，而与目标所对应像素的像素值为为“0”以外的像素值。在本实施例中，检测的图像中可能有多个目标，为了区分多个目标，特征图中对应不同目标所包含像素的像素值使用不同的数值。例如，目标A所对应的特征值由“1”来表示，目标B所对应特征值由“2”来表示。而在图像中背景所对应的特征值为“0”；则此时，1不同于2且不同于0；2也不同于特征值0；如此，基于上述数值的比较，就知道特征图中哪些是背景，哪些是目标；同时，由于不同的目标使用不同的特征值，就可以根据特征值的具体取值，识别出哪些像素属于同一个目标。

所述第二特征包括但不限于空间实例嵌入特征。所述空间实例嵌入特征，包括了目标的空间位置信息，可选地，所述空间实例嵌入特征的特征值用于指示每一个关键点是相对于目标的中心点的相对位置关系。具体如，所述空间实例嵌入特征可为：所述空间关键点指向目标的中心点的向量。空间实例嵌入特征可以表征目标内各个部分之间的相对位置关系。具体如，以人体为所述目标为例，所述空间实例嵌入特征可包括：人体内不同关节的关节关键点相对于人体中心点的相对位置关系，该相对位置关系包括但不限于：方向和/或距离，可以由关键点指向人体中心点的向量表示。所述人体中心点可为人体的根节点。图3所示为一种人体的关键点示意图，其中，关键点0即为所述根节点，是基于计算得到的。图3中关键点10为头部关键点；关键点9为颈部关键点；关键点11及14为肩部关键点；关键点8为肩部与颈部连接的关键点；关键点7为腰部关键点；关键点12及15为肘部关键点；关键点13及16为手腕关键点；关键点1和4为胯部关键点；关键点5和20为膝盖关键点；关键点6和3为脚腕关键点。

在另一些实施例中，所述人体中心点还可为属于对应目标的关键点的坐标求均值，得到所述人体中心点的坐标值；如此，该目标内各空间关键点相对于所述人体中心点的分布满足特定的分布条件。若在判断是否为一个目标的空间嵌入特征时，就可以根据空间嵌入特征的嵌入值是否满足所述分布条件，确定哪些嵌入值对应的空间嵌入特征是属于同一个目标的。

例如，假设目标为人体，所述空间嵌入特征所对应的嵌入值为一个包含两个元素的数组，其中，数组中第一元素表示x方向的差值；第二元素表示y方向的差值，x方向和y方向相互垂直。此处的x方向和y方向都是相对图像而言的，例如在图像所在的平面内建立包括x轴和y轴的二维直角坐标系，则所述x方向可为图像坐标系的x轴方向；所述y方向可为图像坐标系的y轴方向。。例如，以头部左脸关键点坐标减去人体中心点坐标得到的嵌入值中第一元素为正值且第二元素为正值；头部右脸关键点坐标减去人体中心点坐标得到的嵌入值中第一元素为负值且第二元素为正值；左脚关键点坐标减去人体中心点坐标得到的嵌入值的第一元素为正值，且第二元素为负值；右脚关键点坐标减去向人体中线点坐标得到的嵌入值的第一元素为负值，且第二元素为负值。在判断归属于一个目标的嵌入值时，可以根据该嵌入值对应关键点的特征值对应的局部，即其嵌入值的特点进行。

在本实施例中，所述空间实例嵌入特征是各个空间关键点相对于中心点的向量，实质上相当于限定了一个目标内关键点之间的相对位置关系。

由于第一特征更多关注目标的外观信息，在缺乏空间约束的情况下，会使得同一个目标的不同关键点归属给不同的目标从而导致不精确的问题。

由于第二特征更多的关注目标内不同空间关键点，可能会忽略不同目标之间的相对位置关系，且对于相对于目标的中心点位置较远的点，会出现编码误差大等原因导致精确度差。

在本实施例中，所述第一特征和所述第二特征均可为嵌入特征；嵌入特征具有如下特点：

图像像素级别的特征；

具有聚类特性，能够用于区分不同的目标(或称之为实例)；

编码了对应目标的一种属性信息，例如，第一特征除了是图像像素级别的特征及具有聚类特性以外，还同时编码一个目标的外观信息；第二特征除了图像像素级别的特征及具有聚类特性以外，还同时编码了一个目标内的关键点相对于目标的中心点的相对位置信息。

在本实施例中，所述深度学习模型可以用于关键点检测，利用这种结合两种特征进行关键点检测的特征，可以提升检测的精确度，理由是：综合上述两种特征，使得两种特征利用彼此相互补充，例如，利用第二特征作为第一特征的空间约束，以所述第一特征补强所述第二特征的不足，融合两种特征得到融合特征作为所述关键点的特征值，基于该关键点的特征值就能够判断哪些关键点属于同一个目标，同时还可以获得目标的外观信息，如此，利用这种方式得到关键点的特征值，有助于提升目标的检测精度，减少将一个目标错误拆分成两个或两个以上目标的概率。且由于关键点的特征值的精确度提高了，减少了误差校正等原因导致的关键点的特征值提取效率低的问题，提升关键点的特征值的提取效率。

如此，在步骤S121中进行特征转换时，可具体如下：

在计算损失值时，对应地，基于所述第一转换特征得到所述损失值的第一损失项；基于所述第二转换特征得到所述损失值的第二损失项；基于所述第一损失项项和所述第二损失项项，得到所述损失值。

具体的，基于加权求和对所述第一损失项和所述第二损失项，得到用于判断深度学习模型是否需要继续训练的所述损失值。

例如，以下提供几种分别计算所述第一损失项和所述第二损失项的函数关系：

为第k'个目标各个关键点嵌入特征的嵌入值的均值。

在本实施例中，L₁为所述第一损失项。J为一个目标所包含的关键点的总个数；K为一个图像包含的目标数目；m(p_j,k)为关键点嵌入特征对应的嵌入值；p_j,k为第k个目标的第j个关键点的位置；

为第k个目标各个关键点嵌入特征的嵌入值的均值。

所述第二损失项可以采用如下函数关系进行计算：

在本实施例中，L₂为所述第二损失项。p_j,k为第k个目标的第j个关键点相对于第k个目标的中心点的向量；

为第k个目标的中心点的坐标。J为一个目标所包含的关键点的总个数；K为一个图像包含的目标数目。

在一些实施例中，所述方法还包括：

步骤S111：获取所述深度学习模型输出的第三类特征；

步骤S112：基于所述第三类特征和所述第二类特征确定第一类损失值；

所述步骤S130可包括：基于所述转换特征得到第二类损失值；所述步骤S140可包括：基于所述第一类损失值和所述第二类损失值，对所述深度学习模型进行模型训练。

在本实施例中，还会利用第三类特征进行所述第二类特征中一个或多个特征的损失计算。

在本实施例中，所述第一类损失值可以与所述第二类损失值中的第一损失项同步计算。在本实施例中，所述第三类特征可以主要用于辅助所述第二类特征中的第一特征的第一损失项的损失计算。

例如，

此处的L₃为所述第一类损失值。

为第k个目标各个关键点嵌入特征的嵌入值的均值；

为第k'个目标各个关键点嵌入特征的嵌入值的均值。Ord为所述第六类特征预测的第k个目标和第k'个目标的空间顺序。

例如，Ord的取值为1或-1；例如，若按照从左至右的顺序，则在第六类特征中指示第k个目标在第k'个目标左边，则Ord的取值为1，否则Ord的取值为-1。

是根据第一特征中的关键点嵌入特征的各嵌入值的特征，正确预测出第k个目标在第k'个目标左边，则

会小于的

从而

会负数且大于-1；则得到的

接近为零，L₃为接近为零，若未预测正确，则

会为正数，则得到的

为正数，则L₃为正数，则最后的损失值就会因为较大的L₃而变大。总之，在步骤S330中可包括：基于前述的L₁、L₂及L₃三者确定最终的损失值，以确定是否继续深度学习模型的端到端训练。例如，对L₁、L₂及L₃进行加权求和得到最终的损失值；或者，直接求取三者之和得到所述最终的损失值。

在本实施例中，所述第三类特征可为仅参与模型训练的辅助特征，在所述深度学习模型上线之后，所述第三类特征可以不计算，或计算了不输出。总之，所述深度学习模型可能是一个多任务模型，而获得第三类特征的任务是一个仅用于辅助训练的辅助任务，该多任务模型上线之后该第三类任务对应的辅助任务可以不执行，以节省计算量。

在另一些实施例中，例如通过断开或截断所述深度学习模型输出所述第三类特征的通道，实现所述第三类特征的计算阻塞或者输出。

在一些实施例中，所述第三类特征包括：用于指示所述训练图像中不同目标之间的空间顺序的特征；所述第二类特征包括：第一特征，所述第一特征，包括：编码了目标的外观信息且能够区分不同目标的特征；

所述步骤S112可包括：根据不同目标的关键点嵌入特征得到所述不同目标的第一空间顺序；基于所述第三类特征，得到所述不同目标的第二空间顺序；基于所述第一空间顺序和所述第二空间顺序，确定所述第一类损失值。

值得注意的是：此处的第三类特征同样可为前述的嵌入特征的一种，同样是图像像素级别的特征、具有聚类属性，同时编码不同目标之间的空间位置关系的特征。

在一些实施例中，所述第三类特征包括但不限于：利用嵌入值区分位置上目标的空间关系嵌入特征。

例如，同一个目标的第一特征使用的嵌入值是相同或相等的；不同的目标的第一特征使用的其嵌入值是不同的。

如此，可以任意取目标的一个第一特征，再将不同目标的第一特征进行排序，得到的排序结果即为所述第一空间顺序。

再例如，可以基于一个目标的所有第一特征的均值或中值得到一个计算值；然后将不同目标的计算值进行排序，得到排序结果即为所述第二空间顺序。

若第一空间顺序和第二空间顺序相同，则第一类损失值小甚至为零；若所述第一空间顺序和第二空间顺序不同，则第一类损失值大，若多个目标的第一空间顺序和第二空间顺序的差异越大，则所述第一类损失值越大。

在一些实施例中，若深度学习模型输出的关键点嵌入值得到的空间顺序和自身输出的第三类特征的顺序不一致，则说明深度学习模型目前还需要进一步优化，否则至少在空间顺序上的排序模型目前有较高的准确率。最终是否需要停止训练，在本实施例中还需要结合基于转换特征得到的第二类损失值来综合确定。

在一些实施例中，所述第三类特征包括以下至少之一：

指示不同对象在第一方向上的分布关系的第一第三类特征；

指示不同对象在第四方向上的分布关系的第四第三类特征，其中，所述第四方向为所述第三方向的反方向。

在本实施例中，在同一个图像中的目标按照排序位置和不同的排序方式，则会有不同的第三类特征，且基于这种第三类特征赋予的第一特征也会有所差异。

例如，假设所述第一方向为从左至右的方向，则所述第一空间关系特征是对图像中从左至右进行排序，对应的在左边的目标其第一特征的均值或者中值，是小于排在在其右边的目标的第一特征的均值或中值的。

所述第二方向为所述第一方向的反方向，若第一方向为从左至右，则所述第二方向为从右至左。

在本实施例中，所述第三方向可为从上至下，则所述第四方向可为从下至上。所述第五方向可为从前到后的方向；所述第六方向可为从后到前的方向，在判别两个对象在图像中的前后关系，可以通过各自的头部在图像中成像尺寸来确定。头部成像尺寸越大，说明位置越靠前，头部成像尺寸越小，则说明位置越靠后。

总之，在本实施例中，在深度学习模型的训练阶段引入了第三类特征进行辅助训练，一方面有利于提升模型的训练效率，另一方面可以确保训练之后的模型对同一个目标的第一特征使用相同或相似的嵌入值来表示。

在一些实施例中，所述深度学习模型得到的语义特征有多个时，所述深度学习模型还包括：

融合层，用于融合不同的语义特征，例如，所述语义特征：第二类特征的第一特征和第二特征，具体如，第一特征和第三类特征；

所述融合层可包括：融合所述第一特征和第二特征，具体如，融合所述第一特征和第三类特征，得到目标的关键点的特征值。所述融合包括但不限于特征拼接。

例如，第一特征和第二特征进行拼接时，若所述第一特征为一个m1维特征；所述第二特征为m2维特征，则这两个特征拼接之后，可为m1+m2维特征。

在一些实施例中，所述第一特征可为1维特征；所述第二特征可为2维特征；通过所述融合之后，得到拼接特征可为3维特征。

在本实施例中，通过这种特征的直接拼接，形成的拼接特征同时保留了第一特征的特征值和第二特征的特征值，即同时保留了外观信息和空间位置信息，利用这种拼接后形成的拼接特征得到所述关键点的特征值，显然可以减少错误率，提升精确度。

在一些实施例中，若所述第一类特征为关键点第一类特征图中的置信度，则拼接所述第一特征和所述第二特征可如下：

根据所述关键点第一类特征图中预测关键点的特征值的置信度，确定出所述关键点的特征值的检测位置；

将第一特征图中所述检测位置内的第一特征、和第二特征图中所述检测位置内的所述第二特征进行拼接，得到所述关键点的特征值。

在本实施例中，所述置信度越高则关键点第一类特征图中指示对应像素为关键点的特征值的概率越高。例如，以头部关键点的置信度为例，遍历关键点第一类特征图中各个像素的像素值(即所述置信度)，找出在不同区域里的局部极大值，局部的最大置信度，以该最大置信度所在的像素的坐标为(X1，Y1)，则取出第一特征图(X1，Y1)的第一特征；取出第二特征图(X1，Y1)的第二特征，并将这两个特征融合，就得到了一个关键点的特征值。该关键点在图像中的坐标为(X1，Y1)，且该关键点的特征值为m1维的第一特征的嵌入值和m2维的第二特征的嵌入值构成。

例如，以人体为目标，若人体包含有M个关键点，最终基于关键点第一类特征图进行第一特征和第二特征融合之后，会得到M个关键点的特征值，每一个所述特征值是由对应关键点的第一特征和第二特征拼接形成的。

在一些实施例中，所述方法还可包括：将所述关键点的特征值进行聚类，得到聚类结果；根据所述聚类结果，确定出属于同一目标的关键点。

例如，通过拼接之后得到了各个关键点的特征值，例如，以目标为例，若人体的关键点为S1个等，若图像中有S2个目标，则会得到S1*S2个关键点；

然后对S1*S2个关键点进行聚类，得到聚类结果。

例如，所述步骤S140可如下：

按照预定方向，对人体的各类型关键点进行聚类，例如进行基于距离的聚类；

基于聚类得到不同类型关键点的局部最优解；

组合各个局部最优解，得到了所述聚类结果。

例如，以目标为人体为例进行说明，从头部向脚部所对应的预定方向进行聚类；则所述按照预定方向，对人体的各类型关键点之间的距离，包括：

对各个头部关键点和颈部关键点进行距离聚类，得到各个头部关键点与各个颈部关键点之间的距离；

对各颈部关键点与胸部关键点进行距离聚类，得到各个颈部关键点与各个胸部关键点之间的距离，

以此类推，直到遍历完所有局部的关键点；

所述基于聚类得到不同类型关键点的局部最优解，包括：

选择距离最小的头部关键点和颈部关键点作为局部最优匹配；

选择距离最小的颈部关键点和胸部关键点作为局部最优匹配；

以此类推，直到遍历完所有局部最优匹配；

所述组合各个局部最优解，得到了所述聚类结果，包括：

将各个局部最优匹配中涉及相同关键点的匹配组合，得到以目标为粒度的聚类结果。

最终根据该聚类结果，反推出同一个目标所包含的所有关键点。

当然以上仅是将不同关键点划分到同一个目标的举例，具体实现方式有多种，此处就不再举例了。

在本实施例中，利用深度学习模型获得所述第一特征和/或，所述空间实例特征。

该深度学习模型包括但不限于神经网络。

例如，该深度学习模型包括：

特征提取层，具体可为特征提取卷积层，用于卷积操作等提取出低层特征，得到特征图；

特征转换层，位于所述特征提取卷积层后端，用于基于所述特征图得到所述关键点第一类特征图、包含所述第一特征的第一特征图、包含所述第二特征的第二特征图；

融合层，位于最后一个所述特征转换层的后端，用于基于关键点第一类特征图融合所述第一特征图和所述第二特征图。

本实施例中所述关键点第一类特征图、第一特征图及所述第二特征图包含的像素个数相同，但是单个像素的维度可不同。

例如，所述关键点第一类特征图、第一特征图及所述第二特征图包含均W*H个像素；W和H均为正整数。关键点第一类特征图中一个像素的维度可为J；第一特征图中一个像素的维度可为J；所述第二特征图的维度可为2。则所述特征融合卷积层可为通道数为J+J+2；卷积核为1:1、卷积步长可为1。例如，J可为一个目标包含的关键点的个数。以人体为例，J的取值可为14或17。

在一些实施例中，所述特征转换层包括：N个串联的沙漏型编码子网络，该沙漏型编码子网络的网络架构为沙漏状；所述N个沙漏型编码子网络，用于基于所述特征图得到所述关键点第一类特征图、包含所述第一特征的第一特征图、包含所述第二特征的第二特征图；N为正整数，例如，N可为2、3或4。

例如，所述特征转换层可包括：沙漏型编码子网络和位于所述沙漏型编码子网络后端的至少两个尾部卷积子层、及特征拼接节点；所述沙漏型编码子网络从特征提取卷积层获得特征图，对特征图进行处理，并将处理后的特征输入到串联的至少两个卷积子层进行卷积处理；最后一个卷积子层输出的卷积特征和所述从特征提取卷积层得到的特征图拼接后得到J+J+2维特征图，其中，1个J维特征对应于关键点第一类特征图；另一个J维特征可为J维的第一特征图；2维特征为第二特征图。

在本实施例中，所述特征转换层采用了沙漏型编码子网络，具体实现过程中还可以采用残差模块替代所述沙漏型编码子网络等，总之此处仅为举例，具体实现方式有很多种，此处就不一一举例了。

在本实施例中一方面为了加速深度学习模型的训练，另一方面为了提升训练后的深度学习模型的精确度。在利用该深度学习模型进行训练的时候，会利用基于训练第一特征获得第一损失项，并基于第三类特征得到第二损失项，综合这两个损失值确定是否停止对深度学习模型中用于提取所述第一特征的分支的优化训练。

在本实施例中，所述深度学习模型可为一个多任务模型，能够同时完成两个或两个以上的任务；具体如，在本实施例中所述深度学习模型可至少同时能够提取出所述第一特征、第二特征的神经网络等深度学习模型。

在本实施例中，所述深度学习模型可为自底向上的模型，该自底向上的模型首先不区分目标，将图像中所有第一特征和/或所述第二特征提取出来，然后在提取出所有第一特征和第二特征之后，再组合各个关键点的特征值，得到一个目标所有关键点的特征值，这种相对于目标而言是从特征到目标划分的深度学习模型为所述自底向上模型。

如图4所示，本实施例提供一种深度学习模型训练装置，包括：

训练模块110，用于利用训练图像对深度学习模型进行训练，获得所述深度学习模型输出的训练特征；

辅助模块120，用于利用辅助训练模块110对所述训练特征进行转换处理，得到转换特征；

第一确定模块130，用于基于所述转换特征确定损失值；

第二确定模块140，还用于基于所述损失值，确定是否继续训练所述深度学习模型。

本实施例提供深度学***板电脑或各种可穿戴式设备等。所述固定设备包括但不限于台式笔记本或服务器等。

在一些实施例中，所述训练模块110、辅助模块120、第一确定模块130及第二确定模块140可为程序模块，该程序模块被处理器执行后，能够检测出第一特征、第二特征，并获得关键点的特征值。

在另一些实施例中，所述训练模块110、辅助模块120、第一确定模块130及第二确定模块140可为软硬结合模块，所述软硬结合模块可包括各种可编程阵列；所述可编程阵列包括但不限于复杂可编程阵列或现场可编程阵列。

在还有一些实施例中，所述训练模块110、辅助模块120、第一确定模块130及第二确定模块140可为纯硬件模块，该纯硬件模块包括但不限于专用集成电路。

在一些实施例中，所述训练模块110，具体用于利用所述训练图像对所述深度学习模型进行训练，获得所述深度学习模型输出的第一类特征和第二类特征；

所述辅助模块120，具体用于利用所述辅助训练模块基于第一类特征选择部分所述第二类特征进行转换处理，得到所述转换特征。

基于上述方案，所述辅助模块120，具体用于根据第一类特征图像包含所述第一类特征和特征阈值的比较结果，生成特征蒙版；基于所述特征蒙版从所述第二类特征中选择进行转换处理的所述第二类特征。

基于上述方案，所述辅助模块120，具体用于将第一类特征图中第i个像素的所述第一类特征与所述特征阈值进行比较，i为像素编号；若第i个像素的所述第一类特征大于所述特征阈值，则所述特征蒙版中第i个像素的像素值为第一取值；和/或若第i个像素的所述第一类特征小于或等于所述特征阈值，则所述特征蒙版中第i个像素的像素值为第二取值，其中，所述第二取值不同于所述第一取值。

基于上述方案，所述辅助模块120，具体用于若所述特征蒙版的第j个像素为所述第一取值，则选择第二类特征图中第j个像素的所述第二类特征进行所述特征转换，j为像素编号。

基于上述方案，所述第一类特征图包括第一类特征，所述第一类特征为置信度。

基于上述方案，所述辅助模块120，具体用于利用所述辅助训练模块对训练特征进行聚类处理，得到所述转换特征。

基于上述方案，所述辅助模块120，具体用于根据从所述训练特征选择的第二类特征，计算高斯相似性矩阵；对所述高斯相似性矩阵进行归一化处理，得到归一化矩阵系数；基于所述高斯相似性矩阵和所述归一化矩阵系数，得到被选择部分的所述第二类特征的所述转换特征。

基于上述方案，

所述第一特征，包括：编码了目标的外观信息且能够区分不同目标的特征；

基于上述方案，所述辅助模块120，具体用于利用所述辅助训练模块对所述第一特征进行转换处理，得到第一转换特征；利用所述辅助训练模块对所述第二特征进行转换处理，得到第二转换特征。

基于上述方案，所述第一确定模块130，具体用于基于所述第一转换特征得到所述损失值的第一损失项；基于所述第二转换特征得到所述损失值的第二损失项；基于所述第一损失项项和所述第二损失项，得到所述损失值。

基于上述方案，所述装置还包括：

获取模块，用于获取所述深度学习模型输出的第三类特征；

所述第一确定模块130，具体用于基于所述转换特征得到第二类损失值；

所述第二确定模块140，具体用于基于所述第一类损失值和所述第二类损失值，对所述深度学习模型进行模型训练。

第一特征，所述第一特征，包括：编码了目标的外观信息且能够区分不同目标的特征；

根据不同目标的第一特征得到所述不同目标的第一空间顺序；

基于所述第三类特征，得到所述不同目标的第二空间顺序；

基于上述方案，所述第三类特征包括以下至少之一：

指示不同对象在第一方向上的分布关系的第一第三类特征；

本实施例还提供一种图像处理方法，其特征在于，包括：

利用前述任意一种技术方案提供的深度学习模型训练方法训练深度学习模型进行图像检测，获得图像中目标的关键点。

例如，利用前述任意技术方案训练得到图6A所示的深度学习模型，进行图像中目标的关键点的特征值的确定，该深度学习模型尤其适用于从包含有多个目标的图像中，分别提取出各个目标的关键点的特征值。

具体地，利用所述深度学习模型从所述图像中检测出第一特征，其中，所述第一特征包括：外观信息且能够区分不同目标的特征；

利用所述深度学习模型从所述图形中检测第二特征，其中，编码了同一个目标内部关键点的空间位置信息且能够区分不同目标的特征；

在一些实施例中，所述深度学习模型还会输出第一类特征，该第一类特征包括但不限于基于高斯模糊均值偏移(GBMS)算法得到的指示对应像素是否为目标的关键点的置信度。

总之，所述深度学习模型会进一步根据所述第一类特征从选择目标的关键点的第一特征和第二特征进行融合，从而得到各个目标的关键点的特征值。

例如，通过像素对齐的方式，将表示同一个关键点的像素的第一特征和第二特征直接进行拼接，得到融合后的关键点的特征值。

以下结合上述任意实施例提供几个具体示例：

示例1：

本示例提供的深度模型为自底向上的深度学习模型，该深度学习模型对多目标检测时为两步：在本示例中，以目标为人体进行举例说明，具体可以参见图5A和图5B所示：

第一步，预测第一类特征图，并得到各个关键点的位置；例如，可以利用自底向上的关键点模型获得所述第一类特征图、第一特征图和/或第二特征图；

第二步，对各个关键点的不同特征进行聚类，得到完整的人体姿态。在本示例中可以利用辅助训练模块，例如，基于人体姿态引导的聚类模块，分别基于所述第一类特征图对第一特征图所包含的第一特征进行聚类、基于所述第一类特征图对第二特征图所包含的第二特征进行聚类。

然而，当前的方法中，聚类步骤一般采用图分割算法或者启发式的聚类算法。聚类只是作为后处理操作，并没有直接对聚类结果进行监督。

本示例提供了一个基于人体姿态引导的聚类模块，将关键点的检测和聚类联合起来，进行端到端地训练。可以直接对聚类结果进行监督，聚类的损失可以直接反传回底层特征提取网络，进行整体网络优化。这样带来的好处是，网络更加注重聚类结果错误的关键点，可以更加有效的进行特征学习。另外，该聚类模块可以看做是对得到的嵌入特征的再精炼，可以得到更加准确的嵌入特征，大大提升了关键点的聚类精度。所述底层特征可如图6A和/或如图6B中所示的256维的特征图中的特征。

本示例提供了一个基于人体姿态引导的聚类模块，将关键点的检测和聚类联合起来，进行端到端地训练。可以直接对聚类结果进行监督，聚类的损失可以直接反传回底层特征提取网络，进行整体网络优化。这样带来的好处是，网络更加注重聚类结果错误的关键点，可以更加有效的进行特征学习。另外，该聚类模块可以看做是对得到的嵌入特征的再精炼，可以得到更加准确的嵌入特征，大大提升了关键点的聚类精度。

本示例提供了的基于人体姿态引导的聚类模块，将关键点的检测和聚类联合起来，进行端到端地训练。

该深度学习模型既可以用于多人人体关键点的检测，同时也可以扩展到人体关键点的跟踪任务之中。此处可以选用的人体关键点模型有很多种，比如基于第一特征、第二特征等等。以基于第一特征的模型为例，进行说明。对于每一帧图像，首先通过自底向上的人体关键点模型，直接输出人体关键点的高斯响应，以及第一特征图。第一特征图，由一系列二维矩阵来表示；其中每一个关键点的类别，对应一张二维矩阵，和第一类特征图可以在空间位置上一一对应。同一个人的各个关键点具有相似的嵌入值；对于不同人的关键点，要求其嵌入值不同。

然而，得到的第一特征图，并不是十分精准。本示例通过设计基于人体姿态引导的聚类模块，对得到的第一特征图进行聚类，并对聚类结果进行监督，实现了一个端到端训练模型。

人体姿态引导的聚类算法：

输入：第一特征图K，关键点的第一类特征图H，迭代次数n；

输出：一系列迭代过程得到的精炼后的第一特征

步骤：1)首先根据关键点的第一类特征图H，设定阈值，大于阈值的部分置为1，其他置为0，得到了人体姿态蒙版M。

2)第一特征图K中，选取M中像素值为1的像素，并将其展开成二维矩阵形式

其中D为特征维数，N为被选取的像素值的个数。

3)迭代n次，对于每一次迭代，重复以下步骤：

3-1)计算高斯相似性(Gaussia Affinity)矩阵W∈R^N×N,

其中,W(i,j)为W的第i行j列的元素；x_i为X的第第i行元素；x_j为X的第j行元素。在另一些实施例中，

还可变换为：

其中，为高斯内核的带宽，具体取值可为3至7之间的正整数，例如，具体取值可为5等。

3-2)归一化矩阵系数

3-3)更新第一特征值

本示例提供了一个基于人体姿态引导的聚类模块作为辅助训练的辅助训练模块，网络不仅仅实现关键点的检测，而且进行关键点的聚类操作，二者联合起来，进行端到端地训练。

本示例提供了一个基于人体姿态引导的聚类模块，将关键点的检测和聚类联合起来，进行端到端地训练。网络更加关注聚类结果出现的错误，更加有效的进行特征学习，得到更加精确的关键点嵌入，大大提升了关键点的聚类精度。

该基于人体姿态引导的聚类模块，可如图7所示的PGG模块；所述PGG可为Pose-Guided Grouping的缩写。KE表示所述第一特征，SIE为利用空间向量场(Spatial VectorFields，SVF)构成的空间嵌入特征(Spatial Instance Embedding，SIE)；分别进行聚类得到聚类后的结果。

在本实施例中，一个目标SIE包括X方向和Y方向两维的SVF构成。X方向垂直于Y方向。在进行聚类时为了减少计算量，会基于第一类特征图生成蒙版。此处的蒙版为前述实施例中的特征蒙版的缩写。在图7中使用选择局部最大值的方式生成所述特征蒙版。

示例2：

如图6A所示，本示例提供的一种深度学习模型，包括：

特征提取层，包括：多个卷积子层和池化层，在图6A中卷积子层的个数为5个；所述池化层为最大池化层，此处的最大池化层为保留最大值的下采样层；第1个卷积子层的通道数为64、卷积核的尺寸为7*7，卷积步长为2；第2个卷积子层的通道数为128、卷积核的尺寸为3*3，卷积步长为1；第3个卷积子层的通道数为128、卷积核的尺寸为7*7，卷积步长为1；第4个卷积子层的通道数为128、卷积核的尺寸为3*3，卷积步长为1；第5个卷积子层的通道数为256、卷积核的尺寸为3*3，卷积步长为1。

S个转换模块形成的特征转换层；一个所述转换模块包括一个沙漏型子网络和多个卷积子层；所述S的取值可为2以上的任意正整数，例如，取值为4。在图6A中展示有两个卷积子层，且这两个卷积子层的通道数均为256，卷积核的尺寸均为3*3，且卷积步长为1。该深度学习模型通过4个转换模块形成的特征转换层之后，通过一个卷积子层输出J维的第一类特征图、J维的第一特征图和2维的第二特征图。

在训练阶段，所述深度学习模型的输入如图6B所示，

示例3：

人体关键点检测和跟踪是视频分析的基础，在安防领域、动作分析领域具有重要的应用前景。基于第一特征(Keypoint Embedding)的单帧多人姿态检测技术，是一种十分先进的自底向上的人体关键点检测技术。

该方法输出人体第一类特征图的同时，还输出第一特征图。嵌入特征图的维数与第一类特征图一致，同样可以用一系列输出分辨率大小的二维矩阵来表示，其中每一个关键点的类别，对应一张二维矩阵。第一类特征图和嵌入特征图，可以在空间位置上一一对应。输出的嵌入特征图，同一个人的各个关键点具有相似的嵌入值，而不同人的关键点的嵌入值差异很大。再对输出的嵌入特征图进行聚类，就可以区分不同人的关键点。

本示例使用第一特征作为基线方法，在第一特征的基础上增加了空间序的约束，以辅助训练。具体而言，本示例提供了一种多任务辅助训练方法，提供了一系列用于辅助训练的空间位置顺序预测任务。多任务的辅助训练方法，能够显著提升网络的训练速度，增加网络的可解释性，并最终提升关键点检测结果。

参考图8所示，本示例提供了一种多任务辅助训练方法，提供了一系列用于辅助训练的空间位置顺序预测任务。多任务的辅助训练方法，能够显著提升网络的训练速度，增加网络的可解释性，并最终提升关键点检测结果。

本示例的基于空间位置序的嵌入特征预测任务，用于辅助训练，增加了嵌入特征的可解释性、加速了算法收敛、显著提升训练速度，并能够提升预测精度。

本示例提出利用空间位置序信息，来限制第一特征的学习空间，加快神经网络的收敛速度。

具体地，本示例针对关键点检测模型，提供了多任务辅助训练方法；提供了一系列用于辅助训练的空间位置顺序预测任务。该训练方案可以加速人体关键点检测模型的训练，提升检测精度。

本示例可以采用不同种类的关键点模型，比如残差网络、沙漏型网络等，与网络的结构无关。对于每一帧图像，通过关键点网络，直接输出每个人的人体关键点的高斯响应，以及对应的第一特征图。除此之外，增加了一路输出，输出空间关系嵌入图。空间关系嵌入图用于预测不同人之间的空间位置关系。本示例提供了三类空间位置顺序预测任务，即预测图像中不同人之间“从左到右、从上到下、从远及近”的空间顺序。

空间关系嵌入图与第一特征图类似，该图与第一特征图类似，同样用一系列二维矩阵来表示，其中每一个关键点的类别，对应一张二维矩阵，和第一类特征图可以在空间位置上一一对应。

对于同一个人的各个关键点具有相似的空间关系嵌入值；然而其区别在于，对于不同人的关键点，要求其空间关系嵌入值按照人的空间位置关系，按顺序递增。以“从左到右”的空间关系图为例，输出的“从左到右”空间关系嵌入图中，同一个人的各个关键点具有相似的嵌入值，而不同人的关键点的嵌入值按照“从左到右”的空间顺序依次增大，右侧人的空间关系嵌入值大于左侧人的嵌入值。

训练方法：我们首先利用关键点的位置标签，计算出每两个人之间的空间位置关系。对于“从左到右”和“从上到下”这两个顺序，直接利用人体的中心位置坐标，进行排序。

对于“从远到近”的预测任务，我们以从‘头顶到脖子’的长度作为衡量标准，长度越长，则认为该人距离镜头越近。

训练的损失函数包含两个部分，第一项要求同一个人的各个关键点的空间嵌入值应尽可能接近。第二项要求每两个人之间的空间嵌入值，应该符合空间位置顺序。

上式中L代表损失函数，J为关节点(为前述实施例中提到的关键点的一种)的种类数，K为图像中的人数。m为空间嵌入图，p_j,k为第k个人第j个关节的位置,m(p_j,k)为该节点位置处的关键点嵌入值，

为第k个人各个关节的第一特征的嵌入值的均值。Ord为第k个人与第k'个人是基于第三类特征确定的空间顺序。

本示例提供了一种多任务的人体关键点检测模型。网络同时输出人***于图像中的空间位置顺序。多任务模型提升了网络的特征提取能力，提升了关键点检测精度。

参考图8所示，本示例通过设计三类空间位置顺序预测任务，即预测图像中不同人之间“从左到右、从上到下、从远及近”的空间顺序。对原本的关键点嵌入空间，施加了空间约束，能够加速训练速度。

由于这三类空间位置顺序具有明确的物理意义，提升了网络的可解释性。本示例使用第一特征作为基线方法，在第一特征的基础上增加了空间序的约束，以辅助训练。具体而言，本示例提供了一种多任务辅助训练方法，提供了一系列用于辅助训练的空间位置顺序预测任务。多任务的辅助训练方法，能够显著提升网络的训练速度，增加网络的可解释性，并最终提升关键点检测结果。

KE编码了人体各个肢体的外观信息。

对于同一个人的各个关键点所对应的第一特征的嵌入值很接近，不同人的各个关键点，具有较大差异，可以用于关键点的聚类。

空间关系嵌入值：表示图像中多个人之间的空间位置关系，这里主要考虑“从左到右、从上到下、从远及近”的常见空间顺序。

如图9所示，本申请实施例提供了一种训练设备，包括：

存储器，用于存储信息；

处理器，分别与显示器及所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现前述一个或多个技术方案提供的深度学习模型训练方法，例如，如图1、图2、图5A、图5B、图7和/或图8所示的深度学习模型训练方法。

该存储器可为各种类型的存储器，可为随机存储器、只读存储器、闪存等。所述存储器可用于信息存储，例如，存储计算机可执行指令等。所述计算机可执行指令可为各种程序指令，例如，目标程序指令和/或源程序指令等。

所述处理器可为各种类型的处理器，例如，中央处理器、微处理器、数字信号处理器、可编程阵列、数字信号处理器、专用集成电路或图像处理器等。

所述处理器可以通过总线与所述存储器连接。所述总线可为集成电路总线等。

在一些实施例中，所述终端设备还可包括：通信接口，该通信接口可包括：网络接口、例如，局域网接口、收发天线等。所述通信接口同样与所述处理器连接，能够用于信息收发。

在一些实施例中，所述终端设备还包括人机交互接口，例如，所述人机交互接口可包括各种输入输出设备，例如，键盘、触摸屏等。

在一些实施例中，所述训练设备还包括：显示器，该显示器可以显示各种提示、采集的人脸图像和/或各种界面。

本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够实现前述一个或多个技术方案提供的深度学习模型训练方法，例如，例如，如图1、图2、图5A、图5B、图7和/或图8所示的深度学习模型训练方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本示例各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本示例的具体实施方式，但本示例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本示例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本示例的保护范围之内。因此，本示例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

基于所述转换特征确定损失值；

基于所述损失值，确定是否继续训练所述深度学习模型；

利用训练好的深度学习模型进行图像检测，获得图像中的目标关键点。

2.根据权利要求1所述的方法，其特征在于，所述利用训练图像对深度学习模型进行训练，获得所述深度学习模型输出的训练特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述辅助训练模块基于第一类特征选择部分所述第二类特征进行转换处理，得到所述转换特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据第一类特征图像包含所述第一类特征和特征阈值的比较结果，生成特征蒙版，包括：

和/或

5.根据权利要求4所述的方法，其特征在于，所述基于所述特征蒙版从所述第二类特征中选择进行转换处理的所述第二类特征，包括：

若所述特征蒙版的第j个像素为所述第一取值，则选择第二类特征图中第j个像素的所述第二类特征进行特征转换，j为像素编号。

6.根据权利要求3至5任一项所述的方法，其特征在于，

所述第一类特征图包括第一类特征，所述第一类特征为置信度。

7.根据权利要求2至5任一项所述的方法，其特征在于，所述利用辅助训练模块对所述训练特征进行转换处理，得到转换特征，包括：

8.根据权利要求7所述的方法，其特征在于，

所述利用所述辅助训练模块对训练特征进行聚类处理，得到所述转换特征，包括：

9.根据权利要求2至5任一项所述的方法，其特征在于，

所述第二类特征包括：表征所述训练图像中同一个目标不同属性的第一特征和/或第二特征。

10.根据权利要求9所述的方法，其特征在于，

11.根据权利要求9所述的方法，其特征在于，所述利用辅助训练模块对所述训练特征进行转换处理，得到转换特征，包括：

12.根据权利要求11所述的方法，其特征在于，所述基于所述转换特征确定损失值，包括：

基于所述第一转换特征得到所述损失值的第一损失项；

基于所述第二转换特征得到所述损失值的第二损失项；

基于所述第一损失项和所述第二损失项，得到所述损失值。

13.根据权利要求2至5任一项所述的方法，其特征在于，所述方法还包括：

获取所述深度学习模型输出的第三类特征；

基于所述第三类特征和所述第二类特征确定第一类损失值；

14.根据权利要求13所述的方法，其特征在于，所述第三类特征包括：指示所述训练图像中不同目标之间的空间顺序的特征；

基于所述第三类特征，得到所述不同目标的第二空间顺序；

15.根据权利要求14所述的方法，其特征在于，所述第三类特征包括以下至少之一：

指示不同对象在第一方向上的分布关系的第一第三类特征；

16.根据权利要求1至5任一项所述的方法，其特征在于，所述利用训练好的深度学习模型进行图像检测，获得图像中的目标关键点，包括：

17.一种图像处理装置，其特征在于，包括：

第一确定模块，用于基于所述转换特征确定损失值；

第二确定模块，还用于基于所述损失值，确定是否继续训练所述深度学习模型；

检测单元，用于利用训练好的深度学习模型进行图像检测，获得图像中的目标关键点。

18.根据权利要求17所述的装置，其特征在于，所述训练模块，具体用于利用所述训练图像对所述深度学习模型进行训练，获得所述深度学习模型输出的第一类特征和第二类特征；

19.根据权利要求18所述的装置，其特征在于，所述辅助模块，具体用于根据第一类特征图像包含所述第一类特征和特征阈值的比较结果，生成特征蒙版；基于所述特征蒙版从所述第二类特征中选择进行转换处理的所述第二类特征。

20.根据权利要求19所述的装置，其特征在于，所述辅助模块，具体用于将第一类特征图中第i个像素的所述第一类特征与所述特征阈值进行比较，i为像素编号；若第i个像素的所述第一类特征大于所述特征阈值，则所述特征蒙版中第i个像素的像素值为第一取值；和/或若第i个像素的所述第一类特征小于或等于所述特征阈值，则所述特征蒙版中第i个像素的像素值为第二取值，其中，所述第二取值不同于所述第一取值。

21.根据权利要求20所述的装置，其特征在于，所述辅助模块，具体用于若所述特征蒙版的第j个像素为所述第一取值，则选择第二类特征图中第j个像素的所述第二类特征进行特征转换，j为像素编号。

22.根据权利要求19至21任一项所述的装置，其特征在于，

23.根据权利要求18至21任一项所述的装置，其特征在于，所述辅助模块，具体用于利用所述辅助训练模块对训练特征进行聚类处理，得到所述转换特征。

24.根据权利要求23所述的装置，其特征在于，

所述辅助模块，具体用于根据从所述训练特征选择的第二类特征，计算高斯相似性矩阵；对所述高斯相似性矩阵进行归一化处理，得到归一化矩阵系数；基于所述高斯相似性矩阵和所述归一化矩阵系数，得到被选择部分的所述第二类特征的所述转换特征。

25.根据权利要求18至21任一项所述的装置，其特征在于，

26.根据权利要求25所述的装置，其特征在于，

27.根据权利要求25所述的装置，其特征在于，所述辅助模块，具体用于利用所述辅助训练模块对所述第一特征进行转换处理，得到第一转换特征；利用所述辅助训练模块对所述第二特征进行转换处理，得到第二转换特征。

28.根据权利要求27所述的装置，其特征在于，所述第一确定模块，具体用于基于所述第一转换特征得到所述损失值的第一损失项；基于所述第二转换特征得到所述损失值的第二损失项；基于所述第一损失项和所述第二损失项，得到所述损失值。

29.根据权利要求18至21任一项所述的装置，其特征在于，所述装置还包括：

获取模块，用于获取所述深度学习模型输出的第三类特征；

30.根据权利要求29所述的装置，其特征在于，所述第三类特征包括：用于指示所述训练图像中不同目标之间的空间顺序的特征；

基于所述第三类特征，得到所述不同目标的第二空间顺序；

31.根据权利要求30所述的装置，其特征在于，所述第三类特征包括以下至少之一：

指示不同对象在第一方向上的分布关系的第一第三类特征；

32.一种训练设备，所述训练设备包括：

存储器，用于存储计算机可执行指令；

处理器，与所述存储器连接，用于通过执行所述计算机可执行指令，实现权利要求1至16任一项提供的方法。

33.一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行之后，能够实现权利要求1至16任一项所述的方法。