CN113807147A

CN113807147A - 一种目标检测及其网络的训练方法、装置

Info

Publication number: CN113807147A
Application number: CN202010544452.1A
Authority: CN
Inventors: 赵松涛; 宋丛礼; 郭益林; 郑文
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2021-12-17
Anticipated expiration: 2040-06-15
Also published as: CN113807147B

Abstract

本公开关于一种目标检测及其网络的训练方法、装置、电子设备及存储介质，其中，所述训练方法包括：根据样本图像数据训练语义分割网络，从训练完毕的语义分割网络的多个层分别输出对应的特征图；根据各特征图训练关键点检测网络得到各检测准确率；根据各检测准确率从训练完毕的语义分割网络的多个层中选择出连接层；按照连接层连接训练完毕的语义分割网络和训练完毕的关键点检测网络得到目标检测网络。本公开不需要单独从头训练关键点检测网络，可以从训练完毕的语义分割网络引出一个关键点检测网络分支，该关键点检测网络分支可以复用语义分割网络的特征，减少了关键点检测网络训练过程中的计算量，降低了***资源的占用率。

Description

一种目标检测及其网络的训练方法、装置

技术领域

本公开涉及神经网络技术领域，尤其涉及一种目标检测网络的训练方法、装置和目标检测方法、装置以及电子设备及存储介质。

背景技术

目前，在短视频应用程序或者相机应用程序中，对目标对象进行检测是一种常用的功能。以目标对象为服装为例进行说明，检测出服装之后可以对分割出来的服装的区域替换颜色或者添加贴纸。但是，仅仅通过语义分割对服装进行检测，然后在服装区域添加贴纸，贴纸无法随着服装区域的改变而移动。

通常，相关技术中解决上述问题的常规方案是采用关键点技术对服装区域的某些关键点进行定位，通过定位的关键点和语义分割得到的服装区域的掩码图进行贴纸的添加，实现添加的贴纸可以随着服装区域的改变而移动。

上述常规方案将语义分割和关键点检测作为两个独立的网络进行训练。即首先利用语义分割网络得到服装区域的掩码图，再利用关键点检测网络得到服装的关键点信息。在添加贴纸时，根据掩码图确定贴纸的边界，根据关键点信息确定贴纸的固定位置，以实现贴纸可以随着服装的移动而移动。

但是，上述常规方案中的语义分割和关键点检测作为两个独立的网络，均需要从头开始对样本图像进行特征提取等处理，计算开销比较大，需要占用较多的***资源。

发明内容

本公开提供了一种目标检测网络的训练方法、装置和目标检测方法、装置、电子设备及存储介质，以至少解决相关技术中需要单独对语义分割网络和关键点检测网络分别训练，导致的计算开销大，占用***资源多的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供了一种目标检测网络的训练方法，包括：获取样本图像数据；根据所述样本图像数据训练语义分割网络，从训练完毕的语义分割网络的多个层分别输出与所述样本图像数据对应的特征图；根据各所述特征图训练关键点检测网络得到训练完毕的关键点检测网络的各检测准确率；根据各所述检测准确率从所述训练完毕的语义分割网络的多个层中选择出连接层，所述连接层用于连接所述训练完毕的语义分割网络与所述训练完毕的关键点检测网络，且从所述连接层输出的所述特征图训练所述关键点检测网络得到最高的检测准确率；按照所述连接层连接所述训练完毕的语义分割网络和所述训练完毕的关键点检测网络得到所述目标检测网络。

可选地，所述根据各所述检测准确率从所述训练完毕的语义分割网络的多个层中选择出连接层，包括：从所述关键点检测网络输出多个关键点位置信息，每个所述关键点位置信息与输入至所述关键点检测网络的所述特征图在所述训练完毕的语义分割网络中的层相对应；将多个所述关键点位置信息中满足预设的检测准确率要求的关键点位置信息，对应的至少一个层作为至少一个所述连接层。

可选地，所述将多个所述关键点位置信息中满足预设的检测准确率要求的关键点位置信息，对应的至少一个层作为至少一个所述连接层，包括：将多个所述关键点位置信息中检测准确率大于预设的检测率阈值，或者，检测准确率最高的至少一个关键点位置信息，对应的层作为至少一个所述连接层。

可选地，所述根据各所述特征图训练关键点检测网络，包括：根据所述训练完毕的语义分割网络的输出结果和多个所述关键点位置信息对所述关键点检测网络的原始损失函数进行加权处理，并根据各所述特征图和加权处理后的损失函数训练所述关键点检测网络。

可选地，所述样本图像数据包含标记信息，所述标记信息包含目标对象的区域标记信息和所述目标对象的关键点位置标记信息；所述根据所述训练完毕的语义分割网络的输出结果和多个所述关键点位置信息对所述关键点检测网络的原始损失函数进行加权处理，包括：根据所述标记信息、所述输出结果和多个所述关键点位置信息判断所述目标对象的关键点位置是否位于所述目标对象的区域内；若所述目标对象的关键点位置位于所述目标对象的区域内，则将所述原始损失函数与第一权重系数相乘得到第一损失函数；若所述目标对象的关键点位置位于所述目标对象的区域外，则将所述原始损失函数与第二权重系数相乘得到第二损失函数；其中，所述第一权重系数小于所述第二权重系数。

可选地，所述根据各所述特征图训练关键点检测网络之前，所述方法还包括：将各所述特征图的尺寸均调整为预设的统一尺寸。

根据本公开实施例的第二方面，提供了一种目标检测方法，包括：获取待检测的目标图像数据；将所述目标图像数据输入至根据如第一方面所述的方法训练所得的目标检测网络，得到所述目标图像数据中的目标对象的位置信息。

根据本公开实施例的第三方面，提供了一种目标检测网络的训练装置，包括：样本获取模块，被配置为获取样本图像数据；第一训练模块，被配置为根据所述样本图像数据训练语义分割网络，从训练完毕的语义分割网络的多个层分别输出与所述样本图像数据对应的特征图；第二训练模块，被配置为根据各所述特征图训练关键点检测网络得到训练完毕的关键点检测网络的各检测准确率；选择模块，被配置为根据各所述检测准确率从所述训练完毕的语义分割网络的多个层中选择出连接层，所述连接层用于连接所述训练完毕的语义分割网络与所述训练完毕的关键点检测网络，且从所述连接层输出的所述特征图训练所述关键点检测网络得到最高的检测准确率；连接模块，被配置为按照所述连接层连接所述训练完毕的语义分割网络和所述训练完毕的关键点检测网络得到所述目标检测网络。

可选地，所述选择模块，包括：位置输出模块，被配置为从所述关键点检测网络输出多个关键点位置信息，每个所述关键点位置信息与输入至所述关键点检测网络的所述特征图在所述训练完毕的语义分割网络中的层相对应；连接层确定模块，被配置为将多个所述关键点位置信息中满足预设的检测准确率要求的关键点位置信息，对应的至少一个层作为至少一个所述连接层。

可选地，所述连接层确定模块，被配置为将多个所述关键点位置信息中检测准确率大于预设的检测率阈值，或者，检测准确率最高的至少一个关键点位置信息，对应的层作为至少一个所述连接层。

可选地，所述第二训练模块，被配置为根据所述训练完毕的语义分割网络的输出结果和多个所述关键点位置信息对所述关键点检测网络的原始损失函数进行加权处理，并根据各所述特征图和加权处理后的损失函数训练所述关键点检测网络。

可选地，所述样本图像数据包含标记信息，所述标记信息包含目标对象的区域标记信息和所述目标对象的关键点位置标记信息；所述第二训练模块，被配置为根据所述标记信息、所述输出结果和多个所述关键点位置信息判断所述目标对象的关键点位置是否位于所述目标对象的区域内；若所述目标对象的关键点位置位于所述目标对象的区域内，则将所述原始损失函数与第一权重系数相乘得到第一损失函数；若所述目标对象的关键点位置位于所述目标对象的区域外，则将所述原始损失函数与第二权重系数相乘得到第二损失函数；其中，所述第一权重系数小于所述第二权重系数。

可选地，还包括：转换模块，被配置为在所述第二训练模块根据各所述特征图训练关键点检测网络之前，将各所述特征图的尺寸均调整为预设的统一尺寸。

根据本公开实施例的第四方面，提供了一种目标检测装置，包括：目标获取模块，被配置为获取待检测的目标图像数据；检测模块，被配置为将所述目标图像数据输入至根据如第一方面所述的方法训练所得的目标检测网络，得到所述目标图像数据中的目标对象的位置信息。

根据本公开实施例的第五方面，提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面和/或第二方面所述的方法。

根据本公开实施例的第六方面，提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如第一方面和/或第二方面所述的方法。

根据本公开实施例的第七方面，提供了一种计算机程序产品，包括可读性程序代码，所述可读性程序代码可由电子设备的处理器执行以完成上述第一方面和/或第二方面所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开的实施例提供的目标检测网络的训练方案，根据样本图像数据训练语义分割网络，从训练完毕的语义分割网络的多个层分别输出各特征图，根据各特征图训练关键点检测网络得到各检测准确率。根据各检测准确率从语义分割网络的多个层中选择出连接层，该连接层用于连接训练完毕的语义分割网络与训练完毕的关键点检测网络，而且，从该连接层输出的特征图可以训练得到关键点检测网络的最高的检测准确率。最终，利用连接层连接训练完毕的语义分割网络和训练完毕的关键点检测网络得到目标检测网络。

本公开的实施例先训练语义分割网络，从训练完毕的语义分割网络的多个层中输出各特征图，将各特征图作为关键点检测网络的输入项，以便对关键点检测网络进行训练。同时，还可以确定语义分割网络上的连接层，利用连接层将训练完毕的语义分割网络和训练完毕的关键点检测网络连接起来的到目标检测网络。本公开的实施例中不需要单独从头训练关键点检测网络，可以从训练完毕的语义分割网络引出一个关键点检测网络分支，该关键点检测网络分支可以复用语义分割网络的特征，减少了关键点检测网络训练过程中的计算量，降低了***资源的占用率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种目标检测网络的训练方法的流程图。

图2是根据一示例性实施例示出的一种目标检测网络的结构示意图。

图3是根据一示例性实施例示出的一种目标检测网络的训练装置的框图。

图4是根据一示例性实施例示出的一种目标检测装置的框图。

图5是根据一示例性实施例示出的一种目标检测网络的训练电子设备的框图。

图6是根据一示例性实施例示出的另一种目标检测网络的训练电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种目标检测网络的训练方法的流程图，如图1所示，该方法具体可以包括以下步骤。

在步骤S11中，获取样本图像数据。

在本公开的实施例中，样本图像数据可以包含目标对象的区域标记信息和目标对象的关键点位置标记信息。在实际应用中，目标对象可以为服装、鞋帽、首饰、交通工具等，本公开的实施例对目标对象的类型、种类、用途、数量等不做具体限制。

在步骤S12中，根据样本图像数据训练语义分割网络，从训练完毕的语义分割网络的多个层分别输出与样本图像数据对应的特征图。

在本公开的实施例中，根据样本图像数据对语义分割网络进行训练。语义分割是在像素级别上的分类，属于同一类的像素都要被归为一类，因此语义分割是从像素级别来理解图像的。

在语义分割网络训练完毕之后，保持语义分割网络各层的参数不变，从训练完毕的语义分割网络的多个层分别输出各个尺寸的特征图。其中，特征图的尺寸可以包含长边的像素点数量、宽边的像素点数量和语义分割网络的层的通道数。

以语义分割网络为Unet为例进行说明，Unet为全卷积网络(FullyConvolutionalNetworks，FCN)的一种变体。Unet基于编码-解码(Encoder-Decoder)结构，Unet结构是对称的，形似英文字母“U”所以被称为Unet。样本图像数据输入至Unet，先逐层进行下采样得到特征图，再逐层上采样输出掩码图。其中，各层输出的特征图的尺寸可以不相同。例如，C1层输出的特征图的尺寸为128*128*8，表示C1层的通道数为8，特征图的长边包含128个像素点，特征图的宽边包含128个像素点。C7层输出的特征图的尺寸为32*32*32，表示C7层的通道数为8，特征图的长边包含32个像素点，特征图的宽边包含32个像素点。

在步骤S13中，根据各特征图训练关键点检测网络得到训练完毕的关键点检测网络的各检测准确率。

在本公开的实施例中，关键点检测网络可以为采用级联的沙漏(hourglass)结构作为提取特征的网络，对关键点检测网络的训练过程不需要将上述步骤S11中获取到的样本图像数据作为输入项，而是将上述步骤S12中的特征图作为输入项，减少了关键点检测网络从样本图像数据中提取特征的步骤。在对关键点检测网络进行训练的过程中，每个特征图输入至关键点检测网络，可以训练得到对应的检测准确率。

在步骤S14中，根据各检测准确率从训练完毕的语义分割网络的多个层中选择出连接层。

在本公开的实施例中，由于语义分割网络中存在多个层，每个层均会输出各自的特征图，各个特征图不一定都能对关键点检测网络的检测准确率起到最佳效果。因此，需要在语义分割网络的多个层中筛选出合适的一个或多个层，将筛选出的一个或多个层作为训练完毕的语义分割网络与训练完毕的关键点检测网络之间的连接层。

在实际应用中可以采用网络搜索的方式筛选连接层。网络搜索的变量为语义分割网络的各层，网络搜索的条件为关键点检测网络的检测准确率达到预设的检测准确率要求。因此，可以从关键点检测网络中输出多个关键点检测结果，即关键点位置信息。其中，每个关键点位置信息可以理解为一个特征图输入至关键点检测网络之后，输出的目标对象在样本图像中的关键点的位置信息。一个特征图对应一个关键点位置信息，一个关键点位置信息包含一个目标对象的多个关键点的位置的集合。每个关键点位置信息与输入至关键点检测网络的特征图在训练完毕的语义分割网络中的层相对应。

例如，从语义分割网络的C4层输出的特征图t04输入至关键点检测网络，输出关键点位置信息g04，该关键点位置信息g04包含特征图t04对应的样本图像y04中的目标对象d04在样本图像y04中的多个关键点的位置的集合。

在判断关键点位置信息是否满足预设的检测准确率要求时，一种方式可以计算每个关键点位置信息的检测准确率。即比较每个关键点位置信息与样本图像数据中的关键点位置的标记信息，从而得到每个关键点位置信息的检测准确率。进而，将每个关键点位置信息的检测准确率与预设的检测率阈值进行比较，若某关键点位置信息的检测准确率大于检测率阈值，则该关键点位置信息对应的特征图的来源的层作为连接层。例如，上述关键点位置信息g04的检测准确率大于检测与阈值，则C4层作为连接层。另一种方式可以按照检测准确率对每个关键点位置信息进行降序排序，将排列在前的一个或多个关键点位置信息对应的特征图的来源的层作为连接层。即检测准确率最高的一个或多个关键点位置信息对应的层作为连接层。

需要说明的是，筛选出的连接层可以为一个也可以为多个，例如，可以将编码部分的C2层作为连接层，也可以将解码部分的C6层作为连接层，还可以将C2层和C6层的连接(concat)到一起作为连接层。

在步骤S15中，按照连接层连接训练完毕的语义分割网络和训练完毕的关键点检测网络得到目标检测网络。

在筛选出连接层之后，可以将关键点检测网络作为语义分割网络的一个分支，通过连接层连接语义分割网络和关键点检测网络。

在本公开的一种示例性实施例中，在对上述关键点检测网络进行训练的过程中，可以对关键点检测网络的原始损失函数进行加权处理。即根据训练完毕的语义分割网络的输出结果(掩码图)和关键点检测网络输出的关键点位置信息对关键点检测网络的原始损失函数进行加权处理。然后，根据各特征图和加权处理后的损失函数训练关键点检测网络。在实际的加权处理过程中，可以根据训练完毕的语义分割网络的输出结果和关键点检测网络的关键点位置信息以及样本图像中的标记信息(目标对象的区域标记信息和目标对象的关键点位置标记信息)判断关键点位置信息中的目标对象的关键点位置是否位于目标对象的区域内。若目标对象的关键点位置位于目标对象的区域内，则可以将原始损失函数乘以第一权重系数得到第一损失函数；若目标对象的关键点位置位于目标对象的区域外，则可以将原始损失函数乘以第二权重系数得到第二损失函数。其中，第一权重系数可以小于第二权重系数。

在本公开的一种示例性实施例中，在训练关键点检测网络之前，还可以将各特征图的尺寸调整为统一尺寸。由于从语义分割网络的各层输出的特征图的尺寸可能不同，需要将不同的尺寸调整为统一尺寸。因此，预先设置一个固定的尺寸，将不同尺寸的特征图的尺寸调整为固定的尺寸。

在实际应用中，可以对特征图的尺寸进行矩阵变换操作，例如，将从语义分割网络的各层输出的特征图输入至矩阵变换(Reshape)单元，由矩阵变换单元将不同尺寸的特征图调整为固定尺寸(如32*32*64)的特征图。

图2是根据一示例性实施例示出的一种目标检测网络的结构示意图。其中，目标检测网络主要可以包含以下几部分：

第一部分，语义分割网络。

语义分割网络的选择比较多，可以为FCN、segnet(一种基于FCN的神经网络)，或者Deeplab(一种语义分割网络)。语义分割网络的一个主要的特点就是将深层特征和浅层特征相结合，Unet的跳连接的结构可以比较好的保存深层特征和浅层特征。图2中语义分割网络可以为一种Unet。该Unet可以包含C0、C1、C2……C9、seg_out共11个层，其中，C0为输入层，seg_out为输出层，C0至C5为编码部分的层，C5至C9为解码部分的层。

尺寸为256*256*3的样本图像在C0层输入至Unet，依次经过C1至C5层的下采样操作得到16*16*128的特征图，其中，C1层输出的特征图尺寸为128*128*8，C2层输出的特征图尺寸为64*64*32，C3层输出的特征图尺寸为32*32*64，C4层输出的特征图尺寸为16*16*128，C5层输出的特征图尺寸为16*16*128，C6层输出的特征图尺寸为16*16*128，C7层输出的特征图尺寸为32*32*32，C8层输出的特征图尺寸为64*64*8，C9层输出的特征图尺寸为128*128*2，seg_out层输出尺寸为256*256*2的掩码图。

第二部分，Reshape单元。

Reshape单元可以对上述各层输出的特征图的尺寸调整为统一的固定尺寸，例如，固定尺寸为32*32*64。并将固定尺寸的特征图作为关键点检测网络的输入项。

第三部分，关键点检测网络。

关键点检测网络的训练过程中，可以在关键点检测网络的原始损失函数的基础上进行加权处理。即根据语义分割网络的前向传播结果(seg_out层输出的掩码图)，对实际上应该在目标对象的区域内的关键点经过关键点检测网络之后，得到的关键点位置是否在目标对象的区域内。若实际上应该在目标对象的区域内的关键点，经过关键点检测网络之后得到的关键点位置不在目标对象的区域内，则将原始损失函数乘以一个较大的权重系数得到一个新的损失函数；若实际上应该在目标对象的区域内的关键点，经过关键点检测网络之后得到的关键点位置的确在目标对象的区域内，则将原始损失函数乘以一个较小的权重系数得到另一个新的损失函数。需要说明的是，较大的权重系数和较小的权重系数仅仅是相对而言，本公开的实施例对任何一个权重系数的具体数值不做限制。

在按照上述目标检测网络的训练方法训练得到目标检测网络之后，可以将待检测的目标图像数据，输入至目标检测网络，输出目标图像数据中的目标对象的位置信息。该位置信息可以包含目标对象在目标图像数据中的区域信息和关键点信息等等，本公开的实施例对位置信息的内容、格式等不做具体限制。

本公开的实施例根据样本图像数据训练语义分割网络，从训练完毕的语义分割网络的多个层分别输出各特征图，根据各特征图训练关键点检测网络得到各检测准确率。根据各检测准确率从语义分割网络的多个层中选择出连接层，该连接层用于连接训练完毕的语义分割网络与训练完毕的关键点检测网络，而且，从该连接层输出的特征图可以训练得到关键点检测网络的最高的检测准确率。最终，利用连接层连接训练完毕的语义分割网络和训练完毕的关键点检测网络得到目标检测网络。

本公开的实施例通过网络搜索的方式从语义分割网络中筛选出连接层，以便从连接层输出的特征图可以提高关键点检测网络的检测准确率。

本公开的实施例通过对关键点检测网络的原始损失函数进行加权处理得到新的损失函数，并利用新的损失函数训练关键点检测网络，可以确定实际上在目标对象的区域内的关键点，经过关键点检测网络检测之后的关键点位置的确位于目标对象的区域内，避免了目标对象移动而贴纸不随着移动的问题，提升了贴纸在目标对象的区域内的展示效果。

图3是根据一示例性实施例示出的一种目标检测网络的训练装置的框图。该装置具体可以包括如下模块。

样本获取模块31，被配置为获取样本图像数据；

第一训练模块32，被配置为根据所述样本图像数据训练语义分割网络，从训练完毕的语义分割网络的多个层分别输出与所述样本图像数据对应的特征图；

第二训练模块33，被配置为根据各所述特征图训练关键点检测网络得到训练完毕的关键点检测网络的各检测准确率；

选择模块34，被配置为根据各所述检测准确率从所述训练完毕的语义分割网络的多个层中选择出连接层，所述连接层用于连接所述训练完毕的语义分割网络与所述训练完毕的关键点检测网络，且从所述连接层输出的所述特征图训练所述关键点检测网络得到最高的检测准确率；

连接模块35，被配置为按照所述连接层连接所述训练完毕的语义分割网络和所述训练完毕的关键点检测网络得到所述目标检测网络。

在本公开的一种示例性实施例中，所述选择模块34，包括：

位置输出模块，被配置为从所述关键点检测网络输出多个关键点位置信息，每个所述关键点位置信息与输入至所述关键点检测网络的所述特征图在所述训练完毕的语义分割网络中的层相对应；

连接层确定模块，被配置为将多个所述关键点位置信息中满足预设的检测准确率要求的关键点位置信息，对应的至少一个层作为至少一个所述连接层。

在本公开的一种示例性实施例中，所述连接层确定模块，被配置为将多个所述关键点位置信息中检测准确率大于预设的检测率阈值，或者，检测准确率最高的至少一个关键点位置信息，对应的层作为至少一个所述连接层。

在本公开的一种示例性实施例中，所述第二训练模块33，被配置为根据所述训练完毕的语义分割网络的输出结果和多个所述关键点位置信息对所述关键点检测网络的原始损失函数进行加权处理，并根据各所述特征图和加权处理后的损失函数训练所述关键点检测网络。

在本公开的一种示例性实施例中，所述样本图像数据包含标记信息，所述标记信息包含目标对象的区域标记信息和所述目标对象的关键点位置标记信息；

所述第二训练模块33，被配置为根据所述标记信息、所述输出结果和多个所述关键点位置信息判断所述目标对象的关键点位置是否位于所述目标对象的区域内；若所述目标对象的关键点位置位于所述目标对象的区域内，则将所述原始损失函数与第一权重系数相乘得到第一损失函数；若所述目标对象的关键点位置位于所述目标对象的区域外，则将所述原始损失函数与第二权重系数相乘得到第二损失函数；

其中，所述第一权重系数小于所述第二权重系数。

在本公开的一种示例性实施例中，还包括：转换模块，被配置为在所述第二训练模块33根据各所述特征图训练关键点检测网络之前，将各所述特征图的尺寸均调整为预设的统一尺寸。

图4是根据一示例性实施例示出的一种目标检测装置的框图。该装置具体可以包括如下模块。

目标获取模块41，被配置为获取待检测的目标图像数据；

检测模块42，被配置为将所述目标图像数据输入至根据上述目标检测网络的训练方法训练所得的目标检测网络，得到所述目标图像数据中的目标对象的位置信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种目标检测网络的训练电子设备的框图。例如，电子设备500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，电子设备500可以包括以下一个或多个组件：处理组件502，存储器504，电力组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制电子设备500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在电子设备500的操作。这些数据的示例包括用于在电子设备500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图像，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为电子设备500的各种组件提供电力。电源组件506可以包括电源管理***，一个或多个电源，及其他与为电子设备500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述电子设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当电子设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当电子设备500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为电子设备500提供各个方面的状态评估。例如，传感器组件514可以检测到电子设备500的打开/关闭状态，组件的相对定位，例如所述组件为电子设备500的显示器和小键盘，传感器组件514还可以检测电子设备500或电子设备500一个组件的位置改变，用户与电子设备500接触的存在或不存在，电子设备500方位或加速/减速和电子设备500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于电子设备500和其他设备之间有线或无线方式的通信。电子设备500可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器504，上述指令可由电子设备500的处理器520执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码可由电子设备500的处理器520执行以完成上述方法。可选地，该程序代码可以存储在电子设备500的存储介质中，该存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是根据一示例性实施例示出的另一种目标检测网络的训练电子设备的框图。例如，电子设备600可以被提供为一服务器。参照图6，电子设备600包括处理组件622，其进一步包括一个或多个处理器，以及由存储器632所代表的存储器资源，用于存储可由处理组件622的执行的指令，例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件622被配置为执行指令，以执行上述目标检测网络的训练方法。

电子设备600还可以包括一个电源组件626被配置为执行电子设备600的电源管理，一个有线或无线网络接口650被配置为将电子设备600连接到网络，和一个输入输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作***，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种目标检测网络的训练方法，其特征在于，包括：

获取样本图像数据；

根据所述样本图像数据训练语义分割网络，从训练完毕的语义分割网络的多个层分别输出与所述样本图像数据对应的特征图；

根据各所述特征图训练关键点检测网络得到训练完毕的关键点检测网络的各检测准确率；

根据各所述检测准确率从所述训练完毕的语义分割网络的多个层中选择出连接层，所述连接层用于连接所述训练完毕的语义分割网络与所述训练完毕的关键点检测网络，且从所述连接层输出的所述特征图训练所述关键点检测网络得到最高的检测准确率；

按照所述连接层连接所述训练完毕的语义分割网络和所述训练完毕的关键点检测网络得到所述目标检测网络。

2.根据权利要求1所述的方法，其特征在于，所述根据各所述检测准确率从所述训练完毕的语义分割网络的多个层中选择出连接层，包括：

从所述关键点检测网络输出多个关键点位置信息，每个所述关键点位置信息与输入至所述关键点检测网络的所述特征图在所述训练完毕的语义分割网络中的层相对应；

将多个所述关键点位置信息中满足预设的检测准确率要求的关键点位置信息，对应的至少一个层作为至少一个所述连接层。

3.根据权利要求2所述的方法，其特征在于，所述将多个所述关键点位置信息中满足预设的检测准确率要求的关键点位置信息，对应的至少一个层作为至少一个所述连接层，包括：

将多个所述关键点位置信息中检测准确率大于预设的检测率阈值，或者，检测准确率最高的至少一个关键点位置信息，对应的层作为至少一个所述连接层。

4.根据权利要求2所述的方法，其特征在于，所述根据各所述特征图训练关键点检测网络，包括：

根据所述训练完毕的语义分割网络的输出结果和多个所述关键点位置信息对所述关键点检测网络的原始损失函数进行加权处理，并根据各所述特征图和加权处理后的损失函数训练所述关键点检测网络。

5.根据权利要求4所述的方法，其特征在于，所述样本图像数据包含标记信息，所述标记信息包含目标对象的区域标记信息和所述目标对象的关键点位置标记信息；

所述根据所述训练完毕的语义分割网络的输出结果和多个所述关键点位置信息对所述关键点检测网络的原始损失函数进行加权处理，包括：

根据所述标记信息、所述输出结果和多个所述关键点位置信息判断所述目标对象的关键点位置是否位于所述目标对象的区域内；

若所述目标对象的关键点位置位于所述目标对象的区域内，则将所述原始损失函数与第一权重系数相乘得到第一损失函数；

若所述目标对象的关键点位置位于所述目标对象的区域外，则将所述原始损失函数与第二权重系数相乘得到第二损失函数；

其中，所述第一权重系数小于所述第二权重系数。

6.一种目标检测方法，其特征在于，包括：

获取待检测的目标图像数据；

将所述目标图像数据输入至根据权利要求1至6中任一项所述的方法训练所得的目标检测网络，得到所述目标图像数据中的目标对象的位置信息。

7.一种目标检测网络的训练装置，其特征在于，包括：

样本获取模块，被配置为获取样本图像数据；

第一训练模块，被配置为根据所述样本图像数据训练语义分割网络，从训练完毕的语义分割网络的多个层分别输出与所述样本图像数据对应的特征图；

第二训练模块，被配置为根据各所述特征图训练关键点检测网络得到训练完毕的关键点检测网络的各检测准确率；

选择模块，被配置为根据各所述检测准确率从所述训练完毕的语义分割网络的多个层中选择出连接层，所述连接层用于连接所述训练完毕的语义分割网络与所述训练完毕的关键点检测网络，且从所述连接层输出的所述特征图训练所述关键点检测网络得到最高的检测准确率；

连接模块，被配置为按照所述连接层连接所述训练完毕的语义分割网络和所述训练完毕的关键点检测网络得到所述目标检测网络。

8.一种目标检测装置，其特征在于，包括：

目标获取模块，被配置为获取待检测的目标图像数据；

检测模块，被配置为将所述目标图像数据输入至根据权利要求1至6中任一项所述的方法训练所得的目标检测网络，得到所述目标图像数据中的目标对象的位置信息。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的方法。