CN109886997B

CN109886997B - 基于目标检测的识别框确定方法、装置及终端设备

Info

Publication number: CN109886997B
Application number: CN201910064290.9A
Authority: CN
Inventors: 徐锐杰
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2023-07-11
Anticipated expiration: 2039-01-23
Also published as: WO2020151329A1; CN109886997A

Abstract

本发明适用于数据处理技术领域，提供了基于目标检测的识别框确定方法、装置、终端设备以及计算机可读存储介质，包括：获取包含目标的待检测图像，并对所述待检测图像进行识别框分析，得到至少一个待检测识别框；根据每个所述待检测识别框对所述待检测图像进行截取得到截取图像；将所述待检测图像和所有所述截取图像依次输入预先训练好的识别框优化模型，得到目标识别框，其中，所述目标识别框用于指示所述目标所在的区域。本发明结合待检测图像的图像特征生成目标识别框，提升了确定目标识别框的准确性，从而提升了目标检测的准确性。

Description

基于目标检测的识别框确定方法、装置及终端设备

技术领域

本发明属于数据处理技术领域，尤其涉及基于目标检测的识别框确定方法、装置、终端设备以及计算机可读存储介质。

背景技术

随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机技术对目标进行检测及跟踪的相关研究呈现出愈加热门的发展趋势，根据场景的不同，目标可为人脸、车辆或建筑等，而如何在图像中精准地定位出目标是目标检测中亟待解决的问题。

目前，通常是通过深度卷积神经网络算法对图像进行检测，基于算法特性，在进行检测后通常会得到多个识别框，故还需要从多个识别框中确定出最优的识别框，而在现有技术中，在确定最优识别框时，通常仅是对识别框进行运算，具体对多个识别框应用交并比算法，将其中交并比结果最大的识别框视为最优识别框，由于在运算过程中并未结合实际的图像，容易导致结果不可靠。综上，由于现有技术中进行交并比运算的结果并不可靠，导致确定出的最优识别框无法较好地贴合目标，目标检测的准确性低。

发明内容

有鉴于此，本发明实施例提供了基于目标检测的识别框确定方法、装置、终端设备以及计算机可读存储介质，以解决现有技术中确定出的识别框的准确性低，导致目标检测的准确性低的问题。

本发明实施例的第一方面提供了一种基于目标检测的识别框确定方法，包括：

获取包含目标的待检测图像，并对所述待检测图像进行识别框分析，得到至少一个待检测识别框；

根据每个所述待检测识别框对所述待检测图像进行截取得到截取图像；

将所述待检测图像和所有所述截取图像依次输入预先训练好的识别框优化模型，获取所述识别框优化模型输出的与每个输入的图像对应的子识别框，并根据前一个所述子识别框对后一个所述子识别框进行修正，将修正完成后的最后一个所述子识别框确定为目标识别框，其中，所述识别框优化模型是通过预设的样本图像及对应的人工标注框训练得到的，所述目标识别框用于指示所述待检测图像中所述目标所在的区域。

本发明实施例的第二方面提供了一种基于目标检测的识别框确定装置，包括：

分析单元，用于获取包含目标的待检测图像，并对所述待检测图像进行识别框分析，得到至少一个待检测识别框；

截取单元，用于根据每个所述待检测识别框对所述待检测图像进行截取得到截取图像；

输入单元，用于将所述待检测图像和所有所述截取图像依次输入预先训练好的识别框优化模型，获取所述识别框优化模型输出的与每个输入的图像对应的子识别框，并根据前一个所述子识别框对后一个所述子识别框进行修正，将修正完成后的最后一个所述子识别框确定为目标识别框，其中，所述识别框优化模型是通过预设的样本图像及对应的人工标注框训练得到的，所述目标识别框用于指示所述待检测图像中所述目标所在的区域。

本发明实施例的第三方面提供了一种终端设备，所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

本发明实施例与现有技术相比存在的有益效果是：

本发明通过对待检测图像进行分析得到至少一个待检测识别框，根据每个待检测识别框对待检测图像进行截取得到截取图像，再将待检测图像和所有截取图像输入预先训练好的识别框优化模型得到目标识别框，本发明通过识别框优化模型对待检测图像和所有截取图像进行分析，结合图像特征生成目标识别框，使得生成的目标识别框更贴合于待检测图像中的目标，提升了确定出的目标识别框的准确性以及进行目标检测的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的基于目标检测的识别框确定方法的实现流程图；

图2是本发明实施例二提供的基于目标检测的识别框确定方法的实现流程图；

图3是本发明实施例三提供的基于目标检测的识别框确定方法的实现流程图；

图4是本发明实施例四提供的基于目标检测的识别框确定方法的实现流程图；

图5是本发明实施例五提供的基于目标检测的识别框确定方法的实现流程图；

图6是本发明实施例六提供的inception框架的网络结构图；

图7是本发明实施例七提供的第一inception结构的结构图；

图8是本发明实施例八提供的第二inception结构的结构图；

图9是本发明实施例九提供的第三inception结构的结构图；

图10是本发明实施例十提供的基于目标检测的识别框确定装置的结构框图；

图11是本发明实施例十一提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

图1示出了本发明实施例提供的基于目标检测的识别框确定方法的实现流程，详述如下：

在S101中，获取包含目标的待检测图像，并对所述待检测图像进行识别框分析，得到至少一个待检测识别框。

目标检测是计算机视觉领域的核心技术之一，目的是检测出图像中所有的目标，并确定每个目标所在的位置。针对目标检测过程中确定出的识别框无法较好贴合目标的情况，在本发明实施例中，首先获取包含目标的待检测图像，并对待检测图像进行识别框分析得到至少一个待检测识别框。识别框分析可基于开源的目标检测模型实现，如区域卷积神经网络(Region-Convolutional Neural Network，R-CNN)模型或单网络目标检测框架(Single Shot MultiBox Detector，SSD)模型等，在基于目标检测模型对待检测图像进行识别框分析时，首先会根据滑动窗口算法或选择性搜索法等方式将待检测图像分隔为至少两个识别框，再由目标检测模型对分隔出的每个识别框进行计算，从而得到每个识别框的置信度，该置信度指示目标位于该识别框内的概率，置信度越高，则目标位于该识别框内的概率越高，计算出的置信度的数值取决于实际应用场景中目标检测模型的架构以及权重，在本发明实施例中不做赘述。在得到每个识别框的置信度后，将其中高于置信度阈值的置信度所对应的识别框确定为待检测识别框，一方面减少后续计算量，另一方面由于待检测识别框与目标的关联程度较高，故可提升后续确定目标识别框的准确性，置信度阈值可根据确定目标识别框的准确性要求进行确定，准确性要求越高，则将置信度阈值设置得越大，比如可设置为60％。值得一提的是，本发明实施例对待检测的目标的具体种类并不做限定，比如目标可为人脸、车辆或树木等，但选定目标的种类后，本发明实施例的所有目标均指已选定种类的目标，并且本发明实施例中的待检测识别框以及其他的识别框优选为矩形框。

可选地，将待检测图像归一化至预设尺寸，并对归一化后的待检测图像进行零均值化。在对待检测图像进行识别框分析之前，为了提升分析效果，预先将待检测图像的尺寸归一化至预设尺寸，预设尺寸可自由设置，如设置为299(像素长)×299(像素宽)。在此基础上，对归一化后的待检测图像进行零均值化，便于提升进行识别框分析的效果，具体计算出待检测图像中所有像素点的原数值的平均值，然后将待检测图像中每个像素点的数值更新为该像素点的原数值与上述平均值的差值(即原数值减去平均值的结果)，在待检测图像中所有像素点的数值都更新完毕后，便可对待检测图像进行识别框分析。通过上述方法提升了待检测图像的统一性，同时提升了后续的分析效果。

在S102中，根据每个所述待检测识别框对所述待检测图像进行截取得到截取图像。

得到的每一个待检测识别框都对应一个坐标集，坐标集内的每一个坐标都是待检测识别框的一个角位于待检测图像中的坐标，故在得到待检测识别框后，根据每个待检测识别框对待检测图像进行截取得到截取图像，便于后续确定出效果最优的识别框。

在S103中，将所述待检测图像和所有所述截取图像依次输入预先训练好的识别框优化模型，获取所述识别框优化模型输出的与每个输入的图像对应的子识别框，并根据前一个所述子识别框对后一个所述子识别框进行修正，将修正完成后的最后一个所述子识别框确定为目标识别框，其中，所述识别框优化模型是通过预设的样本图像及对应的人工标注框训练得到的，所述目标识别框用于指示所述待检测图像中所述目标所在的区域。

相较于传统方式中利用交并比算法来确定目标识别框，在本发明实施例中，结合待检测图像中的图像特征来进行目标识别框的修正及确定。具体地，将待检测图像和所有截取图像依次输入预先训练好的识别框优化模型，对于每个输入的图像来说，获取识别框优化模型输出的与每个图像对应的子识别框，由于单个子识别框的准确度可能较低，无法较好地贴合目标，故根据输入的上一个图像的子识别框对输入的下一个图像的子识别框进行修正(根据图像输入的时间从前到后的顺序)，直到待检测图像和所有截取图像都输入至识别框优化模型，将修正完成的最后一个子识别框确定为目标识别框，该目标识别框即为目标所在的区域。值得一提的是，识别框优化模型是通过预设的样本图像及对应的人工标注框进行训练得到的，从而能够根据图像的具体特征来得到子识别框，具体训练过程在后文进行阐述。

另外，本发明实施例对子识别框的修正方式并不做限定，比如可将前一个子识别框的坐标集与当前的子识别框的坐标集进行平均值运算(对每个角点单独运算)，并将运算得到的坐标集更新为当前的子识别框的坐标集，从而实现对当前的子识别框的修正。值得一提的是，每一个子识别框的坐标集都是将子识别框置于待检测图像中得到的，即子识别框的坐标集是相对于待检测图像而言的。举例来说，待检测图像集内包括且仅包括待检测图像Picture_A，截取图像Picture_B和Picture_C，对Picture_A进行神经网络运算后得到的坐标集为[左上角点(100，100)，左下角点(100，50)，右下角点(200，50)，右上角点(200，100)]，对Picture_B进行神经网络运算后得到的子识别框的坐标集为[左上角点(90，90)，左下角点(90，40)，右下角点(190，40)，右上角点(190，90)]，对Picture_C进行神经网络运算后得到的子识别框的坐标集为[左上角点(85，90)，左下角点(85，50)，右下角点(180，50)，右上角点(180，90)]，则首先基于Picture_A中的子识别框对Picture_B中的子识别框进行修正，得到修正后的Picture_B的子识别框的坐标集为[左上角点(95，95)，左下角点(95，45)，右下角点(195，45)，右上角点(195，95)]，再基于修正后的Picture_B的子识别框对Picture_C的子识别框进行修正，得到修正后的Picture_C的子识别框的坐标集为[左上角点(90，92.5)，左下角点(90，47.5)，右下角点(187.5，47.5)，右上角点(187.5，92.5)]，该修正后的Picture_C的子识别框即为目标识别框。当然，以上仅为对子识别框进行修正的一种示例，并不构成对本发明实施例的限定。

通过图1所示实施例可知，在本发明实施例中，通过对待检测图像进行识别框分析得到至少一个待检测识别框，根据每个待检测识别框对待检测图像进行截取得到截取图像，然后将待检测图像和所有截取图像依次输入预设的识别框优化模型得到目标识别框，本发明实施例结合待检测图像的图像特征确定目标识别框，使得目标识别框能够较好地贴合待检测图像中的目标，提升了确定出的目标识别框的准确性。

图2所示，是在本发明实施例一的基础上，对将待检测图像和所有截取图像依次输入预先训练好的识别框优化模型之前的过程进行扩展后得到的一种方法。本发明实施例提供了基于目标检测的识别框确定方法的实现流程图，如图2所示，该识别框确定方法可以包括以下步骤：

在S201中，获取至少所述两张样本图像以及对应的所述人工标注框，其中，所述样本图像为包含所述目标的图像，所述人工标注框为人工标注的所述样本图像中所述目标所在的区域。

在本发明实施例，针对于识别框优化模型的训练过程，首先获取至少两张样本图像以及与每张样本图像对应的人工标注框，该样本图像是包含本发明实施例中待检测的目标的图像，人工标注框是人工标注的样本图像中目标所在的区域。样本图像可由用户自由选择，也可直接从开源的图像库中调取，为了提升对模型的训练效果，样本图像的数量应较大，比如本发明实施例中获取的样本图像的数量可为1000张。

在S202中，对每张所述样本图像进行识别框分析得到至少一个样本识别框，并根据每个所述样本识别框对所述样本图像进行截取得到样本截取图像。

对于得到的每张样本图像，对其进行识别框分析，本步骤中进行识别框分析的方式与步骤S101中一致。进行识别框分析后，每张样本图像对应至少一个样本识别框，为了对模型进行训练，故根据得到的每个样本识别框对对应的样本图像进行截取得到样本截取图像。

在S203中，基于所述样本图像和对应的所有所述样本截取图像构建样本图像集，将构建的至少两个所述样本图像集依次输入至预设的基础模型，并根据输入的所述样本图像集对应的所述人工标注框对所述基础模型进行权重调整，直到调整后的所述基础模型输出的所述识别框与所述人工标注框相匹配，确定所述调整后的所述基础模型为所述识别框优化模型；其中，构建的每一个所述样本图像集对应一个所述样本图像。

基于每张样本图像和与该样本图像对应的所有样本截取图像构建样本图像集，构建完成后，样本图像集的数量与样本图像的数量相等，即每一个样本图像集都对应一个样本图像，该样本图像集仅是指将样本图像和所有样本截取图像归入一个特定的集合，并不是特指某一种具体的存储形式。然后，将构建的至少两个样本图像集依次作为输入参数，输入至预设的基础模型。在本发明实施例中，基础模型可基于inception框架实现，inception框架的网络结构如图6所示。在图6中，“conv”指卷积核，卷积核为滤波矩阵，用于对图像中的不同窗口进行卷积运算；“patch size”指卷积核的感受野(相当于尺寸)，若某个卷积核的感受野为3×3，则代表该卷积核的长为3个元素，宽为3个元素；“stride”指步长，在执行卷积操作时，将卷积核分别在三个通道(红色通道、绿色通道以及蓝色通道)上的图像上进行滑动，并将三个通道上图像像素点的原数值与卷积核的加权求和的结果作为卷积核的输出参数，步长即为卷积核每次滑动的步数(途径的像素点个数)；“input size”是指作为该层的输入参数的图像的尺寸，“input size”中的最后一个参数是指图像的深度，比如“input size”为299×299×3，则限定作为该层的输入参数的图像的深度为3。除此之外，“conv padded”是指包含边界填充功能的卷积核；“pool”是指池化层，用于减小该层的输入参数的数据量，防止过拟合，同时保持图像的深度不变；“linear”是指线性层，其输入参数是计算出的各个坐标集的未归一化的概率；“softmax”是指分类输出层，其应用神经网络中的softmax函数，对计算出的各个坐标集的概率进行归一化，完成分类(在实际进行训练时，可将经“softmax”层输出的概率最大的坐标集确定为基础模型本次输出的坐标集)。

此外，在图6中，“figure 5”是指第一inception结构，第一inception结构对卷积核的感受野不进行限制，在整个基础模型中，限定第一inception结构的数量为3个。图7为第一inception结构的结构图，其中“Base”为该第一inception结构的输入层，“FilterConcat”为该第一inception结构的输出层。

图6中的“figure 6”是指第二inception结构，第二inception结构的具体结构图如图8所示。第二inception结构在第一inception结构的基础上，对5*5的卷积核进行了拆分，具体拆分为2个3*3卷积核，以减小计算量，提升训练效率。在基础模型中，限定第二inception结构的数量为5个。

图6中的“figure 7”是指第三inception结构，第三inception结构的具体结构图如图9所示。第三inception结构在第二inception结构的基础上，对n*n的卷积核进行了拆分，具体拆分为一个1*n的卷积核和一个n*1的卷积核，进一步减小计算量，其中，n为大于1的整数。在基础模型中，限定第三inception结构的数量为2个。

在预先构建基础模型时，可对基础模型内的权重进行初始化(可在预设范围内随机设置数值)，权重即为基础模型内各个层级(包括各个卷积核)的具体数值。在将样本图像集作为输入参数输入至基础模型后，基础模型会进行计算，并输出识别框，该识别框即为预测的目标位于样本图像中的区域。为了实现对基础模型的训练，使得基础模型的计算结果更为精准，在每将一个样本图像集输入至基础模型后，根据该样本图像集对应的人工标注框对基础模型进行权重调整，直到调整后的基础模型输出的识别框与人工标注框相匹配，具体的权值调整方式在后文进行详细阐述。

在对基础模型训练完成，即权重调整完成后，将基础模型作为识别框优化模型，并将将待检测图像及所有截取图像作为输入参数输入至该识别框优化模型中，由于识别框优化模型已对待检测的目标有较好的识别效果，故直接将识别框优化模型输出的识别框确定为目标识别框。

通过图2所示实施例可知，在本发明实施例中根据人工标注过的样本图像训练预设的基础模型，将训练完成的基础模型作为识别框优化模型，基于人工监督的方式训练模型，提升了识别框优化模型与识别框分析的方式的贴合度，使得识别框优化模型对待检测图像及截取图像有较好的识别效果，进一步提升了确定出的目标识别框的准确性。

图3所示，是在本发明实施例二的基础上，对将构建的至少两个样本图像集依次输入至预设的基础模型，并根据输入的样本图像集对应的人工标注框对基础模型进行权重调整，直到调整后的基础模型输出的识别框与人工标注框相匹配的过程进行细化后得到的一种方法。本发明实施例提供了基于目标检测的识别框确定方法的实现流程图，如图3所示，该识别框确定方法可以包括以下步骤：

在S301中，将所述基础模型输出的与每个输入的所述样本图像集对应的识别框确定为基础识别框，并计算所述基础识别框与对应的所述人工标注框之间的差异参数。

在将每个样本图像集输入基础模型后，获取基础模型输出的与该样本图像集对应的识别框，并将该识别框确定为基础识别框，然后，计算基础识别框与该样本图像集对应的人工标注框之间的差异参数。本发明实施例对差异参数的计算方式并不做限定，比如可分别计算基础识别框与人工标注框在四个角点上坐标的差值，并将四个差值的平均值作为差异参数，也可将基础识别框与人工标注框在四个角点上坐标的差值导入预设的损失函数(如二次代价函数)，从而得到差异参数，为了便于说明，后文以包含损失函数的方式举例。

在S302中，若所述差异参数大于或等于预设的期望参数，则基于所述差异参数对所述基础模型进行权重调整，重复获取所述基础模型输出的下一个所述基础识别框，并基于更新后的所述差异参数对所述基础模型进行权重调整，直到所述差异参数小于所述期望参数为止。

为了衡量基础模型的训练情况，在本发明实施例中预先设置期望参数，若得到的差异参数大于或等于期望参数，则基于该差异参数对基础模型进行权重调整，权重调整操作可基于神经网络中开源的梯度下降算法或反向传播算法等算法实现。举例来说，由于基础识别框是经过基础模型中的多个卷积核计算得到的，而每个卷积核中都包括有权值，故在差异参数大于或等于期望参数时，可计算差异参数与卷积核权值的偏导数，构成差异参数相对于权值的梯度向量，再基于该梯度向量调整卷积核权值的数值，从而使得差异参数尽量的小。

在完成基于一个差异参数的权重调整后，将下一个样本图像集输入至基础模型，获取基础模型输出的基础识别框，并更新差异参数的数值，若更新后的差异参数大于或等于期望参数，则进行权重调整，并重复上述操作，直到差异参数小于期望参数为止。当然，在差异参数小于期望参数时，即可认定基础模型输出的基础识别框与人工标注框相匹配，当然可继续训练基础模型，直到所有的样本图像集都输入完毕为止。

通过图3所示实施例可知，在本发明实施例中，通过在将样本图像集输入至基础模型后，计算差异参数，并当差异参数大于或等于预设的期望参数，基于差异参数对基础模型进行权重调整，重复上述操作直到差异参数小于期望参数为止，提升了识别框优化模型的分析精度。

图4所示，是在本发明实施例二的基础上，并在对待检测图像进行识别框分析后得到至少两个目标，且每个目标对应至少一个待检测识别框的基础上，对将待检测图像和所有截取图像依次输入预先训练好的识别框优化模型，获取识别框优化模型输出的与每个输入的图像对应的子识别框，并根据前一个子识别框对后一个子识别框进行修正，将修正完成后的最后一个子识别框确定为目标识别框的过程进行细化后得到的一种方法。本发明实施例提供了基于目标检测的识别框确定方法的实现流程图，如图4所示，该识别框确定方法可以包括以下步骤：

在S401中，将所述待检测图像按照每个所述目标对应的所有待检测识别框进行切割得到切割图像，并对所述切割图像进行尺寸缩放，其中，每个所述切割图像对应一个所述目标。

在实际应用场景中，待检测图像中可能含有至少两个目标，比如目标为车辆，待检测图像为路口的抓拍图像，则待检测图像中可能含有至少两辆车。针对上述情况，在本发明实施例中针对每个目标单独确定目标识别框，具体地，由于识别出的每个目标都对应至少一个待检测识别框，故计算出每个目标对应的所有待检测识别框的最大覆盖区域，并根据该最大覆盖区域对待检测图像进行切割得到切割图像，每个切割图像都对应识别出的一个目标。其中，在计算最大覆盖区域时，首先求出目标对应的所有待检测识别框的并集区域，再将该并集区域覆盖的横向坐标范围作为最大覆盖区域的横向坐标范围，将该并集区域覆盖的纵向坐标范围作为最大覆盖区域的纵向坐标范围，从而构建出最大覆盖区域，值得一提的是，最大覆盖区域为矩形，故基于并集区域得到最大覆盖区域，实则是将形状可能不规则的并集区域补全为矩形的最大覆盖区域。

在得到切割图像后，由于切割图像的尺寸可能不满足识别框优化模型的输入参数的标准尺寸(如标准尺寸为预设尺寸，具体为299×299，而切割图像的尺寸为199×199)，故对得到的每个切割图像进行尺寸缩放，直到切割图像达到标准尺寸为止。值得一提的是，与切割图像不同的是，若上述的截取图像和样本截取图像不满足识别框优化模型的标准尺寸，则可对截取图像和样本截取图像中多余的尺寸所在的区域进行空白处理或灰度处理，防止后续确定识别框时尺寸混乱。

在S402中，将尺寸缩放后的所述切割图像和对应的所有所述截取图像依次输入至所述识别框优化模型，将所述识别框优化模型输出的识别框进行尺寸复原，将尺寸复原后的所述识别框确定为所述切割图像对应的所述目标识别框。

在对切割图像进行尺寸缩放后，将尺寸缩放后的切割图像以及对应的所有截取图像(此处的截取图像是根据与切割图像对应的待检测识别框对切割图像进行截取得到的)依次输入至权重调整后的识别框优化模型，将识别框优化模型输出的识别框(此处的识别框是识别框优化模型输出的经过修正后的最后一个识别框)进行尺寸复原，尺寸复原的尺度与步骤S401中对切割图像进行尺寸缩放的尺度相逆，比如在对切割图像进行尺寸缩放时，将切割图像缩小至二分之一，则在本步骤中将识别框以识别框中心为原点，扩大至原先的二倍。将尺寸复原后的识别框确定为切割图像对应的目标识别框，并将目标识别框重新置入初始的待检测图像中，便于后续进行其他的目标检测操作。本发明实施例中最终得到的目标识别框的数量与识别出的目标的数量相等，即一个目标识别框对应一个目标。

通过图4所示实施例可知，在本发明实施例中，将待检测图像按照每个识别出的目标进行切割得到切割图像，并对切割图像进行尺寸缩放，将尺寸缩放后的切割图像和对应的所有截取图像依次输入至识别框优化模型，将识别框优化模型输出的识别框进行尺寸复原得到目标识别框，本发明实施例针对每个识别出的目标单独确定目标识别框，提升了目标识别框确定的针对性和精确性，防止在将含有至少两个目标的待检测图像输入识别框优化模型后，计算效果差。

图5所示，是在本发明实施例二的基础上，并在包括至少两个识别框优化模型以及至少预设的两个属性特征，且每个识别框优化模型由对应相同的属性特征的样本图像集训练得到的基础上，对将待检测图像和所有截取图像依次输入预先训练好的识别框优化模型的过程进行细化后得到的一种方法。本发明实施例提供了基于目标检测的识别框确定方法的实现流程图，如图5所示，该识别框确定方法可以包括以下步骤：

在S501中，将所述待检测图像对应的所述属性特征确定为目标特征。

在本发明实施例中，可预先设置至少两个属性特征，并根据每个属性特征对基础模型进行单独训练得到识别框优化模型，优选地，属性特征的种类数与最终得到的识别框优化模型的数量相等。在训练每个基础模型时，仅将对应相同的属性特征的至少两个样本图像集输入至基础模型。为了便于说明，假设属性特征包括男性和女性，则预先设置两个基础模型，将对应男性的至少两个样本图像集输入至其中一个基础模型进行权重调整，将最终权重调整完毕的该基础模型作为识别框优化模型，将对应女性的至少两个样本图像集输入至另一个基础模型进行权重调整，将最终权重调整完毕的该基础模型作为另一个识别框优化模型。在得到训练完成的识别框优化模型后，获取待检测图像对应的属性特征，并将该属性特征确定为目标特征，目标特征可由用户预先进行自定义，也可引入开源的分析组件，从而分析出目标特征。

在S502中，将所述待检测图像和所有所述截取图像依次输入至与所述目标特征对应的所述识别框优化模型。

确定目标特征后，将待检测图像和所有所述截取图像输入至权重调整后的且与目标特征对应的识别框优化模型，由于该识别框优化模型对对应目标特征的图像有较好的分析效果，故提升了后续确定出的目标识别框的准确性。

通过图5所示实施例可知，在本发明实施例中，将待检测图像对应的属性特征确定为目标特征，并将待检测图像集输入至权重调整后的且与目标特征对应的识别框优化模型，通过针对性训练识别框优化模型，并将待检测图像集针对性地输入至对应的识别框优化模型，提升了目标检测的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的基于目标检测的识别框确定方法，图10示出了本发明实施例提供的基于目标检测的识别框确定装置的结构框图，参照图10，该识别框确定装置包括：

分析单元101，用于获取包含目标的待检测图像，并对所述待检测图像进行识别框分析，得到至少一个待检测识别框；

截取单元102，用于根据每个所述待检测识别框对所述待检测图像进行截取得到截取图像；

输入单元103，用于将所述待检测图像和所有所述截取图像依次输入预先训练好的识别框优化模型，获取所述识别框优化模型输出的与每个输入的图像对应的子识别框，并根据前一个所述子识别框对后一个所述子识别框进行修正，将修正完成后的最后一个所述子识别框确定为目标识别框，其中，所述识别框优化模型是通过预设的样本图像及对应的人工标注框训练得到的，所述目标识别框用于指示所述待检测图像中所述目标所在的区域。

可选地，输入单元103还包括：

获取单元，用于获取至少所述两张样本图像以及对应的所述人工标注框，其中，所述样本图像为包含所述目标的图像，所述人工标注框为人工标注的所述样本图像中所述目标所在的区域；

样本截取单元，用于对每张所述样本图像进行识别框分析得到至少一个样本识别框，并根据每个所述样本识别框对所述样本图像进行截取得到样本截取图像；

构建单元，用于基于所述样本图像和对应的所有所述样本截取图像构建样本图像集，将构建的至少两个所述样本图像集依次输入至预设的基础模型，并根据输入的所述样本图像集对应的所述人工标注框对所述基础进行权重调整，直到调整后的所述基础模型输出的所述识别框与所述人工标注框相匹配，确定所述调整后的所述基础模型为所述识别框优化模型；其中，构建的每一个所述样本图像集对应一个所述样本图像。

可选地，构建单元包括：

计算单元，用于将所述基础模型输出的与每个输入的所述样本图像集对应的识别框确定为基础识别框，并计算所述基础识别框与对应的所述人工标注框之间的差异参数；

权重调整单元，用于若所述差异参数大于或等于预设的期望参数，则基于所述差异参数对所述基础模型进行权重调整，重复获取所述基础模型输出的下一个所述基础识别框，并基于更新后的所述差异参数对所述基础模型进行权重调整，直到所述差异参数小于所述期望参数为止。

可选地，若对待检测图像进行识别框分析后得到至少两个目标，且每个目标对应至少一个待检测识别框，则输入单元包括：

切割单元，用于将所述待检测图像按照每个所述目标对应的所有待检测识别框进行切割得到切割图像，并对所述切割图像进行尺寸缩放，其中，每个所述切割图像对应一个所述目标；

确定单元，用于将尺寸缩放后的所述切割图像和对应的所有所述截取图像依次输入至所述识别框优化模型，将所述识别框优化模型输出的识别框进行尺寸复原，将尺寸复原后的所述识别框确定为所述切割图像对应的所述目标识别框。

可选地，包括至少两个识别框优化模型以及至少两个预设的属性特征，且每个识别框优化模型由对应相同的属性特征的样本图像集训练得到，则输入单元包括：

特征确定单元，用于将所述待检测图像对应的所述属性特征确定为目标特征；

针对输入单元，用于将所述待检测图像和所有所述截取图像依次输入至与所述目标特征对应的所述识别框优化模型。

可选地，分析单元101还包括：

归一单元，用于将所述待检测图像归一化至预设尺寸，并对归一化后的所述待检测图像进行零均值化。

因此，本发明实施例提供的基于目标检测的识别框确定装置通过将待检测图像和所有截取图像输入预先训练好的识别框优化模型，得到目标识别框，提升了确定出的目标识别框的准确性以及目标检测的准确性。

图11是本发明实施例提供的终端设备的示意图。如图11所示，该实施例的终端设备11包括：处理器110、存储器111以及存储在所述存储器111中并可在所述处理器110上运行的计算机程序112，例如基于目标检测的识别框确定程序。所述处理器110执行所述计算机程序112时实现上述各个基于目标检测的识别框确定方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，所述处理器110执行所述计算机程序112时实现上述各基于目标检测的识别框确定装置实施例中各单元的功能，例如图10所示单元101至103的功能。

示例性的，所述计算机程序112可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器111中，并由所述处理器110执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序112在所述终端设备11中的执行过程。例如，所述计算机程序112可以被分割成分析单元、截取单元以及输入单元，各单元具体功能如下：

分析单元，用于获取待检测图像，并对所述待检测图像进行识别框分析，得到至少一个待检测识别框；

所述终端设备11可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器110、存储器111。本领域技术人员可以理解，图11仅仅是终端设备11的示例，并不构成对终端设备11的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器110可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器111可以是所述终端设备11的内部存储单元，例如终端设备11的硬盘或内存。所述存储器111也可以是所述终端设备11的外部存储设备，例如所述终端设备11上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器111还可以既包括所述终端设备11的内部存储单元也包括外部存储设备。所述存储器111用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器111还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将所述终端设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的终端设备和方法，可以通过其它的方式实现。例如，以上所描述的终端设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于目标检测的识别框确定方法，其特征在于，包括：

2.如权利要求1所述的识别框确定方法，其特征在于，所述将所述待检测图像和所有所述截取图像依次输入预先训练好的识别框优化模型之前，还包括：

获取至少两张所述样本图像以及对应的所述人工标注框，其中，所述样本图像为包含所述目标的图像，所述人工标注框为人工标注的所述样本图像中所述目标所在的区域；

对每张所述样本图像进行识别框分析得到至少一个样本识别框，并根据每个所述样本识别框对所述样本图像进行截取得到样本截取图像；

基于所述样本图像和对应的所有所述样本截取图像构建样本图像集，将构建的至少两个所述样本图像集依次输入至预设的基础模型，并根据输入的所述样本图像集对应的所述人工标注框对所述基础模型进行权重调整，直到调整后的所述基础模型输出的所述识别框与所述人工标注框相匹配，确定所述调整后的所述基础模型为所述识别框优化模型；其中，构建的每一个所述样本图像集对应一个所述样本图像。

3.如权利要求2所述的识别框确定方法，其特征在于，所述将构建的至少两个所述样本图像集依次输入至预设的基础模型，并根据输入的所述样本图像集对应的所述人工标注框对所述基础模型进行权重调整，直到调整后的所述基础模型输出的所述识别框与所述人工标注框相匹配，包括：

将所述基础模型输出的与每个输入的所述样本图像集对应的识别框确定为基础识别框，并计算所述基础识别框与对应的所述人工标注框之间的差异参数；

若所述差异参数大于或等于预设的期望参数，则基于所述差异参数对所述基础模型进行权重调整，重复获取所述基础模型输出的下一个所述基础识别框，并基于更新后的所述差异参数对所述基础模型进行权重调整，直到所述差异参数小于所述期望参数为止。

4.如权利要求2所述的识别框确定方法，其特征在于，若对所述待检测图像进行识别框分析后得到至少两个所述目标，且每个所述目标对应至少一个所述待检测识别框，则所述将所述待检测图像和所有所述截取图像依次输入预先训练好的识别框优化模型，获取所述识别框优化模型输出的与每个输入的图像对应的子识别框，并根据前一个所述子识别框对后一个所述子识别框进行修正，将修正完成后的最后一个所述子识别框确定为目标识别框，包括：

将所述待检测图像按照每个所述目标对应的所有待检测识别框进行切割得到切割图像，并对所述切割图像进行尺寸缩放，其中，每个所述切割图像对应一个所述目标；

将尺寸缩放后的所述切割图像和对应的所有所述截取图像依次输入至所述识别框优化模型，将所述识别框优化模型输出的识别框进行尺寸复原，将尺寸复原后的所述识别框确定为所述切割图像对应的所述目标识别框。

5.如权利要求2所述的识别框确定方法，其特征在于，包括至少两个所述识别框优化模型以及至少两个预设的属性特征，且每个所述识别框优化模型由对应相同的所述属性特征的所述样本图像集训练得到，则所述将所述待检测图像和所有所述截取图像依次输入预先训练好的识别框优化模型，包括：

将所述待检测图像对应的所述属性特征确定为目标特征；

将所述待检测图像和所有所述截取图像依次输入至与所述目标特征对应的所述识别框优化模型。

6.如权利要求1所述的识别框确定方法，其特征在于，所述对所述待检测图像进行识别框分析之前，还包括：

将所述待检测图像归一化至预设尺寸，并对归一化后的所述待检测图像进行零均值化。

7.一种基于目标检测的识别框确定装置，其特征在于，包括：

8.一种终端设备，其特征在于，所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

9.如权利要求8所述的终端设备，其特征在于，所述将所述待检测图像和所有所述截取图像依次输入预先训练好的识别框优化模型之前，还包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述识别框确定方法的步骤。