CN111738275A

CN111738275A - 一种采样框的生成方法、训练方法以及神经网络

Info

Publication number: CN111738275A
Application number: CN202010541088.3A
Authority: CN
Inventors: 常江龙; 毛立; 王志鹏; 孙明建
Original assignee: Jiuyisanluling Medical Technology Nanjing Co ltd
Current assignee: Jiuyisanluling Medical Technology Nanjing Co ltd
Priority date: 2020-06-13
Filing date: 2020-06-13
Publication date: 2020-10-02

Abstract

本申请实施例提供了一种采样框的生成方法、训练方法以及神经网络，方法包括：获得包含对象的待处理图像；利用预设的神经网络对待处理图像进行特征提取，获得尺度各不相同的多个特征图像；利用神经网络在每个特征图像中生成每个对象的采样框，并将采样框按对应尺度还原到待处理图像中；对待处理图像中的各采样框进行去重，以为每个对象留下一个框住该对象的采样框。通过在特征提取的过程中生成尺度各不相同的多个特征图像，并在每个特征图像均针对同一对象生成采样框。那么将采样框回归到原图像上时，每个对象都对应有多个采样框。此时，通过对采样框去重便能够留下更能够框住对象的采样框，以实现更准确的生成对象的采样框。

Description

一种采样框的生成方法、训练方法以及神经网络

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种采样框的生成方法、训练方法以及神经网络。

背景技术

在图像识别的一些应用场景中，比如在对象跟踪的场景中，需要在图像中生成采样框将对象框选住，以实现对对象进行持续跟踪，又比如在DM (Data Matrix，二维码)码识别的场景中，需要生成采样框来将图像中的 DM码所在的区域框选住，以标注出DM码的所在位置，方便用户辨识和查阅。

目前，可以采用线性卷积的方式来生成采样框，线性卷积实现起来比较容易，但其准确度不是很高。随着实际应用的标准的提高，采用线性卷积的准确度已经逐渐无法满足实际需求。

发明内容

本申请在于提供一种采样框的生成方法、训练方法以及神经网络，以实现比较准确的生成对象的采样框。

第一方面，本申请实施例提供了一种采样框的生成方法，所述方法包括：获得包含对象的待处理图像；利用预设的神经网络对所述待处理图像进行特征提取，获得尺度各不相同的多个特征图像；利用所述神经网络在每个所述特征图像中生成每个所述对象的采样框，并将所述采样框按对应尺度还原到所述待处理图像中；对所述待处理图像中的各采样框进行去重，以为每个所述对象留下一个框住该对象的采样框。

在本申请实施例中，通过在特征提取的过程中生成尺度各不相同的多个特征图像，并在每个特征图像均针对同一对象生成采样框。那么将采样框回归到原图像上时，每个对象都对应有多个采样框。此时，通过对采样框去重便能够留下更能够框住对象的采样框，以实现更准确的生成对象的采样框。

结合第一方面，在第一种可能的实现方式中，利用预设的神经网络对所述待处理图像进行特征提取，获得尺度各不相同的多个特征图像，包括：利用所述神经网络对所述待处理图像依次进行卷积、第一特征提取处理、第二特征提取处理以及下采样，获得所述多个特征图像，其中，所述第一特征提取处理用于缩小特征尺度并增加特征的感受野，所述第二特征提取处理用于保持特征的尺度不变并增加特征的深度。

在本申请实施例中，由于特征提取的过程中能够增加特征的感受野并加深特征的深度，其在实现尽可能多提取出特征的基础上，还能够避免特征的梯度消失。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，利用所述神经网络对所述待处理图像依次进行卷积、第一特征提取处理、第二特征提取处理以及下采样，获得所述多个特征图像，包括：利用所述神经网络对所述待处理图像进行所述卷积，获得第一特征，对所述第一特征依次进行所述第一特征提取处理以及所述第二特征提取处理，获得第二特征，以及对第二特征依次进行所述第一特征提取处理以及所述第二特征提取处理，获得第一特征图像；利用所述神经网络对所述第一特征图像依次进行所述第一特征提取处理以及所述第二特征提取处理，获得第二特征图像；利用所述神经网络对所述第二特征图像依次进行所述第一特征提取处理以及所述第二特征提取处理，获得第三特征图像；利用所述神经网络对所述第三特征图像进行所述下采样，获得第四特征图像；利用所述神经网络对所述第四特征图像进行所述下采样，获得第五特征图像，其中，所述多个特征图像包括：所述第一特征图像、所述第二特征图像、所述第三特征图像、所述第四特征图像以及所述第五特征图像。

在本申请实施例中，由于尺度不同的各特征是在第一特征提取处理和第二特征提取处理交叠的基础上得到的，故使得尺度不同的各特征的信息量都比较充足，且尺度不同的各特征的梯度消失也不明显。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述第一特征提取处理的流程，包括：利用所述神经网络中预设的多个卷积分支对输入特征分别进行卷积处理，对应获得多个卷积特征，其中，任意两个所述卷积分支的卷积核尺寸不同，所述输入特征对应为所述第一特征、所述第二特征、所述第一特征图像或所述第二特征图像；利用所述神经网络将所述多个卷积特征融合，获得需要进行所述第二特征提取处理的融合特征。

在本申请实施例中，由于神经网络中预设的多个卷积分支，不同尺度的卷积分支能够从不同维度提取出特征，从而有效提高的特征的信息量。

结合第一方面的第二种可能的实现方式，在第四种可能的实现方式中，所述第二特征提取处理的流程，包括：利用所述神经网络对需要处理的特征进行尺度不变的多次卷积，获得卷积特征；利用所述神经网络将所述卷积特征与所述需要处理的特征融合，获得输出特征。

在本申请实施例中，通过进行尺度不变卷积，并对卷积后的特征进行融合，其可以确保在梯度消失的不明显情况下有效增加特征的深度。

结合第一方面，在第五种可能的实现方式中，对所述待处理图像中的各采样框进行去重，以为每个所述对象留下一个框住该对象的采样框，包括：在所述各采样框中确定出相互重叠的采样框；在所述相互重叠的采样框中，将除面积最大的采样框以外的采样框删除，以为每个所述对象留下一个框住该对象的采样框。

在本申请实施例中，通过将面积最大的采样框留下，可以使得留下的采样框能够更好的框选住对象。

结合第一方面，在第六种可能的实现方式中，获得包含对象的待处理图像，包括：获得包含所有对象的原图像；以预设的步长将所述原图像分割成多张子图像；从所述多张子图像中获取本次需要处理的所述待处理图像。

在本申请实施例中，通过将原图像分割，可以减少每张子图像中包含的对象数量。而在对象数量减少的情况下，则能够更准确的确定出每个对象的采样框。

结合第一方面的第六种可能的实现方式，在第七种可能的实现方式中，所述步长小于所述子图像的尺寸，在对每张所述子图像中的各采样框均进行去重，以在每张所述子图像中为每个对象留下一个框住该对象的采样框后，所述方法还包括：按照分割时每张所述子图像在所述原图像中位置，确定出每张所述子图像中的每个采样框在所述原图像中位置；根据每个采样框在所述原图像中位置，对所述多张子图像所包含的所有采样框进行去重，以为所述所有对象中的每个留下一个框住该对象的采样框。

在本申请实施例中，由于步长小于子图像的尺寸，其可能导致将同一个对象分别分割到不同的子图像中。针对这种情况，通过在包含采样框的原图像进行采样框的去重，可以避免同一对象出现两个采样框的这种误识别情况出现。

结合第一方面的第七种可能的实现方式，在第八种可能的实现方式中，根据每个采样框在所述原图像中位置，对所述多张子图像所包含的所有采样框进行去重，以为所述所有对象中的每个留下一个框住该对象的采样框，包括：根据每个采样框在所述原图像中位置，在所述所有采样框中，确定出相互重叠的采样框；在所述相互重叠的采样框中，将除面积最大的采样框以外的采样框删除，以为所述所有对象中的每个留下一个框住该对象的采样框。

第二方面，本申请实施例提供了一种神经网络的训练方法，所述神经网络为第一方面或第一方面的第一种到第四种中任一种可能的实现方式所述的神经网络，所述方法包括：获得包含对象的样本图像，所述样本图像中标注有框住所述对象的真实框；利用所述神经网络处理所述样本图像，以在所述样本图像中生成所述对象的预测框；根据所述预测框与所述真实框之间的位置关系，生成所述预测框与所述真实框之间损失值的权重，其中，若所述预测框与所述真实框越靠近，则所述权重越大；利用所述损失值和所述权重，训练优化所述神经网络。

在本申请实施例中，由于根据位置关系生成了损失值的权重，将该权重用到优化中后，可以实现与真实框越靠近预测框其损失值对优化起到的作用越大，从而可以加快网络的收敛，提高训练效果。

结合第二方面，在第一种可能的实现方式中，根据所述预测框与所述真实框之间的位置关系，生成所述预测框与所述真实框之间损失值的权重，包括：确定出所述预测框的中心点到所述真实框的各边的距离，其中，所述距离用于表示所述位置关系；确定所述距离的比值，其中，所述比值用于表示所述权重。

在本申请实施例中，由于预测框与真实框之间位置关系可以通过预测框的中心点到真实框的各边的距离来体现，因此通过计算距离的比值可以快速的确定出损失值的权重。

第三方面，本申请实施例提供了一种神经网络，包括：输入层，用于获得包含对象的待处理图像；特征提取层，对所述待处理图像进行特征提取，获得尺度各不相同的多个特征图像；在每个所述特征图像中生成每个所述对象的采样框，并将所述采样框按对应尺度还原到所述待处理图像中；对所述待处理图像中的各采样框进行去重，以为每个所述对象留下一个框住该对象的采样框。

第四方面，本申请实施例提供了一种神经网络，其特征在于，所述神经网络采用如第二方面或第二方面的第一种可能的实现方式所述的训练方法获得。

第五方面，本申请实施例提供了一种电子设备，包括：通信接口、存储器、与所述通信接口和所述存储器连接的处理器；所述存储器，用于存储程序；所述处理器，用于调用并运行所述程序，以执行如第一方面、第一方面的任一种可能的实现方式所述的采样框的生成方法；或者执行如第二方面或第二方面的任一种可能的实现方式所述的神经网络的训练方法。

第四方面，本申请实施例提供了一种具有计算机可执行的非易失程序代码的计算机可读储存介质，所述程序代码使所述计算机以执行如第一方面、第一方面的任一种可能的实现方式所述的采样框的生成方法；或者执行如第二方面或第二方面的任一种可能的实现方式所述的神经网络的训练方法。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种神经网络的结构框图；

图2示出了本申请实施例提供的一种神经网络的训练方法的流程图；

图3A示出了本申请实施例的第一应用场景图；

图3B示出了本申请实施例的第二应用场景图；

图3C示出了本申请实施例的第三应用场景图；

图4示出了本申请实施例提供的一种采样框的生成方法的流程图；

图5示出了本申请实施例提供的一种采样框的生成方法中神经网络的处理流程图；

图6示出了本申请实施例提供的一种采样框的生成方法中第一特征提取处理的处理流程图；

图7示出了本申请实施例提供的一种采样框的生成方法中第二特征提取处理的处理流程图；

图8A示出了本申请实施例的第三应用场景图；

图8B示出了本申请实施例的第四应用场景图；

图9示出了本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参阅图1，本申请实施例提供了一种神经网络100，该神经网络100 可以部署在电子设备比如终端或者服务器上，该神经网络100可以包括：输入层、特征提取层以及输出层。

其中，输入层110，用于获得包含对象的待处理图像。

特征提取层120，用于对该待处理图像进行特征提取，获得尺度各不相同的多个特征图像；并在每个特征图像中生成每个对象的采样框，并将采样框按对应尺度还原到待处理图像中；对待处理图像中的各采样框进行去重，以为每个对象留下一个框住该对象的采样框，从而获得处理后的图像。

输出层130，用于将处理后的图像输出。

需要说明的是，由于神经网络100的实际应用场景不同，待处理图像中对象的类型也不同。比如应用到人脸跟踪的场景，那么对象可以是人的脸部；比如应用到嫌疑人跟踪的场景，那么对象可以是需要跟踪的人；又比如应用到DM码识别，那么对象则可以是DM码。

下面将分别从神经网络100的训练以及神经网络100的实际应用两个方案予以说明。

针对神经网络100的训练：

请参阅图2，本申请实施例提供了一种神经网络的训练方法，该神经网络的训练方法可以由电子设备执行，该神经网络的训练方法的流程可以包括：

步骤S100：获得包含对象的样本图像，该样本图像中标注有框住该对象的真实框。

步骤S200：利用神经网络处理该样本图像，以在该样本图像中生成该对象的预测框。

步骤S300：根据该预测框与所述真实框之间的位置关系，生成该预测框与该真实框之间损失值的权重，其中，若该预测框与该真实框越靠近，则该权重越大。

步骤S400：利用该损失值和该权重，训练优化该神经网络。

下面将结合具体应用场景对上述训练方法进行详细说明。

在训练前，电子设备需要先获得包含各对象的原图像以用于训练。并且，为增加训练的样本量，电子设备可以将原图像分割成多张子图像，每张子图像则作为一张样本图像以用于训练(为便于理解，后续将子图像统称为样本图像)。而由于进行了图像分割，一张原图像中包含的所有对象被分别分割到各样本图像中，使得每张样本图像中的对象数量是少于原图像中的对象数量，从而降低了训练的难度，并提高神经网络100为每个对象确定采样框的准确度。

当然，对原图像进行分割仅为一种示例性方式，其并不作为限定。在实际应用场景中，其也可以不进行分割直接将原图像用于训练。

本实施例中，电子设备可以以预设的步长将原图像分割成多张样本图像。其中，电子设备对原图像的分割可以理解为电子设备将原图像中相应区域的内容对应的复制到一张样本图像中，而并不是将原图像切割。但这种方式并不作为限定，在其它场景中，电子设备也可以通过对原图像进行切割的方式，将其分割成多张样本图像。

本实施例中，若对象在原图像中的位置是随机无规律的，为避免以固定的步长分割而出现将同一个对象分割开的情况，其可以采用部分重叠的方式进行分割，即设置步长小于样本图像的尺寸比如设置步长为样本图像尺寸的一半。这样，若对象只有一部分位于在一张样本图像中，但该对象则可以完整的位于相邻的另一张样本图像中，从而避免出现同一个对象被分割在两张样本图像中的情况。而若对象在原图像中的位置是固定的，以适当的步长进行分割并不会导致将同一个对象分割开，则可以采用不重叠的方式进行分割，即设置预设的步长等于样本图像的尺寸。

此外，电子设备在分割时，若以预设的步长分割到靠近原图像的边缘，但所剩的未分割部分的尺寸小于该步长，则电子设备以边缘为边界，以及在与步长方向相反的方向上，确定出尺寸与步长相同的部分进行分割，以确保分割出的各样本图像的尺寸是一致的。

请参阅图3A到图3C，下面以对象为DM码为例进行说明。

图3A为包含所有DM码的原图像，在该原图像中各DM码紧密的分布在一起，且各DM码的排列并不是整齐的，故可以采用300*300的步长，以从左到右再从上到下的顺序，依次将原图像分割成600*600的样本图像。并且，当分割到原图像右侧或下方的边缘时，若未分割的部分的尺寸只有 200，那么电子设备以边缘为边界，则右到左或者从下到上的方向上，确定出尺寸为600*600的部分，并将该部分分割成一张样本图像。

通过这种方式，分割出样本图像则可以如图3B以及图3C所示，每张样本图像中包含3-4个DM码。

此外，电子设备还可以对每张样本图像进行拉伸、翻转、色彩变换等处理，以进一步增加样本图像的数量。

在分割获得每张样本图像后，电子设备便需要在每张样本图像中标注出框选住该样本图像中每个对象的真实框，以便训练时使用。当然，若原图像中就标注了框选住每个对象的真实框，则无需在样本图像中再进行标注。

在获得用于训练的多张样本图像后，电子设备便可以利用多张样本图像对神经网络100进行训练。可以理解到，电子设备对神经网络100进行训练即是电子设备利用神经网络100处理每张样本图像，再利用该样本图像的处理结果去优化该神经网络100，并不断重复该过程。因此，为便于理解，本实施例以电子设备利用神经网络100处理某一张样本图像为例进行说明。

电子设备可以从多张样本图像中确定出本次训练需要使用的样本图像。比如，电子设备可以按预设的顺序从多张样本图像中确定出本次训练需要使用的样本图像；又比如，电子设备可以随机的从还未使用过的样本图像中确定出本次训练需要使用的样本图像。

电子设备可以将该样本图像输入到神经网络100中进行处理。

对应的，神经网络100的输入层110获取该样本图像，并将该样本图像传递到特征提取层120。

神经网络100的特征提取层120可以将该样本图像进行特征提取，获得尺度各不相同的多个特征图像。以及，神经网络100的特征提取层120 可以在每张特征图像中生成每个对象的预测框，比如，神经网络100的特征提取层120针对每张特征图像中的每个特征点，预测该特征点为对应的一个对象的真实框的中心点的概率，以及以该特征点为中心点生成预测框的各顶点的坐标，其中，特征图像中特征点的数量与该特征图像中的尺度相同，比如，特征图像的尺度为5*5，那么特征图像中特征点的数量即为 25个。换言之，神经网络100的特征提取生成每个对象的预测框，即是生成每张特征图像中每个对象的预测框的各顶点的坐标，以及生成每张特征图像中每个对象的预测框的中心点为对应的真实框的中心点的概率(为避免累述，后文将每个对象的预测框的中心点为对应的真实框的中心点的概率统称为每个预测框的概率)。神经网络100的特征提取层120还可以将该预测框按对应尺度还原到样本图像中，即将每张特征图像中每个对象的预测框的各顶点坐标对应还原到样本图像中，获得样本图像每个对象的预测框的各顶点坐标(为避免累述，后文将样本图像每个对象的预测框的各顶点坐标统称为每个预测框各顶点的坐标)，从而实现在样本图像中生成每个对象的预测框。

最后，神经网络100的输出层130可以将每个预测框各顶点的坐标以及每个预测框的概率作为处理结果输出。电子设备便可以获得样本图像中每个对象的预测框，即获得每个预测框各顶点的坐标以及每个预测框的概率。

本实施例中，由于电子设备对样本图像的标注即是在样本图像中标注出每个对象的真实框的各边坐标，以及每个对象的真实框的概率，该概率即为1。

进一步的，电子设备中预设有用于优化该神经网络100的损失函数。一方面，电子设备可以利用损失函数计算同一对象的每个预测框的概率、真实框的概率、每个预测框各顶点的坐标以及真实框各顶点的坐标，从而获得每个预测框与对应的真实框之间的损失值。另一方面，电子设备可以利用损失函数计算同一对象的每个预测框各顶点的坐标与真实框各顶点的坐标来反映同一对象的每个预测框与真实框之间的位置关系，从而获得同一对象的每个预测框与对应的真实框之间的损失值的权重。

具体的，在一方面，损失函数可以包括：

在式3中，L_reg表示某一个预设框与距离最近的一个真实框的框并比的损失值，t_x,y表示该真实框的中心点坐标，

表示该预设框的中心点坐标。其中，与预设框的距离最近的一个真实框属于哪一个对象，则认为该预设框也属于该对象。

在式1和2中，L_cls表示某一个预设框的概率与距离最近的一个真实框的概率之间的损失值，

表示该真实框的概率值，p_x,y表示该预测框的概率值，α_x,y、p、γ、λ、N_pos为预设的各常数。

通过上述式1到式3中，电子设备便可以计算出每个预设框与距离最近的一个真实框的框并比的损失值以及概率值的损失值，而该框并比的损失值以及概率值的损失值可以理解为该每个预设框与对应的一个真实框之间的损失值。

在另一方面，损失函数可以包括：

t＝y-y⁽⁰⁾，b＝y⁽¹⁾-y (4)

l＝x-x⁽⁰⁾，r＝x⁽¹⁾-x (5)

在式5中，l表示某一个预设框中心点的x轴坐标到最近的一个真实框左侧边(左侧边的位置通过x⁽⁰⁾表示)的距离；r表示某一个预设框中心点的x轴坐标到最近的一个真实框右侧边(右侧边的位置通过x⁽¹⁾表示)的距离。在式4中，t表示某一个预设框中心点的y轴坐标到最近的一个真实框顶边(顶边的位置通过y⁽⁰⁾表示)的距离；b表示某一个预设框中心点的y 轴坐标到最近的一个真实框底边(底边的位置通过y⁽¹⁾表示)的距离。式6 则用于根据某一个预测框的中心点到距离最近的一个真实框各边的距离，计算出该距离的比值，其中，该比值则表示该预测框与该真实框之间损失值的权重，且若这两个框完全重合，则该比值为1，若这两个框重合度越低，则该比值越趋于0。

步骤S400：利用该损失值和该权重，训练优化该神经网络。

本实施例中，电子设备在通过损失函数计算获得同一对象的每个预测框与真实框之间的损失值以及权重后，便可以利用该损失值以及权重对神经网络100中的参数进行优化，比如将该损失值与该权重的乘积用于神经网络100优化。

本实施例中，通过不断重复上述过程，可使得神经网络100针对同一对象生成的预测框与真实框之间的重合度越来越高。当神经网络100的准确度达到阈值时，比如当生成重合度达到95％以上的预测框的概率达到98％以上，则可认为对神经网络100的训练结束，该神经网络100可以投入实际应用。

针对神经网络100的实际应用：

请参阅图4，本申请实施例提供了一种采样框的生成方法，该采样框的生成方法可以由部署有训练好的神经网络100的电子设备执行，该采样框的生成方法的流程可以包括：

步骤S101：获得包含对象的待处理图像。

步骤S201：利用预设的神经网络对该待处理图像进行特征提取，获得尺度各不相同的多个特征图像。

步骤S301：利用神经网络在每个特征图像中生成每个对象的采样框，并将采样框按对应尺度还原到待处理图像中。

步骤S401：对待处理图像中的各采样框进行去重，以为每个对象留下一个框住该对象的采样框。

下面将结合具体应用场景对上述生成方法进行详细说明。

步骤S101：获得包含对象的待处理图像。

若电子设备在训练时未进行图像分割，那么实际应用中电子设备获取的待处理图像即是原图像。

若电子设备在训练时进行了图像分割，那么实际应用中电子设备可以先获取原图像，在以预设步长将原图像分割成多张子图像，最后从多张子图像中确定出本次处理所需的一张待处理图像。

其中，图像的分割以及待处理图像确定的原理与训练过程类似，在此就不再累述。

本实施例中，电子设备将待处理图像输入到神经网络100，而神经网络 100的输入层110获取到该待处理图像，并将其输入到神经网络100的特征提取层120后，神经网络100的特征提取层120可以对待处理图像依次进行卷积、第一特征提取处理、第二特征提取处理以及下采样，从而获得尺度各不相同的多个特征图像，其中，第一特征提取处理用于缩小特征尺度并增加特征的感受野，第二特征提取处理用于保持特征的尺度不变并增加特征的深度。

请参阅图5，具体来说，神经网络100的特征提取层120可以对待处理图像进行卷积处理(本实施例中所述的卷积处理即是卷积+激活处理)，比如以卷积核大小为3步长为2对待处理图像进行卷积然后采用Relu函数进行激活，获得第一特征。然后，神经网络100的特征提取层120对第一特征依次进行第一特征提取处理以及第二特征提取处理，比如进行一次第一特征提取后再连续进行两次第二特征提取处理，从而获得第二特征。以及，神经网络100的特征提取层120对第二特征依次进行第一特征提取处理以及第二特征提取处理，比如进行一次第一特征提取后再连续进行三次第二特征提取处理，从而获得第一特征图像，比如在待处理图像的尺寸为 600*600时，此时可以获得尺度为75*75的第一特征图像。

继续的，神经网络100的特征提取层120对第一特征图像依次进行第一特征提取处理以及第二特征提取处理，比如进行一次第一特征提取后再连续进行四次第二特征提取处理，从而获得第二特征图像，比如获得尺度为38*38的第二特征图像。

继续的，神经网络100的特征提取层120对第二特征图像依次进行第一特征提取处理以及第二特征提取处理，比如进行一次第一特征提取后再连续进行两次第二特征提取处理(考虑到前面的处理使得特征的深度已经比较深，此时再进行两次第二特征提取处理即可)，从而获得第三特征图像，比如获得尺度为19*19的第三特征图像。

继续的，神经网络100的特征提取层120对第三特征图像进行下采样处理，比如进行池化处理，获得第四特征图像，比如获得尺度为10*10的第四特征图像。

最后，神经网络100的特征提取层120对第四特征图像进行下采样处理，比如进行池化处理，获得第五特征图像，比如获得尺度为5*5的第五特征图像。

这样，最终获得的多个特征图像包括：第一特征图像、第二特征图像、第三特征图像、第四特征图像以及第五特征图像。

可以理解到，上述特征提取的方式获得五个特征图像仅为本实施例的一种示例性方式，并不作为本实施例的限定，根据实际需求，其基于上述原理简化上述的特征提取的流程，从而减少获得的特征图像的数量，或者将上述的特征提取的流程复杂，以获得数量更多的特征图像。此外，第一特征提取处理以及第二特征提取处理的执行次数也可以根据实际需求进行调整，本实施例中的执行次数仅为一种示例性的方式，并不作为限定。

本实施例中，针对每次执行的第一特征提取处理，其处理流程可以包括：神经网络100的特征提取层120基于神经网络100中预设的多个卷积分支对输入特征分别进行卷积处理，以对应获得多个卷积特征，其中，任意两个卷积分支的卷积核尺寸不同，输入特征对应为第一特征、第二特征、第一特征图像或者第二特征图像。处理后，神经网络100的特征提取层120 再将多个卷积特征融合，获得需要进行第二特征提取处理的融合特征。

作为进行第一特征提取处理的具体方式，比如图6所示，卷积分支可以有4个。神经网络100的特征提取层120基于第一个卷积分支对输入特征依次卷积核为1*1步长为2的卷积、卷积核为3*3步长为1的卷积，从而获得第一个卷积特征。神经网络100的特征提取层120基于第二个卷积分支对输入特征依次卷积核为1*1步长为1的卷积、卷积核为3*3步长为2的卷积、卷积核为3*3步长为1的卷积，从而获得第二个卷积特征。神经网络100的特征提取层120基于第三个卷积分支对输入特征依次卷积核为 1*1步长为1的卷积、卷积核为3*3步长为1的卷积、卷积核为3*3步长为 2的卷积、卷积核为3*3步长为1的卷积，从而获得第三个卷积特征。以及，神经网络100的特征提取层120基于第四个卷积分支对输入特征依次卷积核为1*1步长为1的卷积、卷积核为1*7步长为1的卷积、卷积核为7*1 步长为2的卷积、卷积核为3*3步长为1的卷积，从而获得第四个卷积特征。

通过上述流程获得四个卷积特征后，神经网络100的特征提取层120 将四个卷积特征融合，获得融合特征。

在获得融合特征后，作为一种方式，神经网络100的特征提取层120 可以直接该融合特征用于第二特征提取处理。而作为另一种方式，神经网络100的特征提取层120还可以将输入特征做步长为2的裁剪处理，从而获得尺度缩小了1/2的输入特征。然后，神经网络100的特征提取层120 还可以将该融合特征与尺度缩小了1/2的输入特征融合，从而获得再次融合的特征，并将再次融合的特征用于第二特征提取处理。

可以理解到，图6所示的流程仅为第一特征提取处理的一种示例性流程，并不作为限定。实际中，可以根据实际需求调整卷积分支的数量、卷积核的大小和/或卷积的步长。

本实施例中，针对每次执行的第二特征提取处理，其处理流程可以包括：神经网络100的特征提取层120对需要处理的特征进行尺度不变的多次卷积，获得卷积特征，其中，在该第二特征提取处理是连续执行的至少一次第二特征提取处理中的第一次时，该需要处理的特征可以是前一次执行第一特征提取处理输出的特征，在该第二特征提取处理不是连续执行的至少一次第二特征提取处理中的第一次时，该需要处理的特征可以是前一次执行第二特征提取处理输出的特征。神经网络100的特征提取层120将该卷积特征与该需要处理的特征融合，从而获得输出特征，其中，在该第二特征提取处理不是连续执行的至少一次第二特征提取处理中的最后一次时，该输出特征可以是用于下一次执行第二特征提取处理的特征，或者，在该第二特征提取处理是连续执行的至少一次第二特征提取处理中的最后一次时，该输出特征对应为第二特征、第一特征图像、第二特征图像或第三特征图像。

作为进行第二特征提取处理的具体方式，比如图7所示，神经网络100 的特征提取层120可以对需要处理的特征依次执行卷积核大小为1*1步长为1的卷积+Relu函数的激活处理、卷积核大小为3*3步长为1的卷积+Relu 函数的激活处理、以及卷积核大小为3*3步长为1的卷积处理，从而获得卷积特征。最后，神经网络100的特征提取层120将该卷积特征与该需要处理的特征融合再进行激活处理，从而获得输出特征。

可以理解到，图7所示的流程仅为第二特征提取处理的一种示例性流程，并不作为限定。实际中，可以根据实际需求调整卷积的次数、卷积核的大小和/或卷积的步长。

类似于训练过程，神经网络100的特征提取层120也针对每张特征图像中的每个特征点，预测该特征点为对应的一个对象的真实框的中心点的概率，即预测该特征点处的采样框(实际应用中的采样框即为训练中的预测框)的概率，以及还以该特征点为中心点生成采样框的各顶点的坐标。换言之，神经网络100的特征提取生成每个对象的采样框，即也是生成每张特征图像中每个对象的采样框的各顶点的坐标，以及生成每张特征图像中每个对象的采样框的概率。

然后，神经网络100的特征提取层120可以在所有生成的采样框中，将采样框的概率小于阈值比如小于0.7的采样框删除，并将每张特征图像中留下的采样框按照对应的尺度对应还原到待处理图像中，从而获得待处理图像中每个对象的采样框的各顶点坐标。

最后，神经网络100的输出层130将该待处理图像中每个对象的采样框的各顶点坐标输出，电子设备便对应获得该待处理图像中每个对象的采样框的各顶点坐标。

可以理解到，由于同一对象的采样框是基于不同尺度的特征图像生成，故每个对象可以有多个采样框，因此电子设备需要对待处理图像的每个对象的各采样框中，确定出相互重叠的采样框；再在相互重叠的采样框中，将除面积最大的采样框以外的采样框删除，从而为每个对象留下一个框住该对象的采样框。

具体的，电子设备可以基于待处理图像中每个采样框的各顶点坐标，计算出该采样框的面积。电子设备根据待处理图像中每个采样框的面积，将待处理图像中所有采样框按照面积的大小顺序比如按从大到小的顺序排列，从而获得采样框队列。

进一步的，电子设备按顺序选择出采样框队列中的第一个采样框，该采样框即是面积最大的采样框。电子设备根据每个采样框的各顶点坐标，计算采样框队列中后续每个采样框与该第一个采样框是否重合，若重合，则将重合的两个采样框中面积小的采样框删除，否则，则将两个不重合的采样框保留。

当完成对采样框队列中最后一个采样框的重合计算后，第一遍计算完成。若此时采样框队列中采样框的数量大于2，电子设备按顺序选择出采样框队列中的第二个采样框，该采样框即是面积第二大的采样框。电子设备根据每个采样框的各顶点坐标，计算采样框队列中后续每个采样框与该第二个采样框是否重合，若重合，则将重合的两个采样框中面积小的采样框删除，否则，则将两个不重合的采样框保留。

当完成对采样框队列中最后一个采样框的重合计算后，第二遍计算完成。若此时采样框队列中采样框的数量等于2，去重执行完成。若此时采样框队列中采样框的数量大于2，则按照上述逻辑，继续进行迭代，直至按顺序选择出采样框是采样框队列中最后一个采样框，则去重执行完成，此时留下的每个采样框都是该对象的所有采样框中面积最大的一个。

本实施例中，若神经网络100处理的待处理图像是原图像，在完成去重后，电子设备便可以按照每个对象的采样框的各顶点坐标，在待处理图像生成每个对象的采样框的图形，从而获得包含采样框的图像。电子设备将该包含采样框的图像发送给显示设备显示，以便用户查看。

若神经网络100处理的待处理图像是分割后的子图像，则可能导致同一对象在不同子图像均确定出了采样框，因此需要以原图像的为基准，对采样框进行去重。

具体的，电子设备可以按照分割时每张子图像在原图像中位置，对应确定出每张子图像中的每个采样框在原图像中位置，即确定出每张子图像中的每个采样框的各顶点在原图像中的坐标。

电子设备根据每个采样框在原图像中位置，对该多张子图像所包含的所有采样框进行去重，以为所有对象中的每个留下一个框住该对象的采样框。即电子设备可以根据每个采样框在原图像中位置，在所有采样框中，确定出相互重叠的采样框；再在相互重叠的采样框中，将除面积最大的采样框以外的采样框删除，以为所有对象中的每个留下一个框住该对象的采样框。其中，该流程与前述中针对每张待处理图像进行去重的流程大致相同，在此就不再累述。

进一步的，去重后，电子设备根据所有对象中每个对象的采样框在原图像中的位置，在原图像中生成所有对象各自的采样框的图形，从而获得包含采样框的原图像。电子设备将该包含采样框的原图像发送给显示设备显示，以便用户查看。

请参阅图8A和图8B，8A示出了子图像去重后框选住子图像中每个 DM码的一个采样框。8B示出了原图像去重后框选住原图像中每个DM码的一个采样框。

请参阅图9，基于同一发明构思，本申请实施例提供了一种电子设备 10，该电子设备10可以包括连接到网络的通信接口11、用于执行程序指令的一个或多个处理器12、总线13、和不同形式的存储器14，例如，磁盘、 ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在 ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。

存储器14用于存储程序，处理器12用于调用并运行存储器14中的程序以执行前述的神经网络的训练方法或者采样框的生成方法。

本申请一些实施例还提供了一种计算机可执行的非易失的程序代码的计算机可读储存介质，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该计算机可读存储介质上存储有程序代码，该程序代码被计算机运行时执行上述任一实施方式的神经网络的训练方法或者采样框的生成方法的步骤。

本申请实施例所提供的神经网络的训练方法或者采样框的生成方法的程序代码产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

综上所述，通过在特征提取的过程中生成尺度各不相同的多个特征图像，并在每个特征图像均针对同一对象生成采样框。那么将采样框回归到原图像上时，每个对象都对应有多个采样框。此时，通过对采样框去重便能够留下更能够框住对象的采样框，以实现更准确的生成对象的采样框。

需要说明的是，由于所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请一些实施例还提供了一种计算机可执行的非易失的程序代码的计算机可读储存介质，该计算机可读存储介质上存储有程序代码，该程序代码被计算机运行时执行上述任一实施方式的对象的监控方法的步骤。

详细地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的程序代码被运行时，能够执行上述任一实施方式的对象的监控方法的步骤，以实现降低人力成本的同时，还避免出现由于工作人员出现疏忽而无法有效的监控到异常行为的发生。

本申请实施例所提供的数据请求方法的程序代码产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种采样框的生成方法，其特征在于，所述方法包括：

获得包含对象的待处理图像；

利用预设的神经网络对所述待处理图像进行特征提取，获得尺度各不相同的多个特征图像；

利用所述神经网络在每个所述特征图像中生成每个所述对象的采样框，并将所述采样框按对应尺度还原到所述待处理图像中；

对所述待处理图像中的各采样框进行去重，以为每个所述对象留下一个框住该对象的采样框。

2.根据权利要求1所述的采样框的生成方法，其特征在于，利用预设的神经网络对所述待处理图像进行特征提取，获得尺度各不相同的多个特征图像，包括：

利用所述神经网络对所述待处理图像依次进行卷积、第一特征提取处理、第二特征提取处理以及下采样，获得所述多个特征图像，其中，所述第一特征提取处理用于缩小特征尺度并增加特征的感受野，所述第二特征提取处理用于保持特征的尺度不变并增加特征的深度。

3.根据权利要求2所述的采样框的生成方法，其特征在于，利用所述神经网络对所述待处理图像依次进行卷积、第一特征提取处理、第二特征提取处理以及下采样，获得所述多个特征图像，包括：

利用所述神经网络对所述待处理图像进行所述卷积，获得第一特征，对所述第一特征依次进行所述第一特征提取处理以及所述第二特征提取处理，获得第二特征，以及对第二特征依次进行所述第一特征提取处理以及所述第二特征提取处理，获得第一特征图像；

利用所述神经网络对所述第一特征图像依次进行所述第一特征提取处理以及所述第二特征提取处理，获得第二特征图像；

利用所述神经网络对所述第二特征图像依次进行所述第一特征提取处理以及所述第二特征提取处理，获得第三特征图像；

利用所述神经网络对所述第三特征图像进行所述下采样，获得第四特征图像；

利用所述神经网络对所述第四特征图像进行所述下采样，获得第五特征图像，其中，所述多个特征图像包括：所述第一特征图像、所述第二特征图像、所述第三特征图像、所述第四特征图像以及所述第五特征图像。

4.根据权利要求3所述的采样框的生成方法，其特征在于，所述第一特征提取处理的流程，包括：

利用所述神经网络中预设的多个卷积分支对输入特征分别进行卷积处理，对应获得多个卷积特征，其中，任意两个所述卷积分支的卷积核尺寸不同，所述输入特征对应为所述第一特征、所述第二特征、所述第一特征图像或所述第二特征图像；

利用所述神经网络将所述多个卷积特征融合，获得需要进行所述第二特征提取处理的融合特征。

5.根据权利要求3所述的采样框的生成方法，其特征在于，所述第二特征提取处理的流程，包括：

利用所述神经网络对需要处理的特征进行尺度不变的多次卷积，获得卷积特征；

利用所述神经网络将所述卷积特征与所述需要处理的特征融合，获得输出特征。

6.根据权利要求1所述的采样框的生成方法，其特征在于，对所述待处理图像中的各采样框进行去重，以为每个所述对象留下一个框住该对象的采样框，包括：

在所述各采样框中确定出相互重叠的采样框；

在所述相互重叠的采样框中，将除面积最大的采样框以外的采样框删除，以为每个所述对象留下一个框住该对象的采样框。

7.根据权利要求1所述的采样框的生成方法，其特征在于，获得包含对象的待处理图像，包括：

获得包含所有对象的原图像；

以预设的步长将所述原图像分割成多张子图像；

从所述多张子图像中获取本次需要处理的所述待处理图像。

8.根据权利要求7所述的采样框的生成方法，其特征在于，所述步长小于所述子图像的尺寸，在对每张所述子图像中的各采样框均进行去重，以在每张所述子图像中为每个对象留下一个框住该对象的采样框后，所述方法还包括：

按照分割时每张所述子图像在所述原图像中位置，确定出每张所述子图像中的每个采样框在所述原图像中位置；

根据每个采样框在所述原图像中位置，对所述多张子图像所包含的所有采样框进行去重，以为所述所有对象中的每个留下一个框住该对象的采样框。

9.根据权利要求8所述的采样框的生成方法，其特征在于，根据每个采样框在所述原图像中位置，对所述多张子图像所包含的所有采样框进行去重，以为所述所有对象中的每个留下一个框住该对象的采样框，包括：

根据每个采样框在所述原图像中位置，在所述所有采样框中，确定出相互重叠的采样框；

在所述相互重叠的采样框中，将除面积最大的采样框以外的采样框删除，以为所述所有对象中的每个留下一个框住该对象的采样框。

10.一种神经网络的训练方法，其特征在于，所述神经网络为权利要求1-5中任一权项所述的神经网络，所述方法包括：

获得包含对象的样本图像，所述样本图像中标注有框住所述对象的真实框；

利用所述神经网络处理所述样本图像，以在所述样本图像中生成所述对象的预测框；

根据所述预测框与所述真实框之间的位置关系，生成所述预测框与所述真实框之间损失值的权重，其中，若所述预测框与所述真实框越靠近，则所述权重越大；

利用所述损失值和所述权重，训练优化所述神经网络。

11.根据权利要求10所述的神经网络的训练方法，其特征在于，根据所述预测框与所述真实框之间的位置关系，生成所述预测框与所述真实框之间损失值的权重，包括：

确定出所述预测框的中心点到所述真实框的各边的距离，其中，所述距离用于表示所述位置关系；

确定所述距离的比值，其中，所述比值用于表示所述权重。

12.一种神经网络，其特征在于，包括：

输入层，用于获得包含对象的待处理图像；

特征提取层，对所述待处理图像进行特征提取，获得尺度各不相同的多个特征图像；在每个所述特征图像中生成每个所述对象的采样框，并将所述采样框按对应尺度还原到所述待处理图像中；对所述待处理图像中的各采样框进行去重，以为每个所述对象留下一个框住该对象的采样框。

13.一种神经网络，其特征在于，所述神经网络采用如权利要求10或11所述的训练方法获得。