CN112348828A

CN112348828A - 基于神经网络的实例分割方法和装置以及存储介质

Info

Publication number: CN112348828A
Application number: CN202011166214.8A
Authority: CN
Inventors: 苏浩; 潘武; 张小锋; 黄鹏; 胡彬; 林封笑
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-02-09

Abstract

本发明公开了一种基于神经网络的实例分割方法和装置以及存储介质。其中，该方法包括：通过获取视频流中的目标图片；将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割；根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片，进而解决了现有技术中，实例分割计算速度较低的技术问题。

Description

基于神经网络的实例分割方法和装置以及存储介质

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种基于神经网络的实例分割方法和装置以及存储介质。

背景技术

在图像进行处理的时候，通常需要对图片中所包含的各个实例进行定位和区分。例如，采用目标检测方法框出不同的实例，再用语义分割方法对不同类别的实例所在区域进行逐像素标记，从而区分不同类别的实例。若需要对相同类别的实例进行进一步的区分，则对图片进行实例分割，实例分割不仅可以对图片进行类别的区分，还可以在相同类别的实例中区分出不同的实例。

现有的采用基于候选区域的实例分割架构对图片在N个层级的预测网络中实例分割，以直接得到实例分割结果。通过级联的方式提高了实例分割的准确率，但是推理速度却大大降低了，没有做到速度与精度的均衡。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于神经网络的实例分割方法和装置以及存储介质，以至少解决现有技术中，实例分割计算速度较低的技术问题。

根据本发明实施例的一个方面，提供了一种基于神经网络的实例分割方法，包括：获取视频流中的目标图片；将所述目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，所述实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，所述检测网络用于获取实例边界框的参数，所述特征图处理层将所述边界框的参数进行处理，得到目标参数，所述掩码处理层根据所述目标参数对所述目标图片进行实例分割；根据所述第一实例集合中的目标实例之间的重叠度确定第一实例集合中所述目标实例的相似实例；确定所述相似实例中大于第一预定阈值的实例，得到所述目标图片中所述目标实例的至少一个实例图片。

可选的，所述将所述目标图片输入至目标实例分割神经网络中，输出第一实例集合之前，所述方法包括：获取视频流中的样本图片集合；将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集；将所述标注数据集输入至预设实例分割神经网络中，其中，所述预设神经网络包括预设检测网络、预设特征图处理层、预设掩码处理层以及目标损失函数，所述检测网络用于获取预设样本图片中实例边界框的参数，所述特征图处理层将所述预设样本图片中实例的边界框的参数进行处理，得到预设目标参数，所述掩码处理层根据所述预设目标参数对所述样本目标图片进行实例分割，所述目标损失函数，所述目标损失函数包括二元交叉熵损失函数和交并比损失函数；在所述目标损失函数满足预定条件的情况下，确定为所述实例分割神经网络。

可选的，将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集包括：采用实例分割标准数据增强技术将样本图片集合中的每张图片和标注结果进行数据增强，得到所述目标数据集。

可选的，将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集之后，所述方法还包括：将所述目标数据集按照预设比例划分为训练集、验证集和测试集，其中，所述训练集用于所述预设实例分割神经网络的训练、所述验证集用于所述预设实例分割神经网络的验证和所述测试集用于所述预设神经网络分割模型测试。

可选的，将所述标注数据集输入至预设实例分割神经网络中之前，所述方法还包括：构建初始化检测网络，其中，所述检测网络包括特征提取骨干网络、特征增强网络和检测头，所述特征提取骨干网络用于对样本图片集合中的每张图片的实例进行特征提取得到特征图，所述特征增强网络将所述特征图进行特征图增强并对特征图的尺寸进行标记，将不同尺寸标记的特征图输入到所述检测头得到样本实例边界框的参数；根据所述初始化检测网络、预设特征图处理层以及预设掩码处理构建所述预设实例分割神经网络，其中，所述预设特征图处理层将所述样本实例边界框的参数进行处理，得到样本目标参数，所述预设掩码处理层根据所述样本目标参数对所述样本目标图片进行实例分割。

根据本发明实施例的另一方面，还提供了一种基于神经网络的实例分割装置，包括：

根据本发明实施例的一个方面，提供了一种基于神经网络的实例分割装置，包括：第一获取单元，用于获取视频流中的目标图片；输出单元，用于将所述目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，所述实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，所述检测网络用于获取实例边界框的参数，所述特征图处理层将所述边界框的参数进行处理，得到目标参数，所述掩码处理层根据所述目标参数对所述目标图片进行实例分割；第一确定单元，用于根据所述第一实例集合中的目标实例之间的重叠度确定第一实例集合中所述目标实例的相似实例；第二确定单元，用于确定所述相似实例中大于第一预定阈值的实例，得到所述目标图片中所述目标实例的至少一个实例图片。

可选的，上述装置包括：第二获取单元，用于所述将所述目标图片输入至目标实例分割神经网络中，输出第一实例集合之前，获取视频流中的样本图片集合；得到单元，用于将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集；输入单元，用于将所述标注数据集输入至预设实例分割神经网络中，其中，所述预设神经网络包括预设检测网络、预设特征图处理层、预设掩码处理层以及目标损失函数，所述检测网络用于获取预设样本图片中实例边界框的参数，所述特征图处理层将所述预设样本图片中实例的边界框的参数进行处理，得到预设目标参数，所述掩码处理层根据所述预设目标参数对所述样本目标图片进行实例分割，所述目标损失函数，所述目标损失函数包括二元交叉熵损失函数和交并比损失函数；第三确定单元，用于在所述目标损失函数满足预定条件的情况下，确定为所述实例分割神经网络。

可选的，上述得到单元包括：得到模块，用于采用实例分割标准数据增强技术样本图片集合中的每张图片和标注结果进行数据增强，得到所述目标数据集。

可选的，上述装置还包括：划分单元，用于将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集之后，将所述目标数据集按照预设比例划分为训练集、验证集和测试集，其中，所述训练集用于所述预设实例分割神经网络的训练、所述验证集用于所述预设实例分割神经网络的验证和所述测试集用于所述预设神经网络分割模型测试。

可选的，上述装置还包括：第一构建单元，用于将所述标注数据集输入至预设实例分割神经网络中之前，构建初始化检测网络，其中，所述检测网络包括特征提取骨干网络、特征增强网络和检测头，所述特征提取骨干网络用于对样本图片集合中的每张图片的实例进行特征提取得到特征图，所述特征增强网络将所述特征图进行特征图增强并对特征图的尺寸进行标记，将不同尺寸标记的特征图输入到所述检测头得到样本实例边界框的参数；第二构建单元，用于根据所述初始化检测网络、预设特征图处理层以及预设掩码处理构建所述预设实例分割神经网络，其中，所述预设特征图处理层将所述样本实例边界框的参数进行处理，得到样本目标参数，所述预设掩码处理层根据所述样本目标参数对所述样本目标图片进行实例分割。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述基于神经网络的实例分割方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的基于神经网络的实例分割方法。

在本发明实施例中，通过获取视频流中的目标图片；将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割；根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片，达到了通过具有检测网络、特征图处理层以及掩码处理层的实例分割神经网络对目标图片进行实例分割以及对实例分割结果通过阈值确定目标实例的目的，从而实现了快速且精准的技术效果，进而解决了现有技术中，实例分割计算速度较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的基于神经网络的实例分割方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的基于神经网络的实例分割方法的流程图；

图3是根据本发明实施例的一种可选的实例分割方法；

图4是根据本发明实施例的一种可选的实例分割网络的结构图；

图5是根据本发明实施例的一种可选的掩码处理层的结构图；

图6是根据本发明实施例的一种可选的基于神经网络的实例分割装置的结构示意图；

图7是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种基于神经网络的实例分割方法，可选地，作为一种可选的实施方式，上述基于神经网络的实例分割方法可以但不限于应用于如图1所示的环境中。其中包括终端设备102，网络104以及服务器106。

可选的，上述基于神经网络的实例分割方法可以由终端设备102执行，也可以由服务器106执行，还可以由终端设备102与服务器106共同执行完成。

以服务器106执行上述基于神经网络的实例分割方法为例说明如下。

服务器106获取视频流中的目标图片；将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割；根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片，达到了通过具有检测网络、特征图处理层以及掩码处理层的实例分割神经网络对目标图片进行实例分割以及对实例分割结果通过阈值确定目标实例的目的，从而实现了快速且精准的技术效果，进而解决了现有技术中，实例分割计算速度较低的技术问题。

可选地，在本实施例中，上述终端设备102可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图2所示，上述基于神经网络的实例分割方法包括：

步骤S2020，获取视频流中的目标图片。

步骤S204，将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割。

步骤S206，根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例。

步骤S208，确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片。

可选的，在本实施例中，上述的方案可以包括但不限于应用于人像拍照、视频特效、AR场景、自动驾驶、视频目标跟踪、无人机视频图像处理等场景，在进行目标对象跟踪是需要对视频流中的图片进行实例分割，在进行视频目标跟踪。快速且精确的实例分割是进行下一步的良好基础。

通过本申请提供的实施例，获取视频流中的目标图片；将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割；根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片，达到了通过具有检测网络、特征图处理层以及掩码处理层的实例分割神经网络对目标图片进行实例分割以及对实例分割结果通过阈值确定目标实例的目的，从而实现了快速且精准的技术效果，进而解决了现有技术中，实例分割计算速度较低的技术问题。

可选的，将目标图片输入至目标实例分割神经网络中，输出第一实例集合之前，方法可以包括：获取视频流中的样本图片集合；将样本图片集合中每张图片中的目标对象进行标注，得到目标数据集；将标注数据集输入至预设实例分割神经网络中，其中，预设神经网络包括预设检测网络、预设特征图处理层、预设掩码处理层以及目标损失函数，检测网络用于获取预设样本图片中实例边界框的参数，特征图处理层将预设样本图片中实例的边界框的参数进行处理，得到预设目标参数，掩码处理层根据预设目标参数对样本目标图片进行实例分割，目标损失函数，目标损失函数包括二元交叉熵损失函数和交并比损失函数；在目标损失函数满足预定条件的情况下，确定为实例分割神经网络。

可选的，将样本图片集合中每张图片中的目标对象进行标注，得到目标数据集包括：采用实例分割标准数据增强技术样本图片集合中的每张图片和标注结果进行数据增强，得到目标数据集。

可选的，将样本图片集合中每张图片中的目标对象进行标注，得到目标数据集之后，方法还包括：将目标数据集按照预设比例划分为训练集、验证集和测试集，其中，训练集用于预设实例分割神经网络的训练、验证集用于预设实例分割神经网络的验证和测试集用于预设神经网络分割模型测试。

可选的，将标注数据集输入至预设实例分割神经网络中之前，方法还包括：构建初始化检测网络，其中，检测网络包括特征提取骨干网络、特征增强网络和检测头，特征提取骨干网络用于对样本图片集合中的每张图片的实例进行特征提取得到特征图，特征增强网络将特征图进行特征图增强并对特征图的尺寸进行标记，将不同尺寸标记的特征图输入到检测头得到样本实例边界框的参数；根据初始化检测网络、预设特征图处理层以及预设掩码处理构建预设实例分割神经网络，其中，预设特征图处理层将样本实例边界框的参数进行处理，得到样本目标参数，预设掩码处理层根据样本目标参数对样本目标图片进行实例分割。

作为一种可选的实施例，本申请还提供了一种实例分割方法。如图3所示，实例分割方法的流程图。详细说明如下。

步骤31，待检测视频图像进行初始化和预处理。

视频图像预处理，包括：初始化待检测的视频图像，记为X_V，X_V的维数记为

X_V的数量记为K_V；将待检测视频图像X_V按照标准的实例分割标注方法，对于感兴趣目标进行人工标注，得到标注结果，记为G_V；采用实例分割标准数据增强技术对待检测视频图像X_V和标注结果G_V进行数据增强，得到最终的数据集，记为Ω；初始化数据集Ω中训练集、验证集和测试集图像数量的比例，记为K₁∶K₂∶K₃；将数据集Ω按照K₁∶K₂∶K₃比例随机划分训练集、验证集和测试集，得到的训练集、验证集和测试集分别记为Ω_train，Ω_valid，Ω_test。

其中，标准的实例分割标注方法是指实例分割旨在预测图像中每个实例的位置和语义蒙版，采用开源软件labelme进行标注。

实例分割标准数据增强技术是指标准数据增强技术通过对数据集图像进行翻转、旋转、缩放、平移、增加高斯噪声、对比度变换、颜色变换等操作来扩充数据集。数据增强主要是为了减少网络的过拟合现象，通过对训练图片进行变换可以得到泛化能力更强的网络，更好的适应应用场景。

步骤32，构建和初始化卷积神经检测网络。

按照标准YOLOv4网络构造方法，构造和初始化标准的卷积神经检测网络模型，记为W_D，其中W_D由特征提取骨干网络、特征增强网络和检测头组成，特征提取骨干网络记为W_B，特征增强网络记为W_N,检测头记为W_P；将一个卷积层后面接上批量归一化层和带泄漏修正线性单元(Leaky ReLU)函数，得到的结果记为C_BL。

其中，W_B采用标准的CSPDarknet53网络提取特征；

在特征增强网络W_N中，将W_B的结果并行使用1×1、5×5、9×9、13×13的最大池化方式处理，再将池化后的不同尺度的特征图进行张量拼接操作，得到的结果记为S_PP；将S_PP后接入一个跨级局部连接模块(CSP模块)，并且将其中的残差组件用C_BL替换，得到的结果记为A₅；将A₅连接一个C_BL，并依次经过两次双线性插值上采样，将结果依次记为A₄和A₃；将A₅，A₄，A₃按照标准的特征金字塔和路径增强结构进行构造，并且将路径增强结构中的张量相加替换为张量拼接；将构造标准的特征金字塔和路径增强结构中的四次张量拼接操作后的结果分别接入一个跨级局部连接模块(CSP模块)，并且将其中的残差组件用C_BL替换，并将标准的特征金字塔和路径增强结构中的1×1卷积层利用标准的CoordConv层替换，得到最终的特征增强网络

将特征增强网络

的三个输出，按照特征图尺寸从大到小依次记为P₃，P₄,P₅；

在W_P中，将P₃，P₄,P₅后面通过卷积连接依次接入标准的YOLOv3检测头(定义6)；将YOLOv3检测头中的第一层卷积层利用标准的CoordConv层替换；将YOLOv3检测头中的中心点调整公式增加系数α，即x＝s·(g_x+α·σ(p_x)-(α-1)/2)，y＝s·(g_y+α·σ(p_y)-(α-1)/2其中，x,y是边界框中心坐标，σ是Sigmoid函数，s是尺度因子，σ(p_x)和σ(p_y)是中心坐标偏移量，g_x和g_y表示真实边界框中心坐标；初始化系数α＝1.05，得到最终的检测头

将特征提取骨干网络W_B、特征增强网络

和检测头

通过卷积连接，并且初始化，得到最终的检测模型

其中，标准的CSPDarknet53是在Yolov3主干网络Darknet53的基础上，借鉴2019年CSPNet的经验，产生的Backbone结构，其中，包含了5个CSP模块(跨级局部连接模块)；YOLOv4相对于YOLOv3在准确率上提升了近10个点，然而速度几乎没有下降，YOLOv4是一种速度更快、精度更好的检测模型，仅需要单张1080Ti或2080Ti即可完成训练。

标准的特征金字塔和路径增强结构基于特征金字塔框架，增强了信息传播，其添加了自底向上的增强路径，从而改善了低层特征的传播。新增的第三路径的每个阶段都将前一阶段的特征图作为输入，并用3×3卷积层处理它们。使用横向连接将卷积的输出添加到自顶向下路径的相同阶段特征图中，然后把这些特征图送到下一阶段。

标准的CoordConv层是深度学***移等变性的，这样可以在图像的不同位置共享统一的卷积核参数，但是这样卷积学习过程中是不能感知当前特征在图像中的坐标的。CoordConv就是通过在卷积的输入特征图中新增对应的通道来表征特征图像素点的坐标，让卷积学习过程中能够一定程度感知坐标来提升检测精度，从而在几乎不增加计算量的情况下优化特征提取。

其中，标准的YOLOv3检测头，YOLOv3网络由特征提取网络Darknet53和YOLOv3检测头组成，YOLOv3检测头通过3个不同尺度的特征图来进行目标检测，能够检测到更加细粒度的特征，有利于小目标的检测。

步骤33，构建和初始化实例分割网络。

在步骤32中得到的卷积神经检测网络模型

中，加入特征图预处理层W_Pre和掩码分支W_M，得到最终的实例分割模型，记为W_IS，如图4所示，实例分割网络的结构图。

在特征图预处理层W_Pre中，根据

的检测结果，采用公式s_area＝w*h计算每个目标的矩形框面积s_area,其中w和h分别为检测目标的宽和高；然后根据如下规则将得到的检测结果当作掩码提案分配到相应的特征增强网络

中：

时，分配到P₃处理；

时，分配到P₄处理；

时，分配到P₅处理；

掩码分支根据上述的分配结果，在特征增强网络

中取出对应的特征图进行实例分割；首先将取出的特征图进行感兴趣区域对齐(RoIAlign)操作，然后经过n_c个卷积核大小为3×3的卷积层、n_d个卷积核大小为2×2的反卷积层和

个卷积核大小为1×1的卷积层的操作，得到分割结果，记为R₁，每个卷积层的通道维度是C_D，接着增加一个短接路径，即将经过n_c-1个卷积核大小为3×3的卷积层的结果通过一个卷积核大小为3×3的卷积层处理后，利用一个卷积核大小为1×1的卷积层将通道维度降为C_D/2，通入一个全连接层，操作后变为一个向量，将所得的向量通过矩阵变维使其空间大小跟R₁保持一致，最终得到的结果记为R₂；将R₁和R₂相加，得到最终的掩码结果，记为R_mask；将检测模型

特征图预处理层W_Pre和掩码分支W_M按照结构图直接连接并初始化，得到最终的实例分割模型W_IS；如图5所示，掩码处理层的结构图。

步骤34，训练和调整实例分割网络。

初始化图像处理批量大小和迷你批量大小，分别记为BS和mini-BS；初始化学***均技术；即W_EMA＝λ*W_EMA+(1-λ)*W_EMA,初始化参数λ＝0.998，最终得到新的网络参数，记为W_new；将训练网络W_IS得到的最终模型和参数记为

其中，标准的实例分割网络训练技术中采用DropBlock算法减少过拟合，相比于Dropout算法，DropBlock算法在Drop特征的时候不是以特征点的形式来Drop的，而是会集中Drop某一块区域，从而更适合被应用到实例分割任务中来提高网络的泛化能力；标准的实例分割网络训练技术中采用Mosaic数据增强，它将4张图片利用随机缩放、随机裁剪、随机排布的方式进行拼接为一张图，以此来提升小、中目标的性能；另外，如果在一次迭代中，小物体的损失函数低于某一个阈值，则下一个迭代就利用拼接图，否则采用正常图像训练；标准的实例分割网络训练技术中也会对图片进行自适应缩放；标准的实例分割网络训练技术中还采用CmBN、SAT自对抗训练等技术来训练网络。

标准的CIoU损失函数，DIoU要比GIou更加符合目标框回归的机制，将目标与anchor之间的距离，重叠率以及尺度都考虑进去，使得目标框回归变得更加稳定，CIoU在DIoU的基础上考虑到了边界框回归三要素中的长宽比，使得结果更加精确。

标准的指数滑动平均技术指数滑动平均技术是指将参数过去一段时间的均值作为新的参数；相比直接对参数进行更新，采用指数滑动平均的方式能让参数学***缓，能有效避免异常值对参数更新的影响，提升模型训练的收敛效果。

步骤35、对待检测视频流进行实时实例分割。

将摄像头实时采集的视频流初始化为待检测视频流，记为V；采用多线程技术对于视频流V按照FFmpeg标准解码，解码的结果记为

将

通入到步骤34得到的视频图像实例分割模型

中，得到输出结果R_result；将R_result利用标准的Matrix NMS抑制重叠部分，得到结果

即为最终的视频流实例分割结果。

其中，标准的Matrix NMS通过一个矩阵并行运算的方式计算出任意两个框之间的交并比IoU，例如，对某一个预测框B计算抑制系数时，Matrix NMS通过矩阵并行方式计算出所有得分高于B的预测框与预测框B的IoU，然后根据这些IOU和得分高于B的预测框的被抑制概率做近似估算，估算出B的抑制系数，从而实现并行化的计算Soft NMS，在提高检测精度的同时，避免了推理速度的降低。

通过本实施例，将摄像头实时采集的视频流初始化为待检测视频流，记为V；采用多线程技术对于视频流V按照FFmpeg标准解码，解码的结果记为

将

通入到步骤34得到的视频图像实例分割模型

即为最终的视频流实例分割结果。进而可以快速且精确的实现实例分割。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述基于神经网络的实例分割方法的基于神经网络的实例分割装置。如图所示，6该基于神经网络的实例分割装置包括：第一获取单元61、输出单元63、第一确定单元65以及第二确定单元67。

第一获取单元61，用于获取视频流中的目标图片。

输出单元63，用于将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割。

第一确定单元65，用于根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例。

第二确定单元67，用于确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片。

通过本申请提供的实施例，第一获取单元61获取视频流中的目标图片；输出单元63将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割；第一确定单元65根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；第二确定单元67确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片。达到了通过具有检测网络、特征图处理层以及掩码处理层的实例分割神经网络对目标图片进行实例分割以及对实例分割结果通过阈值确定目标实例的目的，从而实现了快速且精准的技术效果，进而解决了现有技术中，实例分割计算速度较低的技术问题。

作为一种可选的实施例，上述装置可以包括：

第二获取单元，用于将目标图片输入至目标实例分割神经网络中，输出第一实例集合之前，获取视频流中的样本图片集合；

得到单元，用于将样本图片集合中每张图片中的目标对象进行标注，得到目标数据集；

输入单元，用于将标注数据集输入至预设实例分割神经网络中，其中，预设神经网络包括预设检测网络、预设特征图处理层、预设掩码处理层以及目标损失函数，检测网络用于获取预设样本图片中实例边界框的参数，特征图处理层将预设样本图片中实例的边界框的参数进行处理，得到预设目标参数，掩码处理层根据预设目标参数对样本目标图片进行实例分割，目标损失函数，目标损失函数包括二元交叉熵损失函数和交并比损失函数；

第三确定单元，用于在目标损失函数满足预定条件的情况下，确定为实例分割神经网络。

作为一种可选的实施例，上述得到单元可以包括：

得到模块，用于采用实例分割标准数据增强技术样本图片集合中的每张图片和标注结果进行数据增强，得到目标数据集。

作为一种可选的实施例，上述装置可以包括：

划分单元，用于将样本图片集合中每张图片中的目标对象进行标注，得到目标数据集之后，将目标数据集按照预设比例分为划分训练集、验证集和测试集，其中，训练集用于预设实例分割神经网络的训练、验证集用于预设实例分割神经网络的验证和测试集用于预设神经网络分割模型测试。

作为一种可选的实施例，上述装置可以包括：

第一构建单元，用于将标注数据集输入至预设实例分割神经网络中之前，构建初始化检测网络，其中，检测网络包括特征提取骨干网络、特征增强网络和检测头，特征提取骨干网络用于对样本图片集合中的每张图片的实例进行特征提取得到特征图，特征增强网络将特征图进行特征图增强并对特征图的尺寸进行标记，将不同尺寸标记的特征图输入到检测头得到样本实例边界框的参数；

第二构建单元，用于根据初始化检测网络、预设特征图处理层以及预设掩码处理构建预设实例分割神经网络，其中，预设特征图处理层将样本实例边界框的参数进行处理，得到样本目标参数，预设掩码处理层根据样本目标参数对样本目标图片进行实例分割。

根据本发明实施例的又一个方面，还提供了一种用于实施上述基于神经网络的实例分割方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器例来说明。如图7所示，该电子设备包括存储器702和处理器704，该存储器702中存储有计算机程序，该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取视频流中的目标图片；

S2，将目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，检测网络用于获取实例边界框的参数，特征图处理层将边界框的参数进行处理，得到目标参数，掩码处理层根据目标参数对目标图片进行实例分割；

S3，根据第一实例集合中的目标实例之间的重叠度确定第一实例集合中目标实例的相似实例；

S4，确定相似实例中大于第一预定阈值的实例，得到目标图片中目标实例的至少一个实例图片。

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图7中所示更多或者更少的组件(如网络接口等)，或者具有与图7所示不同的配置。

其中，存储器702可用于存储软件程序以及模块，如本发明实施例中的基于神经网络的实例分割方法和装置对应的程序指令/模块，处理器704通过运行存储在存储器702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的基于神经网络的实例分割方法。存储器702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器702可进一步包括相对于处理器704远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器702具体可以但不限于用于存储目标图片、目标图片实例分割的结果等信息。作为一种示例，如图7所示，上述存储器702中可以但不限于包括上述基于神经网络的实例分割装置中的第一获取单元61、输出单元63、第一确定单元65以及第二确定单元67。此外，还可以包括但不限于上述基于神经网络的实例分割装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置706包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置706为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器708，用于显示上述待实例分割的图片以及实例分割的结果；和连接总线710，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式***中的一个节点，其中，该分布式***可以为区块链***，该区块链***可以是由该多个节点通过网络通信的形式连接形成的分布式***。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链***中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述基于神经网络的实例分割的方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取视频流中的目标图片；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于神经网络的实例分割方法，其特征在于，包括：

获取视频流中的目标图片；

将所述目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，所述实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，所述检测网络用于获取实例边界框的参数，所述特征图处理层将所述边界框的参数进行处理，得到目标参数，所述掩码处理层根据所述目标参数对所述目标图片进行实例分割；

根据所述第一实例集合中的目标实例之间的重叠度确定第一实例集合中所述目标实例的相似实例；

确定所述相似实例中大于第一预定阈值的实例，得到所述目标图片中所述目标实例的至少一个实例图片。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标图片输入至目标实例分割神经网络中，输出第一实例集合之前，所述方法包括：

获取视频流中的样本图片集合；

将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集；

将所述标注数据集输入至预设实例分割神经网络中，其中，所述预设神经网络包括预设检测网络、预设特征图处理层、预设掩码处理层以及目标损失函数，所述检测网络用于获取预设样本图片中实例边界框的参数，所述特征图处理层将所述预设样本图片中实例的边界框的参数进行处理，得到预设目标参数，所述掩码处理层根据所述预设目标参数对所述样本目标图片进行实例分割，所述目标损失函数，所述目标损失函数包括二元交叉熵损失函数和交并比损失函数；

在所述目标损失函数满足预定条件的情况下，确定为所述实例分割神经网络。

3.根据权利要求2所述的方法，其特征在于，将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集包括：

采用实例分割标准数据增强技术将样本图片集合中的每张图片和标注结果进行数据增强，得到所述目标数据集。

4.根据权利要求2所述的方法，其特征在于，将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集之后，所述方法还包括：

将所述目标数据集按照预设比例划分为训练集、验证集和测试集，其中，所述训练集用于所述预设实例分割神经网络的训练、所述验证集用于所述预设实例分割神经网络的验证和所述测试集用于所述预设神经网络分割模型测试。

5.根据权利要求2所述的方法，其特征在于，将所述标注数据集输入至预设实例分割神经网络中之前，所述方法还包括：

构建初始化检测网络，其中，所述检测网络包括特征提取骨干网络、特征增强网络和检测头，所述特征提取骨干网络用于对样本图片集合中的每张图片的实例进行特征提取得到特征图，所述特征增强网络将所述特征图进行特征图增强并对特征图的尺寸进行标记，将不同尺寸标记的特征图输入到所述检测头得到样本实例边界框的参数；

根据所述初始化检测网络、预设特征图处理层以及预设掩码处理构建所述预设实例分割神经网络，其中，所述预设特征图处理层将所述样本实例边界框的参数进行处理，得到样本目标参数，所述预设掩码处理层根据所述样本目标参数对所述样本目标图片进行实例分割。

6.一种基于神经网络的实例分割装置，其特征在于，包括：

第一获取单元，用于获取视频流中的目标图片；

输出单元，用于将所述目标图片输入至目标实例分割神经网络中，输出第一实例集合，其中，所述实例分割神经网络包括：检测网络、特征图处理层以及掩码处理层，所述检测网络用于获取实例边界框的参数，所述特征图处理层将所述边界框的参数进行处理，得到目标参数，所述掩码处理层根据所述目标参数对所述目标图片进行实例分割；

第一确定单元，用于根据所述第一实例集合中的目标实例之间的重叠度确定第一实例集合中所述目标实例的相似实例；

第二确定单元，用于确定所述相似实例中大于第一预定阈值的实例，得到所述目标图片中所述目标实例的至少一个实例图片。

7.根据权利要求6所述的装置，其特征在于，所述装置包括：

第二获取单元，用于所述将所述目标图片输入至目标实例分割神经网络中，输出第一实例集合之前，获取视频流中的样本图片集合；

得到单元，用于将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集；

输入单元，用于将所述标注数据集输入至预设实例分割神经网络中，其中，所述预设神经网络包括预设检测网络、预设特征图处理层、预设掩码处理层以及目标损失函数，所述检测网络用于获取预设样本图片中实例边界框的参数，所述特征图处理层将所述预设样本图片中实例的边界框的参数进行处理，得到预设目标参数，所述掩码处理层根据所述预设目标参数对所述样本目标图片进行实例分割，所述目标损失函数，所述目标损失函数包括二元交叉熵损失函数和交并比损失函数；

第三确定单元，用于在所述目标损失函数满足预定条件的情况下，确定为所述实例分割神经网络。

8.根据权利要求7所述的装置，其特征在于，所述得到单元包括：

得到模块，用于采用实例分割标准数据增强技术样本图片集合中的每张图片和标注结果进行数据增强，得到所述目标数据集。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

划分单元，用于将所述样本图片集合中每张图片中的目标对象进行标注，得到目标数据集之后，将所述目标数据集按照预设比例划分为训练集、验证集和测试集，其中，所述训练集用于所述预设实例分割神经网络的训练、所述验证集用于所述预设实例分割神经网络的验证和所述测试集用于所述预设神经网络分割模型测试。

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第一构建单元，用于将所述标注数据集输入至预设实例分割神经网络中之前，构建初始化检测网络，其中，所述检测网络包括特征提取骨干网络、特征增强网络和检测头，所述特征提取骨干网络用于对样本图片集合中的每张图片的实例进行特征提取得到特征图，所述特征增强网络将所述特征图进行特征图增强并对特征图的尺寸进行标记，将不同尺寸标记的特征图输入到所述检测头得到样本实例边界框的参数；

第二构建单元，用于根据所述初始化检测网络、预设特征图处理层以及预设掩码处理构建所述预设实例分割神经网络，其中，所述预设特征图处理层将所述样本实例边界框的参数进行处理，得到样本目标参数，所述预设掩码处理层根据所述样本目标参数对所述样本目标图片进行实例分割。

11.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至5任一项中所述的方法。