CN114066964B

CN114066964B - 一种基于深度学习的水产实时尺寸检测方法

Info

Publication number: CN114066964B
Application number: CN202111360650.3A
Authority: CN
Inventors: 潘丰; 孙小龙
Original assignee: Jiangnan University
Current assignee: Hefei Minglong Electronic Technology Co ltd
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2024-04-05
Anticipated expiration: 2041-11-17
Also published as: CN114066964A

Abstract

本发明公开了一种基于深度学习的水产实时尺寸检测方法，涉及图像处理领域。其步骤包括：获取真实场景下的水产图像，建立数据集，并对这些数据进行分类标注和分割标注；通过分层抽样的方法将水产数据集划分为训练集、验证集和测试集；进行图像预处理及数据增强；构建水产实时分割分类模型；设计模型评价指标进行模型选择；设计模型损失函数作为模型训练时优化的目标函数；使用训练集和验证集进行模型训练；通过相机内外参数将图像坐标系转换为世界坐标系，获得目标的物理世界真实尺寸；模型加速推理，提高模型推理速度。本方法的检测精度高，推理速度快，泛化性强，能够精确的获取目标的尺寸大小。

Description

一种基于深度学习的水产实时尺寸检测方法

技术领域

本发明涉及图像处理领域，具体涉及一种基于深度学习的水产实时尺寸检测方法。

背景技术

水产品的等级分选在水产品的出售中占有着重要地位，能够直接影响着水产品的销售价格，按照规格大小分级进行出售能够明显提高售价，带来更高利润。传统的分级方法为人工分级，即依赖人工的眼睛看，手工称重的方法进行分级，这种分级方式的缺点明显，分级速度慢、精度低，同时耗费大量的人力，不利于生产的自动化。称重分级设备出现，很大程度上提升了水产分级的精度和效率，但是这种分级方法的决定要素只有重量，当水产表面附着冰水混合物时会对分级的精度造成一定的影响。同时具有称重和视觉检测功能的新一代分级设备具有更好的精度，然而在视觉尺寸检测部分，仍然存在着许多不足，如精度低，速度慢，泛化性差等缺点，而良好的尺寸检测算法有利于水产的等级分选。鉴于上述情况，需要一种新的尺寸检测算法来解决上述问题。

发明内容

本发明针对上述问题，提供一种基于深度学习的水产实时尺寸检测方法，在编码模块采用并行双分支结构，增强网络的深度语义特征表示能力和空间细节特征表示能力；使用通道分离混洗模块和深度分离卷积减少模型的参数量，提升网络的推理速度；最后通过多尺度融合，充分提取上下文多尺度信息。本方法的检测精度高，推理速度快，泛化性强，能够精确的获取目标的尺寸大小。

一种基于深度学习的水产实时尺寸检测方法，其步骤包括：

步骤1：获取大量真实场景下的水产图像，建立数据集，并且对这些数据进行标注，标注内容包括分类标注和分割标注。通过分层抽样的方法将水产数据集划分为训练集、验证集和测试集；

步骤2：图像预处理及数据增强；

步骤3：构建水产实时分割分类模型，分割分类模型由特征提取模块、分割解码模块和分类解码模块构成；

步骤4：设计分割分类模型的评价指标，根据该指标进行模型选择；

步骤5：设计分割分类模型的损失函数，并以该损失函数作为分割分类模型训练时优化的目标函数；

步骤6：使用训练集和验证集进行分割分类模型训练；

步骤7：得到最后的训练好的分割分类模型，再用测试集对分割分类模型进行测试，最终确定需要的分割分类模型；

步骤8：由于分割分类模型分割部分得到的输出是一个二值图像，基于的坐标系是像素平面坐标系，为了得到目标的在现实中真实尺寸大小，通过相机内外参数将像素平面坐标系转换为世界坐标系，获得目标的物理世界真实尺寸；

步骤9：模型加速推理，提高模型推理速度；

进一步，在步骤2中，对输入图像的预处理操作为归一化和标准化，归一化将图像归一化到[0，1]区间内，标准化通过计算数据集的均值和方差，对所有像素点进行标准化操作，预处理能够加速模型收敛，提升模型精度。数据增强操作包括：第一，随机缩放裁剪，具体来说，先利用随机数生成函数随机生成一个0.5-1.5之间实数f，再将图像缩放到原来的f倍，最后再随机裁剪出一个640×480的图像用于训练；第二，为了增加数据的多样性，对图像采用随机左右翻转、随机亮度对比度变化和随机旋转一定角度的方法。

进一步，在步骤3中，在特征提取模块中，为了解决多尺度下的目标分割问题，获得图像的多尺度信息，使用并行双分支结构，同时使用两种不同分辨率的分支进行特征提取，保留图像的高层空间细节和低层语义特征，有利于恢复图像的空间细节，为了更进一步的进行不同尺度信息之间的交互，并行分支之间通过上采样和下采样操作进行了两次特征交互融合。特征提取模块由两种基础模块组成：

残差模块：由三条分支构成，第一条分支为SE(Sequeeze-Excitation)模块，SE模块能够解决卷积过程中特征层的不同通道所占的重要性不同带来的损失问题，这里使用的是SE模块的一种变体，首先对输入的每个通道进行全局平均池化操作，然后使用一个具有非线性的全连接层，最后使用一个Sigmoid激活函数生成通道权值，相比于原始的SE模块，具有更少的参数量和更优的效果。第二条分支为主分支，模块的输入首先经过一个通道分离操作，将原始输入按照通道数分为两组，这样将卷积运算限制在每个组内，能够显著的降低计算模型的计算量，同时，因为基础模块的输出通道数是输入通道数的两倍，当输入通道数和输出通道数的值接近1:1时，能减少内存访问成本，所以这里的通道分离操作既能够减少计算量，又能够降低内存访问成本。当输入经过通道分离操作分成两组后，其中一组输入到一个3×3的深度卷积，另一组输入到一个3×3的普通卷积，同时在每一个卷积后面都加上批归一化层和ReLU激活函数，深度卷积能够降低参数量，但缺少通道间的信息交互，普通卷积参数量较大，通道间有着信息交流，两者组合在一起，在参数量和信息交互中做了平衡，然后将两组输出按照通道顺序上连接在一起。第三条分支为跳跃连接，在这里可以解决网络层数较深的情况下梯度消失的问题，同时有助于梯度的反向传播，加快训练过程。最后，将三个分支的输出叠加起来。由于通道分离操作使得卷积运算限制在每个组内，这样模型的计算量取得了显著的下降，然而导致模型的信息流限制在各个组内，组与组之间没有信息交换，这会影响模型的表示能力。因此，需要引入组间信息交换的机制，即通道混洗操作。同时通道混洗操作是可导的，可以实现端到端一次性训练网络。

下采样模块：当特征图的大小变为原来的1/2时，都会串联一个下采样模块，下采样模块由两个部分组成，分别是最大池化层和步长为2的3×3卷积层，并将它们的输出叠加后串联批归一化层和Relu激活函数。

进一步，在步骤3中，在分割解码模块中，为了获得更好的表征能力，进行了多尺度融合的操作，具体而言，对32倍下采样的特征图进行上采样操作，变换为尺度与8倍下采样的特征图相同的尺度，并添加3×3卷积、批归一化和Relu激活函数，与8倍下采样的特征图进行通道方向的连接，进行同样的操作变换到4倍下采样的特征图，就完成了多尺度融合的操作。最后再添加3×3卷积和上采样的分割头部，就得到了与原图大小一致的特征图。

进一步，在步骤3中，分类解码模块由全局平均池化层构成，在编码层的并行结构的高分辨率分支后，连接一个1×1卷积层、批归一化层和Relu激活函数，再连接一个最大池化层，得到最后的分类输出。

进一步，在步骤4中，所述设计模型的评价指标，具体为：

在分割解码模块的输出中，采用平均交并比(mean Intersection over Union，mIoU)作为分割精度评价指标，其定义如下。

其中，p_ij表示真实值为i、被预测为j的数量，p_ii表示真实值为i、预测值为i的数量，p_ji表示真实值为j、预测值为i的数量。k+1是类别个数，包含背景类，当mIoU接近1时候，预测值越逼近真实值。

在分类解码模块的输出中，分类效果评价指标为F1 score，其定义如下：

其中，TP(true positive)为真阳性，FP(false positive)表示假阳性，FN(falsenegative)表示假阴性。

推理速度评价指标为FPS，定义如下：

其中Time为单张图片的推理时间。

进一步，在步骤5中，所述的损失函数具体为：

由于所述模型为多任务模型，共有分割和分类两个输出，故算法训练的损失函数需要同时考虑分割和分类，总的损失函数定义如下：

L_total＝βL_clas+L_seg

其中L_clas为分类输出的损失函数，L_seg为分割部分的损失函数，β为分类损失和分割损失在总损失函数中的权重参数，这里取0.7。

分割部分的输出是基于像素点的二分类，由于最终需要的结果是需要分割出目标的区域，而Dice损失函数正是基于区域的损失函数，这与真实目标最大化IoU度量相近，而且Dice能够优化样本不均衡问题，所以选择Dice损失函数作为分割部分的损失函数，其定义如下：

其中，q代表真实值，p代表网络的预测值，v代表每个图像块的体素点的个数。

分类部分的损失函数使用的是交叉熵损失，其公式定义如下：

其中，n_i为样本标签，m_i为预测输出。

进一步，在步骤6中，使用训练集和验证集进行训练，利用深度学***稳，同时保持模型深层的稳定性，使用warm-up学习率策略进行模型的训练。训练完成后，查看验证集上的多任务分割分类模型的性能，若训练的模型的评价指标不能满足需求，则调整模型超参数，继续训练，直到满足要求。

进一步，在步骤8中，由于模型分割部分得到的输出是一个二值图像，基于的坐标系是像素平面坐标系，为了得到目标的在现实中真实尺寸大小，模型分割结果需要通过相机的内参矩阵和外参矩阵映射到实际工作的世界坐标系，图像坐标到世界坐标的转换公式如下：

其中，(u,v)为像素平面坐标系上点的坐标，(X_c,Y_c,Z_c)为世界坐标系的坐标，f_x,f_y表示感光芯片上像素的实际大小，是连接像素坐标系和真实尺寸坐标系的，u₀,v₀是图像平面中心，R和T为相机外参，由张正友标定法获得，0^T为(0,0,0)。

进一步，在步骤9中，为了达到工业应用中实时性的要求，需要对模型进行裁剪量化等操作，提高模型推理速度，具体的，利用OpenVINO工具进行模型量化、计算合并，提高卷积网络的运行性能，同时推理时使用异步推理操作，并行计算，提高运行速度。

附图说明

附图1为一种基于深度学习的水产实时尺寸检测的流程图。

附图2为多任务分割分类模型结构图。

附图3为残差模块结构图。

附图4为下采样模块结构图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

数据集来自公司生产现场采集的真实数据，共有900张由工业相机采集的现场图像，尺寸为640×480，包含三类贝类海产品：生蚝、鲍鱼和海螺，每类有300张图像。训练集、测试集随机划分为8：2，即训练集含有720张图像，测试集有180张图像。

参照附图1，本发明一实施例的基于深度学习的水产实时尺寸检测方法包括以下步骤：

步骤1：获取大量真实场景下的水产图像，建立数据集，并且对这些数据进行标注，标注内容包括分类标注和分割标注。通过分层抽样的方法，按照7:2:1的比例将水产数据集划分为训练集、验证集和测试集；

步骤2：对输入图像进行归一化和标准化，归一化将图像归一化到[0，1]区间内，标准化操作通过计算数据集的均值和方差，对所有像素点进行标准化操作，预处理能够加速模型收敛，提升模型精度。然后对输入图像进行数据增强操作，数据增强操作包括：第一，随机缩放裁剪，具体来说，在训练时的每一个批次，都利用随机数生成函数随机生成一个0.5-1.5之间实数f，再将图像缩放到原来的f倍，最后再随机裁剪出一个640×480的图像用于训练；第二，为了增加数据的多样性，对图像采用了随机左右翻转、随机亮度对比度变化和随机旋转一定角度的方法，随机左右翻转的概率为0.5，随机亮度对比度变化的概率为0.5，变化范围为[0.8,1.2]，随机旋转一定角度的概率为0.8，旋转角度的范围为[-30°,30°]；

步骤3：构建水产实时多任务分割分类模型，模型结构如附图2所示，该模型由特征提取模块、分割解码模块和分类解码模块构成。特征提取模块中，为了解决多尺度下的目标分割问题，获得图像的多尺度信息，使用并行双分支结构，同时使用两种不同分辨率的分支进行特征提取，保留图像的高层空间细节和低层语义特征，有利于恢复图像的空间细节和为了更进一步的进行不同尺度信息之间的交互，并行分支之间通过上采样和下采样操作进行了两次特征交互融合。特征提取模块由残差模块和下采样模块构成，残差模块结构如附图3所示，由三条分支构成，下采样模块如附图4所示，由卷积层和最大池化层构成；

步骤4：设计模型评价指标，在分割解码模块的输出中，采用平均交并比作为分割精度评价指标，在分类解码模块的输出中，分类效果评价指标为F1 score，推理速度评价指标为FPS；

步骤5：设计模型损失函数，由于所述模型共有分割和分类两个输出，故算法训练的损失函数需要同时考虑分割和分类，即由Dice损失函数L_seg和交叉熵损失L_clas组成，分割分类模型总的损失函数为L_total，其形式为：L_total＝βL_clas+L_seg，β为分类损失和分割损失在总损失函数中的权重参数，这里取0.7；

步骤6：使用训练集和验证集进行训练，利用深度学***稳，同时保持模型深层的稳定性，使用warm-up学习率策略进行模型的训练。训练完成后，查看验证集上的多任务分割分类模型的性能，若训练的模型的评价指标不能满足需求，则调整模型超参数，继续训练，直到满足要求；

步骤7：得到最后的训练好的模型，再用测试集对模型进行测试，最终确定需要的模型；

步骤8：由于模型分割部分得到的输出是一个二值图像，基于的坐标系是像素平面坐标系，为了得到目标的在现实中真实尺寸大小，模型分割结果需要通过相机的内参矩阵和外参矩阵映射到实际工作的世界坐标系，获得目标的真实尺寸；

步骤9：为了达到工业应用中实时性的要求，需要对模型进行裁剪量化等操作，提高模型推理速度，具体的，利用OpenVINO工具进行模型量化、计算合并，提高卷积网络的运行性能，同时推理时使用异步推理操作，并行计算，提高运行速度。

实施例：

采用本发明提出的基于深度学***均交并比上别达到96.693％，F1 score值达到了99.872％，在GPU上的运行速度达到了108FPS，经过OpenVINO加速后的模型，在CPU上的运行速度达到了21FPS。

本发明在模型的编码模块中采用并行双分支结构，增强网络的深度语义特征表示能力和空间细节特征表示能力；使用通道分离混洗模块和深度分离卷积减少模型的参数量，提升网络的推理速度；最后通过多尺度融合，充分提取上下文多尺度信息。本方法的检测精度高，推理速度快，泛化性强，能够精确的获取目标的尺寸大小，满足生产实际的工艺需求。

尽管已经给出了本发明的实施例，但本领域的普通技术人员可以理解上述的实施例不能视为对本发明的限制，在实际应用中，可以在不偏离本发明的精神和范围的情况下对上述实施例进行形式和细节上的各种改变。

Claims

1.一种基于深度学习的水产实时尺寸检测方法，其特征在于，包括以下步骤：

步骤1：获取真实场景下的水产图像，建立数据集，并且对这些数据进行标注，标注内容包括分类标注和分割标注；通过分层抽样的方法将水产数据集划分为训练集、验证集和测试集；

步骤2：图像预处理及数据增强；

步骤4：设计分割分类模型的评价指标，在分割解码模块的输出中，采用平均交并比作为分割精度评价指标，在分类解码模块的输出中，分类效果评价指标为F1 score，推理速度评价指标为FPS；

步骤5：设计分割分类模型的损失函数，并以该损失函数作为分割分类模型训练时优化的目标函数；分割分类模型共有分割和分类两个输出，故训练的损失函数需要同时考虑分割和分类，使用Dice函数作为分割输出的损失函数L_seg，使用交叉熵损失函数作为分类输出的损失函数L_clas，分割分类模型总的损失函数为L_total，其形式为：L_total＝βL_clas+L_seg，β为分类损失和分割损失在总损失函数中的权重参数；

步骤6：使用训练集和验证集进行分割分类模型训练；

步骤8：将分割分类模型分割结果通过相机的内参矩阵和外参矩阵从像素平面坐标系映射到实际工作的世界坐标系，获得目标的物理世界真实尺寸；

步骤9：利用OpenVINO工具进行分割分类模型量化、计算合并，提高卷积网络的运行性能，同时推理时使用异步推理操作，并行计算，提高运行速度。

2.根据权利要求1所述的一种基于深度学习的水产实时尺寸检测方法，其特征在于，在所述步骤2中，对输入图像的预处理操作为归一化和标准化，归一化是将图像像素值归一化到区间[0，1]，标准化是通过计算数据集的均值和方差，对所有像素点进行标准化操作；

数据增强操作包括：第一，随机缩放裁剪，具体来说，先利用随机数生成函数随机生成一个0.5-1.5之间实数f，再将图像缩放到原来的f倍，最后再随机裁剪出一个640×480的图像用于训练；第二，对图像采用了随机左右翻转、随机亮度对比度变化和随机旋转一定角度的方法。

3.根据权利要求1所述的一种基于深度学习的水产实时尺寸检测方法，其特征在于，在所述步骤3中，在特征提取模块中，使用并行双分支结构，同时使用两种不同分辨率的分支进行特征提取，保留图像的高层空间细节和低层语义特征，并行分支之间通过上采样和下采样操作进行了两次特征交互融合，特征提取模块由两种基础模块组成：

残差模块：由三条分支构成，第一条分支为SE模块，SE模块能够解决卷积过程中特征层的不同通道所占的重要性不同带来的损失问题，这里使用的是SE模块的一种变体，首先对输入的每个通道进行全局平均池化操作，然后使用一个具有非线性的全连接层，最后使用一个Sigmoid激活函数生成通道权值；第二条分支为主分支，模块的输入首先经过一个通道分离操作，将原始输入按照通道数分为两组，这样将卷积运算限制在每个组内，能够降低计算模型的计算量，同时，因为基础模块的输出通道数是输入通道数的两倍，当输入通道数和输出通道数的值接近1:1时，能减少内存访问成本；当输入经过通道分离操作分成两组后，其中一组输入到一个3×3的深度卷积，另一组输入到一个3×3的普通卷积，同时在每一个卷积后面都加上批归一化层和ReLU激活函数，深度卷积能够降低参数量，但缺少通道间的信息交互，普通卷积参数量较大，通道间有着信息交流，两者组合在一起，在参数量和信息交互中做了平衡，然后将两组输出按照通道顺序上连接在一起；第三条分支为跳跃连接，用于解决网络层数较深的情况下梯度消失的问题，同时有助于梯度的反向传播，加快训练过程；最后，将三个分支的输出叠加起来，并引入组间信息交换的机制，即通道混洗操作，同时通道混洗操作是可导的，可以实现端到端一次性训练网络；

下采样模块：当特征图的大小变为原来的1/2时，都会串联一个下采样模块，下采样模块由两个部分组成，分别是最大池化层和步长为2的3×3卷积层，并将最大池化层和卷积层的输出叠加后串联批归一化和Relu激活函数。

4.根据权利要求1所述的一种基于深度学习的水产实时尺寸检测方法，其特征在于，在所述步骤3中，在分割解码模块中，进行多尺度融合的操作，具体而言，对32倍下采样的特征图进行上采样操作，变换为尺度与8倍下采样的特征图相同的尺度，并添加3×3卷积、批归一化和Relu激活函数，与8倍下采样的特征图进行通道方向的连接，进行同样的操作变换到4倍下采样的特征图，就完成了多尺度融合的操作，最后再添加3×3卷积和上采样的分割头部，就得到了与原图大小一致的特征图。

5.根据权利要求1所述的一种基于深度学***均池化层构成，在编码层的并行结构的高分辨率分支后，连接一个1×1卷积层、批归一化层和Relu激活函数，再连接一个最大池化层，得到最后的分类输出。

6.根据权利要求1所述的一种基于深度学***均交并比作为分割精度评价指标，定义如下：

其中，p_ij表示真实值为i、被预测为j的数量，p_ii表示真实值为i、预测值为i的数量，p_ji表示真实值为j、预测值为i的数量；k+1是类别个数，包含背景类，当mIoU接近1时候，预测值越逼近真实值；

分类效果评价指标为F1 score，定义如下：

其中，TP为真阳性，FP表示假阳性，FN表示假阴性；

推理速度评价指标为FPS，定义如下：

其中Time为单张图片的推理时间。

7.根据权利要求1所述的一种基于深度学习的水产实时尺寸检测方法，其特征在于，在所述步骤5中，分割部分的损失函数定义如下：

其中，q_i代表真实值，p_i代表网络的预测值，v代表每个图像块的体素点的个数；

分类部分的损失函数定义如下：

其中，n_i为样本标签，m_i为预测输出。

8.根据权利要求1所述的一种基于深度学***稳，同时保持分割分类模型深层的稳定性，使用warm-up学习率策略进行分割分类模型的训练；训练完成后，查看验证集上的多任务的分割分类模型的性能，若训练的分割分类模型的评价指标不能满足需求，则调整分割分类模型超参数，继续训练，直到满足要求。

9.根据权利要求1所述的一种基于深度学习的水产实时尺寸检测方法，其特征在于，在所述步骤8中，图像坐标到世界坐标的转换公式如下：