CN117853891A - 一种可集成于水下机器人平台的水下垃圾目标识别方法 - Google Patents

一种可集成于水下机器人平台的水下垃圾目标识别方法 Download PDF

Info

Publication number
CN117853891A
CN117853891A CN202410194343.XA CN202410194343A CN117853891A CN 117853891 A CN117853891 A CN 117853891A CN 202410194343 A CN202410194343 A CN 202410194343A CN 117853891 A CN117853891 A CN 117853891A
Authority
CN
China
Prior art keywords
underwater
layer
output end
model
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410194343.XA
Other languages
English (en)
Inventor
林培豪
沈炜轩
黄明钜
杨浩
曹泽林
刘大召
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ocean University
Original Assignee
Guangdong Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ocean University filed Critical Guangdong Ocean University
Priority to CN202410194343.XA priority Critical patent/CN117853891A/zh
Publication of CN117853891A publication Critical patent/CN117853891A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种可集成于水下机器人平台的水下垃圾目标识别方法,涉及图像识别领域,其包括以下步骤:获取水下图像并进行预处理;构建水下垃圾目标识别模型,通过水下垃圾目标识别模型对预处理后的图像进行识别。本发明可以集成在水下机器人中央处理器进行实时推理,这一集成方式不仅大大降低了识别延迟,提高了水下机器人的工作效率,同时也在处理水下垃圾的识别上取得较高的精度;本方法突破了传统水下垃圾识别模型的笨重和高延迟问题,在保证原有模型精度的前提下,通过轻量化模型的集成,使水下机器人能够实现更精确、更迅速的目标识别,优化了水下垃圾目标识别的模型结构,为水下机器人在识别水下垃圾时提供了高效、可靠的解决方案。

Description

一种可集成于水下机器人平台的水下垃圾目标识别方法
技术领域
本发明涉及图像识别领域,具体涉及一种可集成于水下机器人平台的水下垃圾目标识别方法。
背景技术
水下机器在水下行驶过程中,通过摄像头实时获取水下图像并进行目标识别,获得水下垃圾图像信息。但是现有的水下图像在处理时,常采用卷积神经网络CNN对水下图像进行处理,缺乏针对于水下垃圾精确化识别的目标识别模型,导致水下机器人无法有效地识别到水下垃圾。
由于目标识别模型体量过大无法直接在水下机器人中央处理器上直接运行,现采用的目标识别方法多依赖上位机对水下机器人传输回的图像进行识别处理,图像在传输会上位机再通过目标识别模型进行垃圾识别产生的延迟会影响水下机器人的进一步操作,如通过机械臂对水下垃圾进行处理回收等。
发明内容
针对现有技术中的上述不足,本发明提供的一种可集成于水下机器人平台的水下垃圾目标识别方法解决了现有水下垃圾目标识别过程延迟较高的问题。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种可集成于水下机器人平台的水下垃圾目标识别方法,其包括以下步骤:
S1、获取水下图像并进行图像增强,得到预处理后的图像;
S2、构建水下垃圾目标识别模型,通过水下垃圾目标识别模型对预处理后的图像进行识别。
进一步地,步骤S1中对水下图像进行图像增强的具体方法为:
通过双边滤波模型对水下图像进行图像降噪;通过对比度受限的自适应直方图均衡化模型限制进行了图像降噪的水下图像中灰度级出现的概率并进行自适应直方图均衡化;其中双边滤波模型的表达式为:
其中H(i,j)为进行图像降噪后像素坐标为(i,j)处的像素值;(k,l)为当前图像的中心坐标;σd和σr均为高斯函数的标准差;f(i,j)表示进行图像降噪前像素坐标为(i,j)处的像素值;f(k,l)表示进行图像降噪前像素坐标为(k,l)处的像素值;exp表示以自然常数e为底的指数;
对比度受限的自适应直方图均衡化模型中对比度受限条件为:
且/>
其中wi为限制对比度后各灰度级的出现概率;ki为进行了图像降噪的水下图像上第i个灰度级出现的概率超出裁剪阈值的部分;yi为进行了图像降噪的水下图像上第i个灰度级出现的概率;h为裁剪阈值。
上述进一步地方案的有益效果为:对水下图像进行双边滤波和对比度受限的自适应直方图均衡化处理,提高水下图像的质量,更有效地提取到水下图像的物体特征进行目标识别。先对水下图像进行双边滤波处理,双边滤波综合考虑了空间域和像素范围域,有较强的保边、降噪、平滑能力,相较于采用传统高斯滤波器等其能够保留更多的边缘和细节信息。自适应直方图均衡化是直方图均衡化的一种改进形式,它在不同区域对图像进行均衡化,以适应图像中局部对比度的变化;普通直方图均衡化会全局地拉伸图像的灰度级,可能会引入噪音或丧失细节,而自适应直方图均衡化则通过在图像的不同部分应用直方图均衡化,更好地保留了图像的局部信息。
进一步地,步骤S2中水下垃圾目标识别模型包括主干特征提取网络、乘法器M1、乘法器M2、第一目标提取层、第二目标提取层、加法器A1和筛选校准层;其中:
主干特征提取网络的输入端为水下垃圾目标识别模型的输入端;主干特征提取网络包括五个不同尺度输出端,分别为第一特征输出端、第二特征输出端、第三特征输出端、第四特征输出端和第五特征输出端;第一特征输出端、第二特征输出端和第三特征输出端与乘法器M1的输入端连接;第三特征输出端、第四特征输出端和第五特征输出端与乘法器M2的输入端连接;乘法器M1的输出端连接第一目标提取层的输入端;乘法器M2的输出端连接第二目标提取层的输入端;第一目标提取层的输出端和第二目标提取层的输出端连接加法器A1的输入端;加法器A1的输出端连接筛选校准层的输入端;筛选校准层的输出端为水下垃圾目标识别模型的输出端。
上述进一步地方案的有益效果为:有助于融合多尺度的特征信息,提高目标识别的准确性:第一目标提取层和第二目标提取层通过乘法器M1和乘法器M2的输出端连接到加法器A1,进一步融合不同尺度的目标特征信息。加法器A1的输出端连接到筛选校准层的输入端,通过这一步骤,对目标提取结果进行进一步的筛选和校准,以确保最终输出的目标提取结果更加精准;最终,筛选校准层的输出端作为最终输出端,提供给用户或其他***使用。
进一步地,主干特征提取网络为舍弃了尾部处全连接层和全局池化层的MobileNetV1网络,包括依次连接的3×3卷积层、第一下采样层、第一倒残差层、第二倒残差层、第二下采样层、第三倒残差层、第四倒残差层、第五倒残差层、第三下采样层、第一moblie ViT层、第六倒残差层、第四下采样层、第二moblie ViT层、第七倒残差层、第五下采样层和第三moblie ViT层;第一倒残差层的输出端为第一特征输出端;第四倒残差层的输出端为第二特征输出端;第一moblie ViT层的输出端为第三特征输出端;第二moblie ViT层的输出端为第四特征输出端;第三moblie ViT层的输出端为第五特征输出端。
进一步地,第一目标提取层和第二目标提取层均为Yolov8网络中csp单元;筛选校准层采用nms算法。
上述进一步地方案的有益效果为:MobileNetV1是一种精简且高效的卷积神经网络,通过采用深度可分离卷积等轻量级的操作,有效减小了网络的参数量和计算复杂度,适用于资源受限的场景。通过使用轻量型网络MobileNetV1作为主干特征提取网络,摒弃了尾部处的全连接层和全局池化层,实现目标识别神经网络的轻量化,以便在计算资源有限的环境中高效运行。
进一步地,水下垃圾目标识别模型的训练方法包括以下子步骤:
A1、通过已知标签的水下垃圾图像形成的训练集对水下垃圾目标识别模型进行初次训练,并采用L1范数度量初次训练后的水下垃圾目标识别模型中所有卷积层中的权重矩阵的稀疏度;
A2、根据反向转播得到水下垃圾目标识别模型中任一卷积层中的权重矩阵的权重梯度;
A3、对于每一个卷积层,根据权重矩阵的稀疏度、权重梯度和任务属性设置动态阈值;
A4、对于每一个卷积层,根据卷积核通道的平均权重和动态阈值生成二值掩码;
A5、将所有卷积层中的权重矩阵元素和对应的二值掩码相乘,得到剪枝后的权重矩阵,即得到剪枝后的水下垃圾目标识别模型;
A6、通过已知标签的水下垃圾图像形成的训练集对剪枝后的水下垃圾目标识别模型进行预训练,得到预训练的识别模型;
A7、将预训练的识别模型作为学生模型;将预训练的识别模型中的主干网络替换为resnet34网络,得到教师模型;
A8、通过引入温度参数对教师模型和学生模型的Softmax输出进行温度调节,并获取温度调节后的损失值;
A9、根据温度调节后的损失值以反向传播方式对学生模型进行参数优化,完成对水下垃圾目标识别模型的训练。
进一步地,步骤A3中动态阈值的计算表达式为:
Threshold=α×L1(W)+β×|sensitivity|+γ,
其中Threshold为动态阈值;L1(W)为权重矩阵的稀疏度;sensitivity为权重矩阵的权重梯度;α和β均为超参数;γ为任务属性超参数。
进一步地,步骤A4中二值掩码的计算表达式为:
Maskchannel=Step(Mean(W),Threshold),
其中Maskchannel为二值掩码;Step表示阶跃函数;Mean(W)为每个通道的平均权重;Threshold为动态阈值;in_channels为卷积核的输入通道数;kernel_size[0]为卷积核的高度;kernel_size[1]为卷积核的宽度;W[:,i*,j*,k*]表示权重矩阵中输入通道为i*、卷积核高度为j*、卷积核宽度为k*的元素。
进一步地,步骤A8的具体方法包括以下子步骤:
A8-1、分别获取引入温度参数后教师模型的Softmax输出和引入温度参数后学生模型的Softmax输出/>表达式分别为:
其中τ为温度参数;exp表示以自然常数e为底的指数;zi为教师模型输出的第i个元素;zj为教师模型输出的第j个元素;si为学生模型输出的第i个元素;sj为学生模型输出的第j个元素;N1为教师模型输出的元素总数;N2为学生模型输出的元素总数;
A8-2、基于步骤A8-1得到的输出计算温度调节后的损失值;计算表达式为:
CE(yT,yS)=-∑iyT(i)ln(yS(i)),
其中Ldistillation表示温度调节后的损失值;α*和β*为权重参数;表示散度项;CE(yT,yS)表示交叉熵损失项;ln表示以自然常数e为底的对数;yT(i)为训练过程中训练样本的实际标签;yS(i)为训练过程中学生模型输出的标签。
进一步地,步骤A9的具体方法为:
根据温度调节后的损失值,以梯度下降方式对学生模型的参数进行优化;其中梯度下降的表达式为:
θnew为更新后的参数值;θold为更新前的参数值;η为学习率;梯度下降符号;Ldistillation为温度调节后的损失值。
上述进一步地方案的有益效果为:剪枝方法通过综合考虑权重的稀疏度、梯度和任务属性,以及动态阈值的设计,实现了对目标识别神经网络参数的智能化、动态化剪枝,以提高水下垃圾目标识别模型的轻量化和推理效率,同时保持模型的性能。引入教师模型的知识,通过温度调节和损失计算来指导学生模型的训练,从而实现了在轻量化的同时保持模型性能,微调步骤进一步确保了学生模型的适应性和泛化性能,其适用于在资源受限的环境中部署高性能模型,通过剪枝与知识蒸馏得到了可集成在水下机器人平台的水下垃圾目标识别轻量化模型。
附图说明
图1为本方法的流程示意图;
图2为水下垃圾目标识别模型的结构示意图;
图3为主干提取网络的结构示意图;
图4为倒残差层的结构示意图;
图5为resnet34网络的结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该可集成于水下机器人平台的水下垃圾目标识别方法包括以下步骤:
S1、获取水下图像并进行图像增强,得到预处理后的图像;
S2、构建水下垃圾目标识别模型,通过水下垃圾目标识别模型对预处理后的图像进行识别。
在本实施例中,步骤S1中对水下图像进行图像增强的具体方法为:
先对水下图像进行双边滤波降噪处理,再通过对比度受限的自适应直方图均衡化模型采用裁剪阈值限制对比度,改变图像中灰度级出现的概率后,对图像进行自适应直方图均衡化处理。双边滤波综合考虑了空间域和像素范围域,有较强的保边、降噪、平滑能力,相较于采用传统高斯滤波器等其能够保留更多的边缘和细节信息。
双边滤波模型进行图像降噪的具体过程包括:从被卷积的区域中选出中心坐标,计算几何空间距离系数wd和像素差决定系数wr,确定每块像素在滤波中的权重;计算几何空间距离系数的公式为:计算像素差决定系数的公式为:其中,(k,l)为当前被卷积的区域的中心坐标,(i,j)为被卷积区域的邻域像素的坐标;σd和σr为高斯函数的标准差;函数f(x,y)表示图像在点(x,y)处的像素值。
将上述两个系数公式相乘就得到了双边滤波的公式:
对比度受限条件为:且存在/>其中,h为裁剪阈值,yi为图中第i个灰度级出现的概率,ki为图上第i个灰度级出现的概率超出裁剪阈值的部分,wi限制对比度后各灰度级的出现概率。
双边滤波有效减少了水下图像光照和颗粒物引起的噪声,保留了图像更多的边缘和细节信息,对比度受限的自适应直方图均衡化进一步提高了局部对比度,使水下场景中的细节更为显著,通过对比度受限条件隔绝额外噪声,进一步改善了水下图像质量,也突出了关键特征。
本实施例中裁剪阈值h可以通过限制水下图像每个像素的累积直方图百分比率而定出来。
如图2所示,步骤S2中水下垃圾目标识别模型包括主干特征提取网络、乘法器M1、乘法器M2、第一目标提取层、第二目标提取层、加法器A1和筛选校准层;其中:
主干特征提取网络的输入端为水下垃圾目标识别模型的输入端;主干特征提取网络包括五个不同尺度输出端,分别为第一特征输出端、第二特征输出端、第三特征输出端、第四特征输出端和第五特征输出端;第一特征输出端、第二特征输出端和第三特征输出端与乘法器M1的输入端连接;第三特征输出端、第四特征输出端和第五特征输出端与乘法器M2的输入端连接;乘法器M1的输出端连接第一目标提取层的输入端;乘法器M2的输出端连接第二目标提取层的输入端;第一目标提取层的输出端和第二目标提取层的输出端连接加法器A1的输入端;加法器A1的输出端连接筛选校准层的输入端;筛选校准层的输出端为水下垃圾目标识别模型的输出端。图2中backbone即为主干特征提取网络。
如图3所示,主干特征提取网络为舍弃了尾部处全连接层和全局池化层的MobileNetV1网络,包括依次连接的3×3卷积层(Conv 3×3)、第一下采样层、第一倒残差层、第二倒残差层、第二下采样层、第三倒残差层、第四倒残差层、第五倒残差层、第三下采样层、第一moblie ViT层、第六倒残差层、第四下采样层、第二moblie ViT层、第七倒残差层、第五下采样层和第三moblie ViT层;第一倒残差层的输出端为第一特征输出端;第四倒残差层的输出端为第二特征输出端;第一moblie ViT层的输出端为第三特征输出端;第二moblie ViT层的输出端为第四特征输出端;第三moblie ViT层的输出端为第五特征输出端。图3中MV2表示倒残差层,subsampled表示下采样层。
倒残差层的结构图如图4所示,第一倒残差层、第二倒残差层、第三倒残差层和第五倒残差层的步长均为1;第四倒残差层、第六倒残差层和第七倒残差层的步长均为2。当倒残差层步长(stride)为1时,包括依次连接的输入层(input)、1×1卷积层(Conv 1×1)、relu层、3×3卷积层(Dwise3×3)、relu层、1×1卷积层、线性层(linear)和相加层(Add);相加层用于将线性层(linear)的输出和输入层(input)的输出相加,并作为倒残差层的输出。当倒残差层步长(stride)为2时,包括依次连接的输入层(input)、1×1卷积层、relu层、3×3卷积层、relu层、1×1卷积层和线性层(linear),线性层(linear)的输出即为倒残差层的输出。
第一目标提取层和第二目标提取层均为Yolov8网络中csp单元;筛选校准层采用nms算法。
水下垃圾目标识别模型的训练方法包括以下子步骤:
A1、通过已知标签的水下垃圾图像形成的训练集对水下垃圾目标识别模型进行初次训练,并采用L1范数度量初次训练后的水下垃圾目标识别模型中所有卷积层中的权重矩阵的稀疏度;
A2、根据反向转播得到水下垃圾目标识别模型中任一卷积层中的权重矩阵的权重梯度;
A3、对于每一个卷积层,根据权重矩阵的稀疏度、权重梯度和任务属性设置动态阈值;
A4、对于每一个卷积层,根据卷积核通道的平均权重和动态阈值生成二值掩码;
A5、将所有卷积层中的权重矩阵元素和对应的二值掩码相乘,得到剪枝后的权重矩阵,即得到剪枝后的水下垃圾目标识别模型;
A6、通过已知标签的水下垃圾图像形成的训练集对剪枝后的水下垃圾目标识别模型进行预训练,得到预训练的识别模型;
A7、将预训练的识别模型作为学生模型;将预训练的识别模型中的主干网络替换为resnet34网络,得到教师模型;
A8、通过引入温度参数对教师模型和学生模型的Softmax输出进行温度调节,并获取温度调节后的损失值;
A9、根据温度调节后的损失值以反向传播方式对学生模型进行参数优化,完成对水下垃圾目标识别模型的训练。
步骤A1中权重矩阵稀疏度的计算表达式为:
L1(W)=∑i,j|Wij|,
其中,L1(W)为稀疏度,Wij为每个卷积层的权重矩阵中第(i,j)个元素。
步骤A2中权重梯度的计算表达式为:
其中,L为模型的损失函数,Sensitivity为权重梯度。
步骤A3中动态阈值的计算表达式为:
Threshold=α×L1(W)+β×|sensitivity|+γ,
其中Threshold为动态阈值;L1(W)为权重矩阵的稀疏度;sensitivity为权重矩阵的权重梯度;α和β均为超参数;γ为任务属性超参数。
步骤A4中二值掩码的计算表达式为:
Maskchannel=Step(Mean(W),Threshold),
其中Maskchannel为二值掩码;Step表示阶跃函数;Mean(W)为每个通道的平均权重;Threshold为动态阈值;in_channels为卷积核的输入通道数;kernel_size[0]为卷积核的高度;kernel_size[1]为卷积核的宽度;W[:,i*,j*,k*]表示权重矩阵中输入通道为i*、卷积核高度为j*、卷积核宽度为k*的元素。
在本实施例中,如图5所示,resnet34网络包括依次连接的步长为2的64通道7×7卷积层(Conv 7×7)、步长为2的3×3最大池化层(max pool 3×3)、三个相同结构的64通道3×3两次卷积层(Conv 3×3)、四个相同结构的128通道3×3两次卷积层、六个相同结构的256通道3×3两次卷积层、三个相同结构的512通道3×3两次卷积层;步长为2的64通道7×7卷积层的输出端为第一特征输出端;最后一个64通道3×3两次卷积层的输出端为第二特征输出端;最后一个128通道3×3两次卷积层的输出端为第三特征输出端;最后一个256通道3×3两次卷积层的输出端为第四特征输出端;最后一个512通道3×3两次卷积层的输出端为第五特征输出端。
步骤A8的具体方法包括以下子步骤:
A8-1、分别获取引入温度参数后教师模型的Softmax输出和引入温度参数后学生模型的Softmax输出/>表达式分别为:
其中τ为温度参数;exp表示以自然常数e为底的指数;zi为教师模型输出的第i个元素;zj为教师模型输出的第j个元素;si为学生模型输出的第i个元素;sj为学生模型输出的第j个元素;N1为教师模型输出的元素总数;N2为学生模型输出的元素总数;
A8-2、基于步骤A8-1得到的输出计算温度调节后的损失值;计算表达式为:
CE(yT,yS)=-∑iyT(i)ln(yS(i)),
其中Ldistillation表示温度调节后的损失值;α*和β*为权重参数;表示散度项;CE(yT,yS)表示交叉熵损失项;ln表示以自然常数e为底的对数;yT(i)为训练过程中训练样本的实际标签;yS(i)为训练过程中学生模型输出的标签。
步骤A9的具体方法为:根据温度调节后的损失值,以梯度下降方式对学生模型的参数进行优化;其中梯度下降的表达式为:
θnew为更新后的参数值;θold为更新前的参数值;η为学习率;梯度下降符号;Ldistillation为温度调节后的损失值。
在本实施例中,剪枝的公式为:W'ij=W[:,i,:,:]×Maskchannel,其中,W'ij为剪枝后的权重矩阵,W[:,i,:,:]为原有模型的权重矩阵,剪枝后权重矩阵最终结果为:
由此得到剪枝后水下垃圾目标识别模型。
本实施例中动态阈值是根据综合的重要性评估结果和任务特性动态设置的,用于确定哪些权重或通道应该被剪枝,动态阈值综合考虑了权重的稀疏性,权重对模型性能的影响,以及任务特定需求,通过调整参数,可以平衡这些因素,从而更好地适应目标识别任务的需求。
在本具体实施过程中,对于通过步骤A9得到的水下垃圾目标识别模型,可以在Imagenet-1k数据集上微调训练,进一步优化模型参数,最终得到水下垃圾目标识别轻量化模型。
在本发明的另一个实施例中,本实施例是基于前一个实施例的拓展。在本实施例中,水下机器人的探测识别模块包括中央处理器、储存器、摄像头等硬件,中央处理器用于运行水下垃圾目标识别(轻量化)模型,储存器用于存储水下垃圾目标识别(轻量化)模型以及运行的底层环境等,摄像头用于为水下垃圾目标识别(轻量化)模型提供图像数据源。
综上所述,本发明可以集成在水下机器人中央处理器进行实时推理,这一集成方式不仅大大降低了识别延迟,提高了水下机器人的工作效率,同时也在处理水下垃圾的识别上取得较高的精度;本方法突破了传统水下垃圾识别模型的笨重和高延迟问题,在保证原有模型精度的前提下,通过轻量化模型的集成,使水下机器人能够实现更精确、更迅速的目标识别,优化了水下垃圾目标识别的模型结构,为水下机器人在识别水下垃圾时提供了高效、可靠的解决方案。

Claims (10)

1.一种可集成于水下机器人平台的水下垃圾目标识别方法,其特征在于,包括以下步骤:
S1、获取水下图像并进行图像增强,得到预处理后的图像;
S2、构建水下垃圾目标识别模型,通过水下垃圾目标识别模型对预处理后的图像进行识别。
2.根据权利要求1所述的可集成于水下机器人平台的水下垃圾目标识别方法,其特征在于,步骤S1中对水下图像进行图像增强的具体方法为:
通过双边滤波模型对水下图像进行图像降噪;通过对比度受限的自适应直方图均衡化模型限制进行了图像降噪的水下图像中灰度级出现的概率并进行自适应直方图均衡化;其中双边滤波模型的表达式为:
其中H(i,j)为进行图像降噪后像素坐标为(i,j)处的像素值;(k,l)为当前图像的中心坐标;σd和σr均为高斯函数的标准差;f(i,j)表示进行图像降噪前像素坐标为(i,j)处的像素值;f(k,l)表示进行图像降噪前像素坐标为(k,l)处的像素值;exp表示以自然常数e为底的指数;
对比度受限的自适应直方图均衡化模型中对比度受限条件为:
且/>
其中wi为限制对比度后各灰度级的出现概率;ki为进行了图像降噪的水下图像上第i个灰度级出现的概率超出裁剪阈值的部分;yi为进行了图像降噪的水下图像上第i个灰度级出现的概率;h为裁剪阈值。
3.根据权利要求1所述的可集成于水下机器人平台的水下垃圾目标识别方法,其特征在于,步骤S2中水下垃圾目标识别模型包括主干特征提取网络、乘法器M1、乘法器M2、第一目标提取层、第二目标提取层、加法器A1和筛选校准层;其中:
主干特征提取网络的输入端为水下垃圾目标识别模型的输入端;主干特征提取网络包括五个不同尺度输出端,分别为第一特征输出端、第二特征输出端、第三特征输出端、第四特征输出端和第五特征输出端;第一特征输出端、第二特征输出端和第三特征输出端与乘法器M1的输入端连接;第三特征输出端、第四特征输出端和第五特征输出端与乘法器M2的输入端连接;乘法器M1的输出端连接第一目标提取层的输入端;乘法器M2的输出端连接第二目标提取层的输入端;第一目标提取层的输出端和第二目标提取层的输出端连接加法器A1的输入端;加法器A1的输出端连接筛选校准层的输入端;筛选校准层的输出端为水下垃圾目标识别模型的输出端。
4.根据权利要求3所述的可集成于水下机器人平台的水下垃圾目标识别方法,其特征在于,主干特征提取网络为舍弃了尾部处全连接层和全局池化层的MobileNetV1网络,包括依次连接的3×3卷积层、第一下采样层、第一倒残差层、第二倒残差层、第二下采样层、第三倒残差层、第四倒残差层、第五倒残差层、第三下采样层、第一moblie ViT层、第六倒残差层、第四下采样层、第二moblie ViT层、第七倒残差层、第五下采样层和第三moblie ViT层;第一倒残差层的输出端为第一特征输出端;第四倒残差层的输出端为第二特征输出端;第一moblie ViT层的输出端为第三特征输出端;第二moblie ViT层的输出端为第四特征输出端;第三moblie ViT层的输出端为第五特征输出端。
5.根据权利要求3所述的可集成于水下机器人平台的水下垃圾目标识别方法,其特征在于,第一目标提取层和第二目标提取层均为Yolov8网络中csp单元;筛选校准层采用nms算法。
6.根据权利要求1所述的可集成于水下机器人平台的水下垃圾目标识别方法,其特征在于,水下垃圾目标识别模型的训练方法包括以下子步骤:
A1、通过已知标签的水下垃圾图像形成的训练集对水下垃圾目标识别模型进行初次训练,并采用L1范数度量初次训练后的水下垃圾目标识别模型中所有卷积层中的权重矩阵的稀疏度;
A2、根据反向转播得到水下垃圾目标识别模型中任一卷积层中的权重矩阵的权重梯度;
A3、对于每一个卷积层,根据权重矩阵的稀疏度、权重梯度和任务属性设置动态阈值;
A4、对于每一个卷积层,根据卷积核通道的平均权重和动态阈值生成二值掩码;
A5、将所有卷积层中的权重矩阵元素和对应的二值掩码相乘,得到剪枝后的权重矩阵,即得到剪枝后的水下垃圾目标识别模型;
A6、通过已知标签的水下垃圾图像形成的训练集对剪枝后的水下垃圾目标识别模型进行预训练,得到预训练的识别模型;
A7、将预训练的识别模型作为学生模型;将预训练的识别模型中的主干网络替换为resnet34网络,得到教师模型;
A8、通过引入温度参数对教师模型和学生模型的Softmax输出进行温度调节,并获取温度调节后的损失值;
A9、根据温度调节后的损失值以反向传播方式对学生模型进行参数优化,完成对水下垃圾目标识别模型的训练。
7.根据权利要求6所述的可集成于水下机器人平台的水下垃圾目标识别方法,其特征在于,步骤A3中动态阈值的计算表达式为:
Threshold=α×L1(W)+β×|sensitivity|+γ,
其中Threshold为动态阈值;L1(W)为权重矩阵的稀疏度;sensitivity为权重矩阵的权重梯度;α和β均为超参数;γ为任务属性超参数。
8.根据权利要求6所述的可集成于水下机器人平台的水下垃圾目标识别方法,其特征在于,步骤A4中二值掩码的计算表达式为:
Maskchannel=Step(Mean(W),Threshold),
其中Maskchannel为二值掩码;Step表示阶跃函数;Mean(W)为每个通道的平均权重;Threshold为动态阈值;in_channels为卷积核的输入通道数;kernel_size[0]为卷积核的高度;kernel_size[1]为卷积核的宽度;W[:,i*,j*,k*]表示权重矩阵中输入通道为i*、卷积核高度为j*、卷积核宽度为k*的元素。
9.根据权利要求6所述的可集成于水下机器人平台的水下垃圾目标识别方法,其特征在于,步骤A8的具体方法包括以下子步骤:
A8-1、分别获取引入温度参数后教师模型的Softmax输出和引入温度参数后学生模型的Softmax输出/>表达式分别为:
其中τ为温度参数;exp表示以自然常数e为底的指数;zi为教师模型输出的第i个元素;zj为教师模型输出的第j个元素;si为学生模型输出的第i个元素;sj为学生模型输出的第j个元素;N1为教师模型输出的元素总数;N2为学生模型输出的元素总数;
A8-2、基于步骤A8-1得到的输出计算温度调节后的损失值;计算表达式为:
CE(yT,yS)=-∑iyT(i)ln(yS(i)),
其中Ldistillation表示温度调节后的损失值;α*和β*为权重参数;表示散度项;CE(yT,yS)表示交叉熵损失项;ln表示以自然常数e为底的对数;yT(i)为训练过程中训练样本的实际标签;yS(i)为训练过程中学生模型输出的标签。
10.根据权利要求6所述的可集成于水下机器人平台的水下垃圾目标识别方法,其特征在于,步骤A9的具体方法为:
根据温度调节后的损失值,以梯度下降方式对学生模型的参数进行优化;其中梯度下降的表达式为:
θnew为更新后的参数值;θold为更新前的参数值;η为学习率;梯度下降符号;Ldistillation为温度调节后的损失值。
CN202410194343.XA 2024-02-21 2024-02-21 一种可集成于水下机器人平台的水下垃圾目标识别方法 Pending CN117853891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410194343.XA CN117853891A (zh) 2024-02-21 2024-02-21 一种可集成于水下机器人平台的水下垃圾目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410194343.XA CN117853891A (zh) 2024-02-21 2024-02-21 一种可集成于水下机器人平台的水下垃圾目标识别方法

Publications (1)

Publication Number Publication Date
CN117853891A true CN117853891A (zh) 2024-04-09

Family

ID=90536944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410194343.XA Pending CN117853891A (zh) 2024-02-21 2024-02-21 一种可集成于水下机器人平台的水下垃圾目标识别方法

Country Status (1)

Country Link
CN (1) CN117853891A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126258A (zh) * 2019-12-23 2020-05-08 深圳市华尊科技股份有限公司 图像识别方法及相关装置
CN113128355A (zh) * 2021-03-29 2021-07-16 南京航空航天大学 一种基于通道剪枝的无人机图像实时目标检测方法
CN115171074A (zh) * 2022-07-08 2022-10-11 哈尔滨理工大学 一种基于多尺度yolo算法的车辆目标识别方法
CN115797658A (zh) * 2022-12-23 2023-03-14 武汉轻工大学 水下垃圾检测方法及***
CN117058552A (zh) * 2023-08-31 2023-11-14 济南大学 一种基于改进YOLOv7与RKNPU2的轻量化害虫检测方法
JP2023182931A (ja) * 2022-06-15 2023-12-27 株式会社デンソーアイティーラボラトリ 学習装置、学習方法、画像処理装置、画像処理方法およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126258A (zh) * 2019-12-23 2020-05-08 深圳市华尊科技股份有限公司 图像识别方法及相关装置
CN113128355A (zh) * 2021-03-29 2021-07-16 南京航空航天大学 一种基于通道剪枝的无人机图像实时目标检测方法
JP2023182931A (ja) * 2022-06-15 2023-12-27 株式会社デンソーアイティーラボラトリ 学習装置、学習方法、画像処理装置、画像処理方法およびプログラム
CN115171074A (zh) * 2022-07-08 2022-10-11 哈尔滨理工大学 一种基于多尺度yolo算法的车辆目标识别方法
CN115797658A (zh) * 2022-12-23 2023-03-14 武汉轻工大学 水下垃圾检测方法及***
CN117058552A (zh) * 2023-08-31 2023-11-14 济南大学 一种基于改进YOLOv7与RKNPU2的轻量化害虫检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
聚沙塔: "对比度受限的自适应直方图均衡化(CLAHE)", Retrieved from the Internet <URL:https://blog.csdn.net/u010839382/article/details/49584181> *
黄玉娇, 詹李超, 范兴刚, 等: "基于知识蒸馏模型ELECTRA-base-BiLSTM的文本分类", 《计算机科学》, vol. 49, no. 2, 30 November 2022 (2022-11-30), pages 144 - 149 *

Similar Documents

Publication Publication Date Title
CN108256562B (zh) 基于弱监督时空级联神经网络的显著目标检测方法及***
CN111950649B (zh) 基于注意力机制与胶囊网络的低照度图像分类方法
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及***
US20230080693A1 (en) Image processing method, electronic device and readable storage medium
CN111695633B (zh) 基于rpf-cam的低照度目标检测方法
CN111652317B (zh) 基于贝叶斯深度学习的超参数图像分割方法
CN112750106A (zh) 一种基于非完备标记的深度学习的核染色细胞计数方法、计算机设备、存储介质
CN111986125A (zh) 一种用于多目标任务实例分割的方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN110807384A (zh) 低能见度下的小目标检测方法和***
CN113420794B (zh) 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法
CN111445496B (zh) 一种水下图像识别跟踪***及方法
CN114445620A (zh) 一种改进Mask R-CNN的目标分割方法
CN114283431B (zh) 一种基于可微分二值化的文本检测方法
CN111242870A (zh) 一种基于深度学习知识蒸馏技术的低光图像增强方法
CN115240240A (zh) 基于yolo网络的红外人脸识别方法及***
Guo et al. D3-Net: Integrated multi-task convolutional neural network for water surface deblurring, dehazing and object detection
CN116934762B (zh) 锂电池极片表面缺陷的检测***及方法
CN113313179A (zh) 一种基于l2p范数鲁棒最小二乘法的噪声图像分类方法
CN113627481A (zh) 一种面向智慧园林的多模型组合的无人机垃圾分类方法
CN112270404A (zh) 一种基于ResNet64网络的紧固件产品鼓包缺陷的检测结构及其方法
CN117197438A (zh) 一种基于视觉显著性的目标检测方法
CN117115616A (zh) 一种基于卷积神经网络的实时低照度图像目标检测方法
CN116452511A (zh) 钻爆法隧道掌子面围岩级别智能判识方法、装置及介质
CN115797205A (zh) 基于Retinex分数阶变分网络的无监督单张图像增强方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination