CN117634556A - 一种基于水面数据的语义分割神经网络的训练方法及装置 - Google Patents

一种基于水面数据的语义分割神经网络的训练方法及装置 Download PDF

Info

Publication number
CN117634556A
CN117634556A CN202311387860.0A CN202311387860A CN117634556A CN 117634556 A CN117634556 A CN 117634556A CN 202311387860 A CN202311387860 A CN 202311387860A CN 117634556 A CN117634556 A CN 117634556A
Authority
CN
China
Prior art keywords
neural network
semantic segmentation
segmentation neural
water surface
surface data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311387860.0A
Other languages
English (en)
Inventor
刘晓明
杨晓辉
李佳城
王振
王洪磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology Research Branch Of Tiandi Technology Co ltd
General Coal Research Institute Co Ltd
Original Assignee
Beijing Technology Research Branch Of Tiandi Technology Co ltd
General Coal Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology Research Branch Of Tiandi Technology Co ltd, General Coal Research Institute Co Ltd filed Critical Beijing Technology Research Branch Of Tiandi Technology Co ltd
Priority to CN202311387860.0A priority Critical patent/CN117634556A/zh
Publication of CN117634556A publication Critical patent/CN117634556A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出了一种基于水面数据的语义分割神经网络的训练方法及装置,该方法包括:获取露天矿防洪坝水面数据,对其进行二值化处理,得到二值化图像数据;构建第一候选语义分割神经网络,其中,第一候选语义分割神经网络由编码器和解码器组成;获取公开水面数据,根据公开水面数据对第一候选语义分割神经网络进行粗训练,训练结束后,得到第二候选语义分割神经网络;将露天矿防洪坝水面数据输入第二候选语义分割神经网络,得到分割图像数据,基于分割图像与二值化图像数据,计算损失值,根据损失值对第二候选语义分割神经网络进行精训练,直至训练结束,得到语义分割神经网络。本申请采用两步训练法,能够提高水面数据切割任务的准确性。

Description

一种基于水面数据的语义分割神经网络的训练方法及装置
技术领域
本申请涉及计算机视觉领域,尤其涉及一种基于水面数据的语义分割神经网络的训练方法及装置。
背景技术
语义分割(Semantic Segmentation)是计算机视觉(Computer Vision,CV)领域的一个基础研究方向,它可以对图像中的每个像素给出具体的类别,例如它可以分析一张图片或者一段视频流中的物体,并逐像素标记出来其所属类别。语义分割被广泛应用于自动驾驶、智慧城市和医疗图像处理等诸多领域。
目前针对露天矿防洪坝水位检测这一场景,有以下几种检测方案:在水中布置固定水尺,基于目标检测检测固定水尺,从而对水位进行检测;在河岸边自上而下依次设置多种不同颜色的标记线,基于深度学习的方法,推理水面的位置,并与标记线比较,得出不同的水位等级;基于传感器直接对水位进行检测。
然而,在水中布置固定水尺需要水底地势较为平缓,要求水底不会经常变化,在河岸边自上而下依次设置多种不同颜色的标记线需要比较平整、无起伏的水底和水面,且需要水岸比较平整并垂直于水平面,对场景要求过高,基于传感器则成本过高,且容易受环境影响。
发明内容
针对上述问题,提出了一种基于水面数据的语义分割神经网络的训练方法及装置,用于将水面与坝体分割开来,从而方便观测水位是否超限。
本申请第一方面提出一种基于水面数据的语义分割神经网络的训练方法,包括:
获取露天矿防洪坝水面数据,对所述露天矿防洪坝水面数据进行二值化处理,得到二值化图像数据;
构建第一候选语义分割神经网络,其中,所述第一候选语义分割神经网络由编码器和解码器组成,所述编码器用于对输入图像进行降维并编码,所述解码器用于提取编码图像中每个像素的语义标签;
获取公开水面数据,根据所述公开水面数据对所述第一候选语义分割神经网络进行粗训练,训练结束后,得到第二候选语义分割神经网络;
将所述露天矿防洪坝水面数据输入所述第二候选语义分割神经网络,得到分割图像数据,基于所述分割图像与所述二值化图像数据,计算损失值,根据所述损失值对所述第二候选语义分割神经网络进行精训练,直至训练结束,得到训练好的语义分割神经网络。
可选的,所述获取露天矿防洪坝水面数据,并对所述露天矿防洪坝水面数据进行二值化处理,得到二值化图像数据,包括:
在水岸处布置多个监控摄像头,获取所述露天矿防洪坝水面数据;
对于所述露天矿防洪坝水面数据中的第一图像,采用预设点集组成的一个封闭的多边形将所述第一图像中的水面区域包围起来;
对所述第一图像进行二值化处理,将被包围区域的像素赋红色,将未被包围区域的像素赋黑色;
对所述露天矿防洪坝水面数据中的其余图像采取上述所示的二值化处理,待所有图像标注完成后,得到所述二值化图像数据。
可选的,所述编码器包括五个卷积网络,所述编码器用于:
利用穿插在五个卷积网络中的最大化池化和对输入图像进行降维;
在第四卷积网络与第五卷积网络中,利用空洞卷积增大所述编码器的感受野。
可选的,所述解码器,包括:
第一注意力细化模块,用于使用全局平均池化和归一化的深度降维,融合输入的图像特征和IMU特征,并对其进行重新加权;
第一空洞空间金字塔池化模块,用于根据输入的图像特征和IMU特征,细化小型水域结构的分割;
第一特征融合模块,用于融合所述第一注意力细化模块和所述第一空洞空间金字塔池化模块的输出特征,并生成1024个特征通道;
第二注意力细化模块,用于将来自第三卷积网络的特征、来自IMU通道编码的特征、以及来自所述第一特征融合模块传输的特征融合;
第二特征融合模块,用于在所述第二注意力细化模块传输的特征上采样,将所述第二注意力细化模块传输的低维特征与第二卷积网络传输的高维特征融合,并重新加权融合后的特征。
可选的,所述解码器,还包括:
第二空洞空间金字塔池化模块,用于对输入图像的水域结构进行分割,并提取每个像素的语义标签,其中,所述第二空洞空间金字塔池化模块内置softmax函数。
可选的,在对所述第一候选语义分割神经网络和所述第二候选语义分割神经网络进行训练时,还包括:
将所述编码器中的第二卷积网络编码的高分辨率特征和IMU编码特征输入所述解码器中的第二特征融合模块;
将所述编码器中第二卷积网络编码的中分辨率特征和IMU编码特征输入所述解码器的第二注意力细化模块;
将所述编码器中的第五卷积网络编码的低分辨率特征和IMU编码特征输入所述解码器的第一注意力细化模块,并利用堆叠的反卷积层对编码后信息进行解码,将提取到的信息映射到原输入空间的二维平面上。
可选的,所述方法,还包括:
在所述编码器和所述解码器之间添加残差模块;
在所述编码器中预设编号的卷积网络的卷积核中进行填零稀疏操作。
可选的,所述第二候选语义分割神经网络采取交叉熵函数作为损失函数,所述损失函数的表达式为:
其中,yic表示第i个像素的标签,pic是像素i属于类别c的预测概率。
本申请第二方面提出一种基于水面数据的语义分割神经网络的训练装置,包括:
获取模块,用于获取露天矿防洪坝水面数据,对所述露天矿防洪坝水面数据进行二值化处理,得到二值化图像数据;
构建模块,用于构建第一候选语义分割神经网络,其中,所述第一候选语义分割神经网络由编码器和解码器组成,所述编码器用于对输入图像进行降维并编码,所述解码器用于提取编码图像中每个像素的语义标签;
粗训练模块,用于获取公开水面数据,根据所述公开水面数据对所述第一候选语义分割神经网络进行粗训练,训练结束后,得到第二候选语义分割神经网络;
精训练模块,用于将所述露天矿防洪坝水面数据输入所述第二候选语义分割神经网络,得到分割图像数据,基于所述分割图像与所述二值化图像数据,计算损失值,根据所述损失值对所述第二候选语义分割神经网络进行精训练,直至训练结束,得到训练好的语义分割神经网络。
本申请第三方面提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述第一方面中任一所述的方法。
本申请的实施例提供的技术方案至少带来以下有益效果:
通过构建语义分割神经网络,将水面数据中关于水面和坝体的部分分割开来,有利于后续对水位的检测,通过采用粗训练与精训练的方法对候选语义分割神经网络进行训练,能够提高语义分割神经网络的鲁棒性,从而提高水面数据切割任务的准确性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请实施例示出的一种基于水面数据的语义分割神经网络的训练方法的流程图;
图2是根据本申请实施例示出的编码器与解码器的结构示意图;
图3是根据本申请实施例示出的一种基于水面数据的语义分割神经网络的训练装置的框图;
图4是一种电子设备的框图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
图1是根据本申请实施例示出的一种基于水面数据的语义分割神经网络的训练方法的流程图,包括以下步骤:
步骤101,获取露天矿防洪坝水面数据,对露天矿防洪坝水面数据进行二值化处理,得到二值化图像数据。
本申请实施例中,通过水岸处布置多个IMU传感器的监控摄像头,调整监控摄像头的拍摄角度与拍摄位置,直至监测区域可以完全覆盖整个防洪坝的坝体,根据监控摄像头采集不同环境和水位条件下的水面图像。
需要说明的是,IMU传感器为惯性测量单元,是用来检测和测量加速度与旋转运动的传感器,IMU传感器能够记录摄像头在采集露天矿防洪坝水面图像数据时的惯性数据。
另外,本申请实施例中,将露天矿防洪坝水面数据中的图像做二值化处理,具体的:
对于露天矿防洪坝水面数据中的第一图像,采用预设点集组成的一个封闭的多边形将第一图像中的水面区域包围起来;
对第一图像进行二值化处理,将被包围区域的像素赋红色,将未被包围区域的像素赋黑色;
对露天矿防洪坝水面数据中的其余图像采取上述所示的二值化处理,待所有图像标注完成后,得到二值化图像数据。
步骤102,构建第一候选语义分割神经网络,其中,第一候选语义分割神经网络由编码器和解码器组成,编码器用于对输入图像进行降维并编码,解码器用于提取编码图像中每个像素的语义标签。
本申请实施例中,候选语义分割神经网络由编码器和解码器组成,编码器中采用带有残差和空洞卷积的卷积网络,利用五个卷积网络和穿插其中的最大化池化进行图像信息降维,在后两个卷积网络中利用空洞卷积增大编码器的感受野,使其在对输入的图像进行编码时,能够提取到更多深层的图像特征。
而解码器需要融合图像编码器编码的特征信息和IMU编码器编码的特征信息,并将它们解码细化为最终的分割输出,选择第二、三、五卷积网络输出的粒度不同的分辨率特征参与融合,分别采用注意力细化模块、空洞空间金字塔池化模块和特征融合模块来进行图像编码信息和IMU编码信息的融合。
具体的,如图2所示,编码器与解码器之间的联系为:
(1)首先,图像编码器中的最后一个卷积网络编码的特征E5同时输入到具有三个金字塔层的剪枝的第一空洞空间金字塔池化模块ASPP1和第一注意力细化模块ARM1中,ASPP1模块用于修剪粗分辨率的E5特征,从而用于细化小型水域结构的分割,而ARM1模块使用全局平均池化和归一化的深度降维来处理图像特征和IMU特征的融合和重新加权。
(2)使用自适应融合方法的第一特征融合模块FFM1融合ASPP1模块修剪后的特征和ARM1模块的输出特征,并生成1024个特征通道。
(3)经过第一特征融合模块FFM1融合后的特征,经过第二注意力细化模块ARM2进一步与图像编码器中第三卷积网络编码的E3特征和IMU通道特征融合,具体的:
ARM2模块首先融合IMU通道特征和来自编码器的E3特征,接下来使用一组1×1的卷积,使特征通道的数量翻倍,每个通道与来自解码器的FFM1的特征相加,最后,来自ARM2模块的细化和重新加权的特征,以及图像编码器第二卷积网络编码的E2特征和IMU特征通道一同输入到第二特征融合模块FFM2中。
(4)第二特征融合模块FFM2实现了比第二注意力细化模块ARM2更加复杂的融合路径,通过将ARM2模块的输出特征上采样,并与E2特征和IMU特征通道连接,FFM2模块结合了来自ARM2模块的低维特征和来自图像编码器的E2的高维特征,并且输出特征通道的深度经过一个3×3卷积块减半,并由一个批量归一化模块进行归一化。
需要说明的是,第二特征融合模块FFM2的权重向量的计算类似于ARM1,并且使用重新加权特征,从而完成图像编码特征和IMU编码特征的选择和融合。
(5)解码器的输出最终提取每个像素的语义标签,加入第二空洞空间金字塔池化模块ASPP2可以显着改进水域结构的分割,同时只增加很小的计算开销。
因此,在解码器的最后引入一个带有softmax的ASPP2模块解码的同时进行标签分类。
需要说明的是,经过解码器融合和解码的输出图像的分辨率是输入分辨率的四分之一,因此再进行上采样四倍以匹配输入图像的分辨率。
另外,在编码器靠后的卷积层的卷积核中进行填零稀疏操作,利用稀疏后的卷积层提取更多的上下文信息,在编码器和解码器之间添加残差模块,利用残差连接来帮助提取更多的多尺度信息,并且使神经网络的训练更容易收敛。
步骤103,获取公开水面数据,根据公开水面数据对第一候选语义分割神经网络进行粗训练,训练结束后,得到第二候选语义分割神经网络。
本申请实施例中,如步骤102所描述的,训练过程中对于数据的处理,编码器与解码器间的联动为:
将编码器中的第二卷积网络编码的高分辨率特征和IMU编码特征输入解码器中的第二特征融合模块FFM2;
将编码器中第二卷积网络编码的中分辨率特征和IMU编码特征输入解码器的第二注意力细化模块ARM2;
将编码器中的第五卷积网络编码的低分辨率特征和IMU编码特征输入解码器的第一注意力细化模块ARM1,并利用堆叠的反卷积层对编码后信息进行解码,将提取到的信息映射到原输入空间的二维平面上。
本申请实施例中,首先理由公开水面数据对第一候选语义分割神经网络进行粗训练,从而使候选网络学习到水面的通用特征。
一种可能的实施例中,公开水面数据为HydroSHEDS数据集。
另外,能够理解的是,模型的训练是个重复迭代的过程,通过不断地调整模型的网络参数进行训练,直到模型整体的损失函数值小于预设值,或者模型整体的损失函数值不再变化或变化幅度缓慢,模型收敛,得到训练好的模型。
可选地,还可为达到预设的训练次数,则可认为训练结束。
可选地,还可为达到预设的训练时间,则可认为训练结束。
步骤104,将露天矿防洪坝水面数据输入第二候选语义分割神经网络,得到分割图像数据,基于分割图像与二值化图像数据,计算损失值,根据损失值对第二候选语义分割神经网络进行精训练,直至训练结束,得到训练好的语义分割神经网络。
本申请实施例中,对经过粗训练得到的第二候选语义分割神经网络,进行精训练。
具体的,训练时使用原始图片作为神经网络的输入,通过对比输出的分割图像和利用标注点进行二值化处理后的二值化图像数据,计算损失,通过将损失值从网络后端向前传播,更新网络参数。
需要说明的是,当数据集过大时,次对数据集中的16或32个样本计算损失,先更新权重,直到所有数据被遍历,完成一次训练的循环。多次循环上述过程,以完成网络的训练。
另外,由于图像语义分割问题也可以理解成像素分类问题,因此本申请采用的损失函数为在分类问题中效果较好的交叉熵函数,表达式为:
其中,yic表示第i个像素的标签,pic是像素i属于类别c的预测概率,这里c=0或1。
由此,通过语义分割神经网络可以得到分割图像,从而便于后续的水位检测。
本申请实施例通过构建语义分割神经网络,将水面数据中关于水面和坝体的部分分割开来,有利于后续对水位的检测,通过采用粗训练与精训练的方法对候选语义分割神经网络进行训练,能够提高语义分割神经网络的鲁棒性,从而提高水面数据切割任务的准确性。
图3是根据本申请实施例示出的一种基于水面数据的语义分割神经网络的训练装置300的框图,包括:
获取模块310,用于获取露天矿防洪坝水面数据,对露天矿防洪坝水面数据进行二值化处理,得到二值化图像数据;
构建模块320,用于构建第一候选语义分割神经网络,其中,第一候选语义分割神经网络由编码器和解码器组成,编码器用于对输入图像进行降维并编码,解码器用于提取编码图像中每个像素的语义标签;
粗训练模块330,用于获取公开水面数据,根据公开水面数据对第一候选语义分割神经网络进行粗训练,训练结束后,得到第二候选语义分割神经网络;
精训练模块340,用于将露天矿防洪坝水面数据输入第二候选语义分割神经网络,得到分割图像数据,基于分割图像与二值化图像数据,计算损失值,根据损失值对第二候选语义分割神经网络进行精训练,直至训练结束,得到训练好的语义分割神经网络。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如语音指令响应方法。例如,在一些实施例中,语音指令响应方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的语音指令响应方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音指令响应方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (10)

1.一种基于水面数据的语义分割神经网络的训练方法,其特征在于,包括:
获取露天矿防洪坝水面数据,对所述露天矿防洪坝水面数据进行二值化处理,得到二值化图像数据;
构建第一候选语义分割神经网络,其中,所述第一候选语义分割神经网络由编码器和解码器组成,所述编码器用于对输入图像进行降维并编码,所述解码器用于提取编码图像中每个像素的语义标签;
获取公开水面数据,根据所述公开水面数据对所述第一候选语义分割神经网络进行粗训练,训练结束后,得到第二候选语义分割神经网络;
将所述露天矿防洪坝水面数据输入所述第二候选语义分割神经网络,得到分割图像数据,基于所述分割图像与所述二值化图像数据,计算损失值,根据所述损失值对所述第二候选语义分割神经网络进行精训练,直至训练结束,得到训练好的语义分割神经网络。
2.根据权利要求1所述的方法,其特征在于,所述获取露天矿防洪坝水面数据,并对所述露天矿防洪坝水面数据进行二值化处理,得到二值化图像数据,包括:
在水岸处布置多个监控摄像头,获取所述露天矿防洪坝水面数据;
对于所述露天矿防洪坝水面数据中的第一图像,采用预设点集组成的一个封闭的多边形将所述第一图像中的水面区域包围起来;
对所述第一图像进行二值化处理,将被包围区域的像素赋红色,将未被包围区域的像素赋黑色;
对所述露天矿防洪坝水面数据中的其余图像采取上述所示的二值化处理,待所有图像标注完成后,得到所述二值化图像数据。
3.根据权利要求1所述的方法,其特征在于,所述编码器包括五个卷积网络,所述编码器用于:
利用穿插在五个卷积网络中的最大化池化和对输入图像进行降维;
在第四卷积网络与第五卷积网络中,利用空洞卷积增大所述编码器的感受野。
4.根据权利要求1所述的方法,其特征在于,所述解码器,包括:
第一注意力细化模块,用于使用全局平均池化和归一化的深度降维,融合输入的图像特征和IMU特征,并对其进行重新加权;
第一空洞空间金字塔池化模块,用于根据输入的图像特征和IMU特征,细化小型水域结构的分割;
第一特征融合模块,用于融合所述第一注意力细化模块和所述第一空洞空间金字塔池化模块的输出特征,并生成1024个特征通道;
第二注意力细化模块,用于将来自第三卷积网络的特征、来自IMU通道编码的特征、以及来自所述第一特征融合模块传输的特征融合;
第二特征融合模块,用于在所述第二注意力细化模块传输的特征上采样,将所述第二注意力细化模块传输的低维特征与第二卷积网络传输的高维特征融合,并重新加权融合后的特征。
5.根据权利要求4所述的方法,其特征在于,所述解码器,还包括:
第二空洞空间金字塔池化模块,用于对输入图像的水域结构进行分割,并提取每个像素的语义标签,其中,所述第二空洞空间金字塔池化模块内置softmax函数。
6.根据权利要求5所述的方法,其特征在于,在对所述第一候选语义分割神经网络和所述第二候选语义分割神经网络进行训练时,还包括:
将所述编码器中的第二卷积网络编码的高分辨率特征和IMU编码特征输入所述解码器中的第二特征融合模块;
将所述编码器中第二卷积网络编码的中分辨率特征和IMU编码特征输入所述解码器的第二注意力细化模块;
将所述编码器中的第五卷积网络编码的低分辨率特征和IMU编码特征输入所述解码器的第一注意力细化模块,并利用堆叠的反卷积层对编码后信息进行解码,将提取到的信息映射到原输入空间的二维平面上。
7.根据权利要求4所述的方法,其特征在于,还包括:
在所述编码器和所述解码器之间添加残差模块;
在所述编码器中预设编号的卷积网络的卷积核中进行填零稀疏操作。
8.根据权利要求1所述的方法,其特征在于,所述第二候选语义分割神经网络采取交叉熵函数作为损失函数,所述损失函数的表达式为:
其中,yic表示第i个像素的标签,pic是像素i属于类别c的预测概率。
9.一种基于水面数据的语义分割神经网络的训练装置,其特征在于,包括:
获取模块,用于获取露天矿防洪坝水面数据,对所述露天矿防洪坝水面数据进行二值化处理,得到二值化图像数据;
构建模块,用于构建第一候选语义分割神经网络,其中,所述第一候选语义分割神经网络由编码器和解码器组成,所述编码器用于对输入图像进行降维并编码,所述解码器用于提取编码图像中每个像素的语义标签;
粗训练模块,用于获取公开水面数据,根据所述公开水面数据对所述第一候选语义分割神经网络进行粗训练,训练结束后,得到第二候选语义分割神经网络;
精训练模块,用于将所述露天矿防洪坝水面数据输入所述第二候选语义分割神经网络,得到分割图像数据,基于所述分割图像与所述二值化图像数据,计算损失值,根据所述损失值对所述第二候选语义分割神经网络进行精训练,直至训练结束,得到训练好的语义分割神经网络。
10.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-8中任一所述的方法。
CN202311387860.0A 2023-10-24 2023-10-24 一种基于水面数据的语义分割神经网络的训练方法及装置 Pending CN117634556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311387860.0A CN117634556A (zh) 2023-10-24 2023-10-24 一种基于水面数据的语义分割神经网络的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311387860.0A CN117634556A (zh) 2023-10-24 2023-10-24 一种基于水面数据的语义分割神经网络的训练方法及装置

Publications (1)

Publication Number Publication Date
CN117634556A true CN117634556A (zh) 2024-03-01

Family

ID=90036669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311387860.0A Pending CN117634556A (zh) 2023-10-24 2023-10-24 一种基于水面数据的语义分割神经网络的训练方法及装置

Country Status (1)

Country Link
CN (1) CN117634556A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117994797A (zh) * 2024-04-02 2024-05-07 杭州海康威视数字技术股份有限公司 一种水尺读数方法、装置、存储介质和电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117994797A (zh) * 2024-04-02 2024-05-07 杭州海康威视数字技术股份有限公司 一种水尺读数方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
US11798132B2 (en) Image inpainting method and apparatus, computer device, and storage medium
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
Kim et al. Unified confidence estimation networks for robust stereo matching
Tian et al. Depth estimation using a self-supervised network based on cross-layer feature fusion and the quadtree constraint
CN110334762B (zh) 一种基于四叉树结合orb和sift的特征匹配方法
CN112990010B (zh) 点云数据处理方法、装置、计算机设备和存储介质
CN111079683A (zh) 基于卷积神经网络的遥感图像云雪检测方法
CN112598053A (zh) 基于半监督学习的主动显著性目标检测方法
CN109242019B (zh) 一种水面光学小目标快速检测与跟踪方法
CN114742799B (zh) 基于自监督异构网络的工业场景未知类型缺陷分割方法
CN117634556A (zh) 一种基于水面数据的语义分割神经网络的训练方法及装置
CN112561879B (zh) 模糊度评价模型训练方法、图像模糊度评价方法及装置
CN113139544A (zh) 一种基于多尺度特征动态融合的显著性目标检测方法
CN112700418A (zh) 一种基于改进编解码网络模型的裂缝检测方法
CN115937546A (zh) 图像匹配、三维图像重建方法、装置、电子设备以及介质
Shi et al. Remote sensing image object detection based on angle classification
CN110533663B (zh) 一种图像视差确定方法、装置、设备及***
CN114529793A (zh) 一种基于门控循环特征融合的深度图像修复***及方法
CN112800932B (zh) 海上背景下显著船舶目标的检测方法及电子设备
CN116343159B (zh) 一种非结构化场景可通行区域检测方法、装置及存储介质
CN116129280B (zh) 一种遥感影像雪检测的方法
CN117132649A (zh) 人工智能融合北斗卫星导航的船舶视频定位方法及装置
CN116310832A (zh) 遥感图像处理方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination