CN113033315A - 一种稀土开采高分影像识别与定位方法 - Google Patents

一种稀土开采高分影像识别与定位方法 Download PDF

Info

Publication number
CN113033315A
CN113033315A CN202110219415.8A CN202110219415A CN113033315A CN 113033315 A CN113033315 A CN 113033315A CN 202110219415 A CN202110219415 A CN 202110219415A CN 113033315 A CN113033315 A CN 113033315A
Authority
CN
China
Prior art keywords
image
rare earth
prediction
earth mining
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110219415.8A
Other languages
English (en)
Inventor
李恒凯
肖松松
王利娟
武镇邦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Science and Technology
Original Assignee
Jiangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Science and Technology filed Critical Jiangxi University of Science and Technology
Priority to CN202110219415.8A priority Critical patent/CN113033315A/zh
Publication of CN113033315A publication Critical patent/CN113033315A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30181Earth observation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及稀土开采技术领域,特别是一种稀土开采高分影像识别与定位方法,包括以下步骤,步骤S1:遥感影像数据获取与预处理;步骤S2:YOLOv3模型建立;步骤S3:YOLOv3算法调整;步骤S4:模型输出结果,将包含预测边界框的像素位置信息,即相对于图像左上角的像素坐标信息以点的形式在遥感图像上标出。采用上述方法后,本发明对YOLOv3目标检测算法进行改进,将注意力机制嵌入特征提取网络中,使得具有注意力效果的梯度能流入更深的网络中,在不影响检测速度的前提下改进了其对于关键特征的提取能力,同时通过改进损失函数实现了模型更快、更稳定地收敛。

Description

一种稀土开采高分影像识别与定位方法
技术领域
本发明涉及稀土开采技术领域,特别是一种稀土开采高分影像识别与定位 方法。
背景技术
南方离子吸附型稀土矿区是我国稀土资源开采最重要的矿区之一。稀土矿 区涉及范围广且多位于偏远山区,普通监测方法效率低下,时效性差。
实地调查是稀土开采监测的工作基础,现有稀土矿开采的监测手段主要有 地面调查、卫星遥感监测和无人机遥感监测。高空间分辨率影像能够更加清楚 地表达地物目标的空间结构与表层纹理特征,可以分辨出地物内部更为精细的 组成,已在稀土开采过程及地表环境扰动识别方面得到应用,但是实地调查和 卫星遥感监测存在效率低下、时效性差的局限性。随着深度学习在目标检测领 域的快速发展,基于神经网络的目标检测算法表现出良好的性能,成为近年来 的研究热点。基于神经网络的目标检测算法可分为两类:第一类为Two-stage检 测算法,首先将图像输入区域推荐网络(RPN)生成候选区域,然后对候选区域再 进行精细分类。代表性的算法有R-CNN,Fast R-CNN,Faster R-CNN等。这类算 法通常具有精度高的优点,但由于检测过程分为两步,所以存在检测速度慢, 存储成本高,模型无法压缩等问题。第二类为One-stage检测算法,其将目标检 测任务视为一个单一的回归问题,是一种端对端目标检测算法,核心思想是将 整个图像作为网络的输入,直接返回输出层中的边界框坐标和分类置信度,降 低了计算复杂度。One-stage检测算法在检测速度上优于two-stage检测算法, 但定位精度低于two-stage检测算法。代表性算法有YOLO、YOLOv3、SSD等。其 中,YOLOv3算法由于检测速度快,小目标检测效果好,通用性强,而得到广泛 关注。
中国发明专利CN 110147778 A公开了一种稀土矿开采识别方法,从离子吸 附型稀土矿开采过程中沉淀池状态及其空间分布关系入手,构建了基于高空间 分辨率遥感影像的深度学习模型,实现稀土开采状态的识别与检测。该模型采 用了一种特征金字塔网络FPN结合双线性插值ROIAlign的卷积神经网络的深度 学习算法,此外,针对离子稀土开采过程中沉淀池存在浸矿液体特征,加入遥 感影像的水体指数NDWI作为为输入训练模型,再将模型用于离子型稀土开采识 别;FPN+ROIAlign+NDWI的组合识别效果最好,能够实现较高的识别准确率,可 以为离子型稀土开采监管提供技术支持。
发明内容
本发明需要解决的技术问题是提供一种实现快速、精准地对稀土矿区开采状 态进行监测的方法。
为解决上述技术问题,本发明的一种稀土开采高分影像识别与定位方法,包 括以下步骤,
步骤S1:遥感影像数据获取与预处理,获得遥感影像数据后进行辐射校正、 几何校正和图像融合预处理,然后导出为RGB三通道图像,最后对图像进行裁 剪,剔除图像中不包含检测目标的部分;
步骤S2:YOLOv3模型建立,先进行YOLOv3算法网络结构的确定,然后进行YOLOv3算法中损失函数的确定,所述损失函数包括第一部分目标定位损失,第 二部分目标置信度损失,最后一部分目标分类损失;
步骤S3:YOLOv3算法调整,当预测框和真实框不相交时,使用CIOU Loss 替换原有目标定位损失函数;将CBAM嵌入YOLOv3算法网络结构的Darknet-53 中;
步骤S4:模型输出结果,将包含预测边界框的像素位置信息,即相对于图像 左上角的像素坐标信息以点的形式在遥感图像上标出。
优选的,所述步骤S1中图像进行裁剪后,采用翻转、旋转、镜像、亮度、 色度、高斯模糊数据增强方法将数据集进行扩充。
优选的,所述步骤S2中YOLOv3算法网络结构的确定包括Darknet-53特征 提取网络部分和多尺度检测部分。
优选的,所述多尺度检测部分通过YOLOv3算法采用的特征金字塔网络的结 构,将每个尺度的特征图与经过两倍上采样的上一尺度的特征图进行特征融合。
优选的,所述步骤S3中目标定位损失以均方误差作为损失函数的目标函数, 具体包括首先计算网络生成的预测框与真实框的交集的面积与并集的面积的比 值,获得两个框的交并比;然后通过预先设定好的IOU阈值对预测框进行筛选, 筛选出IOU大于阈值的预测框;最后计算其对应的目标定位损失。
优选的,当预测框和真实框不相交时,两个框的IOU值为0时,使用CIOU Loss 替换原有目标定位损失函数。
优选的,所述步骤S1中在裁剪后的图像在图像训练与识别过程中需要将其 分割为尺寸较小的多张图像后输入模型进行训练和检测。
优选的,分割后的图像中若识别该沉淀池为2个或多个预测框,需要用完整 的预测框替换不完整的预测框,具体包括:
先指定一个阈值α,计算两个预测框的IOMIN指数,如果IOMIN大于α, 则删除面积较小的预测框,保留面积较大的预测框。
优选的,在遥感影像的稀土矿区沉淀池定位过程中采用随机森林分类法。
采用上述方法后,本发明对YOLOv3目标监测算法进行改进,将注意力机制 嵌入特征提取网络中,使得具有注意力效果的梯度能流入更深的网络中,在不 影响检测速度的前提下改进了其对于关键特征的提取能力,同时通过改进损失 函数实现了模型更快、更稳定地收敛。此外,本文还提出一种影像偏移分割方 法以及一个新的指数IOMIN,二者结合用于解决遥感影像分割过程中可能导致同 一个目标出现多个检测框或者目标被分割后难以识别从而出现漏检的问题。最 后利用坐标转换公式将稀土矿区沉淀池的检测结果转换为平面坐标系中的定位 点,为稀土管理部门及时了解稀土矿区沉淀池的分布情况并进行高效的处理工 作提供技术支持。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为经预处理后的遥感数据图像示意图;
图2为YOLOv3网络结构示意图;
图3为通道注意力机制结构示意图;
图4为空间注意力机制结构示意图;
图5为CBAM嵌入Darknet-53的残差结构中示意图;
图6为样本边界框框K-means聚类结果示意图;
图7为边界框的尺寸先验与位置预测示意图;
图8为YOLOv3算法检测流程示意图;
图9为改进后的YOLOv3模型检测结果示意图;
图10为沉淀池被分割到两幅或多幅图像中的示意图;
图11为影像4种分割方法示意图;
图12为稀土矿区遥感影像局部分割示意图;
图13为滑动窗口示意图;
图14为XY平面坐标系示意图;
图15为稀土矿区沉淀池精准定位示意图;
图16为沉淀池错误识别结果示意图;
图17为随机森林分类结果示意图。
具体实施方式
如图1所示,本发明的一种稀土开采高分影像识别与定位方法,包括以下步 骤,
步骤S1:遥感影像数据获取与预处理,获得遥感影像数据后进行辐射校正、 几何校正和图像融合预处理,然后导出为RGB三通道图像,最后对图像进行裁 剪,剔除图像中不包含检测目标的部分;
步骤S2:YOLOv3模型建立,先进行YOLOv3算法网络结构的确定,然后进行 YOLOv3算法中损失函数的确定,所述损失函数包括第一部分目标定位损失,第 二部分目标置信度损失,最后一部分目标分类损失;
步骤S3:YOLOv3算法调整,当预测框和真实框不相交时,使用CIOU Loss 替换原有目标定位损失函数;将CBAM嵌入YOLOv3算法网络结构的Darknet-53 中;
步骤S4:模型输出结果,将包含预测边界框的像素位置信息,即相对于图 像左上角的像素坐标信息以点的形式在遥感图像上标出。
其中,步骤S1中本发明使用法国的Pleiades遥感影像作为研究区域数据。Pleiades遥感影像由1个空间分辨率为0.5m的全色波段和空间分辨率为2m的 红、绿、蓝、近红外波段组成。将Pleiades遥感影像进行辐射校正、几何校正 和图像融合等预处理后,导出为RGB三通道图像并使用matlab软件按照图像尺 寸320像素×320像素进行裁剪。由于在研究区域范围内,遥感影像显示的大部 分区域属于林地,裁剪后的小图像中大部分不包含检测目标,需对其进行剔除。 剔除之后的数据集图像数量较少,因此采用翻转、旋转、镜像、亮度、色度、 高斯模糊等数据增强方法将数据集进行扩充,如图1所示,图1中(a)原图,(b)逆时针旋转90°,(c)逆时针旋转180°,(d)逆时针旋转270°,(e)垂直翻 转后顺时针旋转30°,(f)水平翻转,(g)高斯模糊,(h)色彩平衡,(i-j)亮 度调整。最终扩充到2488幅图像,并以4:1:0.4的比例随机划分为训练集、测 试集与验证集。样本标签数据使用lableIMG人工标注的方式制作,包含圆形沉 淀池和方形沉淀池两类。
步骤S2中YOLOv3模型包括网络结构和损失函数,具体如下:
(1)网络结构
YOLOv3算法的网络结构主要分为两个部分,如图2所示。1)Darknet-53 特征提取网络部分。Darknet-53采用全卷积网络实现特征图的下采样,并借鉴 ResNet的残差结构来减小梯度***的风险,避免出现梯度消失。2)多尺度检测 部分。为了加强算法对小目标检测的精确度,YOLOv3采用类似于特征金字塔网 络(FPN)的结构,将每个尺度的特征图与经过两倍上采样的上一尺度的特征图进 行特征融合。通过这种融合方式,可以联系不同分辨率的特征图,使每层预测 所用的特征图都融合了不同分辨率和不同语义强度的特征。最后在13×13, 26×26和52×52三个尺度上进行类别和位置预测。
(2)损失函数
YOLOv3中损失函数分为三个部分,第一部分是目标定位损失,第二部分是目 标置信度损失,最后一部分是目标分类损失。
Loss=Lcoor+Lconf+Lclass (1)
式中,Lcoor为目标定位损失;Lconf为目标置信度损失;Lclcss为目标分类损 失。
Figure BDA0002954011700000071
Figure BDA0002954011700000072
Figure BDA0002954011700000073
Figure BDA0002954011700000074
式中,Lxy,Lwh分别为预测框左上角的坐标误差和预测框的宽高误差;λcoor为误差协调系数;K2代表将输入图像分为K×K的网格;i表示第输入图片中 的第i个网格;j为预测分支号;
Figure RE-GDA0003071602370000076
表示预测框的中心坐标;
Figure RE-GDA0003071602370000077
表 示第真实框的中心坐标;
Figure RE-GDA0003071602370000078
表示第i个网格是否预测一个目标物体,如果该 网格负责预测一个目标,则
Figure RE-GDA0003071602370000079
否则
Figure RE-GDA00030716023700000710
Figure RE-GDA00030716023700000711
表示预测框的宽高大 小;
Figure RE-GDA0003071602370000081
表示真实框的宽高大小;
Figure RE-GDA0003071602370000082
为预测框内含有目标物体的概率值;
Figure RE-GDA0003071602370000083
表示真实值,取值由第i个网格是否负责预测某类目标决定,如果负责那么
Figure RE-GDA0003071602370000084
否则
Figure RE-GDA0003071602370000085
classes表示检测目标类别集合;
Figure RE-GDA0003071602370000086
表示第i个网格负责预测的预测框属于类别c的概率值;
Figure RE-GDA0003071602370000087
表示预测框所属类别的真实值, 如果属于类别c,则
Figure RE-GDA0003071602370000088
否则
Figure RE-GDA0003071602370000089
目标定位损失Lcoor,以均方误差(MSE)作为损失函数的目标函数。首先计算 网络生成的预测框与真实框的交集的面积与并集的面积的比值,获得两个框的 交并比(IOU)。然后通过预先设定好的IOU阈值对预测框进行筛选,筛选出IOU 大于阈值的预测框。最后计算其对应的Lcoor
Figure BDA00029540117000000815
式中,b1、b2分别表示预测框与真实框;SI(b1,b2)表示两个框交集的面积; SU(b1,b2)表示两个框并集的面积。
所述步骤S3 YOLOv3算法调整和改进,具体如下:
YOLOv3算法的实时检测性能得益于其全卷积网络结构和较小的卷积核尺寸 以及回归边界框的算法设计,相比于其他目标检测模型具有速度快精度高的特 点。本发明针对稀土矿区沉淀池的在遥感影像上的图像特征,对YOLOv3算法进 行改进,使其在稀土矿区沉淀池检测任务上达到更优的性能。
(1)损失函数改进。当预测框和真实框不相交时,两个框的IOU值为0,此 时不能反映两个框之间的距离,目标定位损失函数无法优化预测框和真实框不 相交的情况。针对上述问题,使用CIOU Loss替换原有目标定位损失函数。CIOU Loss在IOU的基础上综合考虑预测框和真实框的中心点距离、长宽比以及重叠 率,可以更好地刻画预测框与真实框之间的位置关系,通过预测框定位过程一 体化,提升目标定位精度,以实现模型更快、更稳定的收敛。
Figure BDA0002954011700000091
Figure BDA0002954011700000092
Figure BDA0002954011700000093
式中,LCIOU为CIOU Loss,b,bgt分别表示预测框和真实框的中心点;ρ(b,bgt) 表示预测框和真实框的中心点的欧式距离;c表示预测框和真实框并集的最小外 包矩形的对角线长度;α为权衡参数;v为衡量预测框和真实框宽高比一致性的 参数;w,wgt分别表示预测框和真实框的宽度;h,hgt分别表示预测框和真实框 的高度;
(2)特征提取网络改进。提取目标关键信息对目标分类起着至关重要的作 用,然而在目标检测过程中提取图像关键信息时容易受背景等无用信息的影响。 2019年提出的SENet将通道注意力模块加入到ResNet残差块中,随后Sanghyun 等人提出的CBAM(Convolutional Black Attention Model)同时使用了空间注意 力和通道注意力。本发明将CBAM嵌入Darknet-53中来提升其对于稀土矿区沉 淀池关键特征的提取能力。
在通道注意力机制中,给定一个C×H×W(C为通道数)的特征图作为输入, 通道注意力针对每个通道,在通道纬上学***均池化和全局最大池化将全局信息压缩到一个通道中,然后通过 全连接层降低特征图纬度,经过ReLU激活函数,再经过一个全连接层,重构成 输入注意力模块之前的纬度,最后经过Sigmoid得到归一化的权重,生成通道 注意力矩阵。经过特征加权操作为特征图增加通道注意力机制,得到重新筛选 的特征图,并继续向下传播。
空间注意力机制主要关注目标在图像上的位置信息,可以看成是通道注意力 的补充。在一个C×H×W的特征图中,空间注意力机制在H×W尺寸的特征图上 学***均池化和最大池来压缩特征图的通道信息。然后连接两个池 化操作的结果得到新的特征图,通过一个7×7的卷积操作将通道数将为1,通 过Sigmoid函数得到归一化的权重,生成空间注意力矩阵。最后经过特征加权 操作为特征图增加空间注意力,得到重新筛选的特征图,并继续向下传播。
在YOLOv3模型建立和改进时需要对其进行训练和检测,本发明所有实验均 在Windows10操作***上进行,处理器为Intel Xeon(R)Silvet 4110CPU@ 2.10GHz,GPU为NVIDIA Quadro P5000,显存16G,使用Tensorflow、Keras作 为深度学习框架。在参数设置方面,初始学习率设置为0.001,学习率衰减系数 为0.1,Batch size设置为8(每次迭代训练张样本图片),共迭代22400次,置 信度阈值设置为0.7。YOLOv3算法不需要预先生成感兴趣区(ROI),而是直接以 回归的方式来训练网络,同时对训练数据集使用K-moans算法来进行训练样本 边界框的聚类,如图6所示,最终分别在3个尺度上预设3组预定义的边界框 大小。如图7所示,首先通过特征提取网络在输入的图像上进行特征提取,然 后将特征向量输入FPN结构,产生3个尺度(13×13,26×26,52×52)上的 网格区域,每个网格区域预测3个边界框,共产生10647个边界框,最后在每 个边界框中预测一个向量P。最后对产生的预测框进行非极大值抑制,得到最终 的预测结果。整个检测过程如图8所示,改进后的YOLOv3模型部分检测结果如 图9所示。
P=(tx,ty,tw,th,IobjIOU,p1,p2,…,pi) (10)
bx=Sigmoid(tx)+Cx (11)
by=Sigmoid(ty)+Cy (12)
Figure BDA0002954011700000111
Figure BDA0002954011700000112
Figure BDA0002954011700000113
式中,tx,ty,tw,th是与预测框中心点像素坐标和高宽有关的4个变量; σ表示Sigmold函数;Cx,Cy表示该边界框所属网格相对于图片左上角的偏移量; bx,by表示最终预测框的中心点像素坐标;pw,ph表示预定义锚框的宽高;bw,bh表示预测框的宽高;Iobj表示使用逻辑回归对边界框的预测得分,当边界框与 ground truth的重叠度为最大时,Iobj-1,否则Iobj=0;IOU为边界框和ground truth的交并比;p1,p2,…,pi表示预测的目标属于所有类别中第i类的分数,由 Sigmoid函数得出。
在通过YOLOv3模型进行稀土矿区沉淀池识别和定位后,需要确定目标检测 评价指标,准确率P和召回率R是分类问题中常用的评价指标.P为测试样本中 被正确识别为某类的个数与该类在样本中实际个数的比值.R为被正确识别为某 类的个数与该类在样本中预测的总个数的比值,即
Figure BDA0002954011700000121
Figure BDA0002954011700000122
式中:TP为被正确地划分正类的个数,即实际为正类且被分类器划分为正类 的样本数;FP为被错误地划分正类的个数,即实际为负类但被分类器划分为正 类的样本数;FN为被错误地划分负类的个数,即实际为正类但被分类器划分为 负类的样本数;TN为被正确地划分负类的个数,即实际为负类且被分类器划分 为负类的样本数。
为了量化本发明采用的算法模型对稀土矿区遥感影像的识别分割性能,设定 如表1所示的混淆矩阵。
表1预测类别混淆矩阵
Table 1 Predictive category confusion matrix
Figure BDA0002954011700000123
Figure BDA0002954011700000131
R在目标检测中是模型覆盖面的度量,通常在深度学***均精确度(AP)。其计算方法为:假设在N个样 本中有M个正类,那么会得到M个R
Figure BDA0002954011700000132
对于每个R,计算其对应 的最大P,然后对这M个P取平均即得到最后的AP值,AP衡量的是训练的模型 在每个类别上的性能指标,AP值越高,精确度越高。针对所有类别采用均值平 均精度(mAP),mAP衡量的是训练的模型在所有类别上的性能指标,计算公式为
Figure BDA0002954011700000133
Figure BDA0002954011700000134
式中:M为样本中正类个数,P(r)为对应R的最大精确率;Q为类别数;AP(q)为 对应类别的平均精确度。
另外,在步骤S1中遥感影像需要进行偏移分割,具体如下:
卫星图像通常尺度比较大,大部分覆盖面积超过200km2,而稀土矿区沉淀 池在影像中的面积在20到1500m2。如果直接将影像输入模型中训练,一方面会 造成目标被过度压缩而无法识别,另一方面会占用大量的显存,影响运算速度, 因此在图像训练与识别过程中需要将其分割为尺寸较小的图像后输入模型进行 训练与检测。在图像分割过程中,可能会出现某一目标被分割到两张或多张子 图像中的情况,如图10所示,可能导致同一个目标出现多个检测框或者目标被 分割后难以识别从而出现漏检的问题。针对这一问题,提出以下解决方案:1) 首先将原始影像按照320×320像素尺寸进行分割,然后分别再将原始影像按照 向X轴方向、Y轴方向、以及X轴Y轴同时偏移160像素(分割为小图像宽度的 一半)长度进行320×320像素尺寸进行分割(上述4种分割方式在下文统一称 为分割方法1、分割方法2、分割方法3、分割方法4),如图11所示:图11影 像4种分割方法,实线表示分割线,虚线表示未进行偏移的分割线:未进行偏 移分割(左上);向Y轴偏移分割(右上);向X轴偏移分割(左下);同时向X轴 和Y轴偏移分割(右下)。绿色方块表示未偏移分割的小图像,黄色的表示使用 不同分割方式得到的小图像。
2)受IOU(交并比,通常用来衡量预测框与真实框的重叠度)的启发,构 建一个新的指数IOMIN(即两个预测框的交集面积与二者面积较小的预测框的面 积之比)用来判断两个预测框是否来自同一目标。如图12所示,假设该图为一 幅影像的局部分割情况,绿色半透明背景表示分割方发1得到的一张小图像, 黄色半透明背景表示分割方法4得到的一幅小图像。从图中可知,绿色背景下 的图像右上角沉淀池在分割方法1下,被分割到4幅小图像中。在绿色背景图 像中被识别为黄色的预测框。而在黄色背景图像中被完整的识别为红色预测框。 在分割方法1的图像中可能会识别该沉淀池为2个或多个预测框。因此需要用完整的预测框替换不完整的预测框,本发明采用的方法为:先指定一个阈值α, 计算两个预测框的IOMIN指数,如果IOMIN大于α,则删除面积较小的预测框, 保留面积较大的预测框。对于采用分割方法1得到的每张小图像,使用其他三 种分割方法可以得到与其相邻的8张小图像。在这9张图像中每两张相邻图像 分别计算第一张图像与第二张图像中任意两个预测框的IOMIN指数,直至所有 预测框都参与计算,对于图像中没有检测到目标的则不参与计算。最后以分割 方法1得到的小图像为基础单元在整幅影像中使用滑动窗口机制计算所有相邻 图像中的任意两个预测框的IOMIN指数,并根据IOMIN阈值剔除不完整目标的 预测框,如图13所示。使用上述方法可以实现对稀土矿区沉淀池的完整识别。
Figure BDA0002954011700000151
式中:b1、b2分别表示两个预测框;SI(b1,b2)表示两个框交集的面积;SMIN(b1,b2)表示两个框中较小的框的面积。
为了方便稀土管理部门及时了解稀土矿区沉淀池的分布情况并进行高效的 处理工作,则需要给出模型预测结果中的平面坐标信息并以点的形式在遥感影 像上标出。模型输出结果中包含预测边界框的像素位置信息,即相对于图像左 上角的像素坐标信息,结果用4个数值表示预测边界框的位置,分别为左上角 和右下角的像素坐标值(xmin、ymin、xmax、ymax)。因此需要将预测框中心点的像素 坐标转换为平面点坐标,然后导出为Shape图层。所选用的坐标系为 WGS_1984_UTM_zone_50N。坐标转换过程如下。
图14中的XY坐标系为平面坐标系。xy坐标系为像素坐标系,大矩形框表示 图像,小矩形框表示图像中的某一预测边界框。结合图像获取和分割过程,可 以知道每幅图像的左上角(X01,Y01)的平面坐标,然后根据(X01,Y01)计算出每个预 测边界框中心点的平面坐标(Xi,Yi)。研究区域沉淀池定位结果如图15所示。
Figure BDA0002954011700000152
Figure BDA0002954011700000161
式中:i表示图像中第i个预测框;xi、yi表示预测框中心点的像素坐标;Xi、 Yi表示第i个预测框中心点的平面坐标值;Δx、Δy分别表示遥感影像水平方向与 垂直方向上的空间分辨率(单位:m)。
在遥感影像中水体与暗色建筑、建筑物和山体阴影的光谱特征相似。所以在 对稀土矿区沉淀池的识别过程中会出现将暗色建筑、建筑物和山体阴影误分为 沉淀池的情况,如图16所示。在遥感影像的水体提取研究中,常用NDWI、MNDWI 等指数来对水体进行提取,但是水体指数不能稳定地区分水体与阴影。经过实 验发现使用随机森林分类法可以有效地区分水体、建筑物和阴影。本发明将沉 淀池的定位点分为3类:沉淀池、暗色建筑、建筑物和山体阴影。首先,以遥 感影像的光谱特征(Pleiades影像自带的红、绿、蓝、近红外4个波段反射率)、 水体指数(NDWI)和植被指数(NDVI)构建特征集;其次,在研究区范围内随 机选取各类定位点共387个样本点,如表2所示,其中训练样本270个,验证 样本117个;最后,对定位点进行随机森林分类,结合验证样本点对分类结果 进行验证。
表2各类定位点的样本数量
Figure BDA0002954011700000162
由分类结果的混淆矩阵(表3)可知,分类结果总体精度达到92.31%,Kappa系 数为0.86。总体分类结果较好,能够很好地区分沉淀池、暗色建筑、建筑物和山 体阴影。分类结果如图17所示。
表3混淆矩阵
Figure BDA0002954011700000171
虽然以上描述了本发明的具体实施方式,但是本领域熟练技术人员应当理 解,这些仅是举例说明,可以对本实施方式作出多种变更或修改,而不背离本 发明的原理和实质,本发明的保护范围仅由所附权利要求书限定。

Claims (9)

1.一种稀土开采高分影像识别与定位方法,其特征在于,包括以下步骤,
步骤S1:遥感影像数据获取与预处理,获得遥感影像数据后进行辐射校正、几何校正和图像融合预处理,然后导出为RGB三通道图像,最后对图像进行裁剪,剔除图像中不包含检测目标的部分;
步骤S2:YOLOv3模型建立,先进行YOLOv3算法网络结构的确定,然后进行YOLOv3算法中损失函数的确定,所述损失函数包括第一部分目标定位损失,第二部分目标置信度损失,最后一部分目标分类损失;
步骤S3:YOLOv3算法调整,当预测框和真实框不相交时,使用CIOU Loss替换原有目标定位损失函数;将CBAM嵌入YOLOv3算法网络结构的Darknet-53中;
步骤S4:模型输出结果,将包含预测边界框的像素位置信息,即相对于图像左上角的像素坐标信息以点的形式在遥感图像上标出。
2.按照权利要求1所述的一种稀土开采高分影像识别与定位方法,其特征在于:所述步骤S1中图像进行裁剪后,采用翻转、旋转、镜像、亮度、色度、高斯模糊数据增强方法将数据集进行扩充。
3.按照权利要求1所述的一种稀土开采高分影像识别与定位方法,其特征在于,所述步骤S2中YOLOv3算法网络结构的确定包括Darknet-53特征提取网络部分和多尺度检测部分。
4.按照权利要求3所述的一种稀土开采高分影像识别与定位方法,其特征在于:所述多尺度检测部分通过YOLOv3算法采用的特征金字塔网络的结构,将每个尺度的特征图与经过两倍上采样的上一尺度的特征图进行特征融合。
5.按照权利要求1所述的一种稀土开采高分影像识别与定位方法,其特征在于:所述步骤S3中目标定位损失以均方误差作为损失函数的目标函数,具体包括首先计算网络生成的预测框与真实框的交集的面积与并集的面积的比值,获得两个框的交并比;然后通过预先设定好的IOU阈值对预测框进行筛选,筛选出IOU大于阈值的预测框;最后计算其对应的目标定位损失。
6.按照权利要求5所述的一种稀土开采高分影像识别与定位方法,其特征在于:当预测框和真实框不相交时,两个框的IOU值为0时,使用CIOU Loss替换原有目标定位损失函数。
7.按照权利要求1所述的一种稀土开采高分影像识别与定位方法,其特征在于,所述步骤S1中在裁剪后的图像在图像训练与识别过程中需要将其分割为尺寸较小的多张图像后输入模型进行训练和检测。
8.按照权利要求7所述的一种稀土开采高分影像识别与定位方法,其特征在于,分割后的图像中若识别该沉淀池为2个或多个预测框,需要用完整的预测框替换不完整的预测框,具体包括:
先指定一个阈值α,计算两个预测框的IOMIN指数,如果IOMIN大于α,则删除面积较小的预测框,保留面积较大的预测框。
9.按照权利要求1所述的一种稀土开采高分影像识别与定位方法,其特征在于:在遥感影像的稀土矿区沉淀池定位过程中采用随机森林分类法。
CN202110219415.8A 2021-02-26 2021-02-26 一种稀土开采高分影像识别与定位方法 Pending CN113033315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110219415.8A CN113033315A (zh) 2021-02-26 2021-02-26 一种稀土开采高分影像识别与定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110219415.8A CN113033315A (zh) 2021-02-26 2021-02-26 一种稀土开采高分影像识别与定位方法

Publications (1)

Publication Number Publication Date
CN113033315A true CN113033315A (zh) 2021-06-25

Family

ID=76462403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110219415.8A Pending CN113033315A (zh) 2021-02-26 2021-02-26 一种稀土开采高分影像识别与定位方法

Country Status (1)

Country Link
CN (1) CN113033315A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114020881A (zh) * 2022-01-10 2022-02-08 珠海金智维信息科技有限公司 话题定位的方法及***
CN114298187A (zh) * 2021-12-20 2022-04-08 西南交通大学 一种融合改进注意力机制的目标检测算法
CN115861328A (zh) * 2023-03-01 2023-03-28 中国科学院空天信息创新研究院 墓葬检测方法、装置和电子设备
CN116246175A (zh) * 2023-05-05 2023-06-09 西昌学院 土地利用信息生成方法、电子设备和计算机可读介质
CN116664573A (zh) * 2023-07-31 2023-08-29 山东科技大学 一种基于改进yolox的井下钻杆数量统计方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147778A (zh) * 2019-05-27 2019-08-20 江西理工大学 稀土矿开采识别方法、装置、设备及存储介质
CN111666836A (zh) * 2020-05-22 2020-09-15 北京工业大学 M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法
CN112287788A (zh) * 2020-10-20 2021-01-29 杭州电子科技大学 基于改进YOLOv3和改进NMS的行人检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147778A (zh) * 2019-05-27 2019-08-20 江西理工大学 稀土矿开采识别方法、装置、设备及存储介质
CN111666836A (zh) * 2020-05-22 2020-09-15 北京工业大学 M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法
CN112287788A (zh) * 2020-10-20 2021-01-29 杭州电子科技大学 基于改进YOLOv3和改进NMS的行人检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
严开忠 等: ""基于改进YOLOv3的机载平台目标检测"", 《电光与控制》 *
徐信罗 等: ""基于Faster R-CNN的松材线虫病受害木识别与定位"", 《农业机械学报》 *
李恒凯、肖松松、***、柯江晨1: ""基于Mask R-CNN的高分遥感影像的稀土开采识别方法"", 《中国矿业大学学报》 *
王生霄、侯兴松、黑夏萌: ""嵌入CBAM结构的改进YOLOV3超宽带雷达生命信号检测算法"", 《国外电子测量技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114298187A (zh) * 2021-12-20 2022-04-08 西南交通大学 一种融合改进注意力机制的目标检测算法
CN114298187B (zh) * 2021-12-20 2023-08-29 西南交通大学 一种融合改进注意力机制的目标检测方法
CN114020881A (zh) * 2022-01-10 2022-02-08 珠海金智维信息科技有限公司 话题定位的方法及***
CN114020881B (zh) * 2022-01-10 2022-05-27 珠海金智维信息科技有限公司 话题定位的方法及***
CN115861328A (zh) * 2023-03-01 2023-03-28 中国科学院空天信息创新研究院 墓葬检测方法、装置和电子设备
CN116246175A (zh) * 2023-05-05 2023-06-09 西昌学院 土地利用信息生成方法、电子设备和计算机可读介质
CN116664573A (zh) * 2023-07-31 2023-08-29 山东科技大学 一种基于改进yolox的井下钻杆数量统计方法
CN116664573B (zh) * 2023-07-31 2024-02-09 山东科技大学 一种基于改进yolox的井下钻杆数量统计方法

Similar Documents

Publication Publication Date Title
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN110175576B (zh) 一种结合激光点云数据的行驶车辆视觉检测方法
CN107871119B (zh) 一种基于目标空间知识和两阶段预测学习的目标检测方法
CN113033315A (zh) 一种稀土开采高分影像识别与定位方法
CN112084869B (zh) 一种基于紧致四边形表示的建筑物目标检测方法
CN112818903A (zh) 一种基于元学习和协同注意力的小样本遥感图像目标检测方法
Wang et al. Photovoltaic panel extraction from very high-resolution aerial imagery using region–line primitive association analysis and template matching
CN113378686B (zh) 一种基于目标中心点估计的两阶段遥感目标检测方法
CN112347895A (zh) 一种基于边界优化神经网络的舰船遥感目标检测方法
CN113435282B (zh) 基于深度学习的无人机影像麦穗识别方法
CN111563408B (zh) 多层次感知特征渐进自学习的高分辨率影像滑坡自动检测方法
CN112766184B (zh) 基于多层级特征选择卷积神经网络的遥感目标检测方法
CN113569724B (zh) 基于注意力机制和扩张卷积的道路提取方法及***
CN107992856A (zh) 城市场景下的高分遥感建筑物阴影检测方法
CN111008994A (zh) 基于MPSoC的运动目标实时检测跟踪***及方法
CN116342894A (zh) 基于改进YOLOv5的GIS红外特征识别***及方法
CN116630301A (zh) 基于超分辨率和YOLOv8的带钢表面小目标缺陷检测方法及***
Laupheimer et al. The importance of radiometric feature quality for semantic mesh segmentation
CN114639023A (zh) 一种基于机器学习的屋顶光伏潜力评估方法
CN113902792A (zh) 基于改进RetinaNet网络的建筑物高度检测方法、***和电子设备
CN113052110A (zh) 一种基于多视图投影和深度学习的三维兴趣点提取方法
CN117079125A (zh) 一种基于改进型YOLOv5的猕猴桃授粉花朵识别方法
CN110889418A (zh) 一种气体轮廓识别方法
CN106909936B (zh) 一种基于双车辆可变形部件模型的车辆检测方法
CN112036246B (zh) 遥感影像分类模型的构建方法,遥感影像分类方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210625