CN113033315A

CN113033315A - 一种稀土开采高分影像识别与定位方法

Info

Publication number: CN113033315A
Application number: CN202110219415.8A
Authority: CN
Inventors: 李恒凯; 肖松松; 王利娟; 武镇邦
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-25

Abstract

本发明涉及稀土开采技术领域，特别是一种稀土开采高分影像识别与定位方法，包括以下步骤，步骤S1：遥感影像数据获取与预处理；步骤S2：YOLOv3模型建立；步骤S3：YOLOv3算法调整；步骤S4：模型输出结果，将包含预测边界框的像素位置信息，即相对于图像左上角的像素坐标信息以点的形式在遥感图像上标出。采用上述方法后，本发明对YOLOv3目标检测算法进行改进，将注意力机制嵌入特征提取网络中，使得具有注意力效果的梯度能流入更深的网络中，在不影响检测速度的前提下改进了其对于关键特征的提取能力，同时通过改进损失函数实现了模型更快、更稳定地收敛。

Description

一种稀土开采高分影像识别与定位方法

技术领域

本发明涉及稀土开采技术领域，特别是一种稀土开采高分影像识别与定位方法。

背景技术

南方离子吸附型稀土矿区是我国稀土资源开采最重要的矿区之一。稀土矿区涉及范围广且多位于偏远山区，普通监测方法效率低下，时效性差。

实地调查是稀土开采监测的工作基础，现有稀土矿开采的监测手段主要有地面调查、卫星遥感监测和无人机遥感监测。高空间分辨率影像能够更加清楚地表达地物目标的空间结构与表层纹理特征，可以分辨出地物内部更为精细的组成，已在稀土开采过程及地表环境扰动识别方面得到应用，但是实地调查和卫星遥感监测存在效率低下、时效性差的局限性。随着深度学习在目标检测领域的快速发展，基于神经网络的目标检测算法表现出良好的性能，成为近年来的研究热点。基于神经网络的目标检测算法可分为两类:第一类为Two-stage检测算法，首先将图像输入区域推荐网络(RPN)生成候选区域，然后对候选区域再进行精细分类。代表性的算法有R-CNN，Fast R-CNN，Faster R-CNN等。这类算法通常具有精度高的优点，但由于检测过程分为两步，所以存在检测速度慢，存储成本高，模型无法压缩等问题。第二类为One-stage检测算法，其将目标检测任务视为一个单一的回归问题，是一种端对端目标检测算法，核心思想是将整个图像作为网络的输入，直接返回输出层中的边界框坐标和分类置信度，降低了计算复杂度。One-stage检测算法在检测速度上优于two-stage检测算法，但定位精度低于two-stage检测算法。代表性算法有YOLO、YOLOv3、SSD等。其中，YOLOv3算法由于检测速度快，小目标检测效果好，通用性强，而得到广泛关注。

中国发明专利CN 110147778 A公开了一种稀土矿开采识别方法，从离子吸附型稀土矿开采过程中沉淀池状态及其空间分布关系入手，构建了基于高空间分辨率遥感影像的深度学习模型，实现稀土开采状态的识别与检测。该模型采用了一种特征金字塔网络FPN结合双线性插值ROIAlign的卷积神经网络的深度学习算法，此外，针对离子稀土开采过程中沉淀池存在浸矿液体特征，加入遥感影像的水体指数NDWI作为为输入训练模型，再将模型用于离子型稀土开采识别；FPN+ROIAlign+NDWI的组合识别效果最好，能够实现较高的识别准确率，可以为离子型稀土开采监管提供技术支持。

发明内容

本发明需要解决的技术问题是提供一种实现快速、精准地对稀土矿区开采状态进行监测的方法。

为解决上述技术问题，本发明的一种稀土开采高分影像识别与定位方法，包括以下步骤，

步骤S1：遥感影像数据获取与预处理，获得遥感影像数据后进行辐射校正、几何校正和图像融合预处理，然后导出为RGB三通道图像，最后对图像进行裁剪，剔除图像中不包含检测目标的部分；

步骤S2：YOLOv3模型建立，先进行YOLOv3算法网络结构的确定，然后进行YOLOv3算法中损失函数的确定，所述损失函数包括第一部分目标定位损失，第二部分目标置信度损失，最后一部分目标分类损失；

步骤S3：YOLOv3算法调整，当预测框和真实框不相交时，使用CIOU Loss 替换原有目标定位损失函数；将CBAM嵌入YOLOv3算法网络结构的Darknet-53 中；

步骤S4：模型输出结果，将包含预测边界框的像素位置信息，即相对于图像左上角的像素坐标信息以点的形式在遥感图像上标出。

优选的，所述步骤S1中图像进行裁剪后，采用翻转、旋转、镜像、亮度、色度、高斯模糊数据增强方法将数据集进行扩充。

优选的，所述步骤S2中YOLOv3算法网络结构的确定包括Darknet-53特征提取网络部分和多尺度检测部分。

优选的，所述多尺度检测部分通过YOLOv3算法采用的特征金字塔网络的结构，将每个尺度的特征图与经过两倍上采样的上一尺度的特征图进行特征融合。

优选的，所述步骤S3中目标定位损失以均方误差作为损失函数的目标函数，具体包括首先计算网络生成的预测框与真实框的交集的面积与并集的面积的比值，获得两个框的交并比；然后通过预先设定好的IOU阈值对预测框进行筛选，筛选出IOU大于阈值的预测框；最后计算其对应的目标定位损失。

优选的，当预测框和真实框不相交时，两个框的IOU值为0时，使用CIOU Loss 替换原有目标定位损失函数。

优选的，所述步骤S1中在裁剪后的图像在图像训练与识别过程中需要将其分割为尺寸较小的多张图像后输入模型进行训练和检测。

优选的，分割后的图像中若识别该沉淀池为2个或多个预测框，需要用完整的预测框替换不完整的预测框，具体包括：

先指定一个阈值α，计算两个预测框的IOMIN指数，如果IOMIN大于α，则删除面积较小的预测框，保留面积较大的预测框。

优选的，在遥感影像的稀土矿区沉淀池定位过程中采用随机森林分类法。

采用上述方法后，本发明对YOLOv3目标监测算法进行改进，将注意力机制嵌入特征提取网络中，使得具有注意力效果的梯度能流入更深的网络中，在不影响检测速度的前提下改进了其对于关键特征的提取能力，同时通过改进损失函数实现了模型更快、更稳定地收敛。此外，本文还提出一种影像偏移分割方法以及一个新的指数IOMIN，二者结合用于解决遥感影像分割过程中可能导致同一个目标出现多个检测框或者目标被分割后难以识别从而出现漏检的问题。最后利用坐标转换公式将稀土矿区沉淀池的检测结果转换为平面坐标系中的定位点，为稀土管理部门及时了解稀土矿区沉淀池的分布情况并进行高效的处理工作提供技术支持。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为经预处理后的遥感数据图像示意图；

图2为YOLOv3网络结构示意图；

图3为通道注意力机制结构示意图；

图4为空间注意力机制结构示意图；

图5为CBAM嵌入Darknet-53的残差结构中示意图；

图6为样本边界框框K-means聚类结果示意图；

图7为边界框的尺寸先验与位置预测示意图；

图8为YOLOv3算法检测流程示意图；

图9为改进后的YOLOv3模型检测结果示意图；

图10为沉淀池被分割到两幅或多幅图像中的示意图；

图11为影像4种分割方法示意图；

图12为稀土矿区遥感影像局部分割示意图；

图13为滑动窗口示意图；

图14为XY平面坐标系示意图；

图15为稀土矿区沉淀池精准定位示意图；

图16为沉淀池错误识别结果示意图；

图17为随机森林分类结果示意图。

具体实施方式

如图1所示，本发明的一种稀土开采高分影像识别与定位方法，包括以下步骤，

步骤S2：YOLOv3模型建立，先进行YOLOv3算法网络结构的确定，然后进行 YOLOv3算法中损失函数的确定，所述损失函数包括第一部分目标定位损失，第二部分目标置信度损失，最后一部分目标分类损失；

其中，步骤S1中本发明使用法国的Pleiades遥感影像作为研究区域数据。Pleiades遥感影像由1个空间分辨率为0.5m的全色波段和空间分辨率为2m的红、绿、蓝、近红外波段组成。将Pleiades遥感影像进行辐射校正、几何校正和图像融合等预处理后，导出为RGB三通道图像并使用matlab软件按照图像尺寸320像素×320像素进行裁剪。由于在研究区域范围内，遥感影像显示的大部分区域属于林地，裁剪后的小图像中大部分不包含检测目标，需对其进行剔除。剔除之后的数据集图像数量较少，因此采用翻转、旋转、镜像、亮度、色度、高斯模糊等数据增强方法将数据集进行扩充，如图1所示，图1中(a)原图,(b)逆时针旋转90°，(c)逆时针旋转180°，(d)逆时针旋转270°，(e)垂直翻转后顺时针旋转30°，(f)水平翻转，(g)高斯模糊，(h)色彩平衡，(i-j)亮度调整。最终扩充到2488幅图像，并以4:1:0.4的比例随机划分为训练集、测试集与验证集。样本标签数据使用lableIMG人工标注的方式制作，包含圆形沉淀池和方形沉淀池两类。

步骤S2中YOLOv3模型包括网络结构和损失函数，具体如下：

(1)网络结构

YOLOv3算法的网络结构主要分为两个部分，如图2所示。1)Darknet-53 特征提取网络部分。Darknet-53采用全卷积网络实现特征图的下采样，并借鉴 ResNet的残差结构来减小梯度***的风险，避免出现梯度消失。2)多尺度检测部分。为了加强算法对小目标检测的精确度，YOLOv3采用类似于特征金字塔网络(FPN)的结构，将每个尺度的特征图与经过两倍上采样的上一尺度的特征图进行特征融合。通过这种融合方式，可以联系不同分辨率的特征图，使每层预测所用的特征图都融合了不同分辨率和不同语义强度的特征。最后在13×13， 26×26和52×52三个尺度上进行类别和位置预测。

(2)损失函数

YOLOv3中损失函数分为三个部分，第一部分是目标定位损失，第二部分是目标置信度损失，最后一部分是目标分类损失。

Loss＝L_coor+L_conf+L_class (1)

式中，L_coor为目标定位损失；L_conf为目标置信度损失；L_clcss为目标分类损失。

式中，L_xy，L_wh分别为预测框左上角的坐标误差和预测框的宽高误差；λ_coor为误差协调系数；K²代表将输入图像分为K×K的网格；i表示第输入图片中的第i个网格；j为预测分支号；

表示预测框的中心坐标；

表示第真实框的中心坐标；

表示第i个网格是否预测一个目标物体，如果该网格负责预测一个目标，则

否则

表示预测框的宽高大小；

表示真实框的宽高大小；

为预测框内含有目标物体的概率值；

表示真实值，取值由第i个网格是否负责预测某类目标决定，如果负责那么

否则

classes表示检测目标类别集合；

表示第i个网格负责预测的预测框属于类别c的概率值；

表示预测框所属类别的真实值，如果属于类别c，则

否则

目标定位损失L_coor，以均方误差(MSE)作为损失函数的目标函数。首先计算网络生成的预测框与真实框的交集的面积与并集的面积的比值，获得两个框的交并比(IOU)。然后通过预先设定好的IOU阈值对预测框进行筛选，筛选出IOU 大于阈值的预测框。最后计算其对应的L_coor。

式中，b₁、b₂分别表示预测框与真实框；S_I(b₁，b₂)表示两个框交集的面积； S_U(b₁，b₂)表示两个框并集的面积。

所述步骤S3 YOLOv3算法调整和改进，具体如下：

YOLOv3算法的实时检测性能得益于其全卷积网络结构和较小的卷积核尺寸以及回归边界框的算法设计，相比于其他目标检测模型具有速度快精度高的特点。本发明针对稀土矿区沉淀池的在遥感影像上的图像特征，对YOLOv3算法进行改进，使其在稀土矿区沉淀池检测任务上达到更优的性能。

(1)损失函数改进。当预测框和真实框不相交时，两个框的IOU值为0，此时不能反映两个框之间的距离，目标定位损失函数无法优化预测框和真实框不相交的情况。针对上述问题，使用CIOU Loss替换原有目标定位损失函数。CIOU Loss在IOU的基础上综合考虑预测框和真实框的中心点距离、长宽比以及重叠率，可以更好地刻画预测框与真实框之间的位置关系，通过预测框定位过程一体化，提升目标定位精度，以实现模型更快、更稳定的收敛。

式中，L_CIOU为CIOU Loss，b，b_gt分别表示预测框和真实框的中心点；ρ(b，b_gt) 表示预测框和真实框的中心点的欧式距离；c表示预测框和真实框并集的最小外包矩形的对角线长度；α为权衡参数；v为衡量预测框和真实框宽高比一致性的参数；w，w_gt分别表示预测框和真实框的宽度；h，h_gt分别表示预测框和真实框的高度；

(2)特征提取网络改进。提取目标关键信息对目标分类起着至关重要的作用，然而在目标检测过程中提取图像关键信息时容易受背景等无用信息的影响。 2019年提出的SENet将通道注意力模块加入到ResNet残差块中，随后Sanghyun 等人提出的CBAM(Convolutional Black Attention Model)同时使用了空间注意力和通道注意力。本发明将CBAM嵌入Darknet-53中来提升其对于稀土矿区沉淀池关键特征的提取能力。

在通道注意力机制中，给定一个C×H×W(C为通道数)的特征图作为输入，通道注意力针对每个通道，在通道纬上学***均池化和全局最大池化将全局信息压缩到一个通道中，然后通过全连接层降低特征图纬度，经过ReLU激活函数，再经过一个全连接层，重构成输入注意力模块之前的纬度，最后经过Sigmoid得到归一化的权重，生成通道注意力矩阵。经过特征加权操作为特征图增加通道注意力机制，得到重新筛选的特征图，并继续向下传播。

空间注意力机制主要关注目标在图像上的位置信息，可以看成是通道注意力的补充。在一个C×H×W的特征图中，空间注意力机制在H×W尺寸的特征图上学***均池化和最大池来压缩特征图的通道信息。然后连接两个池化操作的结果得到新的特征图，通过一个7×7的卷积操作将通道数将为1，通过Sigmoid函数得到归一化的权重，生成空间注意力矩阵。最后经过特征加权操作为特征图增加空间注意力，得到重新筛选的特征图，并继续向下传播。

在YOLOv3模型建立和改进时需要对其进行训练和检测，本发明所有实验均在Windows10操作***上进行，处理器为Intel Xeon(R)Silvet 4110CPU@ 2.10GHz，GPU为NVIDIA Quadro P5000，显存16G，使用Tensorflow、Keras作为深度学习框架。在参数设置方面，初始学习率设置为0.001，学习率衰减系数为0.1，Batch size设置为8(每次迭代训练张样本图片)，共迭代22400次，置信度阈值设置为0.7。YOLOv3算法不需要预先生成感兴趣区(ROI)，而是直接以回归的方式来训练网络，同时对训练数据集使用K-moans算法来进行训练样本边界框的聚类，如图6所示，最终分别在3个尺度上预设3组预定义的边界框大小。如图7所示，首先通过特征提取网络在输入的图像上进行特征提取，然后将特征向量输入FPN结构，产生3个尺度(13×13，26×26，52×52)上的网格区域，每个网格区域预测3个边界框，共产生10647个边界框，最后在每个边界框中预测一个向量P。最后对产生的预测框进行非极大值抑制，得到最终的预测结果。整个检测过程如图8所示，改进后的YOLOv3模型部分检测结果如图9所示。

P＝(t_x，t_y，t_w，t_h，I_objIOU，p₁，p₂，…，p_i) (10)

b_x＝Sigmoid(t_x)+C_x (11)

b_y＝Sigmoid(t_y)+C_y (12)

式中，t_x，t_y，t_w，t_h是与预测框中心点像素坐标和高宽有关的4个变量； σ表示Sigmold函数；C_x，C_y表示该边界框所属网格相对于图片左上角的偏移量； b_x，b_y表示最终预测框的中心点像素坐标；p_w，p_h表示预定义锚框的宽高；b_w，b_h表示预测框的宽高；I_obj表示使用逻辑回归对边界框的预测得分，当边界框与 ground truth的重叠度为最大时，I_obj-1，否则I_obj＝0；IOU为边界框和ground truth的交并比；p₁，p₂，…，p_i表示预测的目标属于所有类别中第i类的分数，由 Sigmoid函数得出。

在通过YOLOv3模型进行稀土矿区沉淀池识别和定位后，需要确定目标检测评价指标，准确率P和召回率R是分类问题中常用的评价指标.P为测试样本中被正确识别为某类的个数与该类在样本中实际个数的比值.R为被正确识别为某类的个数与该类在样本中预测的总个数的比值，即

式中：TP为被正确地划分正类的个数，即实际为正类且被分类器划分为正类的样本数；FP为被错误地划分正类的个数，即实际为负类但被分类器划分为正类的样本数；FN为被错误地划分负类的个数，即实际为正类但被分类器划分为负类的样本数；TN为被正确地划分负类的个数，即实际为负类且被分类器划分为负类的样本数。

为了量化本发明采用的算法模型对稀土矿区遥感影像的识别分割性能，设定如表1所示的混淆矩阵。

表1预测类别混淆矩阵

Table 1 Predictive category confusion matrix

R在目标检测中是模型覆盖面的度量，通常在深度学***均精确度(AP)。其计算方法为：假设在N个样本中有M个正类，那么会得到M个R

对于每个R，计算其对应的最大P，然后对这M个P取平均即得到最后的AP值，AP衡量的是训练的模型在每个类别上的性能指标，AP值越高，精确度越高。针对所有类别采用均值平均精度(mAP)，mAP衡量的是训练的模型在所有类别上的性能指标，计算公式为

式中：M为样本中正类个数，P(r)为对应R的最大精确率；Q为类别数；AP(q)为对应类别的平均精确度。

另外，在步骤S1中遥感影像需要进行偏移分割，具体如下：

卫星图像通常尺度比较大，大部分覆盖面积超过200km²，而稀土矿区沉淀池在影像中的面积在20到1500m²。如果直接将影像输入模型中训练，一方面会造成目标被过度压缩而无法识别，另一方面会占用大量的显存，影响运算速度，因此在图像训练与识别过程中需要将其分割为尺寸较小的图像后输入模型进行训练与检测。在图像分割过程中，可能会出现某一目标被分割到两张或多张子图像中的情况，如图10所示，可能导致同一个目标出现多个检测框或者目标被分割后难以识别从而出现漏检的问题。针对这一问题，提出以下解决方案：1) 首先将原始影像按照320×320像素尺寸进行分割，然后分别再将原始影像按照向X轴方向、Y轴方向、以及X轴Y轴同时偏移160像素(分割为小图像宽度的一半)长度进行320×320像素尺寸进行分割(上述4种分割方式在下文统一称为分割方法1、分割方法2、分割方法3、分割方法4)，如图11所示：图11影像4种分割方法，实线表示分割线，虚线表示未进行偏移的分割线：未进行偏移分割(左上)；向Y轴偏移分割(右上)；向X轴偏移分割(左下)；同时向X轴和Y轴偏移分割(右下)。绿色方块表示未偏移分割的小图像，黄色的表示使用不同分割方式得到的小图像。

2)受IOU(交并比，通常用来衡量预测框与真实框的重叠度)的启发，构建一个新的指数IOMIN(即两个预测框的交集面积与二者面积较小的预测框的面积之比)用来判断两个预测框是否来自同一目标。如图12所示，假设该图为一幅影像的局部分割情况，绿色半透明背景表示分割方发1得到的一张小图像，黄色半透明背景表示分割方法4得到的一幅小图像。从图中可知，绿色背景下的图像右上角沉淀池在分割方法1下，被分割到4幅小图像中。在绿色背景图像中被识别为黄色的预测框。而在黄色背景图像中被完整的识别为红色预测框。在分割方法1的图像中可能会识别该沉淀池为2个或多个预测框。因此需要用完整的预测框替换不完整的预测框，本发明采用的方法为：先指定一个阈值α，计算两个预测框的IOMIN指数，如果IOMIN大于α，则删除面积较小的预测框，保留面积较大的预测框。对于采用分割方法1得到的每张小图像，使用其他三种分割方法可以得到与其相邻的8张小图像。在这9张图像中每两张相邻图像分别计算第一张图像与第二张图像中任意两个预测框的IOMIN指数，直至所有预测框都参与计算，对于图像中没有检测到目标的则不参与计算。最后以分割方法1得到的小图像为基础单元在整幅影像中使用滑动窗口机制计算所有相邻图像中的任意两个预测框的IOMIN指数，并根据IOMIN阈值剔除不完整目标的预测框，如图13所示。使用上述方法可以实现对稀土矿区沉淀池的完整识别。

式中：b1、b2分别表示两个预测框；S_I(b1，b2)表示两个框交集的面积；S_MIN(b1，b2)表示两个框中较小的框的面积。

为了方便稀土管理部门及时了解稀土矿区沉淀池的分布情况并进行高效的处理工作，则需要给出模型预测结果中的平面坐标信息并以点的形式在遥感影像上标出。模型输出结果中包含预测边界框的像素位置信息，即相对于图像左上角的像素坐标信息，结果用4个数值表示预测边界框的位置，分别为左上角和右下角的像素坐标值(x_min、y_min、x_max、y_max)。因此需要将预测框中心点的像素坐标转换为平面点坐标，然后导出为Shape图层。所选用的坐标系为 WGS_1984_UTM_zone_50N。坐标转换过程如下。

图14中的XY坐标系为平面坐标系。xy坐标系为像素坐标系，大矩形框表示图像，小矩形框表示图像中的某一预测边界框。结合图像获取和分割过程，可以知道每幅图像的左上角(X₀₁，Y₀₁)的平面坐标，然后根据(X₀₁，Y₀₁)计算出每个预测边界框中心点的平面坐标(X_i，Y_i)。研究区域沉淀池定位结果如图15所示。

式中：i表示图像中第i个预测框；x_i、y_i表示预测框中心点的像素坐标；X_i、 Y_i表示第i个预测框中心点的平面坐标值；Δx、Δy分别表示遥感影像水平方向与垂直方向上的空间分辨率(单位：m)。

在遥感影像中水体与暗色建筑、建筑物和山体阴影的光谱特征相似。所以在对稀土矿区沉淀池的识别过程中会出现将暗色建筑、建筑物和山体阴影误分为沉淀池的情况，如图16所示。在遥感影像的水体提取研究中，常用NDWI、MNDWI 等指数来对水体进行提取，但是水体指数不能稳定地区分水体与阴影。经过实验发现使用随机森林分类法可以有效地区分水体、建筑物和阴影。本发明将沉淀池的定位点分为3类：沉淀池、暗色建筑、建筑物和山体阴影。首先，以遥感影像的光谱特征(Pleiades影像自带的红、绿、蓝、近红外4个波段反射率)、水体指数(NDWI)和植被指数(NDVI)构建特征集；其次，在研究区范围内随机选取各类定位点共387个样本点，如表2所示，其中训练样本270个，验证样本117个；最后，对定位点进行随机森林分类，结合验证样本点对分类结果进行验证。

表2各类定位点的样本数量

由分类结果的混淆矩阵(表3)可知，分类结果总体精度达到92.31％，Kappa系数为0.86。总体分类结果较好,能够很好地区分沉淀池、暗色建筑、建筑物和山体阴影。分类结果如图17所示。

表3混淆矩阵

虽然以上描述了本发明的具体实施方式，但是本领域熟练技术人员应当理解，这些仅是举例说明，可以对本实施方式作出多种变更或修改，而不背离本发明的原理和实质，本发明的保护范围仅由所附权利要求书限定。

Claims

1.一种稀土开采高分影像识别与定位方法，其特征在于，包括以下步骤，

步骤S3：YOLOv3算法调整，当预测框和真实框不相交时，使用CIOU Loss替换原有目标定位损失函数；将CBAM嵌入YOLOv3算法网络结构的Darknet-53中；

2.按照权利要求1所述的一种稀土开采高分影像识别与定位方法，其特征在于：所述步骤S1中图像进行裁剪后，采用翻转、旋转、镜像、亮度、色度、高斯模糊数据增强方法将数据集进行扩充。

3.按照权利要求1所述的一种稀土开采高分影像识别与定位方法，其特征在于，所述步骤S2中YOLOv3算法网络结构的确定包括Darknet-53特征提取网络部分和多尺度检测部分。

4.按照权利要求3所述的一种稀土开采高分影像识别与定位方法，其特征在于：所述多尺度检测部分通过YOLOv3算法采用的特征金字塔网络的结构，将每个尺度的特征图与经过两倍上采样的上一尺度的特征图进行特征融合。

5.按照权利要求1所述的一种稀土开采高分影像识别与定位方法，其特征在于：所述步骤S3中目标定位损失以均方误差作为损失函数的目标函数，具体包括首先计算网络生成的预测框与真实框的交集的面积与并集的面积的比值，获得两个框的交并比；然后通过预先设定好的IOU阈值对预测框进行筛选，筛选出IOU大于阈值的预测框；最后计算其对应的目标定位损失。

6.按照权利要求5所述的一种稀土开采高分影像识别与定位方法，其特征在于：当预测框和真实框不相交时，两个框的IOU值为0时，使用CIOU Loss替换原有目标定位损失函数。

7.按照权利要求1所述的一种稀土开采高分影像识别与定位方法，其特征在于，所述步骤S1中在裁剪后的图像在图像训练与识别过程中需要将其分割为尺寸较小的多张图像后输入模型进行训练和检测。

8.按照权利要求7所述的一种稀土开采高分影像识别与定位方法，其特征在于，分割后的图像中若识别该沉淀池为2个或多个预测框，需要用完整的预测框替换不完整的预测框，具体包括：

9.按照权利要求1所述的一种稀土开采高分影像识别与定位方法，其特征在于：在遥感影像的稀土矿区沉淀池定位过程中采用随机森林分类法。