CN114972982A

CN114972982A - 基于改进过采样的遥感图像目标检测样本不均衡处理方法

Info

Publication number: CN114972982A
Application number: CN202210425413.9A
Authority: CN
Inventors: 郭争强; 朱巍; 王港; 冯清泉; 武晓博; 聂宗哲; 王敏; 梁硕
Original assignee: National University of Defense Technology; CETC 54 Research Institute
Current assignee: National University of Defense Technology; CETC 54 Research Institute
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-08-30

Abstract

本发明提供一种基于改进过采样的遥感图像目标检测类别不均衡处理方法，首先统计遥感数据集中类别数量、各类目标数量；然后判断数据集是否存在类别不均衡问题，若不存在，则结束，若存在，则转到下一步；其次，对目标量少的类别图像进行扩充；最后，得到目标扩充后的数据集。本发明能够克服当前过采样技术易导致模型过拟合的缺陷，从而解决遥感图像目标检测类别不均衡问题。

Description

基于改进过采样的遥感图像目标检测样本不均衡处理方法

技术领域

本领域涉及遥感图像处理领域，具体涉及遥感图像目标检测类别不均衡问题的处理方法。

背景技术

遥感图像目标检测类别不均衡指的是数据集中各类别目标数量不均衡，在遥感数据集中尤为常见，主要是因为自然界中各类地物的数目差异较大，比如在城市中汽车和飞机的比例，这中类别比例甚至超过了1000∶1。已经证明，类别不均衡会对机器学习、深度学习算法精准度产生不利影响，它既影响训练阶段算法的收敛性，也影响测试阶段算法的泛化性。

在遥感图像目标检测中，对类别不均衡问题的解决方法一般包括以下三类：第一类是损失函数调整，损失函数决定模型训练中权重调整方式，对类别不均衡数据集一般采用焦点损失函数或者加权损失函数，此类算法对没有直接解决类别不均衡问题，因此对模型性能提升有限。第二类是采样法，采样法一般分为过采样和降采样，过采样指对目标量较少的类别图像进行多次随机采样，降采样是指从目标多的类别图像中剔除一部分。过采样算法一般认为会造成模型对目标量少的类别过拟合，主要是因为当前过采样方法是对包含该类别图像的简单复制，导致模型对该类目标过拟合，从而泛化性能下降，另一方面，当前过采样技术中类别扩充的比例仅基于数据集中包含该类别的图像数与数据集总图像数的比例决定，而不考虑该类别目标数量，由此可能造成对目标数量大但密集分布的类别图像进行不必要的过采样。降采样则会丢弃大量图像，对模型收敛不利。第三类是样本加权法，样本加权法本质上是过采样和降采样的结合，即对目标量多的类别图像进行降采样，对目标量少的类别图像进行过采样，该方法一般会降低数据集图像总量以寻求类别之间的数量上的平衡，从而导致模型过拟合。

发明内容

本发明的目的是提供一种基于改进过采样的遥感图像目标检测类别不均衡处理方法，以改进现有遥感图像目标检测类别不均衡情况下过采样方法存在的缺陷。

为了解决上述技术问题，本发明提供的技术方案为：

一种基于改进过采样的遥感图像目标检测样本不均衡处理方法，包括如下步骤：

S1，统计遥感数据集中的类别数量n和各类别目标数[N₁，N₂，N₃，...，N_n]；

S2，判断是否存在类别不均衡问题，若存在类别不均衡，则转到步骤S3，否则结束该流程；

S3，对目标量少的类别图像进行扩充；

S4：得到目标扩充后的数据集。

进一步的，步骤S2的具体方式为：取各类别目标数的最大值，除以各类别目标数的最小值，若结果大于10则存在类别不均衡。

进一步的，步骤S3的具体方式为：

1)计算各类别所在图像数与总图像数的比例[f₁，f₂，f₃，...，f_n]，定义扩充阈值t，筛选比例小于阈值的类别作为候选类别；

2)筛选候选类别中的不均衡类别作为待扩充类别，不均衡类别的判定方式如步骤S2所述；该步骤通过样本数量在候选类别中进一步筛选待扩充类别，通过该步骤能够避免扩充目标数量多的类别；

3)确定各待扩充类别的扩充倍数，确定方式如下：

其中，r_c表示第c类的扩充倍数，f_c表示第c类所在图像与总图像数的比例，t为阈值；

4)对包含待扩充类别的图像进行扩充，图像扩充倍数取值如下：

r_i＝max_c∈i(r_c)

其中，r_i表示当前图像扩充倍数，i表示图像，r_c表示第c类的扩充倍数；

5)从候选方法中依次选取r_i个变换方法，对当前图像进行扩充；所述候选方法包括顺时针90度旋转、顺时针180度旋转、水平翻转、垂直翻转、向外放大10％、向内缩小10％、左上角裁剪、右下角裁剪、添加高斯噪声、色彩变换。

本发明相比于现有技术具有如下有益效果：

1.本发明针对现有过采样技术对待扩充类别图像简单复制容易导致模型对样本过拟合，泛化性能下降的缺陷，提出一种改进的过采样的方法，该方法结合当前旋转、翻转、随机裁剪等数据增强方法对类别少的图像进行扩充。

2.本发明针对现有过采样技术中待扩充类别选取不合理，存在对目标数量多但分布密集情况下进行类别图像扩充的缺陷，提出一种改进的扩充类别确定流程，该流程在当前技术基础上，充分考虑类别目标数量，能够获取合理的待扩充类别。

附图说明

图1是本发明实施例中遥感图像目标检测类别不均衡处理方法的流程图。

图2是改进过采样方法的流程图。

具体实施方式

以下将结合实施例对本发明的构思、技术方案优势及产生的技术效果进行清楚、完整地描述，以充分理解本发明的目的、特征和效果。需要说明的是，此处所描述的具体实施例仅用以解释本发明，并不限定本发明。

一种基于改进过采样的遥感图像目标检测类别不均衡处理方法，该方法首先统计遥感数据集中类别数量、各类目标数量；然后，判断数据集是否存在类别不均衡问题，若不存在，则结束，若存在，则转到下一步；接着，对目标量少的类别图像进行扩充；最后，得到目标扩充后的数据集。

具体来说，如图1所示，包括以下步骤：

S1：统计遥感数据集中类别数量n和各类别目标数[N₁，N₂，N₃，…，N_n]。

S2：判断是否存在类别不均衡问题：

取各类别目标数的最大值除以各类别目标数的最小值，结果大于10则存在类别不平衡，转到第三步，结果小于10则不存在类别不均衡，结束该流程。

S3：采用改进过采样方法对目标量少的类别图像进行扩充；如图2所示，具体方式如下：

1)计算各类别所在图像数与总图像数比例[f₁，f₂，f₃，…，f_n]，人为定义扩充阈值t，筛选比例小于阈值的类别作为候选类别。

2)筛选候选类别中的不均衡类别，不均衡类别判定方法如S2所述，获得待扩充类别。

3)确定各类别扩充倍数，确定方式如下：

其中，r_c表示第c类的扩充倍数，f_c表示第c类所在图像与总图像数的比例，t为人为设定的阈值。

r_i＝max_c∈i(r_c)

其中，r_i表示当前图像扩充倍数，i表示图像，r_c表示第c类的扩充倍数。

5)对当前图像进行扩充，扩充方法从候选方法中依次选取r_i个，候选方法包括顺时针90度旋转、顺时针180度旋转、水平翻转、垂直翻转、向外放大10％、向内缩小10％、左上角裁剪、右下角裁剪、添加高斯噪声、色彩变换。

S4：得到目标扩充后的数据集。

总之，本发明能够克服当前过采样技术易导致模型过拟合的缺陷，从而解决遥感图像目标检测类别不均衡问题。

Claims

1.一种基于改进过采样的遥感图像目标检测样本不均衡处理方法，其特征在于，包括如下步骤：

S3，对目标量少的类别图像进行扩充；

S4：得到目标扩充后的数据集。

2.如权利要求1所述的一种基于改进过采样的遥感图像目标检测样本不均衡处理方法，其特征在于，步骤S2的具体方式为：取各类别目标数的最大值，除以各类别目标数的最小值，若结果大于10则存在类别不均衡。

3.如权利要求2所述的一种基于改进过采样的遥感图像目标检测样本不均衡处理方法，其特征在于，步骤S3的具体方式为：

2)筛选候选类别中的不均衡类别作为待扩充类别，不均衡类别的判定方式如步骤S2所述；

3)确定各待扩充类别的扩充倍数，确定方式如下：

r_i＝max_c∈i(r_c)