CN117152401B

CN117152401B - 一种机器学习任务用水下视觉图像数据集的获取方法

Info

Publication number: CN117152401B
Application number: CN202311139339.5A
Authority: CN
Inventors: 江克洲; 隋均茹; 昝瑞
Original assignee: Nantong Haimu Offshore Engineering Equipment Co ltd
Current assignee: Nantong Haimu Offshore Engineering Equipment Co ltd
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2024-03-15
Anticipated expiration: 2043-09-05
Also published as: CN117152401A

Abstract

本发明提供了一种机器学习任务用水下视觉图像数据集的获取方法，属于水下光电成像技术领域。首先搭建水体环境下图像RGB通道传输成像仿真模型，主要运用蒙特卡罗算法模拟光子水下传输；然后选取清晰目标图像进行处理，完成目标图像RGB每个通道每个像素发射光子数目的定义；在仿真模型中进行光子水下传输模拟，接收记录下光场信息；累计合成各个通道各个像素点，得到三个通道的水下仿真成像，将三个通道合并实现图像仿真成像；选取若干张清晰目标图像循环上述过程最终得到水下视觉图像数据集。本发明提供的方法利用了先进的算法和可靠的物理模型，提高了效率和质量，可以适应不同的水体环境，为机器学习任务快速提供丰富和准确的数据集。

Description

一种机器学习任务用水下视觉图像数据集的获取方法

技术领域

本发明属于水下光电成像技术领域，尤其涉及一种机器学习任务用水下视觉图像数据集的获取方法。

背景技术

水下光电成像技术是现代海洋光学研究的重要方向之一，也是本发明的基础理论。水下光电成像和空气中成像存在差异，原因在于光子在水体里更容易发生散射或者折射，光子在水下传播的衰减显著。由于水体对光的吸收散射作用，水下图像会产生色彩失真、对比度低等问题，进而影响了水下观测工作。因此想要深入探测水下状况，首先就需要进行水下视觉处理，获取分辨率更高的水下图像。当前，水下视觉处理面临着许多困难，主要有以下几个方面：水下图像质量低，受到水体吸收、散射、色彩失真、噪声干扰等因素的影响。水下目标多样，形状、大小、颜色、纹理等特征不明显或不稳定，难以区分背景和前景。基于机器学***衡。

基于机器学习的水下视觉图像处理利用机器学习算法对水下图像进行分析和处理，以实现水下目标的检测、识别、定位、跟踪等功能。这是一个具有重要应用价值和挑战性的研究领域，涉及到水下机器人、海洋资源开发、海洋环境监测等方面。为了解决水下视觉处理当前存在的问题，基于机器学习的水下视觉图像处理主要采用了以下几种方法：数据预处理，对水下图像进行增强、去噪、校正等操作，以改善其可视性和特征表达。数据集处理，通过数据增广、样本均衡、多尺度训练等方式，扩充和优化训练数据集。模型选取与训练，根据水下目标的特点，选择合适的机器学习模型，如单目或双目视觉、one-stage或two-stage检测网络等，并采用一些trick来提高模型的性能和鲁棒性。

基于机器学习的水下视觉图像处理目前还有许多问题有待进一步探索和解决。例如，如何提高水下图像的质量和信息量，如何设计更适合水下场景的机器学习模型和算法，如何构建更大更全面的水下数据集等。

数据集作为数据驱动，是机器学习的基础，没有数据集，机器无法训练学习，进而无法预测。其作为机器学习的输入，数据集包含了训练数据和测试数据，通常将水下模糊退化图像作为输入，用其对应的清晰图像在网络输出作为监督。在机器学习中，数据集的质量和数量对模型的准确性有很大影响。

当前常见的获取机器学习数据集的方法包括，在线数据集：UCI机器学习数据库、Kaggle、Google Dataset Search等；爬虫：通过爬虫程序从网站上获取数据集；数据库：从数据库中获取数据集；自己制作：自己制作数据集，如手动标注图片。但现存的数据集获取方法大多建立在已有现实拍摄图像或对抗网络生成的基础上，数量有限(现实拍摄)或效率、质量不高(对抗网络生成)，限制了机器学习准确性的提高。

发明内容

本发明针对机器学习水下视觉图像数据集数量不足、质量不高的缺口，通过RGB三色通道各自在不同水体环境下的衰减扩散情况和光场分布，从几何光学的角度，在光子传播过程的散射衰减物理依据下，建立复杂水体环境下图像RGB通道传输成像仿真模拟模型，利用清晰目标图像，快速准确仿真模拟得到复杂水体环境中的退化成像效果，从而丰富机器学习数据集。

本发明提供了一种机器学习任务用水下视觉图像数据集的获取方法，包括以下步骤：

步骤1，搭建水体环境下图像RGB通道传输成像仿真模型；运用朗伯点光源模拟目标图像像素点，运用蒙特卡罗算法模拟光子水下传输，运用准直辐亮度计接收打在模拟接收平面上的光子；

步骤2，选取清晰的目标图像，将目标图像进行三通道分离及像素离散化处理后分解为基本的单通道单像素单元，根据目标图像的像素点在RGB三通道值的比例，完成目标图像RGB每个通道每个像素发射光子数目的定义；

步骤3，根据步骤2中的光子数目分配将每个单通道单像素单元输入到步骤1的仿真模型中进行光子水下传输的模拟，每个单通道单像素的光子达到接收平面后，被接收记录下光场信息；

步骤4，累计合成各个通道各个像素点，分别得到三个通道的水下仿真成像，之后将三个通道合并实现水体环境下的图像仿真成像，最后得到一组目标图像及对应的退化图像；

步骤5，选取若干张清晰的目标图像，每张目标图像分别循环上述步骤2至步骤4，最终得到机器学习任务用水下视觉图像数据集。

优选的，所述朗伯点光源基于朗伯定律，用公式可以表示为:

I_e＝I₀×cosθ

将坐标轴z轴规定为I₀的方向，每个光子与z轴方向的夹角记为天顶角θ，θ的取值范围为[0,90°)，同时每一个光子发射方向在x-O-y平面内的投影同x轴正向的夹角定义为方位角φ，φ的取值范围为[0,360°)，对天顶角θ和方位角φ分别进行等间距分割，模拟光子的发射方向。

优选的，所述运用蒙特卡罗算法模拟光子水下传输，具体为：光子在模拟传播时，根据随机步长、随机散射方向和散射相位函数，更新自己的传播位置、传播方向和能量大小；光子在水下的传播衰减扩散过程，单个光子的随机步长s与水体的衰减系数c有如下关系：

s＝-lnτ/c

其中，s为单个光子的随机步长，τ为[0,1]间随机数，c为提前设置的散射系数和吸收系数之和；

在蒙特卡罗模拟过程中，光子会与介质中粒子发生碰撞，每次碰撞后必须根据散射相函数通过抽样确定出散射方向，采用的Henyey-Greenstein散射相函数的解析形式可表示为：

其中，θ为光子下次动作时与z轴方向的夹角；g为先前输入的不对称因子，当g为0时，水体各向同性；rnd为自动产生的(0,1)区间内随机数。

优选的，所述运用准直辐亮度计接收打在模拟接收平面上的光子，具体为：

使用一个平面来记录接收光子的位置坐标、入射角度和能量大小，该平面被分割成像素点，每个像素点赋予一个接收功能，每个像素点都有一个坐标，坐标间隔为1mm；

分割的每个像素点定义为一个半径为D的接收器来接收光子，接收器的中心与像素点的坐标重合，如果一个光子与接收器中心的距离超过D，那么光子就会落在接收器外面，无法被接收，也不会影响接收器的能量值，如果一个光子与接收器中心的距离小于D，那么光子就会被接收器有效捕获，并储存该光子的位置信息、入射角度和能量大小；

对于当前像素点，同样也是此刻接收器中心的位置，遍历接收平面的所有光子，统计满足步骤能被接收器有效捕获的光子，将落在接收器外面的光子的能量置为0；

使用一个判定条件来分析每一个光子，当光子与接收平面的法向的夹角为β时，如果β大于最大接收角度ɑ，那么光子就会偏离接收器，无法被接收器有效接收，因此将这些光子的能量置为0，如果β小于最大接收角度ɑ，那么光子就会近似垂直地落在接收器上；

将处理好的光子的能量的和来表示该次接收的总通量，总通量可以用来生成对应通道的水下模拟成像。

优选的，所述最大接收角度ɑ定为0.5°。

优选的，所述步骤2的具体过程为：

S1，使用MATLAB对目标清晰图像进行像素点分割，提取每个像素点RGB三通道的值，对数据进行归一化，得到RGB通道值的归一化矩阵；

S2，对目标清晰图像进行灰度处理，得到该幅图像所有像素点的灰度值，对数据进行归一化，得到一个灰度二维矩阵，像素点的灰度值决定了后续该像素点位置所代表点光源进行光子水下传输过程发射的总光子数比例；

S3，选取目标图像某个坐标位置像素点作为代表，通过该像素点在RGB三通道值的比例，在步骤S2确定的每个像素点位置所代表点光源发射光子总数的基础上，以该比例分配三个通道各自发射的光子数。

优选的，所述步骤4的具体过程为：

分别对所有红色通道像素点、蓝色通道像素点和绿色通道像素点，进行像素点朗伯点光源遍历水下传播模拟；对于不同像素点朗伯点光源在接收端所收集到的能量具有叠加性，因此固定步进，并先固定接收平面的y坐标，依次将x坐标遍历，再将y坐标增加一个步进再次进行x坐标的遍历，直至遍历到接收平面最后一个像素点，将得到目标图像相应通道下的各处亮度的大小，至此测出了目标图像传播一段距离后的亮度分布，从而分别模拟构建出接收端三通通道成像，之后将三个通道合并得到水体环境下的图像仿真成像；最后得到了一组目标图像及对应的退化图像。

与现有技术相比，本发明提出一种机器学习任务用水下视觉图像数据集的获取方法，并产生如下有益效果：

1.本发明采用蒙特卡罗数值模拟和光迹追踪的方式，通过对RGB三色通道各自在不同水体环境下的扩散情况和光场分布模拟，从物理层面分析水下图像失真原因。将RGB三色通道在水下传播过程中不同的散射及衰减效果作为重要的参考因素，从而得到比混合色道模拟更加准确的彩色图像水下仿真成像。

2.本发明提供了一种新的获取机器学习水下视觉图像数据集的方法，该方法利用物理层的水下光学模型，根据不同的水质条件和成像距离，模拟水下图像的色彩失真和对比度降低。与现有的基于生成对抗网络的水下图像合成方法相比，不需要大量的成对数据集，也不会引入额外的噪声或伪影，就生成多样化和更为准确的水下图像，为机器学习水下视觉任务提供了有效的数据增强手段，生成的水下图像有利于提高水下视觉模型的泛化能力和鲁棒性。

3.传统方法通常需要大量的人工标注或复杂的图像处理，耗时耗力，而且容易出现错误或不一致。本发明提供的方法则利用了先进的算法和可靠的物理模型，减少了冗余，提高了效率和质量。提供的方法可以适应不同的水体环境，为机器学习任务快速提供丰富和准确的数据集。

附图说明

图1为本发明水下视觉图像数据集获取流程示意图。

图2为光源模拟的处理逻辑流程图。

图3为蒙特卡罗仿真单个光子水下传播流程图。

图4为接收平面模拟的处理逻辑流程。

图5为目标图像的灰度图像及三色通道提取图像。

图6为目标图像水下仿真成像示意图。

图7为三通道水下模拟成像效果图及合成的水下退化后的目标图像效果图。

具体实施方式

下面结合具体实施例对发明进行进一步说明。

本发明针对机器学习水下视觉数据集数量不足、质量不高的缺口，通过RGB三色通道各自在不同水体环境下的衰减扩散情况和光场分布，从几何光学的角度，在光子传播过程的散射衰减物理依据下，建立复杂水体环境下图像RGB通道传输成像仿真模拟模型，利用清晰目标图像，快速准确仿真模拟得到复杂水体环境中的退化成像效果，从而丰富机器学习数据集。

本发明模拟水下光子传输使用的是蒙特卡罗算法。蒙特卡罗算法主要是以概率统计理论为基础，将随机抽样作为其研究过程中的主要手段，不需要求解复杂的微积分方程，而且蒙特卡罗的计算过程较适用于研究光子在水体中运动这类粒子传输问题。据此，众多国内外海洋科学家都运用蒙特卡罗算法建立了水体光学特性模型。

本发明利用MATLAB，首先对图像进行色道分离、灰度处理、像素分解并选取其中一个坐标像素点；然后用朗伯点光源模拟目标像素点，运用蒙特卡罗算法模拟光子水下传输，通过亮度计接收打在接收平面上的光子；累计合成各个色道各个像素点，得到三个通道的水下仿真成像，最后将三个通道合并实现复杂水体环境下的图像仿真成像，应用于基于机器学习的水下视觉图像数据集扩充。本发明整体过程如图1所示：

一、搭建仿真模型：

复杂水体环境下图像RGB通道传输成像仿真模型的搭建，需要一个模拟光源、模拟海水介质和模拟接收平面。

1.光源模拟：

本发明使用朗伯点光源作为光源。根据朗伯定律：一个在各个方向上亮度相同的发光面，在某个方向上的发光强度等于这个面的法线方向上的发光强度I₀乘以这个方向与法线的夹角的余弦值。设定坐标轴的z轴为I₀的方向，每个光子与z轴的夹角称为天顶角θ，θ的取值范围为[0,90°)，同时每个光子在x-O-y平面上的投影与x轴正向的夹角称为方位角φ，φ的取值范围为[0,360°)。对天顶角θ和方位角φ进行等间距划分，模拟光子的发射方向。用公式可以表示为：

I_e＝I₀×cosθ (1)

光源模拟的处理逻辑如图2所示。

2.海水介质模拟：

方案使用模拟光源发出的光子来模拟水体(可以根据需要自行设置水体的散射、吸收系数)的光学特性。光子在模拟传播时，根据随机步长、随机散射方向和散射相位函数，更新自己的传播位置、传播方向和能量大小。具体传播流程如图3所示。

海水介质的模拟，本质上就是模拟光子在海水中运动的物理过程，只有光子发生的动作，没有海水本身。

模拟朗伯点光源在水下的传播衰减扩散过程，单个光子的随机步长s与水体的衰减系数c有如下关系：

s＝-lnτ/c (2)

其中，s为单个光子的随机步长，τ为[0,1]间随机数，c为提前设置的散射系数和吸收系数之和。

使用蒙特卡罗模拟方法来模拟光子与介质中的粒子的碰撞过程。每次碰撞后，需要根据相函数通过抽样方法确定新的散射方向。因此相函数的散射方向抽样是非常关键的。Henyey-Greenstein散射相函数的解析形式可以写成：

其中，θ为光子下次动作时与z轴方向的夹角；g为提前设定的不对称因子，当g为0时，水体各向同性；rnd为自动产生的(0,1)区间内随机数。

3.接收平面模拟：

运用准直辐亮度计接收打在模拟接收平面上的光子，光子穿过模拟海水介质后，准直辐亮度计累计来自小于亮度计最大接收角α方向上的落于接收平面上的光子的全部能量。

具体接收平面模拟的处理流程如图4所示：

(1)使用一个平面来记录接收光子的位置坐标、入射角度和能量大小。该平面被分割成像素点，每个像素点赋予一个接收功能，每个像素点都有一个坐标，坐标间隔为1mm。

(2)上述分割的每个像素点定义为一个半径为D的接收器来接收光子。接收器的中心与像素点的坐标重合。如果一个光子与接收器中心的距离超过D，那么光子就会落在接收器外面，无法被接收，也不会影响接收器的能量值。如果一个光子与接收器中心的距离小于D，那么光子就会被接收器有效捕获，并储存该光子的位置信息、入射角度和能量大小。

(3)对于当前像素点，同样也是此刻接收器中心的位置，遍历接收平面的所有光子，统计满足步骤2中能被接收器有效捕获的光子，将落在接收器外面的光子的能量置为0。这样可以方便后续的计算。

(4)使用一个判定条件来分析每一个光子，当光子与接收平面的法向的夹角为β时，如果β大于最大接收角度ɑ，那么光子就会偏离接收器，无法被接收器有效接收，因此将这些光子的能量置为0，方案定义ɑ为0.5°。如果β小于最大接收角度ɑ，那么光子就会近似垂直地落在接收器上，因此统计光能量时，不需要考虑余弦值的影响。

(5)使用上述步骤处理好的光子的能量的和来表示该次接收的总通量。由于不能被探测器捕获或不能落在像面上的光子的能量已经被置为0，所以它们不会影响总通量的计算，因此该步骤求和的总能量就是该处的总通量，总通量可以用来生成对应通道的水下模拟成像。

二、图像处理：

选取清晰的目标图像，使用MATLAB对目标清晰图像进行像素点分割，提取每个像素点RGB三通道的值，为使得到的数据更加整齐，便于处理，对数据进行归一化，得到RGB通道值的归一化矩阵。

对目标清晰图像进行灰度处理，得到该幅图像所有像素点的灰度值，为使得到的数据更加整齐，便于处理，对数据进行归一化，得到一个灰度二维矩阵。图像各像素的灰度值反映了目标图像各处的亮度情况，因此，在模拟图像过程中，亮度高(灰度值大)的地方将发射较多数目的光子。上述步骤得到的灰度二维矩阵每个像素点的灰度值决定了后续该像素点位置所代表点光源进行光子水下传输过程发射的总光子数。

可以选取目标图像坐标(50,50)位置像素点作为代表，通过该像素点RGB三通道值的比例，在上述步骤确定的每个像素点位置所代表点光源发射光子总数的基础上，以该比例分配三个通道各自发射的光子数。目标图像的灰度图像及三色通道提取图像如图5所示。

完成目标图像RGB每个通道每个像素发射光子数目的定义，以此模拟目标图像在水下RGB三通道的传输过程。

三、水下模拟成像

完整目标图像经过分片(划分为RGB三通道)、像素提取，被分解成了单通道单像素，因此可以使用朗伯点光源对单通道单像素进行模拟。单通道单像素光子经过在模拟光源与接收平面之间的传播后，达到接收平面，被接收记录下光场信息。具体流程如上搭建仿真模型部分所述。

按照单通道单像素模拟步骤，增加目标图像像素点，对全图各通道划分的像素进行遍历传输。

具体操作为：增加红色(R)通道像素点，进行像素点朗伯点光源遍历水下传播模拟。对于不同像素点朗伯点光源在接收端所收集到的能量具有叠加性，因此固定步进，并先固定接收平面的y坐标，依次将x坐标遍历，再将y坐标增加一个步进再次进行x坐标的遍历，直至遍历到接收平面最后一个像素点。将得到目标图像红色通道下的各处亮度的大小，至此测出了目标图像传播一段距离后的亮度分布。从而模拟构建出接收端红色通道成像。具体过程如图6所示。

同理，增加绿色(G)通道像素点，进行像素点朗伯点光源遍历水下传播模拟，模拟构建接收端绿色通道成像；增加蓝色(B)通道像素点，进行像素点朗伯点光源遍历水下传播模拟，模拟构建接收端蓝色通道成像。

最后，将得到的三通道模拟成像合成，从而模拟了目标图像在水下传播一段距离后的成像效果。三通道水下模拟成像效果图及合成的水下退化后的目标图像效果图如图7所示。

至此，仿真模拟了清晰目标图像的复杂水体环境下的成像，得到了一对退化图像和清晰图像。

根据上述方法，一幅清晰目标图像经过蒙特卡罗数值仿真模拟，生成一幅基于物理光学水下颜色衰减原理的退化图像；进行循环操作，可以得到水下视觉图像数据集。具体操作如下：

(1)选取批量清晰目标图像；

(2)将目标图像逐一输入仿真模型；

(3)每张清晰目标图像生成对应水下退化图像；

(4)储存仿真所得退化图像；

(5)批量清晰图像和仿真退化图像共同组成水下视觉数据集。

本发明采用蒙特卡罗数值模拟和光迹追踪的方式，通过对RGB三色通道各自在不同水体环境下的扩散情况和光场分布模拟，从物理层面分析水下图像失真原因。将RGB三色通道在水下传播过程中不同的散射及衰减效果作为重要的参考因素，从而得到比混合色道模拟更加准确的彩色图像水下仿真成像。同时，与现有的基于生成对抗网络的水下图像合成方法相比，不需要大量的成对数据集，也不会引入额外的噪声或伪影，就生成多样化和更为准确的水下图像，为机器学习水下视觉任务提供了有效的数据增强手段，生成的水下图像有利于提高水下视觉模型的泛化能力和鲁棒性。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种机器学习任务用水下视觉图像数据集的获取方法，其特征在于，包括以下步骤：

步骤1，搭建水体环境下图像RGB通道传输成像仿真模型；使用朗伯点光源作为光源，使用模拟光源发出的光子来模拟水体的光学特性，运用蒙特卡罗算法模拟光子水下传输，运用准直辐亮度计接收打在模拟接收平面上的光子；

步骤2，选取清晰的目标图像，将目标图像进行三通道分离及像素离散化处理后分解为基本的单通道单像素单元，对目标清晰图像进行灰度处理，得到该幅图像所有像素点的灰度值，所述灰度值决定了后续该像素点位置所代表点光源进行光子水下传输过程发射的总光子数；

步骤3，根据步骤2中的光子数目分配将每个单通道单像素单元输入到步骤1的仿真模型中进行光子水下传输的模拟，每个单通道单像素的光子达到接收平面后，被接收记录下光场信息；所述光场信息包括记录接收光子的位置坐标、入射角度和能量大小；

步骤4，对全图各通道划分的像素进行遍历传输，从而模拟构建出接收端三个通道成像，之后将三个通道合并实现水体环境下的图像仿真成像，最后得到一组目标图像及对应的退化图像；

2.如权利要求1所述的一种机器学习任务用水下视觉图像数据集的获取方法，其特征在于：所述朗伯点光源基于朗伯定律，用公式可以表示为:

I_e＝I₀×cosθ

将坐标轴z轴规定为I₀的方向，每个光子与z轴方向的夹角记为天顶角θ，θ的取值范围为[0,90°)，同时每一个光子发射方向在x-O-y平面内的投影同x轴正向的夹角定义为方位角φ，φ的取值范围为[0,360°)，对天顶角θ和方位角φ分别进行等间距分割，模拟光子的发射方向；其中I₀表示沿z轴方向的发光强度；I_e表示与z轴的夹角为θ方向的发光强度。

3.如权利要求1所述的一种机器学习任务用水下视觉图像数据集的获取方法，其特征在于，所述运用蒙特卡罗算法模拟光子水下传输，具体为：光子在模拟传播时，根据随机步长、随机散射方向和散射相位函数，更新自己的传播位置、传播方向和能量大小；光子在水下的传播衰减扩散过程，单个光子的随机步长s与水体的衰减系数c有如下关系：

s＝-lnτ/c

其中，s为单个光子的随机步长，τ为[0,1]间随机数，衰减系数c为提前设置的散射系数和吸收系数之和；

4.如权利要求1所述的一种机器学***面上的光子，具体为：

5.如权利要求4所述的一种机器学习任务用水下视觉图像数据集的获取方法，其特征在于：所述最大接收角度ɑ定为0.5°。

6.如权利要求1所述的一种机器学习任务用水下视觉图像数据集的获取方法，其特征在于，所述步骤2的具体过程为：

7.如权利要求1所述的一种机器学习任务用水下视觉图像数据集的获取方法，其特征在于，所述步骤4的具体过程为：