CN113705371A

CN113705371A - 一种水上视觉场景分割方法及装置

Info

Publication number: CN113705371A
Application number: CN202110914168.3A
Authority: CN
Inventors: 肖长诗; 陈芊芊; 陈华龙; 文元桥; 张帆
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-11-26
Anticipated expiration: 2041-08-10
Also published as: CN113705371B

Abstract

本发明涉及一种水上视觉场景分割方法，包括以下步骤：采集水上场景的实景图像，采用预训练语义分割网络对实景图像进行语义分割，生成实景图像中每一像素的语义标签；采用特征聚类算法对实景图像进行分割，得到多个超像素区域；统计每一超像素区域中各类语义标签对应像素的比例，以比例最大的像素的语义标签作为相应超像素区域的语义标签，并根据比例计算相应超像素区域的语义标签的置信度权重；根据标记了语义标签以及置信度权重的实景图像建立实景训练样本集；通过实景训练样本集对深度卷积神经网络进行训练，得到语义分割网络；将待识别图像输入语义分割网络，得到语义分割结果。本发明能够自动生成语义分割网络的训练样本的语义标签。

Description

一种水上视觉场景分割方法及装置

技术领域

本发明涉及水上场景理解技术领域，尤其涉及一种水上视觉场景分割方法、装置及计算机存储介质。

背景技术

传统的图像语义分割方法主要包含像素级别阈值法、基于像素聚类的分割方法以及基于图论划分的分割方法。其主要依赖于图像的低维视觉特征进行分割，采用基于颜色、纹理、边缘等视觉特征，用一些特征提取算法提取图像中物体的边缘特征、纹理等视觉信息，然后根据这些低层的视觉特征对图像中的区域和物体进行分割，如常用的图像特征有方向梯度直方图特征，SIFT特征，SURF特征，局部二值特征(LBP)，Gabor特征等。

随着神经网络技术的发展，语义分割网络也被应用至图像语义分割中。在进行语义分割网络的训练时，我们可以利用ImageNet等公开图像数据集离线训练U-Net得到图像语义分割网络，但是由于训练集并非专门针对水上航行场景，如果将此语义分割网络直接应用于水上语义分割，误差会比较大，因此我们需要对这个网络进行进一步的再训练，使网络结构和权重适应新的应用场景。这个再训练过程需要经过标注的实景训练数据集，而人工标注生成实景训练数据集存在着效率低，易出错的问题。

发明内容

有鉴于此，有必要提供一种水上视觉场景分割方法、装置及计算机存储介质，用以解决语义分割网络的实景训练数据标注困难、易出错的问题。

本发明提供一种水上视觉场景分割方法，包括以下步骤：

采集水上场景的实景图像，采用预训练语义分割网络对所述实景图像进行语义分割，生成实景图像中每一像素的语义标签；

采用特征聚类算法对所述实景图像进行分割，得到多个超像素区域；

统计每一所述超像素区域中各类语义标签对应像素的比例，以比例最大的像素的语义标签作为相应超像素区域的语义标签，并根据比例计算相应超像素区域的语义标签的置信度权重；

根据标记了语义标签以及置信度权重的实景图像建立实景训练样本集；

通过所述实景训练样本集对深度卷积神经网络进行训练，得到语义分割网络；

将待识别图像输入所述语义分割网络，得到语义分割结果。

进一步的，采用特征聚类算法对所述实景图像进行分割，得到多个超像素区域，具体为：

利用所述实景图像序列之间的生命周期语义特征点区分不同的场景区域，并利用不同参数的高斯分布对特征点的特征时间统计进行建模，得到双高斯模型，将所述双高斯模型作为所提取特征点的似然函数；

采用聚类算法计算所述实景图像中除特征点以外的其它像素点的似然函数；

在贝叶斯框架下，以卷积神经网络分割的损失值作为先验概率，结合所述似然函数，计算图像中所有像素点的分类概率：

P_r(X_i,j＝o|Y)∝P(Y|X_i,j＝o)×P(X_i,j＝o)；

其中，P_r(X_i,j＝o|Y)为分类概率，P(Y|X_i,j＝o)为先验概率，P(X_i,j＝o)为似然函数；

所述分类概率与先验概率和似然函数的乘积呈正比，根据所述分类概率完成实景图像语义分割，得到多个超像素区域。

进一步的，采用聚类算法计算所述实景图像中除特征点以外的其它像素点的似然函数，具体为：

以所提取的特征点为中心，基于聚类算法模型计算其它像素点与该特征点之间的距离和灰度差值，假设这个聚类算法的模型为：

P(Y_i|X_i,j＝o)＝K·exp(-(ΔI_i,j)·(Δd_i,j))；

其中，P(Y_i|X_i,j＝o)为除了特征点以外的其他像素点的似然函数，X_i,j∈{o,w}，o表示像素点属于障碍物，w表示像素点属于水面，Y_i表示观测值，K为缩放因子，ΔI_i,j表示像素点与特征点之间的距离，Δd_i,j表示像素点与特征点之间的灰度差值。

进一步的，根据比例计算相应超像素区域的语义标签的置信度权重，具体为：

获取所述比例作为第一权重因子；

获取所述超像素区域的生命周期的特征数量作为第二权重因子；

获取所述超像素区域内雷达回波信号的覆盖比例，作为第三权重因子；

对所述第一权重因子、第二权重因子、第三权重因子进行归一化，得到三个相应的概率，以最大概率与次大概率的差值作为所述置信度权重。

进一步的，根据标记了语义标签以及置信度权重的实景图像建立实景训练样本集，具体为：

构建生成对抗网络，利用所述实景图像对所述生成对抗网络进行训练；

利用训练好的生成对抗网络自动生成训练样本，构建所述实景训练样本集。

进一步的，构建生成对抗网络，利用所述实景图像对所述生成对抗网络进行训练，具体为：

采用无层间连接U-Net的结构构建生成网络；

采用Triplet网络结构构建辨别网络；

以所述实景图像作为输入图像输入所述生成网络，得到生成图像；

Triplet网络包括三个特征提取网络，分别将输入图像、生成图像以及参考图像输入三个特征提取网络，变换到同一深层特征空间，以特征向量的距离作为损失函数计算损失值；

通过反向传播所述损失值训练所述生成对抗网络。

进一步的，所述损失函数为：

G^*＝arg min_G max_D(L_CGAN)+αL_content+βL_environment；

其中，G^*表示损失值，α、β为超参数，L_CGAN表示生成对抗网络的损失函数，L_content为输入场景的约束项，L_environment为参考图像的迁移特征相关的约束项，max_D表示取最大值，min_G表示取最小值。

进一步的，利用所述实景图像对所述生成对抗网络进行训练之前，还包括：

采用人工标注的样本图像集对所述生成对抗网络的辨别网络进行预训练。

本发明还提供一种水上视觉场景分割装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述水上视觉场景分割方法。

本发明还提供一种计算机存储介质，其上存储有计算机程序，所述计算机该程序被处理器执行时，实现所述水上视觉场景分割方法。

有益效果：本发明首先对输入图像用两种分割方法进行并行分割，两种分割方法生成区域不会完全重合，尤其在不同区域交接处的差别较大。然后利用超像素里面包含的像素的语义的分布特点来决定该超像素的语义标签。打上语义标签和置信度权重的超像素区域分割图将作为新的训练数据用于在线训练语义分割网络。本发明自动生成了分割网络的训练数据，效率高，出错率低。

附图说明

图1为本发明提供的水上视觉场景分割方法第一实施例的方法流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

实施例1

如图1所示，本发明的实施例1提供了水上视觉场景分割方法，其特征在于，包括以下步骤：

S1、采集水上场景的实景图像，采用预训练语义分割网络对所述实景图像进行语义分割，生成实景图像中每一像素的语义标签；

S2、采用特征聚类算法对所述实景图像进行分割，得到多个超像素区域；

S3、统计每一所述超像素区域中各类语义标签对应像素的比例，以比例最大的像素的语义标签作为相应超像素区域的语义标签，并根据比例计算相应超像素区域的语义标签的置信度权重；

S4、根据标记了语义标签以及置信度权重的实景图像建立实景训练样本集；

S5、通过所述实景训练样本集对深度卷积神经网络进行训练，得到语义分割网络；

S6、将待识别图像输入所述语义分割网络，得到语义分割结果。

为了自动生成实景图像的寓意标签，本实施例首先对当前输入图像用两种分割方法进行并行分割。第一种方法为：使用经过预训练的语义分割网络对图像中每个像素生成语义标签进行分割，语义标签可以为水面、天空、岸线等等。第二种方法为：采用特征聚类分割，如尺度自适应聚类或者图分割，生成不带语义信息的超像素区域，根据需要，还可以利用随机马尔可夫随机场的方法进一步优化聚类分割结果。上述两种分割方法生成区域不会完全重合，尤其在不同区域交接处的差别较大，我们利用超像素里面包含的像素的语义的分布特点来决定该超像素的语义标签。例如，如果一个超像素区域内大部分像素都是“水面”标签，那么该超像素区域也会被打上“水面”的标签，这个标签的置信度和“水面”标签像素在超像素区域中的比例成正比。打上语义标签和置信度权重的超像素区域分割图将作为新的训练数据用于在线训练语义分割网络。置信度权重的作用体现在网络训练的损失函数中，置信度越高的超像素对损失函数值的影响越大。

在上述的实景训练数据生成方案中，影响数据质量由两个因素决定：第一个因素是特征聚类分割的质量；第二个因素是生成标签置信度权重的计算。本实施例针对这两个影响因素提出了改进方案，下面进行具体阐述。

优选的，采用特征聚类算法对所述实景图像进行分割，得到多个超像素区域，具体为：

P_r(X_i,j＝o|Y)∝P(Y|X_i,j＝o)×P(X_i,j＝o)；

双高斯模型为：

其中，t为观测到的特征点特征时间，μ为生命周期模型的平均值，σ²为生命周期模型的标准差，f_μ,σ(t)为所提取的特征点的似然函数。

结合双高斯模型和聚类算法模型可以计算出图像中所有像素点的似然函数分布。

优选的，采用聚类算法计算所述实景图像中除特征点以外的其它像素点的似然函数，具体为：

以所提取的特征点为中心，基于聚类算法模型计算其它像素点与该特征点之间的距离和灰度差值，聚类算法的模型为：

P(Y_i|X_i,j＝o)＝K·exp(-(ΔI_i,j)·(Δd_i,j))；

本实施例还对特征聚类分割算法的初始化方法进行了改进。在区域生长图像分割算法中，区域生长种子的数目和位置分布是一个依赖于先验知识预先设定的参数，不同的初始种子数目和分布参数导致分割结果差别很大。本实施例利用基于不同生命周期的特征在当前输入图像中的位置分布聚集特点，选取合适的区域种子数目和种子位置，减少分割结果对先验参数的依赖性。具体步骤为：首先进行特征提取跟踪，统计当前图像中特征的生命周期和位置分布的三维直方图，然后根据直方图中峰值的数目和峰值位置设置区域生长种子的数目和位置分布，最后利用区域生长算法完成当前图像分割。

优选的，根据比例计算相应超像素区域的语义标签的置信度权重，具体为：

获取所述比例作为第一权重因子；

本实施例根据超像素区域的语义标签对应像素的比例，并融合雷达、AIS异质传感器信息计算置信度权重。

实景训练数据的标签置信度权重的计算方案：如前所述的实景训练数据生成基本方案，生成的训练数据中除了每个像素标签信息，还附带有标签的置信度的权重信息。这个权重的分配方法直接通过损失函数影响网络训练效果，如何合理的计算这个权重是网络训练效果的关键因素之一。本实施例引入了影响置信度权重的三个因素：聚类分割生成的超像素区域内的语义分布特征、超像素区域内的特征生命周期分布特征、超像素区域内的雷达和AIS信号反投影信号的分布特征。

1.语义标签置信度权重因子：计算超像素区域内各个语义像素的统计比例作为该超像素属于某一类目标(水面、天空、障碍)的概率，此处的比例即为基于卷积神经网络(CNN)分割的softmax损失值。

2.特征生命周期置信度权重因子：统计超像素区域生命周期的特征数量，数量越大，该超像素属于障碍区域的概率越大。

3.雷达AIS信号反投影置信度权重因子：统计超像素区域内雷达回波信号覆盖的比例，比例越大该超像素属于障碍区域的概率越大。

对每类场景目标语义标签，融合上述三种权重影响因子，归一化后作为对超像素属于每种语义标签的概率。把概率最大的标签类别作为超像素的语义标签，置信度权重则由最大概率和次大概率的差值决定。

优选的，根据标记了语义标签以及置信度权重的实景图像建立实景训练样本集，具体为：

用数据增强办法来扩大训练数据集是深度学***移、选择、拉伸、扭曲、加噪等处理，从而成倍增加训练数据集；第二种方式是3D数字模型场景虚拟相机成像；第三种方式是利用数据生成网络从一定随机分布随机生成特定图像数据。

本实施例采用第三种方式并对其进行了改进，最常见的数据生成网络就是生成对抗网络(Generative Adversarial Network)，其基本思想是：GAN由判别器D和生成器G组成，它们的结构都为CNN。生成器G由一个随机向量通过CNN网络生成虚拟图像，与真实图像一起输入判别器，判别器通过另一个CNN网络来判断输入的图像是真实还是虚拟的；在训练过程中，交替训练生成网络和判别网络：网络损失函数的设计使得判别器尽量分别开虚拟数据与真实数据，而生成网络则生成尽量接近真实的数据来降低判别器准确率。两者通过交互竞争学习，达到纳什均衡，两个网络同时达到最优。

优选的，构建生成对抗网络，利用所述实景图像对所述生成对抗网络进行训练，具体为：

采用无层间连接U-Net的结构构建生成网络；

采用Triplet网络结构构建辨别网络；

通过反向传播所述损失值训练所述生成对抗网络。

本实施例采用一种扩展的GAN来生成虚拟数据，即条件生成对抗网络，主要思想是根据图像分割网络生成的语义标签图作为生成约束条件，以语义标签为前提，在特定标签区域生成特定的纹理，使生成的虚拟图像的纹理特征分别与语义一致，并在本征特征的层次上，尽量接近原始的分割网络输入图像。本实施例尤其针对自然场景图像的气象特征迁移技术，比如从实景图像中平静的水面纹理生成虚拟的有不同波浪高度的水面、或者从实景阴天下的水面纹理生成虚拟的水面耀光的纹理、或者现实场景中增加虚拟雾气、或是虚拟生成岛礁、船舶等障碍物等等。详细方案说明如下:

1.CGAN的生成网络：采用无层间连接U-Net的编码器/解码器结构。场景气象特征迁移是像素到像素的非线性变换映射，因此网络最后的标签输出层需要修改为RGB三维虚拟像素生成输出。

2.CGAN的辨别网络：采用Triplet网络(Siamese Network的扩展)，三个特征提取网络具有共同的网络结构和网络参数，同时将输入图像，生成图像和参考图像的将生成图像变换到同一深层特征空间，然后通过计算特征向量的的距离度量来计算相应的损失函数,通过反向传播误差来训练和优化网络，引导生成网络生成的图像在本征特征上与输入图像接近，而在气象特征上与参考图像接近，同时满足输入图像的语义分割图约束。

优选的，所述损失函数为：

G^*＝arg min_G max_D(L_CGAN)+αL_content+βL_environment；

网络训练损失函数设计：气象特征迁移CGAN网络的训练所用的损失函数由三部分构成：第一部分是正常的CGAN损失函数L_CGAN，第二部分是输入场景的约束L_content，即生成图像的本征场景尽量与输入的本征场景接近；第三部分则是与待迁移的目标气象场景参考图的气象特征相关的约束项L_environment。

三个约束项的计算如下：

L_CGAN＝E_x,y[log D(x,y)]+E_x,z[log(1-D(x,G(x,z)))]；

其中D(x,y)代表辨别器在给定语义标签x情况下辨别真实场景和虚拟场景的能力，G(x,z)代表生成器在给定语义标签x情况下由随机噪声z生成虚拟场景y的能力。

本实施例关注的气象环境对场景视觉特征的影响具有区域性特征，如在高风浪气象下，水面的特征和岸上目标或天空的特征区别很大，所以基于整幅图像的绘画风格特征统计方法并不适用。本实施例在网络输入中引入了分割区域的语义信息，使得特征具有空间区域局限特性，通过这种方式引导网络对不同区域进行不同的气象特征学习，达到生成逼真场景的虚拟图像作为训练数据的目的。

综合上述三部分损失函数，对生成器G的训练优化目标为:

G^*＝arg min_G max_D(L_CGAN)+αL_content+βL_environment。

网络优化训练由采用带动量的随机梯度下降法SGD，网络泛化方法采用drop-out、L2/L1约束等常用方法。

优选的，利用所述实景图像对所述生成对抗网络进行训练之前，还包括：

为减少CGAN网络训练复杂度，辨别网络可以采用手工标注的不同气象场景的数据集进行预训练。有监督的预训练方案在特征提取网络后添加全连接层和输出softmax层，用于气象场景语义分类，气象语义词典覆盖通常的航行场景和气象场景。另一个方案是利用人工标注的不同气象航行场景数据集，与图像语义分割网络一起联合进行有监督学习，气象特征提取网络与语义分割网络的编码器部分重合。

本实施例对语义分割网络进行在训练时，不需要人工标注的训练数据集，而是在线实时生成训练数据，自动生成高质量、场景自适应的带标签的训练数据。为了提高网络精度，在训练的时候需要重点考虑语义置信度高的像素区域，减少语义置信度低的像素的影响度，因此本实施例中对每个像素的语义标签的计算一个权重项，使其自动调整网络损失函数，生成的训练数据通过对图像特征的提取，以及融合雷达、AIS数据后得到，最终得到的自动生成标签，在不同区域有不同的置信度。

实施例2

本发明的实施例2提供了水上视觉场景分割装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现实施例1提供的水上视觉场景分割方法。

本发明实施例提供的水上视觉场景分割装置，用于实现水上视觉场景分割方法，因此，水上视觉场景分割方法所具备的技术效果，水上视觉场景分割装置同样具备，在此不再赘述。

实施例3

本发明的实施例3提供了计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现实施例1提供的水上视觉场景分割方法。

本发明实施例提供的计算机存储介质，用于实现水上视觉场景分割方法，因此，水上视觉场景分割方法所具备的技术效果，计算机存储介质同样具备，在此不再赘述。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种水上视觉场景分割方法，其特征在于，包括以下步骤：

将待识别图像输入所述语义分割网络，得到语义分割结果。

2.根据权利要求1所述的水上视觉场景分割方法，其特征在于，采用特征聚类算法对所述实景图像进行分割，得到多个超像素区域，具体为：

P_r(X_i,j＝o|Y)∝P(Y|X_i,j＝o)×P(X_i,j＝o)；

3.根据权利要求1所述的水上视觉场景分割方法，其特征在于，采用聚类算法计算所述实景图像中除特征点以外的其它像素点的似然函数，具体为：

P(Y_i|X_i,j＝o)＝K·exp(-(ΔI_i,j)·(Δd_i,j))；

4.根据权利要求1所述的水上视觉场景分割方法，其特征在于，根据比例计算相应超像素区域的语义标签的置信度权重，具体为：

获取所述比例作为第一权重因子；

获取所述超像素区域的所有像素点的似然函数分布作为第二权重因子；

5.根据权利要求1所述的水上视觉场景分割方法，其特征在于，根据标记了语义标签以及置信度权重的实景图像建立实景训练样本集，具体为：

6.根据权利要求5所述的水上视觉场景分割方法，其特征在于，构建生成对抗网络，利用所述实景图像对所述生成对抗网络进行训练，具体为：

采用无层间连接U-Net的结构构建生成网络；

采用Triplet网络结构构建辨别网络；

通过反向传播所述损失值训练所述生成对抗网络。

7.根据权利要求6所述的水上视觉场景分割方法，其特征在于，所述损失函数为：

G^*＝arg min_Gmax_D(L_CGAN)+αL_content+βL_environment；

8.根据权利要求5所述的水上视觉场景分割方法，其特征在于，利用所述实景图像对所述生成对抗网络进行训练之前，还包括：

9.一种水上视觉场景分割装置，其特征在于，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-8任一项所述的水上视觉场景分割方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机该程序被处理器执行时，实现如权利要求1-8任一项所述的水上视觉场景分割方法。