CN116258719B

CN116258719B - 基于多模态数据融合的浮选泡沫图像分割方法和装置

Info

Publication number: CN116258719B
Application number: CN202310541855.4A
Authority: CN
Inventors: 李江昀; 张妍; 林建祥; 王家庆; 董文凯; 刘茜
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-07-18
Anticipated expiration: 2043-05-15
Also published as: CN116258719A

Abstract

本发明涉及浮选技术领域，尤其涉及一种基于多模态数据融合的浮选泡沫图像分割方法和装置，包括：收集并预处理泡沫浮选过程中多模态数据，包括二维RGB图像数据和三维点云数据；将预处理后的多模态数据分别输入图像特征初步提取模块和柱体特征提取网络，进行泡沫图像特征的初步提取和泡沫点云柱体特征提取；将初步提取的泡沫图像特征和泡沫点云柱体特征输入跨模态交互融合模块，进行多模态特征的融合；将融合特征输入图像分割主干网络，进行频域分离编码和注意力增强解码，并构建密集跃层连接进行多尺度特征信息融合交互，预测得到像素级类别，并使用后处理模块得到泡沫实例级分割结果。本发明可以有效地从浮选泡沫图像中分割出泡沫实例。

Description

基于多模态数据融合的浮选泡沫图像分割方法和装置

技术领域

本发明涉及浮选技术领域，尤其涉及一种基于多模态数据融合的浮选泡沫图像分割方法和装置。

背景技术

选矿是矿产资源加工中必不可少的一个重要环节。泡沫浮选法作为一种矿物分选技术，可以提高低品位矿料的利用率，有效分离获取高品位矿料，广泛应用于稀有金属、钢铁、化工和煤炭等工业部门的原料分离过程。

目前，工业生产中主要依靠工人观察浮选池中泡沫的大小、灰度值、泡沫***速度等视觉表征，通过自身经验和专业知识来判断浮选的状态并做出相应调控。但由于浮选过程的影响因素复杂多样，并且浮选工人的判断具有主观性和不稳定性，矿物利用率和生产过程的可控程度缺乏客观的指标保障。因此对于浮选泡沫视觉表征判断的智能化、自动化是具有重要意义的。

浮选泡沫图像分割任务的目的就是通过对相机采集得到的泡沫RGB图像进行实例级分割，获取泡沫数量、大小、分布密度等静态视觉表征指标，并为判别泡沫流动方向和速度、生长和消失速度等动态因素提供依据，进而为浮选过程的自动化调控提供先验数据和量化指标。传统的浮选泡沫图像分割手段一般采用人工设计的指定特征作为模型提取的特征表示，具有很大的局限性，缺少泛化能力。随着机器视觉的发展及广泛应用，出现了使用机器视觉技术进行浮选泡沫图像分割的算法，这些算法可以大致分为边缘检测法、分水岭算法和阈值分割法。但由于浮选泡沫形状不规则且尺度较小、分布密集，图片成像噪点多、受环境影响大，这些方法的效果都极为有限，难以应用到实际的工业现场。

发明内容

本发明提供了一种基于多模态数据融合的浮选泡沫图像分割方法和装置，用以对浮选泡沫图像实例进行分割。所述技术方案如下：

一方面，提供了一种基于多模态数据融合的浮选泡沫图像分割方法，包括：

S1、收集并预处理泡沫浮选过程中多模态数据，所述多模态数据包括二维RGB图像数据和三维点云数据；

S2、将预处理后的多模态数据分别输入图像特征初步提取模块和柱体特征提取网络，进行泡沫图像特征的初步提取和泡沫点云柱体特征提取；

S3、将初步提取的泡沫图像特征和泡沫点云柱体特征输入跨模态交互融合模块，进行多模态特征的融合；

S4、将融合后的多模态特征输入图像分割主干网络，进行频域分离编码和注意力增强解码，并构建密集跃层连接进行多尺度特征信息融合交互，预测得到像素级类别；

S5、根据所述像素级类别，使用后处理模块得到泡沫实例级分割结果。

可选地，所述图像特征初步提取模块采用1×1卷积层初步提取泡沫图像特征；

所述柱体特征提取网络将预处理后的三维点云数据转化为稀疏的伪图像，令二维RGB图像和三维点云数据统一到图像空间中便于融合；

所述柱体特征提取网络由柱体划分模块、点云分组采样模块、柱体特征提取模块三部分组成；

所述柱体划分模块，用指定的柱体空间中x轴和y轴的尺寸将预处理后的点云特征栅格化为柱体；

所述点云分组采样模块，将每个点分配给对应的柱体，并通过随机采样确保每个柱体内的点不超过设定阈值；

所述柱体特征提取模块，分别学习每个柱体的特征，按点输入，对每个柱体内的点，按顺序通过线性连接层、批标准化和ReLU激活函数后，在每个特征通道上实施最大池化获得单个柱体内点的局域特征并拼接到每个点特征上，对特征图施加二元掩码以确保不包含点的空柱体对应的特征图上的值为0，最终将无序的稀疏点云转化为具有3维张量结构的、大小为C_p×H_p×W_p的伪图像特征图，C_p、H_p、W_p分别表示所述伪图像特征图的特征通道数、长和宽。

可选地，所述跨模态交互融合模块包括知识迁移和模态数据融合两部分；

先是知识迁移部分，输入分别为柱体特征生成的伪图像特征图和经过1×1卷积层后的图像特征，将点云数据中蕴含的深度和拓扑知识向图像特征转移，使用KL散度作为知识迁移过程中两种模态特征的距离指标，加入到网络训练的损失函数中；模态数据融合部分利用交叉注意力机制，以图像特征作为查询向量，柱体特征作为键向量和值向量，得到交叉注意力加权后的图像特征，通过全连接层后与原始图像特征拼接得到最终的融合特征。

可选地，所述图像分割主干网络基于编码器-解码器结构和密集跃层连接；

以融合后的多模态特征作为输入，5个编码层分别设置频域分离编码器，在高、低频段分别进行特征提取，得到表征强度高的特征信息，特征图尺度按层2倍下采样，而通道数每经过一层增大1倍；

设置4个解码器层再将特征逐步上采样恢复至原始尺度，在上采样过程中进行全局语义注意力增强和局部通道注意力增强，对应层数的编码层与解码层特征图的尺度和通道数相同；编码层和解码层之间具有密集多尺度跳跃连接，编码层k的特征图会向解码层i传输（i=1,...,4，k=1,...,i），实现多尺度特征的融合交互，减少深度编码下采样所造成的特征信息损失和噪声引入，每个编码层特征在进行向解码层的跃层连接之前都会先经过一个语义提取模块。

可选地，所述频域分离编码器对不同频段的图像信息独立处理；

在每个编码层，对输入特征图应用二维快速傅里叶变换2D-FFT将其从空间域转换到频域，对于尺寸为h×w（长为h，宽为w）的频谱图像，频谱图像中长位于()范围，宽位于(/>)范围的部分代表图像的低频信息，其余靠近频谱图像边缘的部分代表图像中的高频信息，将高低频信息裁剪分离开来，空缺位置补0至原输入特征图尺寸，使用二维快速傅里叶反变换2D-IFFT分别转换到空间域，得到空间域的高频特征图像和低频特征图像；

对所述高频特征图像采用3层ResNet中的残差单元，对所述低频特征图像采用3层3×3卷积层，分别提取特征后在通道维度拼接，得到当前编码层的输出。

可选地，所述语义提取模块得到一个向量，描述编码层特征所包括的不同语义类别的权重分布，用于后续解码层中的语义注意力模块；计算编码层k的特征的语义描述子，特征/>大小为C×H×W，使用1×1卷积并调整大小生成C×HW的特征图/>，再使用另一个1×1卷积并调整大小生成HW×N的特征图/>，C为当前层的特征通道数，N为64，/>经过转置和softmax函数激活，得到当前编码层特征各像素的语义注意力权重图，与/>矩阵相乘，得到C×N 的语义描述子/>，运算过程如下：/>

其中为1×1卷积，/>是softmax激活函数，/>表示矩阵/>的转置，计算得到的语义描述子/>和编码层特征/>一起通过跃层连接向解码层传输。

可选地，解码层i的输入包括编码层k特征、语义描述子/>和解码层i+1特征/>；对于k≠i时的跃层连接，先对编码层k特征进行平均池化下采样使其特征图尺度与解码层i相匹配；

每个解码层由语义注意力模块和通道注意力模块组成，前者的目的是为了弥补下采样过程中的语义信息流失，后者则是为了对编码特征图中的有用信息进行增强，并抑制噪声信息；

所述语义注意力模块，使用语义描述子对解码层特征中本任务所关心的语义信息进行全局增强，对解码层i+1特征，进行如下运算：

其中表示双三次插值上采样操作，特殊的是，解码层4的输入是编码层5特征，/>依次经过3×3卷积、批标准化和GELU激活函数，得到语义注意力增强过后的特征图/>；

所述通道注意力模块则使用类似的注意力机制，增强特征图中对本任务性能提升贡献多的特征通道，对编码层k特征和/>，进行如下运算：

其中表示平均池化操作，仅在k≠i时使用，/>依次通过3×3可分离卷积、批标准化和ReLU激活函数，输出解码层i特征/>；

最后一个解码层的输出通道数等于类别数3，使用softmax函数分别得到三个类别的概率，每个像素选取概率值最大的类别作为所述像素的预测类别，所述三个类别为：泡沫类、背景类和边缘类。

可选地，S5中根据所述像素级类别，使用后处理模块得到泡沫实例级分割结果，具体包括：

使用种子生长算法，将泡沫类别概率图的阈值设定为0.5，泡沫类概率大于0.5的像素设为种子；

每次迭代中，在每个方向上将边界向外推一个像素来迭代生成种子，随着种子区域的增大，其轮廓像素的平均泡沫类概率减小，而平均边缘类概率增大，当像素的平均边缘类概率达到迭代的最大值，则停止泡沫的进一步增长；当泡沫区域的生长方向入侵到其他生长区域，或者当它的边缘类或背景类概率会减少或增加时，也会停止区域增长，这就形成了一种各向异性生长机制，初始种子标记会在不同方向以不同的速度生长，使得最终可以获得不规则的非圆形封闭区域，所述非圆形封闭区域构成泡沫实例。

可选地，所述图像特征初步提取模块、柱体特征提取网络、跨模态交互融合模块和图像分割主干网络共同构成整体网络模型，使用CE loss+Lovasz loss损失函数计算像素级类别标签的误差，并与知识迁移部分的KL散度共同衡量模型误差，进行端到端的网络训练，根据梯度反传更新网络参数；

在验证步骤，加入后处理模块，由像素类别标签生成泡沫实例的连通域，在验证集上使用聚合杰卡德系数AJI和豪斯多夫距离HD进行评估验证模型性能，最终保留在验证集上效果最好的网络模型。

另一方面，提供了一种基于多模态数据融合的浮选泡沫图像分割装置，包括：

收集预处理模块，用于收集并预处理泡沫浮选过程中多模态数据，所述多模态数据包括二维RGB图像数据和三维点云数据；

提取模块，用于将预处理后的多模态数据分别输入图像特征初步提取模块和柱体特征提取网络，进行泡沫图像特征的初步提取和泡沫点云柱体特征提取；

融合模块，用于将初步提取的泡沫图像特征和泡沫点云柱体特征输入跨模态交互融合模块，进行多模态特征的融合；

预测模块，用于将融合后的多模态特征输入图像分割主干网络，进行频域分离编码和注意力增强解码，并构建密集跃层连接进行多尺度特征信息融合交互，预测得到像素级类别；泡沫实例级分割模块，用于根据所述像素级类别，使用后处理模块得到泡沫实例级分割结果。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于多模态数据融合的浮选泡沫图像分割方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于多模态数据融合的浮选泡沫图像分割方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

1）利用多模态数据输入提高了模型的分割精度，同时由于引入了泡沫的三维空间信息，增强了视觉特征的信息量，使模型对泡沫浮选场景中环境光照、泡沫流速和液体浓度等因素都有着较好的抗干扰能力。

2）针对浮选泡沫图像分割的任务特点设计了空间域和频域处理结合的、具有密集跃层连接的编码器-解码器深度神经网络，减少了模型特征传输过程中的信息损耗，减少了场景变化和数据质量所问题产生的噪声干扰，进而减少了由此造成的分割精度损失。整体网络模型能够实现有效的浮选泡沫图像实例分割，并具有较强的泛化能力。利用多尺度频率编码器提取不同层级和频段的图像信息，提高信息提取效率；设计密集跃层连接，进行跨尺度的特征融合；设计语义描述子表征泡沫图像分割所关注的语义类别，并以此对解码层特征图进行像素级的全局语义注意力增强；设计语义注意力模块和通道注意力模块，弥补了下采样过程中的语义信息流失，并对编码特征图中的有用信息进行增强，并抑制噪声信息，能够有效分割不同大小、形状的泡沫。

3）后处理种子算法和评价指标AJI和HD的选取分别对预测实例的生成质量以及质量评估的有效性有着较大提升。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于多模态数据融合的浮选泡沫图像分割方法流程图；

图2为本发明实施例提供的二维RGB图像数据图；

图3为本发明实施例提供的三维点云数据图；

图4为本发明实施例提供的标注图；

图5为本发明实施例提供的整体网络结构图；

图6为本发明实施例提供的柱体特征提取网络的网络结构图；

图7是本发明实施例提供的跨模态交互融合模块的网络结构图；

图8是本发明实施例提供的频域分离编码层的网络结构图；

图9是本发明实施例提供的语义提取模块的网络结构图；

图10是本发明实施例提供的注意力增强解码层的网络结构图；

图11为本发明实施例提供的一种基于多模态数据融合的浮选泡沫图像分割装置框图；

图12是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于多模态数据融合的浮选泡沫图像分割方法，包括：

本发明实施例在泡沫浮选场景下，使用由多目点云相机采集的多模态数据，既利用了RGB图像丰富的色彩、纹理信息，还补充了三维点云的深度和几何结构信息，且二者具有标准的对应关系，不需要复杂的校正对齐算法。对数据进行实例级分割标注，作为泡沫图像分割的数据集。设计了具有知识迁移和交叉注意力机制的跨模态交互融合模块，从二维图像数据和三维点云数据生成知识增强后的融合图像特征。搭建基于编码器-解码器的深度神经网络，以融合特征为输入，进行频域分离编码和注意力增强解码，并构建密集跃层连接进行多尺度特征信息融合交互，预测得到像素级类别，使用后处理模块得到泡沫实例级分割结果。网络模型中知识迁移部分使用KL散度（Kullback-Leibler divergence）进行优化，标签预测误差使用CE（Cross Entropy）损失函数和Lovasz loss损失函数衡量。保留验证集上的最优模型作为最终的泡沫图像分割模型。

下面结合图2-图10，详细说明本发明实施例提供的一种基于多模态数据融合的浮选泡沫图像分割方法，包括：

数据收集：通过多目点云相机得到浮选池中泡沫的俯视（Bird Eye View，BEV）视图二维RGB图像数据（如图2所示）和三维点云数据（如图3所示，为三维点云的俯视图）；

数据预处理：对RGB图像进行色彩增强，并对三维点云数据进行去噪滤波处理。

数据标注：人工对RGB图像上的泡沫目标进行标注，如图4所示，勾画泡沫边缘区分泡沫类和背景类；生成第三类别：边缘类，具体包括：将标注边缘±3范围的像素设定为边缘类，形成了包围每个泡沫标注实例的环，使得泡沫在拥挤分布构型下也能找到分割边界。

数据集划分：将RGB图片数据，对应三维点云数据与对应标注按400×640尺寸切割，并按比例划分训练集和验证集，形成数据集。

训练时通过随机翻转、随机缩放以及随机尺寸裁剪等进行数据增强，扩充训练数据集。由于泡沫图像中泡沫类的像素比例远大于其余两类，在数据增强阶段，以20%的概率随机dropout一些泡沫类像素。

可选地，如图5所示，所述图像特征初步提取模块采用1×1卷积层初步提取泡沫图像特征；

主要的图像特征提取是在后续融合后的图像分割主干网络编码层部分来实现的。

如图6所示，所述柱体特征提取网络由柱体划分模块、点云分组采样模块、柱体特征提取模块三部分组成；所述柱体划分模块，用指定的柱体空间中x轴和y轴的尺寸（设定成与图像尺寸成整数比例）将预处理后的点云特征栅格化为柱体；

可选地，如图7所示，所述跨模态交互融合模块包括知识迁移和模态数据融合两部分；

先是知识迁移部分，输入分别为柱体特征生成的伪图像特征图和经过1×1卷积层后的图像特征，将点云数据中蕴含的深度和拓扑知识向图像特征转移，使用KL散度作为知识迁移过程中两种模态特征的距离指标，加入到网络训练的损失函数中；

模态数据融合部分利用交叉注意力机制，以图像特征作为查询向量，柱体特征作为键向量和值向量，得到交叉注意力加权后的图像特征，通过全连接层后与原始图像特征拼接得到最终的融合特征。

可选地，如图5所示，所述图像分割主干网络基于编码器-解码器结构和密集跃层连接；以融合后的多模态特征作为输入，5个编码层分别设置频域分离编码器，在高、低频段分别进行特征提取，得到表征强度高的特征信息，特征图尺度按层2倍下采样，而通道数每经过一层增大1倍；

设置4个解码器层再将特征逐步上采样恢复至原始尺度，在上采样过程中进行全局语义注意力增强和局部通道注意力增强，对应层数的编码层与解码层特征图的尺度和通道数相同；

编码层和解码层之间具有密集多尺度跳跃连接，编码层k的特征图会向解码层i传输（i=1,...,4，k=1,...,i），实现多尺度特征的融合交互，减少深度编码下采样所造成的特征信息损失和噪声引入，每个编码层特征在进行向解码层的跃层连接之前都会先经过一个语义提取模块。

可选地，如图8所示，所述频域分离编码器对不同频段的图像信息独立处理；

由于泡沫图像不具有较为复杂和丰富的语义特征，图像中边缘和纹理等浅层信息占据了主要部分，还包括噪声信息。在空间域的多层次特征提取会导致这些浅层信息的丢失，而对图像特征进行频域分离可以对不同频段的图像信息独立处理，最大程度上地保留各种信息，同时这样的频域分离操作可以在同样参数量的情况下提升计算效率。

在每个编码层，对输入特征图应用二维快速傅里叶变换2D-FFT将其从空间域转换到频域，对于尺寸为h×w（长为h，宽为w）的频谱图像，频谱图像中长位于()范围，宽位于(/>)范围的部分代表图像的低频信息，其余靠近频谱图像边缘的部分代表图像中的高频信息，低频信息包括边缘和纹理等浅层信息，高频信息包括噪声和图像语义等信息，将高低频信息裁剪分离开来，空缺位置补0至原输入特征图尺寸，使用二维快速傅里叶反变换2D-IFFT分别转换到空间域，得到空间域的高频特征图像和低频特征图像；

对所述高频特征图像采用3层ResNet中的残差单元，对所述低频特征图像采用3层3×3卷积层，因为低频信息提取比较容易，所以采用较为简单的3层3×3卷积层，高频信息提取相对复杂，所以采用相对复杂的3层ResNet中的残差单元，分别提取特征后在通道维度拼接，得到当前编码层的输出。

可选地，如图9所示，所述语义提取模块得到一个向量，描述编码层特征所包括的不同语义类别的权重分布，用于后续解码层中的语义注意力模块；计算编码层k的特征的语义描述子/>，特征/>大小为C×H×W，使用1×1卷积并调整大小生成C×HW的特征图/>，再使用另一个1×1卷积并调整大小生成HW×N的特征图/>，C为当前层的特征通道数，N为64，经过转置和softmax函数激活，得到当前编码层特征各像素的语义注意力权重图，与/>矩阵相乘，得到C×N 的语义描述子/>，运算过程如下：

可选地，注意力增强解码层如图10所示，解码层i的输入包括编码层k特征、语义描述子/>和解码层i+1特征/>；

对于k≠i时的跃层连接，先对编码层k特征进行平均池化下采样使其特征图尺度与解码层i相匹配；

每次迭代中，在每个方向上将边界向外推一个像素来迭代生成种子，随着种子区域的增大，其轮廓像素的平均泡沫类概率减小，而平均边缘类概率增大，当像素的平均边缘类概率达到迭代的最大值（通过记住上次迭代的轮廓像素评判），则停止泡沫的进一步增长；当泡沫区域的生长方向入侵到其他生长区域，或者当它的边缘类或背景类概率会减少或增加时，也会停止区域增长，这就形成了一种各向异性生长机制，初始种子标记会在不同方向以不同的速度生长，使得最终可以获得不规则的非圆形封闭区域，所述非圆形封闭区域构成泡沫实例。

可选地，所述图像特征初步提取模块、柱体特征提取网络、跨模态交互融合模块和图像分割主干网络共同构成整体网络模型，使用CE loss+Lovasz loss损失函数计算像素级类别标签的误差，并与知识迁移部分的KL散度共同衡量模型误差，进行端到端的网络训练，根据梯度反传更新网络参数；在验证步骤，加入后处理模块（后处理模块不参与网络训练，仅用于模型的推理阶段），由像素类别标签生成泡沫实例的连通域，在验证集上使用聚合杰卡德系数（Aggregated Jaccard Index,AJI）和豪斯多夫距离（Hausdorff Distance,HD）进行评估验证模型性能，最终保留在验证集上效果最好的网络模型。

本发明实施例中使用的所有数值，都是本发明的较佳示例，但本发明并不限制这些数值，都在本发明实施例的保护范围内。

如图11所示，提供了一种基于多模态数据融合的浮选泡沫图像分割装置，包括：

收集预处理模块1110，用于收集并预处理泡沫浮选过程中多模态数据，所述多模态数据包括二维RGB图像数据和三维点云数据；

提取模块1120，用于将预处理后的多模态数据分别输入图像特征初步提取模块和柱体特征提取网络，进行泡沫图像特征的初步提取和泡沫点云柱体特征提取；

融合模块1130，用于将初步提取的泡沫图像特征和泡沫点云柱体特征输入跨模态交互融合模块，进行多模态特征的融合；

预测模块1140，用于将融合后的多模态特征输入图像分割主干网络，进行频域分离编码和注意力增强解码，并构建密集跃层连接进行多尺度特征信息融合交互，预测得到像素级类别；

泡沫实例级分割模块1150，用于根据所述像素级类别，使用后处理模块得到泡沫实例级分割结果。

本发明实施例提供的一种基于多模态数据融合的浮选泡沫图像分割装置，其功能结构与本发明实施例提供的一种基于多模态数据融合的浮选泡沫图像分割方法相对应，在此不再赘述。

图12是本发明实施例提供的一种电子设备1200的结构示意图，该电子设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）1201和一个或一个以上的存储器1202，其中，所述存储器1202中存储有至少一条指令，所述至少一条指令由所述处理器1201加载并执行以实现上述基于多模态数据融合的浮选泡沫图像分割方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于多模态数据融合的浮选泡沫图像分割方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态数据融合的浮选泡沫图像分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述图像特征初步提取模块采用1×1卷积层初步提取泡沫图像特征；

3.根据权利要求2所述的方法，其特征在于，所述跨模态交互融合模块包括知识迁移和模态数据融合两部分；

4.根据权利要求1所述的方法，其特征在于，所述图像分割主干网络基于编码器-解码器结构和密集跃层连接；

5.根据权利要求4所述的方法，其特征在于，所述频域分离编码器对不同频段的图像信息独立处理；

在每个编码层，对输入特征图应用二维快速傅里叶变换2D-FFT将其从空间域转换到频域，对于尺寸为h×w（长为h，宽为w）的频谱图像，频谱图像中长位于()范围，宽位于()范围的部分代表图像的低频信息，其余靠近频谱图像边缘的部分代表图像中的高频信息，将高低频信息裁剪分离开来，空缺位置补0至原输入特征图尺寸，使用二维快速傅里叶反变换2D-IFFT分别转换到空间域，得到空间域的高频特征图像和低频特征图像；

6.根据权利要求4所述的方法，其特征在于，所述语义提取模块得到一个向量，描述编码层特征所包括的不同语义类别的权重分布，用于后续解码层中的语义注意力模块；计算编码层k的特征的语义描述子/>，特征/>大小为C×H×W，使用1×1卷积并调整大小生成C×HW的特征图/>，再使用另一个1×1卷积并调整大小生成HW×N的特征图/>，C为当前层的特征通道数，N为64，/>经过转置和softmax函数激活，得到当前编码层特征各像素的语义注意力权重图，与/>矩阵相乘，得到C×N 的语义描述子/>，运算过程如下：

；

7.根据权利要求6所述的方法，其特征在于，解码层i的输入包括编码层k特征、语义描述子/>和解码层i+1特征/>；

所述语义注意力模块，使用语义描述子对解码层特征中本任务所关心的语义信息进行全局增强，对解码层i+1特征，进行如下运算：；

其中表示双三次插值上采样操作，解码层4的输入是编码层5特征，/>依次经过3×3卷积、批标准化和GELU激活函数，得到语义注意力增强过后的特征图/>；

所述通道注意力模块则使用注意力加权机制，增强特征图中对本任务性能提升贡献多的特征通道，对编码层k特征和/>，进行如下运算：

；

8.根据权利要求1所述的方法，其特征在于，S5中根据所述像素级类别，使用后处理模块得到泡沫实例级分割结果，具体包括：

9.根据权利要求1所述的方法，其特征在于，所述图像特征初步提取模块、柱体特征提取网络、跨模态交互融合模块和图像分割主干网络共同构成整体网络模型，使用CE loss+Lovasz loss损失函数计算像素级类别标签的误差，并与知识迁移部分的KL散度共同衡量模型误差，进行端到端的网络训练，根据梯度反传更新网络参数；

10.一种基于多模态数据融合的浮选泡沫图像分割装置，其特征在于，包括：

预测模块，用于将融合后的多模态特征输入图像分割主干网络，进行频域分离编码和注意力增强解码，并构建密集跃层连接进行多尺度特征信息融合交互，预测得到像素级类别；

泡沫实例级分割模块，用于根据所述像素级类别，使用后处理模块得到泡沫实例级分割结果。