CN116109656A

CN116109656A - 一种基于无监督学习的交互式图像分割方法

Info

Publication number: CN116109656A
Application number: CN202310137301.8A
Authority: CN
Inventors: 史青宣; 李一行
Original assignee: Hebei University
Current assignee: Hebei University
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-05-12

Abstract

本发明提供了一种基于无监督学***滑，最后再过滤掉背景像素，得到可用于交互式分割的伪标签；构建一个可以迭代执行的交互式分割网络，把伪标签送入网络训练，以标签的边界框生成外点，再根据初次分割结果与真值对比得到最大错误分割区域的中心模拟迭代的交互点得到可迭代的无监督交互式分割模型。本发明还实现了测试时自适应优化，使得本发明的模型能够适应于不同的应用场景和领域。

Description

一种基于无监督学习的交互式图像分割方法

技术领域

本发明涉及计算机视觉与图像分析领域，具体地说是一种基于无监督学习的交互式图像分割方法。

背景技术

交互式图像分割是借助用户的少量交互(如点击、给定边界框、涂鸦等)，将目标物体从复杂的图像背景环境中分离出来的一种技术。传统的交互式图像分割方法基于图像像素间局域的相似性和边界的突变性，借助用户提供的交互提供硬约束，根据这些特征信息来分割物体。但是传统的图像方法只利用图像像素间的局部关系，无法利用图像中物体的全局结构信息。因此对于纹理颜色相近的和包含噪声的图像往往缺乏鲁棒性。近年来基于深度学习的有监督的交互式图像分割方法，借助已知有标签的数据构建并训练准确的分割神经网络模型，对未知标签的数据进行类别预测。有监督方法得到的分割结果通常具有较强的可解释性，但是依然依赖于有标签的数据。像素级别的标签是密集的注释，每个像素都需要在代价极高的条件下执行，毫无疑问，这个代价是昂贵、费力且耗时的。交互式图像分割是借助人类注释者的交互以一种简单有效的方式给图像进行注释，但其训练网络模型本身也依赖于标注过的图像。而且其也受到图像领域的限制，比如在自然场景样本得到的图像在医学图像往往表现不佳，需要重新训练等。因此不需要依赖标注数据的无监督的交互式分割必然是一种新颖的解决方案。

发明内容

本发明的目的就是提供一种基于无监督学习的交互式图像分割方法，以解决现有技术中基于有监督方法得到的分割结果受限制以及费时费力的问题。

本发明是这样实现的：一种基于无监督学习的交互式图像分割方法，包括如下步骤：

a、使用经过预训练的神经网络模型作为特征提取器对无标签的图像数据集中的图像进行特征提取，然后对提取的特征进行聚类，建立像素之间跨图像的对应关系，根据聚类结果分配标签，再使用超像素投票算法使得这些标签边缘平滑，最后再过滤掉背景像素，得到可用于交互式分割的伪标签；

b、构建一个可以迭代执行的交互式分割网络，把步骤a得到的伪标签送入网络训练，以标签的边界框生成外点，再根据初次分割结果与真值对比得到最大错误分割区域的中心模拟迭代的交互点得到可迭代的无监督交互式分割模型；

c、将人类交互的点击视为正样本，在测试时对网络参数进行修正，通过构建最小化稀疏的点击损失函数来优化模型，并通过增加改变网络参数的代价函数来避免模型遗忘对图像的初始的良好预测。

上述方案中，步骤a具体如下：

a-1、使用经过预训练的神经网络模型作为特征提取器提取特征；该预训练模型是通过图像级别的自监督对比学习方法得到的；具体来说，给定一组未标记的图像定义为X＝{x₁，x₂，...x_i}，其中x_i是该样本集中的第i个样本图像。设f_θ(·)为现有的无监督方法的特征提取器，对该样本集的所有图像样本进行特征提取后，对于图像x_i生成的特征图f_θ(x_i)的每个像素p都会产生特征表示。定义f_θ(x_i)[p]代表像素级别的特征表示，使用K-means算法对所有图像样本生成特征图的每个像素进行聚类：

其中y_ip表示第i个图像产生特征图的第p个像素的聚类中心标签,μ_k是第k个聚类中心。聚类后，对每个图像x_i的产生特征图的每个像素p，都能分配给其对应标签y_ip，我们将其上采样至原始图像的大小，就得到了图像的标签图；

a-2、采用超像素投票算法对得到的标签图的边缘信息进行优化，具体是：通过超像素投票算法得到过分割的超像素，其中，超像素的生成的依据是将原始图像的视为一个无向图G＝(V,E)，其中V表示顶点集合，E表示边的集合，每条边连接两个相邻的像素(i,j)，边上的权值w表示两个顶点之间RGB值的平方差；初始阶段的每一个像素比较其到八邻域像素的权重，按照从小到大的顺序排列，选出权值最小的边，把他们合并到一个区域里面，这样会产生很多最小生成树；如果连接两个最小生成树的边权重小于等于这两个树中权重最大的边的最小值，则两树合并；按着这个规则不断的更新无向图，直到无满足合并条件的树；这些树的像素点的集合就是超像素；得到过分割的超像素后，将超像素内最多的标签分配给超像素的所有像素，使图像标签的边界和图像的边界对齐；

a-3、过滤掉出现最多的类别，将其视为背景，将剩余的标签视为前景标签并加以利用。

上述方案中，步骤b具体如下：

b-1、将每一类别的标签根据其最左、最右、最上、最下的像素点得到一个环绕这个类别物体标签的边界框；然后选择边界框的四个角点，来模拟人类的点击行为；

b-2、将上述四个角点视为背景点击，在这些角点的坐标处生成2D高斯核来作为点击的表征产生热图；在神经网络的输入部分，将背景点击产生的热图和图像的RGB三个通道连接起来作为神经网络的输入；然后使用神经网络预测的结果与分配的标签做二分交叉熵损失进行训练，最后得到模型；

b-3、通过有标签的数据对网络模型进行调优。

步骤b-2中训练时，后续增加了一个迭代的训练过程，在只有背景点击的热图的基础上增加了前景点击热图，进行迭代的训练。首先，本发明的网络模型需要两个初始的点击(对角相对的两个角点)来确定一个环绕物体的边界框，如果用户对当前的分割输出不满意，可以继续点击进行优化。具体是：在训练过程中，在最大分割的错误区域的中心添加新的点击，如果该点位于前景像素，则视为前景点击，如果该点位于背景像素则视为背景点击。在训练过程中迭代仅进行一次，损失是初始分割和修正后分割结果的损失相加得到。

上述方案中，步骤c具体如下：

c-1、将人类的交互点击视为正确的样本标签，在测试的过程中进行网络参数的修正，从而实现持续学习；

c-2、将修正的点击视为真值标签，通过最小化稀疏的基于点击修正的损失函数来优化模型；基于点击修正的损失函数如公式(2)所示：

其中1[.]是指示函数；c是值为{1,0,-1}的向量，其中1代表交互的像素点被修正为前景像素，0代表交互点的像素被修正为背景像素，剩下的像素点被标记为-1；f(x；θ)表示在参数为θ的条件下的神经网络模型的特征映射，|.|代表L1归一化；

c-3、通过增加改变网络参数的代价函数来避免模型遗忘对图像的初始的良好预测；基于网络参数改变的代价函数如公式(3)所示：

L_F(θ)＝Ω(θ-θ^*)^⊙2 (3)

其中θ^*为初始的网络参数，θ为更新后的网络参数，(·)^⊙2代表逐元素的平方，Ω是每个网络参数的重要性系数，由图像累积梯度得到，如公式(4)所示：

其中x_i是数据集中第i个图像样本，N为数据集的总个数，g(.)为图像样本经过神经网络时产生的梯度；

c-4、最后将基于点击修正的损失函数和惩罚重要网络参数改变的损失函数结合，得到测试时修正的损失函数，如公式(5)所示：

L_combine(x,c,θ)＝L_CE(x,c,θ)+λL_F(θ) (5)

其中λ是调控参数。

本发明提出了一种无监督的交互式分割方法，可以从没有标注的数据中学习某种模式，不依赖任何图像标注进行图像分割。此外该分割模型可以在用户对初始分割结果不满意的条件下进行额外的点击优化，迭代的获取更好的结果。本发明还克服了现有方法不能跨域的特点，借助测试时自适应优化，通过用户修正的点击在测试时对网络模型参数进行优化，实现持续学习并让模型能够适应特定的对象、领域等。

本发明从通过深度聚类对无标签的图像数据集聚类得到标签来训练一个交互式分割网络，实现了不使用任何标注数据就可以得到交互式分割模型。这样可以节省大量的人力以及资源。此外，无监督学习能够学习到的特征更加拥有适应性以及丰富性，能够跨域的实现对图像分割而不需要重新训练样本。本发明还实现了测试时自适应优化，使得本发明的模型能够适应于不同的应用场景和领域。

本发明首先使用经过预训练的神经网络模型作为特征提取器对无标签的图像数据集提取特征，然后对这些特征进行聚类，建立像素之间的跨图像的对应关系，根据聚类结果分配标签，再使用超像素投票算法使得这些标签边缘平滑，最后再过滤掉背景像素，得到可用于交互式分割的伪标签。然后将这些伪标签送入网络训练，以标签的边界框生成外点，以此作为背景点击进行交互训练神经网络并根据该网络得到初始的分割结果。图3展示了本发明使用两个外点生成边界框作为交互后的在自然图像下得到的分割结果。此外，本发明还根据初次分割结果与真值对比得到最大错误分割区域的中心模拟迭代的交互点得到可迭代的无监督交互式分割网络模型。可选择的，还可以借助少量有标签的数据送入网络进行调优。本发明还实施了测试时自适应优化，将人类交互的点击视为正样本，在测试时对网络参数进行修正，通过构建最小化稀疏的点击损失函数来优化模型，并通过增加改变网络参数的代价函数来避免模型遗忘对图像的初始的良好预测。图4展示了本发明使用迭代点击和测试时自适应优化后在医学图像上跨域得到的分割结果。

附图说明

图1是本发明方法的流程示意图。

图2是本发明生成伪标签的方法步骤示意图。

图3是本发明实施例中使用本发明方法在自然场景图像由2次点击确定边界框后得到的分割结果图与真值的对比。

图4是本发明实施例中使用本发明方法在医学图像上不同点击次数得到的分割结果图。

具体实施方式

本发明的实现包括如下步骤：

1)使用经过预训练的神经网络模型作为特征提取器对无标签的图像数据集进行特征提取，然后对这些特征进行聚类，建立像素之间的跨图像的对应关系，根据聚类结果分配标签，再使用超像素投票算法使得这些标签边缘平滑，最后再过滤掉背景像素，得到可用于交互式分割的伪标签。

2)构建一个可以迭代执行的交互式分割网络，把上个步骤得到的伪标签送入网络训练，以标签的边界框生成外点。将初次分割结果与真值对比得到最大错误分割区域，将该区域的中心作为模拟用户的交互点击位置。通过迭代训练分别计算初始分割结果和修正后分割结果的损失阶段得到可迭代的无监督交互式分割模型。可选择的，本发明还可以借助少量有标签的数据送入网络进行调优。

3)执行测试时自适应优化，将人类交互的点击视为正样本，在测试时对网络参数进行修正，通过构建最小化稀疏的点击损失函数来优化模型，并通过增加改变网络参数的代价函数来避免模型遗忘对图像的初始的良好预测。

所述步骤1)具体如下：

(1)首先，使用经过预训练的神经网络模型作为特征提取器提取特征。该预训练模型是通过图像级别的自监督对比学习方法得到的，无需任何标注数据。具体来说，给定一组未标记的图像定义为X＝{x₁，x₂，...x_i}，其中x_i是该样本集中的第i个样本图像。设f_θ(·)为现有的无监督方法的特征提取器，对该样本集的所有图像样本进行特征提取后，对于图像x_i生成的特征图f_θ(x_i)的每个像素p都会产生特征表示。定义f_θ(x_i)[p]代表像素级别的特征表示，使用K-means算法对所有图像样本生成特征图的每个像素进行聚类：

其中y_ip表示第i个图像产生特征图的第p个像素的聚类中心标签,μ_k是第k个聚类中心。

通过特征聚类，每个像素根据其特征与聚类中心的距离分配给合适的类别。该方法能够将语义特征和视觉特征相似的像素分组，而且能够建立像素之间的跨图像的对应关系。

(2)完成聚类后，对每个图像x_i的产生特征图的每个像素p，都能分配给其对应标签y_ip，我们将其上采样至原始图像的大小，就得到了图像的标签图。然而特征图的特征空间和分辨率受限于特征提取器，可能由此得到含有噪声的标签图。因此，本发明采用简单有效的超像素投票算法(Felzenszwalb算法)对得到的标签图的边缘信息进行优化。通过Felzenszwalb算法得到过分割的超像素，其中，超像素的生成的依据是将原始图像视为一个无向图G＝(V,E)，其中V表示顶点集合，E表示边的集合，每条边连接两个相邻的像素(i,j)，边上的权值w表示两个顶点之间RGB值的平方差。初始阶段的每一个像素比较其到八邻域像素的权重，按照从小到大的顺序排列，选出权值最小的边，把他们合并到一个区域里面，这样会产生很多最小生成树。如果连接两个最小生成树的边权重小于等于这两个树中权重最大的边的最小值，则两树合并。按照这个规则不断的更新无向图，直到无满足合并条件的树。这些树的像素点的集合就是超像素。得到过分割的超像素后，将超像素内最多的标签分配给超像素的所有像素。这能够使图像标签的边界和图像的边界对齐，使得标签更平滑。

(3)此时得到的图像的标签是包括背景类别的像素和前景类别的像素。交互式分割通常是通过用户的交互来提取前景信息。在日常场景的图像中，背景像素通常占据图像的大部分，因此过滤掉出现最多的类别，将其视为背景，将剩余的标签视为前景标签并加以利用。

所述步骤2)具体如下：

(1)首先，为了模拟人类的交互，将每一种类别的标签根据其最左、最右、最上、最下的像素点得到一个环绕这个类别物体标签的边界框。然后选择边界框的四个角点，来模拟人类的点击行为。因为在交互的过程中，点击两个对角相对的角点，如左上角和右下角的点，就能自动推理出另外两个点，因此在实时交互过程中，只需要两次点击就能确定一个环绕物体的边界框。

(2)将上述四个角点视为背景点击，对这些角点的坐标生成2D高斯核作为点击的表征产生热图。在神经网络的输入部分，将背景点击产生的热图和图像的RGB三个通道连接起来作为神经网络的输入。然后使用神经网络预测的结果与分配的标签做二分交叉熵损失进行训练，最后得到模型。

仅通过两个背景点击可能无法得到精确的分割结果，后续增加了一个迭代的训练过程，在只有背景点击的热图的基础上增加了前景点击热图，进行迭代的训练。首先，本发明的网络模型需要两个初始的点击(对角相对的两个角点)来确定一个环绕物体的边界框，如果用户对当前的分割输出不满意，可以继续点击进行优化。在训练过程中，然后在最大分割的错误区域的中心添加新的点击，如果该点位于前景像素，则视为前景点击，如果该点位于背景像素则视为背景点击。在训练过程中迭代仅进行一次，损失是初始分割和修正后分割结果的损失相加得到。

(3)受限制于粗糙的伪标签，得到的图像分割结果与有监督的方法相比，存在一定的差距，可以考虑通过少量的有标签的数据对网络模型进行一个调优。

所述步骤3)具体如下：

(1)首先，人类的交互可以视为正确的样本标签，在测试的过程中进行网络参数的修正，从而实现持续学习。该方法能让模型适应特定的物体及背景、测试集中的分布变化，甚至大的领域变化。

(2)将修正的点击视为真值标签，通过最小化稀疏的基于点击修正的损失函数来优化模型。基于点击修正的损失函数如公式(2)所示：

其中1[.]是指示函数；c是值为{1,0,-1}的向量，其中1代表交互的像素点被修正为前景像素，0代表交互点的像素被修正为背景像素，剩下的像素点被标记为-1。f(x；θ)表示在参数为θ的条件下的神经网络模型的特征映射，|.|代表L1归一化。

(3)然而通过用户点击相对于整个图像来说是稀疏的，它提供的关于物体的空间信息有限。如果过于关注用户的点击修正，模型就会退化，反而为了防止模型只关注用户的校正而忘记初始的先验知识，借助于持续学习领域中对抗灾难性遗忘的处理，通过设置改变网络参数的代价函数来避免模型遗忘对图像的初始的良好预测。基于网络参数改变的代价函数如公式(3)所示：

L_F(θ)＝Ω(θ-θ^*)^⊙2 (3)

其中x_i是数据集中第i个图像样本，N为数据集的总个数，g(.)为图像样本经过神经网络时产生的梯度。

(4)最后将基于点击修正的损失函数和惩罚重要网络参数改变的损失函数结合，得到测试时修正的损失函数，如公式(5)所示：

L_combine(x,c,θ)＝L_CE(x,c,θ)+λL_F(θ) (5)

其中λ是调控参数，通过该损失函数，可以在测试时得到一个可随着用于交互不断适应的网络模型，而且还可以避免学习过程中的灾难性遗忘。

本发明由河北省自然科学基金项目(F2019201451)研究完成。以下结合附图对本发明的优选实施例进行说明，应当理解为，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供一种无监督的交互式分割方法，包括以下步骤：首先，使用经过预训练的神经网络模型作为特征提取器提取特征；该预训练模型通过图像级别的自监督对比学***均池化层之前提取特征，并对得到的特征向量进行L2归一化。由于未标记数据集中的特征总数可能非常大，本发明对自然场景的图像数据集COCO 2014的训练集图像中随机均匀挑选5000张图像进行聚类。利用FAISS库利用GPU实施小批量K-means，只需要大约20分钟的时间就能完成聚类。

完成聚类后，对于每个图像的每个像素都得到了其标签。然而特征图的特征空间和分辨率受限于特征提取器，可能由此得到含有噪声的标签图。因此，本发明采用了简单有效的超像素投票算法对得到的标签图的边缘信息进行优化。通过Felzenszwalb算法得到分割的超像素图，将超像素内最多的标签分配给超像素的所有像素。这能够使图像标签的边界和图像的边界对齐，使得标签更平滑。

此时得到的图像的标签是包括背景类别的像素和前景类别的像素。交互式分割通常是通过用户的交互来提取前景信息。在日常场景的图像中，背景像素通常占据图像的大部分，因此过滤掉出现最多的类别，将其视为背景，将剩余的标签视为前景标签并加以利用，本发明中，K-means的参数为30，并过滤掉了聚类数目最多的前5类像素。

得到伪标签之后，利用这些伪标签来构建一个交互式的分割模型。首先规定交互的范式。将环绕标签的边界框的四个角点作为初始交互的点击。因为只需要两个对角相对的角点就可以得到确定的一个边界框，因此定义点击两个对角点击确定一个环绕物体的边界框作为初始交互，得到初始的分割结果。图3为本发明模型仅使用初始的2次点击确定边界框后分割的结果图。

初次得到的分割结果不一定能满足需求，在训练过程中模拟人类交互者校正的过程。通过得到初始分割结果与标签值求异或可以得到分割错误的区域。根据这个区域中像素距离边界的距离，很容易得到最大错误区域的中心。用这个错误中心来模拟人类交互者校正的点击操作，如果这个点属于背景像素，则将该点视为背景点击点，如果这个点属于前景像素，则将这个点击视为前景点击。在训练阶段，在网络模型的金字塔场景解析模块之前加入新的点击并编码成高斯热图，进行迭代的前向传播，并通过初始分割和迭代后的分割结果与标签计算二分交叉熵损失并以此训练网络模型。可选择的，可以使用少量有标注的数据进行调优，我们仅使用5％ PASCAL数据集的数据，仅73个样本图像就可以取得12％的提升。

在测试阶段，引入了测试时自适应模型技术，设计了最小化基于点击修正的损失函数，将用户的点击视为正样本标注，实现了在测试阶段优化模型参数的方法。为了防止稀疏的点击使得网络退化遗忘初始的分割信息，通过对重要网络参数改变加正则化来避免灾难性遗忘。

本发明的网络模型由无标注的自然场景的图像训练得到，但基于无监督的方式让它学习到高维的特征拥有更强的适应性以及丰富性。我们在跨域较大的医学图像上验证了本发明的模型。图4中可以看出使用本发明的方法在CT和MRI图像上依然可以取得较好的结果。

Claims

1.一种基于无监督学习的交互式图像分割方法，其特征是，包括如下步骤：

c、将人类交互的点击视为正样本，在测试时对网络参数进行修正，通过构建最小化稀疏的点击损失函数来优化模型，并通过设置改变网络参数的代价函数来避免模型遗忘对图像的初始的良好预测。

2.根据权利要求1所述的基于无监督学习的交互式图像分割方法，其特征是，步骤a具体如下：

a-1、使用经过预训练的神经网络模型作为特征提取器提取特征；该预训练模型是通过图像级别的自监督对比学习方法得到的；具体来说，给定一组未标记的图像定义为X＝{x₁，x₂，...x_i}，其中x_i是该样本集中的第i个样本图像；设f_θ(·)为现有的无监督方法的特征提取器，对该样本集的所有图像样本进行特征提取后，对于图像x_i生成的特征图f_θ(x_i)的每个像素p都会产生特征表示；定义f_θ(x_i)[p]代表像素级别的特征表示，使用K-means算法对所有图像样本生成特征图的每个像素进行聚类：

其中y_ip表示第i个图像产生特征图的第p个像素的聚类中心标签,μ_k是第k个聚类中心；聚类后，对每个图像x_i的产生特征图的每个像素p，都能分配给其对应标签y_ip，将其上采样至原始图像的大小，就得到了图像的标签图；

a-2、采用超像素投票算法对得到的标签图的边缘信息进行优化，具体是：通过超像素投票算法得到过分割的超像素，其中，超像素的生成的依据是将原始图像视为一个无向图G＝(V,E)，其中V表示顶点集合，E表示边的集合，每条边连接两个相邻的像素(i,j)，边上的权值w表示两个顶点之间RGB值的平方差；初始阶段的每一个像素比较其到八邻域像素的权重，按照从小到大的顺序排列，选出权值最小的边，把他们合并到一个区域里面，形成若干最小生成树；如果连接两个最小生成树的边权重小于等于这两个树中权重最大的边的最小值，则两树合并；按照这个规则不断的更新无向图，直到无满足合并条件的树；这些树的像素点的集合就是超像素；得到过分割的超像素后，将超像素内最多的标签分配给超像素的所有像素，使图像标签的边界和图像的边界对齐；

3.根据权利要求1所述的基于无监督学习的交互式图像分割方法，其特征是，步骤b具体如下：

b-2、将上述四个角点视为背景点击，在这些角点的坐标处生成2D高斯核来作为点击的表征产生热图；在神经网络的输入部分，将背景点击产生的热图和图像的RGB三个通道连接起来作为神经网络的输入；然后使用神经网络预测的结果与分配的伪标签做二分交叉熵损失进行训练，最后得到模型。

4.根据权利要求3所述的基于无监督学习的交互式图像分割方法，其特征是，步骤b还包括如下步骤：

b-3、通过有标签的数据对网络模型进行调优。

5.根据权利要求3所述的基于无监督学习的交互式图像分割方法，其特征是，步骤b-2训练过程中，在只有背景点击的热图的基础上增加前景点击热图，进行迭代训练。

6.根据权利要求1所述的基于无监督学习的交互式图像分割方法，其特征是，步骤c具体如下：

其中1[.]是指示函数；c是值为{1,0,-1}的向量，其中1代表交互点的像素被修正为前景像素，0代表交互点的像素被修正为背景像素，剩下的像素点被标记为-1；f(x；θ)表示在参数为θ的条件下的神经网络模型的特征映射，.代表L1归一化；

c-3、通过设置改变网络参数的代价函数来避免模型遗忘对图像的初始的良好预测；基于网络参数改变的代价函数如公式(3)所示：

L_F(θ)＝Ω(θ-θ^*)^⊙2 (3)

L_combine(x,c,θ)＝L_CE(x,c,θ)+λL_F(θ) (5)

其中λ是调控参数。