CN116883669A

CN116883669A - 一种基于动态注意力联邦框架的多目标分割技术

Info

Publication number: CN116883669A
Application number: CN202310967811.8A
Authority: CN
Inventors: 张志诚; 李利; 周冠群; 李泽洲; 周昊天
Original assignee: Shenzhen Yangqi Yixin Intelligent Technology Co ltd
Current assignee: Shenzhen Yangqi Yixin Intelligent Technology Co ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-10-13

Abstract

本发明公开了一种基于动态注意力联邦框架的多目标分割技术，涉及图像分析技术领域。本发明首先构建数据集，通过在不同医院收集数据集以后进行数据划分，根据病人分为训练集和测试集，然后搭建模型，将每家医院搭建相同的模型。该模型将收集的图像作为输入，并设计损失函数，采用但不限于Dice损失和Focal损失，随之训练模型，首先对数据进行预处理，包括但不限于随机翻转和随机对比度增强，最后测试模型。在训练完成后，将训练好的模型和模型权重用于内部测试集和外部测试集进行测试。本发明可在小数据集上达到优秀的多目标分割能力并且具有较强的泛化能力。与此同时，该技术无需数据共享，以达到保护数据隐私以及解决数据孤岛问题。

Description

一种基于动态注意力联邦框架的多目标分割技术

技术领域

本发明涉及图像分析技术领域，特别是涉及一种基于动态注意力联邦框架的多目标分割技术。

背景技术

多目标分割是医学图像分析中一项重要而具有挑战性的任务，包括对心脏分割的处理，其中涉及到左心室血腔(LV)、左心室心肌(Myo)、右心室血腔(RV)等多个目标的分割，尽管多目标分割结果可以为多个下游任务提供有价值的解剖信息，例如计算机辅助诊断、手术计划和其他临床应用，但其成功取决于大量高质量标记训练数据集的可用性。然而，在许多情况下，这些数据集的收集和标注成本是难以承受的；这是因为：首先，对于一个医院来说，收集足够高质量的CT信息和注释是一项长期的任务；其次，医院数据集中的数据分布不足，从而限制了模型的泛化能力；第三，为了保护患者隐私，集中存储来自多家医院的患者数据集是不切实际的。因此，如何减轻医学数据的收集和注释负担，降低所需的训练信息量，并训练分布式多目标分割模型以避免信息集中存储，是一个长期且必要的课题；

为了有效地分割医学图像中的多个目标，已经提出了许多基于深度学习的方法，其中，UNet作为一种常见的医学图像分割网络，已广泛应用于许多任务。近年来，许多基于UNet的transformer模型被提出用于心脏分割，以建立左右心室之间的远距离依赖关系，Swin-Unet作为一个使用使用纯transformer的分割网络，在Swintransformer的基础对心脏进行分割，包括左心室血腔、左心室心肌和右心室血腔，UTNet在私有数据集上验证其对心脏分割的有效性，随后，为了改进UTNet，UTNetV2网络被提出用于提高分割性能；另外，D-Former、TransFusion、nnFormer等网络相继被提出用于分割心脏中多个目标。然而，transformer模型中的参数数量很大，这需要大量的数据来进行网络训练，由于多目标的注释负担较大，仅在一个医院内准备用于多目标分割的整个训练数据集将导致巨大的压力；因此，如何促进多家医院协同准备数据集是一个值得探索的方向，从而减轻个体医院的负担，保护患者隐私，此外，多目标分割还面临着类别失衡等诸多困难；为此，本方案提出一种基于动态注意力联邦框架的多目标分割技术。

发明内容

本发明的目的在于提供一种基于动态注意力联邦框架的多目标分割技术，该技术可利用不同医院的数据集，在数据不共享的情况下，利用本发明的动态注意力联邦框架对多目标进行分割，同时缓解多目标分割任务中不平衡等问题。

本发明是通过以下技术方案实现的：

本发明为一种基于动态注意力联邦框架的多目标分割技术，包括构建数据集、搭建模型、设计损失函数、训练模型和测试模型；所述构建数据集，通过在不同医院收集数据集以后进行数据划分，根据病人分为训练集和测试集，所述搭建模型，将每家医院搭建相同的模型，该模型将图像作为输入，所述设计损失函数，采用但不限于Dice损失和Focal损失，所述训练模型，首先对数据进行预处理，包括但不限于随机翻转和随机对比度增强，所述测试模型，在训练完成后，将训练好的模型和模型权重用于内部测试集和外部测试集进行测试，以评估该框架的分割性能以及鲁棒性。

所述构建数据集，训练集用于联邦学习，让分割模型学习到数据特征，以进行图像分割，采用训练集完成训练以后，在中央服务器中保存模型参数，内部测试集和外部测试集用于测试训练好的模型性能以及泛化能力。

所述搭建模型，搭建的相同模型将图像作为输入，其通道数包括3通道或1通道，并且图像尺寸与数据集构建时的尺寸大小相同。

所述训练模型，将每家医院的数据集中的训练集输入到构建好的网络模型中进行训练，训练多轮以后将模型权重上传到服务器，每家医院包括在不同时间进行训练，或同时训练，得到多家医院的权重后进行加权平均，然后中央服务器将新的权重下发给医院，多次通信以后，完成训练。

优选地，本发明包括基于UNet技术，所述模型整体结构作为一个U型结构，包括编码器、解码器和跳跃连接，解码器中包括动态注意力模块。

所述模型整体结构，在编码器阶段，使用连续多个3×3卷积对通道进行扩增，以捕获丰富的语义信息，此外，最大池化层用于减小特征图的大小，在解码器阶段，特征图被上采样并与从编码器中获取的语义特征图进行通道拼接，然后使用动态注意力模块进行卷积操作，通过动态注意力模块对卷积核进行自适应选择，最后生成分割掩膜图。

所述动态注意力模块，首先，特征图x∈R^B×2C×W×H经过3×3卷积降低通道数以后，再分别通过一个3×3组卷积和5×5组卷积对特征图x₁∈R^B×C×W×H进行卷积，然后在高维空间中从第一维度上将这两个特征图拼接起来，得到新的特征图x₂∈R^{B×2×C×W×H}，其中，B表示batch大小，C表示通道数，H和W表示特征图的高和宽；上述过程的数学表达式如下：

x₁＝Conv3(x)

x₂＝Concat((unsq(GConv3(x1)，dim＝1)，unsq(GConv5(x1)，dim＝1)))

其中Conv3表示3×3卷积，GConv3表示3×3组卷积，GConv5表示5×5组卷积，unsq(x，dim＝1)代表在第一维度上增加一个维度，Concat(，)代表在第一维度上拼接两组特征图，特征图x₂在第一维度上按照元素被相加，随后将空间信息嵌入到通道中仪生成一维向量x₃∈R^C。之后，再通过全连接层得到两个一维向量。将这两个一维向量串联后，使用softmax，获得概率值，然后将其乘以x₂以动态赋予权重。最后，在1×1卷积层之后，输出最终的特征图。x₂到x₃的数学表达式如下：

x₃＝Mean(Sum(x₂，dim＝1)，dim＝3，4)

其中，Sum(x，dim＝1)表示在第一个维度上按照元素相加，Mean(x，dim＝3，4)代表按照高度和宽度维度上的平均值来压缩特征图。

综上，本发明应用的技术包括设计了一个动态注意力联邦分割框架；该框架包括联邦学习框架和U型动态注意力分割网络；该网络设计了一个动态注意力模块。

本发明具有以下有益效果：

本发明一种基于动态注意力联邦框架的多目标分割技术，可在小数据集上达到优秀的多目标分割能力并且具有较强的泛化能力，与此同时，该技术无需数据共享，以达到保护数据隐私以及解决数据孤岛问题；此外针对多目标分割中类别不平衡的问题，在本发明技术下得到了缓解。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于动态注意力联邦框架的多目标分割技术的操作方法流程图；

图2为本发明提供的动态注意力联邦框架图；

图3为本发明提供的U型动态注意力模型图；

图4为本发明提供的动态注意力模块图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

请参照图1-图4所示，本发明为一种基于动态注意力联邦框架的多目标分割技术，其动态注意力联邦分割框架包括训练阶段和测试阶段，不同医院表示各个客户端；首先，多家医院使用自己的训练数据集分别在本地训练分割模型，然后将权重上传到中央服务器。在中央服务器中，通过聚合将不同医院的权重聚合起来以获得加权平均值，并将新的权重重新分配给医院以进行下一轮训练。这一轮训练过程被称为一次通信，多次通信以后，训练完成。加权的计算方式如下：

其中W表示在中央服务器聚合以后的权重，i＝1,2,3...n，C_N表示客户端的数量。w_i为第i家客户端的权重。N_i是第i家医院的数据量。训练完成以后，不同医院得到新的权重可用于测试本医院的内部测试集。同时，该权重也可用于外部测试集。

本发明在UNet的基础上，设计了该模型，其结构如下：

1、模型整体结构

作为一个U型结构，该模型包括编码器、解码器和跳跃连接，在编码器阶段，使用连续多个3×3卷积对通道进行扩增，以捕获丰富的语义信息。此外，最大池化层用于减小特征图的大小。在解码器阶段，特征图被上采样并与从编码器中获取的语义特征图进行通道拼接，然后使用动态注意力模块进行卷积操作，通过动态注意力模块对卷积核进行自适应选择。最后生成分割掩膜图。

2、动态注意力模块

首先，特征图x∈R^B×2C×W×H经过3×3卷积降低通道数以后，再分别通过一个3×3组卷积和5×5组卷积对特征图x₁∈R^B×C×W×H进行卷积，然后在高维空间中从第一维度上将这两个特征图拼接起来，得到新的特征图x₂∈R^{B×2×C×W×H}，其中，B表示batch大小，C表示通道数，H和W表示特征图的高和宽；上述过程的数学表达式如下：

x₁＝Conv3(x)

x₂＝Comcat((unsq(GConv3(x₁)，dim＝1)，unsq(GConv5(x₁)，dim＝1)))

x₃＝Mean(Sum(x₂,dim＝1),dim＝3,4)

其中，Sum(x，dim＝1)表示在第一个维度上按照元素相加，Mean(x，dim＝3,4)代表按照高度和宽度维度上的平均值来压缩特征图。

实施例2

请参照图1-图4所示，本发明为一种基于动态注意力联邦框架的多目标分割技术，包括以下6个流程：

1、构建数据集

不同医院收集数据集以后，将图像进行统一调整大小，可调整为224×224或者其他规格进行模型训练，然后进行数据划分，根据病人分为训练集和测试集，以防止数据泄露，其中，训练集用于联邦学习，让分割模型学习到数据特征，以进行图像分割，采用训练集完成训练以后，在中央服务器中保存模型参数，内部测试集和外部测试集用于测试训练好的模型性能以及泛化能力；

2、搭建模型

基于上述提及的分割网络，每家医院搭建相同的模型，该模型将图像作为输入，其通道数可以是3通道或1通道，并且图像尺寸应与数据集构建时的尺寸大小相同，编码器中特征维度在以下范围内进行扩增，但不仅限于此，每一层的特征图维度分别升为[32，64，128，256，512]，然后利用解码器进行自适应为不同卷积核赋予权重，以生成分割掩膜图；

3、设计损失函数

为上述模型设计一个损失函数，该发明采用但不限于Dice损失和Focal损失，具体数学表达式如下：

Loss＝Loss_Dice+Loss_focal

其中Loss_Dice表示多目标Dice损失函数。多目标Dice损失是一种基于区域的损失函数，它将单目标骰子损失函数扩展到多个标签的情况，Focal损失函数是基于交叉熵损失函数的改进，可以通过为难以分类的错误分类样本分配更高的权重来平衡前景和背景之间的关系，Focal损失函数使模型对类不平衡问题更具鲁棒性，这在许多计算机视觉任务中很常见，多目标Dice损失计算如下：

其中y表示真实标签，是模型预测的标签。本发明旨在分割多目标。因此，我们需要计算每个通道的Dice损失/>然后将其除以通道数C。在这项工作中，i＝0，1，2...C。每个通道的Dice损失计算如下：

其中表示第i个通道上y和/>之间的交集。在这项工作中，∈＝1e-5。Focal损失函数的公式如下：

Loss_focal(p_t)＝-α_t(1-p_t)γlog(p_t)

其中pt是模型预测正样本的概率。α_t和γ是常数。

4、训练模型

在模型训练开始前对数据进行预处理，包括但不限于随机翻转、随机对比度增强，在本发明中，使用上述设计得损失函数来训练模型，以便能够监控模型训练程度并及时调整模型参数，将每家医院的数据集中的训练集输入到构建好的网络模型中进行训练，训练多轮以后将模型权重上传到服务器，每家医院可以在不同时间进行训练，也可以同时训练，得到多家医院的权重后进行加权平均，然后中央服务器将新的权重下发给医院，多次通信以后，完成训练；

5、测试模型

在训练完成后，将训练好的模型和模型权重用于内部测试集和外部测试集进行测试以评估该框架的分割性能以及鲁棒性。

综上，本发明的技术要点包括联邦框架和动态注意力分割模型；使用U型动态注意力分割模型，基础模型不限于UNet等；同时，本发明提供了一种新的分割模型和一种新的多目标分割框架；本发明技术可在小数据集上进行多目标分割，以达到优秀的分割效果；同时本发明技术无需将数据共享以达到保护数据隐私和解决数据孤岛问题，即无需将不同医院的数据集混合在一起；该技术可调节多目标分割中类别不平衡问题；同时可调节不同医院不同设备之间造成的数据分布问题；因此，该技术具有更强的泛化能力。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于动态注意力联邦框架的多目标分割技术，其特征在于，包括构建数据集、搭建模型、设计损失函数、训练模型和测试模型；

所述构建数据集，通过在不同医院收集数据集以后进行数据划分，根据病人分为训练集和测试集。所述搭建模型，将每家医院搭建相同的模型，该模型将图像作为输入。所述设计损失函数，采用但不限于Dice损失和Focal损失。所述训练模型，首先对数据进行预处理，包括但不限于随机翻转和随机对比度增强。所述测试模型，在训练完成后，将训练好的模型和模型权重用于内部测试集和外部测试集进行测试，以评估该框架的分割性能以及鲁棒性。

2.根据权利要求1所述的一种基于动态注意力联邦框架的多目标分割技术，其特征在于，所述构建数据集，训练集用于联邦学习，让分割模型学习到数据特征，以进行图像分割，采用训练集完成训练以后，在中央服务器中保存模型参数，内部测试集和外部测试集用于测试训练好的模型性能以及泛化能力。

3.根据权利要求1所述的一种基于动态注意力联邦框架的多目标分割技术，其特征在于，所述搭建模型，搭建的相同模型将图像作为输入，其通道数包括3通道或1通道，并且图像尺寸与数据集构建时的尺寸大小相同。

4.根据权利要求1所述的一种基于动态注意力联邦框架的多目标分割技术，其特征在于，所述训练模型，将每家医院的数据集中的训练集输入到构建好的网络模型中进行训练，训练多轮以后将模型权重上传到服务器，每家医院包括在不同时间进行训练，或同时训练，得到多家医院的权重后进行加权平均，然后中央服务器将新的权重下发给医院，多次通信以后，完成训练。

5.根据权利要求1所述的一种基于动态注意力联邦框架的多目标分割技术，其特征在于，包括基于UNet技术，所述模型整体结构作为一个U型结构，包括编码器、解码器和跳跃连接，解码器中包括动态注意力模块。

6.根据权利要求5所述的一种基于动态注意力联邦框架的多目标分割技术，其特征在于，所述模型整体结构，在编码器阶段，使用连续多个3×3卷积对通道进行扩增，以捕获丰富的语义信息，此外，最大池化层用于减小特征图的大小，在解码器阶段，特征图被上采样并与从编码器中获取的语义特征图进行通道拼接，然后使用动态注意力模块进行卷积操作，通过动态注意力模块对卷积核进行自适应赋予权重，最后生成分割掩膜图。

7.根据权利要求6所述的一种基于动态注意力联邦框架的多目标分割技术，其特征在于，所述解码器阶段，特征图被上采样并与从编码器中获取的语义特征图进行通道拼接，然后使用动态注意力模块进行卷积操作，通过动态注意力模块对卷积核进行自适应选择，最后生成分割掩膜图。

8.根据权利要求7所述的一种基于动态注意力联邦框架的多目标分割技术，其特征在于，所述动态注意力模块，首先将特征图经过3×3卷积降低通道数，再分别通过一个3×3组卷积和5×5组卷积对特征图进行卷积，最后在高维空间中从第一维度上将这两个特征图拼接起来，得到新的特征图。