CN116188428A

CN116188428A - 一种桥接多源域自适应的跨域组织病理学图像识别方法

Info

Publication number: CN116188428A
Application number: CN202310167733.3A
Authority: CN
Inventors: 李祥宁; 潘晨; 何灵敏
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-05-30

Abstract

本发明公开了一种桥接多源域自适应的跨域组织病理学图像识别方法，包括如下步骤：步骤S1：收集整理来自三种不同癌症领域的组织病理学图像数据集，构建训练集和测试集；步骤S2：对训练样本和测试样本图像进行数据增强处理，得到多个源域批处理图像与目标域批处理图像，将两种批处理图像进行桥接混合，产生多个中间域批处理图像；步骤S3：构建一种新的多源域自适应框架，包括多源域桥接自适应网络，域对抗自适应模块，并改进损失；步骤S4：采用步骤S2获得的多个源域批处理图像、中间域批处理图像和目标域批处理图像对步骤S3的多源域自适应框架训练并得到权重文件；步骤S5：测试集经过已训练好的分类模型进行精度测试，并输出测试结果。

Description

一种桥接多源域自适应的跨域组织病理学图像识别方法

技术领域

本发明属于迁移学习领域，涉及一种桥接多源域自适应的跨域组织病理学图像识别方法。

背景技术

医疗数据多种多样，包含图像、文本、音频等几乎所有类型。从格式上看，与我们平时接触的同类型数据并无本质的区别，可以使用机器学习、深度学习、迁移学习方法来进行建模。然而，与普通数据相比，医疗领域的数据有着明显的不同点：隐私性和匮乏性。深度学习可以在大规模数据上进行学习，得到良好的模型和效果，但由于医疗数据会涉及病人隐私信息，获取困难。因此，医疗数据具有病例匮乏、多以小样本的形式呈现的特点，即使相同病种，也会因病人身体状况、营养状况、生活方式的差异，呈现不同的症状和数据表现，给传统的机器学习和深度学习应用于医疗领域带来了严峻的挑战。

近年来，卷积神经网络在各种具有挑战性的计算机视觉问题上取得了巨大成就。但深度卷积网络的高性能取决于其从大量标记数据中学习有意义表示的能力。由于隐私和技术原因，可以获得的标记样本在医学领域受到限制。深度神经网络在所有样本均来自相同概率分布的数据集上进行训练和测试，当应用于新的数据集或域时，其精度会显著降低。

本方法针对组织病理学图像的分析。组织病理学图像分析旨在自动化病理学家执行的困难、昂贵和耗时的任务。由于组织制备过程不一致，组织病理学图像外观具有高度可变性。这阻碍了图像分析方法的推广，尤其是使用外部病理学实验室的数据集时。因此，如何利用现有标记数据集来训练模型并将训练后的模型迁移到目标域是非常有意义的。从一种疾病的组织病理学图像中学习知识，应用于另一种疾病的图像，这是在两个相关性较差的领域之间的深度迁移学习算法，即远域迁移学习(DDTL)。解决远域(DDTL)问题是当前具有挑战性的研究方向，我们对此提出了不同疾病数据集之间的域自适应研究。

在远域问题中，为了更好的缩进目标域与源域之间的距离，提供更清晰和更少的随机性，在本方法中，构建了一种新的多源领域自适应框架，提出了域混合桥接中间域空间的概念。通过将源域特征空间作为对齐基点，中间域特征空间做为辅助，在多个特定特征空间中分别对齐源域与中间域、源域与目标域的特征分布。同时，为了保证源域和目标域的域不变特征，加入了域对抗自适应模块。

发明内容

本发明的目的在于：提供了一种桥接多源域自适应的跨域组织病理学图像识别方法，解决了本发明采用的技术方案如下：

一种桥接多源域自适应的跨域组织病理学图像识别方法，其特征在于步骤如下：

步骤S1：收集整理来自三种不同癌症领域的组织病理学图像数据集，构建训练集和测试集；

步骤S2：对训练样本和测试样本图像进行数据增强处理，得到多个源域批处理图像与目标域批处理图像，将两种批处理图像进行桥接混合，产生多个中间域批处理图像；

步骤S3：构建一种新的多源域自适应框架，包括多源域桥接自适应网络，域对抗自适应模块，并改进损失；

步骤S4：采用步骤S2获得的多个源域批处理图像、中间域批处理图像和目标域批处理图像对步骤S3的多源域自适应框架训练并得到权重文件；

步骤S5：测试集经过已训练好的分类模型进行精度测试，并输出测试结果。

进一步地，所述步骤S1中，三种数据集包括乳腺组织病理图像、肺组织病理图像和结肠组织病理图像，构建的训练集样本来自于有标记的多个源域数据和无标记的目标域数据，测试集样本来自于标记的目标域数据，其中，训练集与测试集的划分标准为1:1.根据每种疾病的类型，将图片标记为良性与恶性两种标签，类别服从均匀分布，各为300张，总共为300x2x3＝1800张图片。

进一步地，所述步骤S2进行数据增强处理的实现过程为：

步骤S21：通过深度学习框架PyTorch的图形库torchvision对数据进行数据增强，其中包括图像缩放、翻转、归一化等变换操作；

步骤S22：通过数据加载器生成迭代数据，把训练数据按照批次大小分成多组，在训练中分批次输入，完成初始化数据集；

步骤S23：使用一个固定的混频比λ，域混合桥接产生中间域。将多源域(S_j,j＝{1,2,3,…,N})分别与目标域(T)进行桥接，使其分别产生各自的中间域(M_j,j＝{1,2,3,…,N})，方法中设置的混频比λ为0.1。给定源域和目标域中的输入样本及其对应的分类标签

和/>

混合过程定义如下：

其中λ∈{λ_sd，λ_td}且λ_sd+λ_td＝1。

是由基线模型获得的伪标签。

进一步地，所述步骤S3中，构建一种新的多源域自适应框架包括以下内容：

步骤S31：构建多源域桥接自适应网络，包含输入模块、共享模块、私有特征提取模块和分类模块；

步骤S32：构建域对抗自适应模块，添加一个域分类器G(·)，基于经过共享模块和私有特征与提取模块得到的特征表示，得到域分类标签；

步骤S33：改进了多源域自适应框架的损失，在反向传播训练中，共同优化整体分类效果。

进一步地，所述步骤S4中的网络训练包括以下内容：

步骤S41：采用步骤S2获得的多个源域批处理图像、中间域批处理图像和目标域批处理图像训练步骤S4的多源域自适应框架。

步骤S42：实现细节所有深度方法均基于Pytorch框架实现，并根据Pytork提供的ResNet模型进行微调。微调所有卷积和池化层，并通过反向传播训练分类器层，特征提取网络统一设置为ResNet-50，并使用相同的人工控制超参数。

进一步地，所述步骤S5中，将训练完成的网络模型参数保存下来，利用测试集在网络模型上进行精度测试，输出测试结果。

进一步地，所述步骤S31中的多源域桥接自适应网络实现机制如下：首先在输入模块，给出了来自源域(X_sj,Y_sj)的批处理图像数据x^sj、来自目标域X_t的批处理图像数据x^t和来自中间域X_mj的批处理图像数据x^mj，分别将源域、目标域和中间域的数据输入到网络中；然后在共享模块进行共享特征的提取，通过ResNet模型作为主干网络构造公共特征提取器F(·)提取图像的原始特征，得以将图像映射到公共特征空间，最终提取包括多源域(S_j,j＝{1,2,3,…,N})、两个中间域(M_j,j＝{1,2,3,…,N})和目标域(T)在内的所有域的共享特征；之后在私有特征提取模块构建了多个特定于域的特征提取器，将所有域产生的公共表示都可以映射到特定的特征空间，进行私有特征的提取，每个源域(X_sj,Y_sj)有N个非共享的特定于域的子网络h_j(·)，将每对源域、中间域和目标域映射到特定的特征空间中，子网络中由源域决定主通道和辅助通道。共享模块得到的源域特征以及中间域特征输入主通道空间，得到源域特定特征表示h_j(f(x^sj))和中间域特定特征表示h_j(f(x^mj))，经过共享模块得到的目标域特征输入各个通道，得到多个目标特征表示h_j(f(x^t))；最后在分类模块进行图像分类，由第j个源域的私有特征提取模块获得的H(F(x))用作该模块的输入，构造了一个由N个域特定预测器

组成的多输出网络，接收特定于域的不变特征，每个域分类器Cj是Softmax。

进一步地，所述步骤S32中域对抗自适应模块实现机制如下：F(·)是将所有域映射到公共特征空间的特征提取器，H(·)是将F(·)得到的所有域的共享特征映射到特定的特征空间的特征提取器，所提出的架构基于经过共享模块和私有特征提取模块得到的特征表示H(F(x))，添加一个域分类器G(·)连接到特征提取器，域分类器可用于预测来自源域和目标域的样本的域标签，对于第i个样本，我们用d_i表示二元标签(域标签)，如果d_i＝0，表明x_i来自源分布(x_i～S(x))；如果d_i＝1，表明x_i来自目标分布(x_i～T(x))。

为了确保两个域上的特征分布相似，使得域分类器尽可能不可区分，从而产生域不变特征，在二者之间加入一个梯度反转层(gradient reversal layer,GRL)，通过在反向传播过程中梯度方向自动取反，在前向传播过程中实现恒等变换，在数学模型中，将梯度反转层作为“伪函数”R_λ(x)，由描述其前向和反向传播行为的两个互不兼容的方程定义，相关表达公式如下所示：

R_λ(x)＝x

其中，I是一个单位矩阵。随机梯度下降本应尝试使域之间的特征不同，以最小化域分类损失，通过引入参数因子λ并取反，使其在域之间保持不变，从而使域之间的特征不同，以最小化域分类损失。使用交叉熵来计算两个域的预测和该域的真实域标签之间的分类损失：

进一步地，所述步骤S33中对损失函数的改进，选择最大平均差异分别估计每对源域和目标域、源域和中间域之间的差异。MMD损失计算如下：

在确保源域分布固定的基础上，选择目标域空间和中间域空间作为MMD中的T空间，以获得MMD结果，并使用权重系数λ和γ分别对MMD结果的和进行加权，以获得最终的MMD损失。计算如下：

在训练期间，通过主通道提取私有特征表示后，获取源域、目标域以及中间域之间的域不变表示。对于每个分类器，使用交叉熵添加源域标签计算分类预测损失，即：

其中，

表示第j种源域中的第i个样本的真实标签，J(·,·)表示交叉熵损失函数(分类损失)，C(·)是分类器。为了增强中间域不变性，在源域经过的分类器模块中使用交叉熵计算中间域标签预测分类损失。

采用源域分类损失与加权的中间域分类损失相加作为分类模块的整体损失，计算公式如下：

其中，ε为中间域分类损失的权重系数。

此外，每个分类器都在不同的源域上训练，当对边界附近的目标样本进行预测时，更有可能产生不同的结果。直觉上，不同分类器预测的相同目标样本应该得到相同的预测。因此，为同一目标样本设置不同分类器生成的预测概率的差异损失，并使用该差异的绝对值：

最后，为了预测目标样本的标签，计算所有分类器输出的平均值。

总体而言，本方法的损失包括四个部分，分类损失、MMD损失、L1损失和对抗性损失。通过最小化分类损失，网络可以准确地对源域数据进行分类；通过最小化MMD损失来学习域不变表示；通过最大限度地减少

损失以减少分类器之间的差异。总体的损失函数即为混合对抗两阶段对齐中的各自损失函数和特定领域分类器的交叉熵损失函数之和：

其中，λ和ρ分别为

和/>

的权重系数。

与现有技术相比，本发明有益之处在于：相比于目前已有的方法，本发明提出了一种新的多源领域自适应框架，用于对不同癌症的组织病理学图像进行识别，以便于计算机辅助医疗诊断的发展。提出了一种使用域混合桥接中间域的方法，以利用中间域有效桥接源域和目标域。该方法适用于任意对抗性和非对抗性域自适应算法。对所提出的方法进行了广泛的评估，并确认我们的方法对于跨域迁移学习具有有效性。

附图说明

图1为本发明的整体算法流程图；

图2为本发明中所使用的两个源域与目标域的样例图；

图3为本发明中桥接多源域自适应框架模型的结构图；

图4为本发明中多源域桥接自适应网络结构图；

图5为主干网络中的域对抗自适应模块结构图。

具体实施方式

为了更加清晰地阐述本发明的目的、技术方案和有益效果，以下结合附图和具体实施例进行详细描述。应理解本发明的具体实施方式不限于这里的示例描述。

下面结合图1至图5介绍本发明的具体实施方式为一种桥接多源域自适应的跨域组织病理学图像识别方法，参考图1，具体包括如下步骤：

进一步地，所述步骤S1中，如图2所示，三种数据集包括乳腺组织病理图像、肺组织病理图像和结肠组织病理图像，构建的训练集样本来自于有标记的多个源域数据和无标记的目标域数据，测试集样本来自于标记的目标域数据，其中，训练集与测试集的划分标准为1:1.根据每种疾病的类型，将图片标记为良性与恶性两种标签，类别服从均匀分布，各为300张，总共为300x2x3＝1800张图片。

进一步地，所述步骤S2进行数据增强处理的实现过程为：

和/>

混合过程定义如下：/>

其中λ∈{λ_sd，λ_td}且λ_sd+λ_td＝1。

是由基线模型获得的伪标签。

进一步地，所述步骤S3中，如图三所示，构建一种新的多源域自适应框架包括以下内容：

进一步地，所述步骤S4中的网络训练包括以下内容：

进一步地，所述步骤S31中的多源域桥接自适应网络实现机制如下：如图四所示，首先在输入模块，给出了来自源域(X_sj,Y_sj)的批处理图像数据x^sj、来自目标域X_t的批处理图像数据x^t和来自中间域X_mj的批处理图像数据x^mj，分别将源域、目标域和中间域的数据输入到网络中；然后在共享模块进行共享特征的提取，通过ResNet模型作为主干网络构造公共特征提取器F(·)提取图像的原始特征，得以将图像映射到公共特征空间，最终提取包括多源域(S_j,j＝{1,2,3,…,N})、两个中间域(M_j,j＝{1,2,3,…,N})和目标域(T)在内的所有域的共享特征；之后在私有特征提取模块构建了多个特定于域的特征提取器，将所有域产生的公共表示都可以映射到特定的特征空间，进行私有特征的提取，每个源域(X_sj,Y_sj)有N个非共享的特定于域的子网络h_j(·)，将每对源域、中间域和目标域映射到特定的特征空间中，子网络中由源域决定主通道和辅助通道。共享模块得到的源域特征以及中间域特征输入主通道空间，得到源域特定特征表示h_j(f(x^sj))和中间域特定特征表示h_j(f(x^mj))，经过共享模块得到的目标域特征输入各个通道，得到多个目标特征表示h_j(f(x^t))；最后在分类模块进行图像分类，由第j个源域的私有特征提取模块获得的H(F(x))用作该模块的输入，构造了一个由N个域特定预测器

进一步地，所述步骤S32中域对抗自适应模块实现机制如下：如图五所示，F(·)是将所有域映射到公共特征空间的特征提取器，H(·)是将F(·)得到的所有域的共享特征映射到特定的特征空间的特征提取器，所提出的架构基于经过共享模块和私有特征提取模块得到的特征表示H(F(x))，添加一个域分类器G(·)连接到特征提取器，域分类器可用于预测来自源域和目标域的样本的域标签，对于第i个样本，我们用d_i表示二元标签(域标签)，如果d_i＝0，表明x_i来自源分布(x_i～S(x))；如果d_i＝1，表明x_i来自目标分布(x_i～T(x))。

R_λ(x)＝x

其中，

/>

其中，ε为中间域分类损失的权重系数。

其中，λ和ρ分别为

和/>

的权重系数。

最后，对本发明中的框架进行对比分析。

如表1所示，用C代表结肠组织病理学图像，L代表肺组织病理学图像，B代表乳腺组织病理学图像。使用准确性指标作为评估标准来评判算法模型的优劣。本发明中的一种桥接多源域自适应的跨域组织病理学图像识别方法在提升性能方面是有用的。我们的方法在图像识别准确度上有了很大的提升，新模型的性能明显优于评价模型。这对于解决医疗领域小样本问题，扩大无监督域自适应算法应用于病理学图像具有重要意义。

表1本发明方法与六种现有方法的实验结果比较

模型	LC→B	CB→L	LB→C
				ResNet50	59.50	60.17	52.67
DeepCoral	57.83	89.67	69.67
				DAAN	60.17	95.33	88.33
DANN	57.83	89.83	71.00
				DAN	60.00	96.00	92.00
MRAN	61.33	98.00	93.67
				本发明方法	81.33	98.17	99.33

以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的结构关系及原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种桥接多源域自适应的跨域组织病理学图像识别方法，其特征在于步骤如下：

2.根据权利要求1所述的一种桥接多源域自适应的跨域组织病理学图像识别方法，其特征在于，所述步骤S1中，三种数据集包括乳腺组织病理图像、肺组织病理图像和结肠组织病理图像，构建的训练集样本来自于有标记的多个源域数据和无标记的目标域数据，测试集样本来自于标记的目标域数据，其中，训练集与测试集的划分标准为1:1.根据每种疾病的类型，将图片标记为良性与恶性两种标签，类别服从均匀分布，各为300张，总共为300x2x3＝1800张图片。

3.根据权利要求1所述的一种桥接多源域自适应的跨域组织病理学图像识别方法，其特征在于，所述步骤S2进行数据增强处理的实现过程为：

步骤S23：使用一个固定的混频比λ，域混合桥接产生中间域。将多源域(S_j,j＝{1,2,3,…,N})分别与目标域(T)进行桥接，使其分别产生各自的中间域(M_j,j＝{1,2,3,…,N})，方法中设置的混频比λ为0.1，给定源域和目标域中的输入样本及其对应的分类标签

和/>

混合过程定义如下：

其中λ∈[λ_sd，λ_td}且λ_sd+λ_td＝1。

是由基线模型获得的伪标签。

4.根据权利要求1所述的一种桥接多源域自适应的跨域组织病理学图像识别方法，其特征在于，所述步骤S3中，构建一种新的多源域自适应框架包括以下内容：

5.根据权利要求1所述的一种桥接多源域自适应的跨域组织病理学图像识别方法，其特征在于，所述步骤S4中的网络训练包括以下内容：

6.根据权利要求1所述的一种桥接多源域自适应的跨域组织病理学图像识别方法，其特征在于，所述步骤S5中，将训练完成的网络模型参数保存下来，利用测试集在网络模型上进行精度测试，输出测试结果。

7.根据权利要求4所述的一种桥接多源域自适应的跨域组织病理学图像识别方法，其特征在于，所述步骤S31中的多源域桥接自适应网络实现机制如下：首先在输入模块，给出了来自源域(X_sj,Y_sj)的批处理图像数据x^sj、来自目标域X_t的批处理图像数据x^t和来自中间域X_mj的批处理图像数据x^mj，分别将源域、目标域和中间域的数据输入到网络中；然后在共享模块进行共享特征的提取，通过ResNet模型作为主干网络构造公共特征提取器F(·)提取图像的原始特征，得以将图像映射到公共特征空间，最终提取包括多源域(S_j,j＝{1,2,3,…,N})、两个中间域(M_j,j＝{1,2,3,…,N})和目标域(T)在内的所有域的共享特征；之后在私有特征提取模块构建了多个特定于域的特征提取器，将所有域产生的公共表示都可以映射到特定的特征空间，进行私有特征的提取，每个源域(X_sj,Y_sj)有N个非共享的特定于域的子网络h_j(·)，将每对源域、中间域和目标域映射到特定的特征空间中，子网络中由源域决定主通道和辅助通道。共享模块得到的源域特征以及中间域特征输入主通道空间，得到源域特定特征表示h_j(f(x^sj))和中间域特定特征表示h_j(f(x^mj))，经过共享模块得到的目标域特征输入各个通道，得到多个目标特征表示h_j(f(x^t))；最后在分类模块进行图像分类，由第j个源域的私有特征提取模块获得的H(F(x))用作该模块的输入，构造了一个由N个域特定预测器

组成的多输出网络，接收特定于域的不变特征，每个域分类器C_j是Softmax。

8.根据权利要求4所述的一种桥接多源域自适应的跨域组织病理学图像识别方法，其特征在于，所述步骤S32中域对抗自适应模块实现机制如下：F(·)是将所有域映射到公共特征空间的特征提取器，H(·)是将F(·)得到的所有域的共享特征映射到特定的特征空间的特征提取器，所提出的架构基于经过共享模块和私有特征提取模块得到的特征表示H(F(x))，添加一个域分类器G(·)连接到特征提取器，域分类器可用于预测来自源域和目标域的样本的域标签，对于第i个样本，我们用d_i表示二元标签(域标签)，如果d_i＝0，表明x_i来自源分布(x_i～S(x))；如果d_i＝1，表明x_i来自目标分布(x_i～T(x))。

R_λ(x)＝x