CN115690072A

CN115690072A - 基于多模态深度学习的胸片特征提取和疾病分类方法

Info

Publication number: CN115690072A
Application number: CN202211414106.7A
Authority: CN
Inventors: 寸天睿; 徐爱迪; 韩健; 杨段生; 沙政; 赵治红
Original assignee: Chuxiong Normal University
Current assignee: Chuxiong Normal University
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-02-03

Abstract

本发明提供了基于多模态深度学习的胸片特征提取和疾病分类方法，主要包括：S1数据源采集；S2数据预处理；S3图文特征融合和匹配；S4模型构建；S5模型训练和优化；本发明通过采用图文结合的自监督模型训练方法，使网络模型能在训练数据有限或小样本的情况下进行稳定快速的训练和推理；优化改进设计Transformer网络结构，使其既能捕获胸部X光片的全局特征，又能应用于具有病灶小，病灶形状不规则等特点的胸部X光片分析场景。

Description

基于多模态深度学习的胸片特征提取和疾病分类方法

技术领域

本发明属于智慧医疗技术领域，具体涉及基于多模态深度学习的胸片特征提取和疾病分类方法。

背景技术

医学影像的解释需要广泛的医学专业知识，但容易出现人为判别误差。在中国这样人口众多的国家，专科医生需要短时间内解释大量的医学影像，这一工作过程既繁琐又耗时。因此，如果能在短时间内自动准确判别影像中的疾病类型，对大批量医学影像完成快速初筛，可以极大的减轻临床工作者的劳动强度。近年来，随着深度学习技术在计算机视觉，自然语言处理等领域的快速发展，基于人工智能的计算机辅助诊断技术吸引了业界越来越多的关注。这些领域的快速成功发展，为患者提供更高效、更经济的医疗保健带来了希望。在众多的影像学检查中，X射线相对于CT、MRI等影像学检查，在中国应用更广泛，即便乡镇一级的卫生院都能开展X射线检查。因此，根据X光片自动准确地判别疾病类型有广阔的应用前景，这一研究对我国智慧医疗的发展有巨大的推进作用。

目前，基于深度学***衡，缺乏置信区间也是影响精度的重要原因；(3)受CNN卷积操作的局部性影响，在建模长距离依赖关系时受到限制，虽然可以通过加深卷积层层数或使用其他改进的卷积结构的方式来增大感受野，但模型计算复杂度也随之增加很多，不适合真实医学场景对诊断速度的要求。

发明内容

为了解决上述技术问题，本发明提供了基于多模态深度学习的胸片特征提取和疾病分类方法，本发明采用图文结合的自监督模型训练方法，使网络模型能在训练数据有限或小样本的情况下进行稳定快速的训练和推理；另外，优化改进设计Transformer网络结构，使其既能捕获胸部X光片的全局特征，又能应用于具有病灶小，病灶形状不规则等特点的胸部X光片分析场景。

为了达到上述技术目的，本发明是通过以下技术方案实现的：

基于多模态深度学习的胸片特征提取和疾病分类方法，包括以下步骤：

S1：数据源采集：收集开源的胸部X光片数据集以及开源的医学图像问答数据集；

S2：数据预处理：对采集的数据进行数据清理和格式统一，将数据集分割为图文对和仅含图数据集；构建项目的训练集和测试集；

S3：图文特征融合和匹配：采用AutoEncoder方式的对比学习进行图文特征匹配和融合；采用基于Transformer的方式，以交叉注意力的方式进行图文特征融合；

S4：模型构建：利用S3提取的图文特征采用Pytorch深度学习框架搭建；

S5：模型训练和优化：对构建的数据训练集进行深度学习模型的反复训练，对模型结构和参数迭代优化，创建可用于临床的项目模型。

优选的，所述数据预处理具体步骤为：

1)对采集的数据进行数据清理和格式统一，原始胸片从多个数据集中得到，胸片格式为.dicom、.jpg和.png等多种，且分辨率差异较大，因此统一将数据转换为255x255的jpg灰度图片，同时对病理诊断不明确的影像进行清除；

2)将数据集分割为图文对数据集(占数据总量的40％)和仅含图数据集(占数据总量的40％)；

3)按照80％:20％的比例切分项目的训练集和测试集；

优选的，所述AutoEncoder方式进行图文特征匹配和融合的具体方法为：采用对比学习进行图文特征匹配和融合，将胸片输入基于ResNet深度卷积神经网络或基于VisionTransformer的图像编码器进行特征抽取得到h_v，然后经过MLP映射得到特征v，文本部分采用预训练的ClientBERT进行医学报告的向量化和文字特征提取得到h_u，同样经过MLP进行非线性映射得到u，最后通过最大化既有双向损失的真实图像-文本表示对之间的一致性得到融合对齐的图文特征，具备丰富的临床语义信息向量，用于下游分类任务；

优选的，所述图像编码器，卷积神经网络使用ResNet50架构，Transformer使用原始ViT模型；对于文本编码器，使用BERT编码器，对最后一层的所有输出向量进行最大池化汇聚输出，文本编码器采用MIMIC数据集上预训练的ClinicalBERT权重；

优选的，所述Transformer的方式进行图文特征融合的具体方法为：采用基于Transformer的方式，以交叉注意力的方式进行图文特征融合：利用Transformer自注意力机制和交叉注意力机制实现特征融合；胸片图像部分使用vision Transformer处理方式，将胸片切分为16x16的patch，通过线性映射为image embedding，送入标准Transformer，经过self-attention进行特征提取，文本部分经过预训练的ClientBERT获得高维词向量嵌入，经过self-attention得到文本特征，然后通过交叉注意力对文本和图像特征进行融合匹配，得到可以用于下游任务的特征；

优选的，所述transformer采用标准的6层自注意编码器进行图片和文本各自特征的提取，然后通过改进的交叉注意力层进行特征融合对齐；其中，交叉注意力层的Query是图像特征，Value和Key是文本特征；

优选的，所述S4中对于输入图像的图像增广，使用torchvision中自带的图像扩充方法：随机裁剪、水平翻转、仿射变换、颜色抖动、高斯平滑；考虑到胸片的特殊性，在颜色抖动中只是用亮度和对比度调整；对于文本数据，考虑到句子层面的采样能够保留语义信息，因此采用从病理文本句中简单均匀分布采样而不是针对词进行采样。

本发明的有益效果是：

本发明通过采用图文结合的自监督模型训练方法，使网络模型能在训练数据有限或小样本的情况下进行稳定快速的训练和推理；优化改进设计Transformer网络结构，使其既能捕获胸部X光片的全局特征，又能应用于具有病灶小，病灶形状不规则等特点的胸部X光片分析场景。

附图说明

图1是本发明技术路线示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

S1：数据源采集：收集开源的胸部X光片数据集，如表1；以及开源的医学图像问答数据集，如表2；

优选的，所述数据预处理具体步骤为：

3)按照80％:20％的比例切分项目的训练集和测试集；

表1收集的开源胸部X光片数据集

数据集	#X光片数量	#报告数量	#病人数量
				Open-I	8121	3996	3996
NIHChest-XRay8	108948	0	32717
				CheXpert	224316	0	65240
PadChest	160868	109931	67625
				MIMIC-CXR	473057	206563	63478

表2收集的开源医学VQA数据集

数据集	#X光片数量	#QA对数量
			VQA-RAD	315	3515
RadVisDial	91060	455300
			SLAKE	642	14K

表3疾病分类精度

Claims

1.基于多模态深度学习的胸片特征提取和疾病分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于多模态深度学习的胸片特征提取和疾病分类方法，其特征在于，所述数据预处理具体步骤为：

2)将数据集分割为图文对数据集和仅含图数据集；其中图文对数据集占数据总量的40％，仅含图数据集占数据总量的40％；

3)按照80％:20％的比例切分项目的训练集和测试集。

3.根据权利要求1所述基于多模态深度学习的胸片特征提取和疾病分类方法，其特征在于，所述AutoEncoder方式进行图文特征匹配和融合的具体方法为：采用对比学习进行图文特征匹配和融合，将胸片输入基于ResNet深度卷积神经网络或基于Vision Transformer的图像编码器进行特征抽取得到h_v，然后经过MLP映射得到特征v，文本部分采用预训练的ClientBERT进行医学报告的向量化和文字特征提取得到h_u，同样经过MLP进行非线性映射得到u，最后通过最大化既有双向损失的真实图像-文本表示对之间的一致性得到融合对齐的图文特征，具备丰富的临床语义信息向量，用于下游分类任务。

4.根据权利要求3所述基于多模态深度学习的胸片特征提取和疾病分类方法，其特征在于，所述图像编码器，卷积神经网络使用ResNet50架构，Transformer使用原始ViT模型；对于文本编码器，使用BERT编码器，对最后一层的所有输出向量进行最大池化汇聚输出，文本编码器采用MIMIC数据集上预训练的ClinicalBERT权重。

5.根据权利要求1所述基于多模态深度学习的胸片特征提取和疾病分类方法，其特征在于，所述Transformer的方式进行图文特征融合的具体方法为：采用基于Transformer的方式，以交叉注意力的方式进行图文特征融合：利用Transformer自注意力机制和交叉注意力机制实现特征融合；胸片图像部分使用vision Transformer处理方式，将胸片切分为16x16的patch，通过线性映射为image embedding，送入标准Transformer，经过self-attention进行特征提取，文本部分经过预训练的ClientBERT获得高维词向量嵌入，经过self-attention得到文本特征，然后通过交叉注意力对文本和图像特征进行融合匹配，得到可以用于下游任务的特征。

6.根据权利要求5所述基于多模态深度学习的胸片特征提取和疾病分类方法，其特征在于，所述transformer采用标准的6层自注意编码器进行图片和文本各自特征的提取，然后通过改进的交叉注意力层进行特征融合对齐；其中，交叉注意力层的Query是图像特征，Value和Key是文本特征。

7.根据权利要求1所述基于多模态深度学***翻转、仿射变换、颜色抖动、高斯平滑；考虑到胸片的特殊性，在颜色抖动中只是用亮度和对比度调整；对于文本数据，考虑到句子层面的采样能够保留语义信息，因此采用从病理文本句中简单均匀分布采样而不是针对词进行采样。