CN115690072A - 基于多模态深度学习的胸片特征提取和疾病分类方法 - Google Patents
基于多模态深度学习的胸片特征提取和疾病分类方法 Download PDFInfo
- Publication number
- CN115690072A CN115690072A CN202211414106.7A CN202211414106A CN115690072A CN 115690072 A CN115690072 A CN 115690072A CN 202211414106 A CN202211414106 A CN 202211414106A CN 115690072 A CN115690072 A CN 115690072A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- data
- chest
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了基于多模态深度学习的胸片特征提取和疾病分类方法,主要包括:S1数据源采集;S2数据预处理;S3图文特征融合和匹配;S4模型构建;S5模型训练和优化;本发明通过采用图文结合的自监督模型训练方法,使网络模型能在训练数据有限或小样本的情况下进行稳定快速的训练和推理;优化改进设计Transformer网络结构,使其既能捕获胸部X光片的全局特征,又能应用于具有病灶小,病灶形状不规则等特点的胸部X光片分析场景。
Description
技术领域
本发明属于智慧医疗技术领域,具体涉及基于多模态深度学习的胸片特征提取和疾病分类方法。
背景技术
医学影像的解释需要广泛的医学专业知识,但容易出现人为判别误差。在中国这样人口众多的国家,专科医生需要短时间内解释大量的医学影像,这一工作过程既繁琐又耗时。因此,如果能在短时间内自动准确判别影像中的疾病类型,对大批量医学影像完成快速初筛,可以极大的减轻临床工作者的劳动强度。近年来,随着深度学习技术在计算机视觉,自然语言处理等领域的快速发展,基于人工智能的计算机辅助诊断技术吸引了业界越来越多的关注。这些领域的快速成功发展,为患者提供更高效、更经济的医疗保健带来了希望。在众多的影像学检查中,X射线相对于CT、MRI等影像学检查,在中国应用更广泛,即便乡镇一级的卫生院都能开展X射线检查。因此,根据X光片自动准确地判别疾病类型有广阔的应用前景,这一研究对我国智慧医疗的发展有巨大的推进作用。
目前,基于深度学***衡,缺乏置信区间也是影响精度的重要原因;(3)受CNN卷积操作的局部性影响,在建模长距离依赖关系时受到限制,虽然可以通过加深卷积层层数或使用其他改进的卷积结构的方式来增大感受野,但模型计算复杂度也随之增加很多,不适合真实医学场景对诊断速度的要求。
发明内容
为了解决上述技术问题,本发明提供了基于多模态深度学习的胸片特征提取和疾病分类方法,本发明采用图文结合的自监督模型训练方法,使网络模型能在训练数据有限或小样本的情况下进行稳定快速的训练和推理;另外,优化改进设计Transformer网络结构,使其既能捕获胸部X光片的全局特征,又能应用于具有病灶小,病灶形状不规则等特点的胸部X光片分析场景。
为了达到上述技术目的,本发明是通过以下技术方案实现的:
基于多模态深度学习的胸片特征提取和疾病分类方法,包括以下步骤:
S1:数据源采集:收集开源的胸部X光片数据集以及开源的医学图像问答数据集;
S2:数据预处理:对采集的数据进行数据清理和格式统一,将数据集分割为图文对和仅含图数据集;构建项目的训练集和测试集;
S3:图文特征融合和匹配:采用AutoEncoder方式的对比学习进行图文特征匹配和融合;采用基于Transformer的方式,以交叉注意力的方式进行图文特征融合;
S4:模型构建:利用S3提取的图文特征采用Pytorch深度学习框架搭建;
S5:模型训练和优化:对构建的数据训练集进行深度学习模型的反复训练,对模型结构和参数迭代优化,创建可用于临床的项目模型。
优选的,所述数据预处理具体步骤为:
1)对采集的数据进行数据清理和格式统一,原始胸片从多个数据集中得到,胸片格式为.dicom、.jpg和.png等多种,且分辨率差异较大,因此统一将数据转换为255x255的jpg灰度图片,同时对病理诊断不明确的影像进行清除;
2)将数据集分割为图文对数据集(占数据总量的40%)和仅含图数据集(占数据总量的40%);
3)按照80%:20%的比例切分项目的训练集和测试集;
优选的,所述AutoEncoder方式进行图文特征匹配和融合的具体方法为:采用对比学习进行图文特征匹配和融合,将胸片输入基于ResNet深度卷积神经网络或基于VisionTransformer的图像编码器进行特征抽取得到hv,然后经过MLP映射得到特征v,文本部分采用预训练的ClientBERT进行医学报告的向量化和文字特征提取得到hu,同样经过MLP进行非线性映射得到u,最后通过最大化既有双向损失的真实图像-文本表示对之间的一致性得到融合对齐的图文特征,具备丰富的临床语义信息向量,用于下游分类任务;
优选的,所述图像编码器,卷积神经网络使用ResNet50架构,Transformer使用原始ViT模型;对于文本编码器,使用BERT编码器,对最后一层的所有输出向量进行最大池化汇聚输出,文本编码器采用MIMIC数据集上预训练的ClinicalBERT权重;
优选的,所述Transformer的方式进行图文特征融合的具体方法为:采用基于Transformer的方式,以交叉注意力的方式进行图文特征融合:利用Transformer自注意力机制和交叉注意力机制实现特征融合;胸片图像部分使用vision Transformer处理方式,将胸片切分为16x16的patch,通过线性映射为image embedding,送入标准Transformer,经过self-attention进行特征提取,文本部分经过预训练的ClientBERT获得高维词向量嵌入,经过self-attention得到文本特征,然后通过交叉注意力对文本和图像特征进行融合匹配,得到可以用于下游任务的特征;
优选的,所述transformer采用标准的6层自注意编码器进行图片和文本各自特征的提取,然后通过改进的交叉注意力层进行特征融合对齐;其中,交叉注意力层的Query是图像特征,Value和Key是文本特征;
优选的,所述S4中对于输入图像的图像增广,使用torchvision中自带的图像扩充方法:随机裁剪、水平翻转、仿射变换、颜色抖动、高斯平滑;考虑到胸片的特殊性,在颜色抖动中只是用亮度和对比度调整;对于文本数据,考虑到句子层面的采样能够保留语义信息,因此采用从病理文本句中简单均匀分布采样而不是针对词进行采样。
本发明的有益效果是:
本发明通过采用图文结合的自监督模型训练方法,使网络模型能在训练数据有限或小样本的情况下进行稳定快速的训练和推理;优化改进设计Transformer网络结构,使其既能捕获胸部X光片的全局特征,又能应用于具有病灶小,病灶形状不规则等特点的胸部X光片分析场景。
附图说明
图1是本发明技术路线示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
基于多模态深度学习的胸片特征提取和疾病分类方法,包括以下步骤:
S1:数据源采集:收集开源的胸部X光片数据集,如表1;以及开源的医学图像问答数据集,如表2;
S2:数据预处理:对采集的数据进行数据清理和格式统一,将数据集分割为图文对和仅含图数据集;构建项目的训练集和测试集;
S3:图文特征融合和匹配:采用AutoEncoder方式的对比学习进行图文特征匹配和融合;采用基于Transformer的方式,以交叉注意力的方式进行图文特征融合;
S4:模型构建:利用S3提取的图文特征采用Pytorch深度学习框架搭建;
S5:模型训练和优化:对构建的数据训练集进行深度学习模型的反复训练,对模型结构和参数迭代优化,创建可用于临床的项目模型。
优选的,所述数据预处理具体步骤为:
1)对采集的数据进行数据清理和格式统一,原始胸片从多个数据集中得到,胸片格式为.dicom、.jpg和.png等多种,且分辨率差异较大,因此统一将数据转换为255x255的jpg灰度图片,同时对病理诊断不明确的影像进行清除;
2)将数据集分割为图文对数据集(占数据总量的40%)和仅含图数据集(占数据总量的40%);
3)按照80%:20%的比例切分项目的训练集和测试集;
优选的,所述AutoEncoder方式进行图文特征匹配和融合的具体方法为:采用对比学习进行图文特征匹配和融合,将胸片输入基于ResNet深度卷积神经网络或基于VisionTransformer的图像编码器进行特征抽取得到hv,然后经过MLP映射得到特征v,文本部分采用预训练的ClientBERT进行医学报告的向量化和文字特征提取得到hu,同样经过MLP进行非线性映射得到u,最后通过最大化既有双向损失的真实图像-文本表示对之间的一致性得到融合对齐的图文特征,具备丰富的临床语义信息向量,用于下游分类任务;
优选的,所述图像编码器,卷积神经网络使用ResNet50架构,Transformer使用原始ViT模型;对于文本编码器,使用BERT编码器,对最后一层的所有输出向量进行最大池化汇聚输出,文本编码器采用MIMIC数据集上预训练的ClinicalBERT权重;
优选的,所述Transformer的方式进行图文特征融合的具体方法为:采用基于Transformer的方式,以交叉注意力的方式进行图文特征融合:利用Transformer自注意力机制和交叉注意力机制实现特征融合;胸片图像部分使用vision Transformer处理方式,将胸片切分为16x16的patch,通过线性映射为image embedding,送入标准Transformer,经过self-attention进行特征提取,文本部分经过预训练的ClientBERT获得高维词向量嵌入,经过self-attention得到文本特征,然后通过交叉注意力对文本和图像特征进行融合匹配,得到可以用于下游任务的特征;
优选的,所述transformer采用标准的6层自注意编码器进行图片和文本各自特征的提取,然后通过改进的交叉注意力层进行特征融合对齐;其中,交叉注意力层的Query是图像特征,Value和Key是文本特征;
优选的,所述S4中对于输入图像的图像增广,使用torchvision中自带的图像扩充方法:随机裁剪、水平翻转、仿射变换、颜色抖动、高斯平滑;考虑到胸片的特殊性,在颜色抖动中只是用亮度和对比度调整;对于文本数据,考虑到句子层面的采样能够保留语义信息,因此采用从病理文本句中简单均匀分布采样而不是针对词进行采样。
表1收集的开源胸部X光片数据集
数据集 | #X光片数量 | #报告数量 | #病人数量 |
Open-I | 8121 | 3996 | 3996 |
NIHChest-XRay8 | 108948 | 0 | 32717 |
CheXpert | 224316 | 0 | 65240 |
PadChest | 160868 | 109931 | 67625 |
MIMIC-CXR | 473057 | 206563 | 63478 |
表2收集的开源医学VQA数据集
数据集 | #X光片数量 | #QA对数量 |
VQA-RAD | 315 | 3515 |
RadVisDial | 91060 | 455300 |
SLAKE | 642 | 14K |
表3疾病分类精度
Claims (7)
1.基于多模态深度学习的胸片特征提取和疾病分类方法,其特征在于,包括以下步骤:
S1:数据源采集:收集开源的胸部X光片数据集以及开源的医学图像问答数据集;
S2:数据预处理:对采集的数据进行数据清理和格式统一,将数据集分割为图文对和仅含图数据集;构建项目的训练集和测试集;
S3:图文特征融合和匹配:采用AutoEncoder方式的对比学习进行图文特征匹配和融合;采用基于Transformer的方式,以交叉注意力的方式进行图文特征融合;
S4:模型构建:利用S3提取的图文特征采用Pytorch深度学习框架搭建;
S5:模型训练和优化:对构建的数据训练集进行深度学习模型的反复训练,对模型结构和参数迭代优化,创建可用于临床的项目模型。
2.根据权利要求1所述基于多模态深度学习的胸片特征提取和疾病分类方法,其特征在于,所述数据预处理具体步骤为:
1)对采集的数据进行数据清理和格式统一,原始胸片从多个数据集中得到,胸片格式为.dicom、.jpg和.png等多种,且分辨率差异较大,因此统一将数据转换为255x255的jpg灰度图片,同时对病理诊断不明确的影像进行清除;
2)将数据集分割为图文对数据集和仅含图数据集;其中图文对数据集占数据总量的40%,仅含图数据集占数据总量的40%;
3)按照80%:20%的比例切分项目的训练集和测试集。
3.根据权利要求1所述基于多模态深度学习的胸片特征提取和疾病分类方法,其特征在于,所述AutoEncoder方式进行图文特征匹配和融合的具体方法为:采用对比学习进行图文特征匹配和融合,将胸片输入基于ResNet深度卷积神经网络或基于Vision Transformer的图像编码器进行特征抽取得到hv,然后经过MLP映射得到特征v,文本部分采用预训练的ClientBERT进行医学报告的向量化和文字特征提取得到hu,同样经过MLP进行非线性映射得到u,最后通过最大化既有双向损失的真实图像-文本表示对之间的一致性得到融合对齐的图文特征,具备丰富的临床语义信息向量,用于下游分类任务。
4.根据权利要求3所述基于多模态深度学习的胸片特征提取和疾病分类方法,其特征在于,所述图像编码器,卷积神经网络使用ResNet50架构,Transformer使用原始ViT模型;对于文本编码器,使用BERT编码器,对最后一层的所有输出向量进行最大池化汇聚输出,文本编码器采用MIMIC数据集上预训练的ClinicalBERT权重。
5.根据权利要求1所述基于多模态深度学习的胸片特征提取和疾病分类方法,其特征在于,所述Transformer的方式进行图文特征融合的具体方法为:采用基于Transformer的方式,以交叉注意力的方式进行图文特征融合:利用Transformer自注意力机制和交叉注意力机制实现特征融合;胸片图像部分使用vision Transformer处理方式,将胸片切分为16x16的patch,通过线性映射为image embedding,送入标准Transformer,经过self-attention进行特征提取,文本部分经过预训练的ClientBERT获得高维词向量嵌入,经过self-attention得到文本特征,然后通过交叉注意力对文本和图像特征进行融合匹配,得到可以用于下游任务的特征。
6.根据权利要求5所述基于多模态深度学习的胸片特征提取和疾病分类方法,其特征在于,所述transformer采用标准的6层自注意编码器进行图片和文本各自特征的提取,然后通过改进的交叉注意力层进行特征融合对齐;其中,交叉注意力层的Query是图像特征,Value和Key是文本特征。
7.根据权利要求1所述基于多模态深度学***翻转、仿射变换、颜色抖动、高斯平滑;考虑到胸片的特殊性,在颜色抖动中只是用亮度和对比度调整;对于文本数据,考虑到句子层面的采样能够保留语义信息,因此采用从病理文本句中简单均匀分布采样而不是针对词进行采样。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211414106.7A CN115690072A (zh) | 2022-11-11 | 2022-11-11 | 基于多模态深度学习的胸片特征提取和疾病分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211414106.7A CN115690072A (zh) | 2022-11-11 | 2022-11-11 | 基于多模态深度学习的胸片特征提取和疾病分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115690072A true CN115690072A (zh) | 2023-02-03 |
Family
ID=85052277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211414106.7A Pending CN115690072A (zh) | 2022-11-11 | 2022-11-11 | 基于多模态深度学习的胸片特征提取和疾病分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115690072A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052847A (zh) * | 2023-02-08 | 2023-05-02 | 中国人民解放军陆军军医大学第二附属医院 | 基于深度学习的胸片多异常识别***、装置及方法 |
CN116403180A (zh) * | 2023-06-02 | 2023-07-07 | 上海几何伙伴智能驾驶有限公司 | 基于深度学习的4d毫米波雷达目标检测、追踪和测速方法 |
CN116452600A (zh) * | 2023-06-15 | 2023-07-18 | 上海蜜度信息技术有限公司 | 实例分割方法、***、模型训练方法、介质及电子设备 |
CN116502092A (zh) * | 2023-06-26 | 2023-07-28 | 国网智能电网研究院有限公司 | 多源异构数据的语义对齐方法、装置、设备及存储介质 |
CN117522877A (zh) * | 2024-01-08 | 2024-02-06 | 吉林大学 | 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 |
-
2022
- 2022-11-11 CN CN202211414106.7A patent/CN115690072A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052847A (zh) * | 2023-02-08 | 2023-05-02 | 中国人民解放军陆军军医大学第二附属医院 | 基于深度学习的胸片多异常识别***、装置及方法 |
CN116052847B (zh) * | 2023-02-08 | 2024-01-23 | 中国人民解放军陆军军医大学第二附属医院 | 基于深度学习的胸片多异常识别***、装置及方法 |
CN116403180A (zh) * | 2023-06-02 | 2023-07-07 | 上海几何伙伴智能驾驶有限公司 | 基于深度学习的4d毫米波雷达目标检测、追踪和测速方法 |
CN116403180B (zh) * | 2023-06-02 | 2023-08-15 | 上海几何伙伴智能驾驶有限公司 | 基于深度学习的4d毫米波雷达目标检测、追踪和测速方法 |
CN116452600A (zh) * | 2023-06-15 | 2023-07-18 | 上海蜜度信息技术有限公司 | 实例分割方法、***、模型训练方法、介质及电子设备 |
CN116452600B (zh) * | 2023-06-15 | 2023-10-03 | 上海蜜度信息技术有限公司 | 实例分割方法、***、模型训练方法、介质及电子设备 |
CN116502092A (zh) * | 2023-06-26 | 2023-07-28 | 国网智能电网研究院有限公司 | 多源异构数据的语义对齐方法、装置、设备及存储介质 |
CN117522877A (zh) * | 2024-01-08 | 2024-02-06 | 吉林大学 | 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 |
CN117522877B (zh) * | 2024-01-08 | 2024-04-05 | 吉林大学 | 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115690072A (zh) | 基于多模态深度学习的胸片特征提取和疾病分类方法 | |
CN110503654A (zh) | 一种基于生成对抗网络的医学图像分割方法、***及电子设备 | |
WO2016192612A1 (zh) | 基于深度学习对医疗数据进行分析的方法及其智能分析仪 | |
CN109583440A (zh) | 结合影像识别与报告编辑的医学影像辅助诊断方法及*** | |
CN111863237A (zh) | 一种基于深度学习的移动端疾病智能辅助诊断*** | |
CN106372390A (zh) | 一种基于深度卷积神经网络的预防肺癌自助健康云服务*** | |
CN107767935A (zh) | 基于人工智能的医学影像分类处理***及方法 | |
CN109935336A (zh) | 一种儿童呼吸科疾病的智能辅助诊断方法及诊断*** | |
CN110490242B (zh) | 图像分类网络的训练方法、眼底图像分类方法及相关设备 | |
CN110503635B (zh) | 一种基于异构数据融合网络的手骨x光片骨龄评估方法 | |
CN109920538B (zh) | 一种基于数据增强的零样本学习方法 | |
CN111430025B (zh) | 一种基于医疗影像数据扩增的疾病诊断模型训练方法 | |
Gao et al. | Joint disc and cup segmentation based on recurrent fully convolutional network | |
Ye et al. | Medical image diagnosis of prostate tumor based on PSP-Net+ VGG16 deep learning network | |
CN110443105A (zh) | 自体免疫抗体的免疫荧光影像型态识别方法 | |
Feng et al. | Deep learning for chest radiology: a review | |
CN116364227A (zh) | 基于记忆能力学习的医学影像报告自动生成方法 | |
Wang et al. | Cataract detection based on ocular B-ultrasound images by collaborative monitoring deep learning | |
CN116797609A (zh) | 全局-局部特征关联融合的肺部ct图像分割方法 | |
CN116883768A (zh) | 基于多模态特征融合的肺结节智能分级方法及*** | |
CN115147640A (zh) | 一种基于改进胶囊网络的脑肿瘤图像分类方法 | |
CN114093507A (zh) | 边缘计算网络中基于对比学习的皮肤病智能分类方法 | |
Dong et al. | Supervised learning-based retinal vascular segmentation by m-unet full convolutional neural network | |
CN110136113A (zh) | 一种基于卷积神经网络的***病理图像分类方法 | |
CN115862837A (zh) | 一种基于类型推理与语义约束的医学视觉问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |