CN116433795B - 基于对抗生成网络的多模态影像生成方法和装置 - Google Patents
基于对抗生成网络的多模态影像生成方法和装置 Download PDFInfo
- Publication number
- CN116433795B CN116433795B CN202310699766.2A CN202310699766A CN116433795B CN 116433795 B CN116433795 B CN 116433795B CN 202310699766 A CN202310699766 A CN 202310699766A CN 116433795 B CN116433795 B CN 116433795B
- Authority
- CN
- China
- Prior art keywords
- mode
- image
- mode image
- images
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000005457 optimization Methods 0.000 claims abstract description 24
- 230000002708 enhancing effect Effects 0.000 claims abstract description 7
- 230000015654 memory Effects 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000008485 antagonism Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000002591 computed tomography Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 230000004913 activation Effects 0.000 description 8
- 238000002595 magnetic resonance imaging Methods 0.000 description 8
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- ROFVEXUMMXZLPA-UHFFFAOYSA-N Bipyridyl Chemical compound N1=CC=CC=C1C1=CC=CC=N1 ROFVEXUMMXZLPA-UHFFFAOYSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- RJKFOVLPORLFTN-LEKSSAKUSA-N Progesterone Chemical compound C1CC2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H](C(=O)C)[C@@]1(C)CC2 RJKFOVLPORLFTN-LEKSSAKUSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000011281 clinical therapy Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000002597 diffusion-weighted imaging Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/003—Reconstruction from projections, e.g. tomography
- G06T11/008—Specific post-processing after tomographic reconstruction, e.g. voxelisation, metal artifact correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
- G06T7/337—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10088—Magnetic resonance imaging [MRI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于对抗生成网络的多模态影像生成方法和装置,包括:获取同一目标的第一模态影像和第二模态影像,对第一模态影像进行增强得到两幅增强后模态影像;构建包括生成器和判别器的对抗生成网络,其中,生成器基于第一模态影像及其两幅增强后模态影像生成三幅预测第二模态影像,判别器对第二模态影像和第一模态影像对应的预测第二模态影像进行真伪区分判别,判别器还计算输出两幅增强后模态影像对应的两幅预测第二模态影像在判别器中间层的两幅中间特征图;基于两幅中间特征图构建特征之间的对比损失,将对比损失结合对抗生成网络的原有损失对对抗生成网络进行参数优化,提取参数优化的生成器用于多模态影像生成,以提高影像精度。
Description
技术领域
本发明属于医学影像跨模态生成技术领域,具体涉及一种基于对抗生成网络的多模态影像生成方法和装置。
背景技术
医学成像是一种强大的诊断和研究工具,可创建解剖结构的视觉表示,已广泛用于疾病诊断和手术计划。在目前的临床实践中,最常用的是计算机断层扫描(CT)和磁共振成像(MRI)。由于CT和多种MR成像模式提供了互补信息,因此这些不同模式的有效整合可以帮助医生做出更明智的决定。由于很难获得成对的多模态图像,临床实践中,开发多模态图像生成以辅助临床诊断和治疗的需求日益增长。
医学影像生成分为传统的机器学习方法和深度学习方法。传统的机器学习方法依赖于显式特征表示。如随机森林,k邻近算法等,通过迭代的方法显式的优化特征表示。最近,卷积神经网络被广泛的应用于多种图像生成任务并且通过对抗生成网络实现了最先进的性能。
目前主流的基于对抗生成网络的模型,在提升判别器时,它们通过:梯度惩罚,光谱归一化,对比学习,一致性正则化等方法隐式或显式地正则化判别器。
例如公开号为CN112465118A的专利申请公开了一种面向医学影像生成的低秩生成式对抗网络构建方法,包括以下步骤:1)利用主成分模式近似GAN模型中的全秩卷积操作,基于张量CP分解的计算规则构建低秩卷积操作;2)利用步骤1)的低秩卷积操作,构建低秩维度卷积层和低秩通道卷积层代替全秩卷积层,在低秩卷积层间添加ReLU激活函数和批正则化项,调整低秩卷积层的数据分布,设计低秩生成模型;3)融合低秩生成模型和全秩判别模型,构建完整的医学影像低秩生成式对抗网络。
再例如公开号为的专利申请CN113205567A公开了一种基于深度学习的MRI影像合成CT影像的方法,包括以下步骤:S1,选取原始MRI影像作和原始CT影像分别作为浮动影像以及和参考影像,而后进行N4偏置校正和标准化获得预处理后的MRI及CT影像;S2,采用预处理MRI影像和预处理CT影像训练用于MRI影像合成CT影像的对抗式生成网络模型;S3,将预处理MRI影像输入MRI影像合成CT影像的对抗式生成网络模型,从而将预处理MRI影像转换为合成CT影像。
以上两篇专利申请等现有技术公开的技术方案中,通常作用于判别器最后输出的高度任务相关的特征,而往往忽略了中间层的浅层特征,比如:颜色,纹理等,因此图像合成精度还有待提高。
发明内容
鉴于上述,本发明的目的是提供一种基于对抗生成网络的多模态影像生成方法和装置,通过基于对抗生成网络中判别器浅层特征的对比学习,提升判别器对图片风格信息的敏感度,进而提升多模态影像生成精度。
为实现上述发明目的,本发明实施例提供的一种基于对抗生成网络的多模态影像生成方法,包括以下步骤:
获取同一目标的第一模态影像和第二模态影像,对第一模态影像进行增强得到两幅增强后模态影像;
构建包括生成器和判别器的对抗生成网络,其中,生成器基于第一模态影像及其两幅增强后模态影像生成三幅预测第二模态影像,判别器对第二模态影像和第一模态影像对应的预测第二模态影像进行真伪区分判别,判别器还计算输出两幅增强后模态影像对应的两幅预测第二模态影像在判别器中间层的两幅中间特征图;
基于两幅中间特征图构建特征之间的对比损失,将对比损失结合对抗生成网络的原有损失对对抗生成网络进行参数优化;
提取参数优化的生成器用于多模态影像生成。
优选地,同一目标的第一模态影像和第二模态影像通过以下方式预处理得到:
对原始第一模态影像和原始第二模态影像进行滤波;
对滤波后的原始第一模态影像和原始第二模态影像进行基于目标区域的刚性配准;
对刚性配准后的原始第一模态影像和原始第二模态影像分别进行像素归一化;
对像素归一化后的原始第一模态影像和原始第二模态影像进行目标选取,得到同一目标的第一模态影像和第二模态影像。
优选地,所述生成器采用pixel to pixel模型中生成器结构。
优选地,所述判别器采用马尔科夫判别器。
优选地,所述方法还包括:
为判别器中间层输出的每幅中间特征图增加至少2层MLP,中间特征图经过MLP进行特征更新,更新后的中间特征图参与对比损失计算。
优选地,基于两幅中间特征图构建特征之间的对比损失,包括:
将两幅增强后模态影像对应的两幅预测第二模态影像在判别器相同中间层的两幅中间特征图作为正样本对;
将两幅增强后模态影像对应的两幅预测第二模态影像在判别器不同中间层的两幅中间特征图作为负样本对;
基于正样本对和负样本对构建对比损失。
优选地,对抗生成网络的原始损失包括基于第一模态影像对应的预测第二模态影像和第二模态影像构建的L1损失,还包括生成器和判别器的对抗损失。
为实现上述发明目的,实施例还提供了一种基于对抗生成网络的多模态影像生成装置,包括获取模块、网络构建模块、参数优化模块、影像生成模块,
所述获取模块用于获取同一目标的第一模态影像和第二模态影像,对第一模态影像进行增强得到两幅增强后模态影像;
所述网络构建模块用于构建包括生成器和判别器的对抗生成网络,其中,生成器基于第一模态影像及其两幅增强后模态影像生成三幅预测第二模态影像,判别器对第二模态影像和第一模态影像对应的预测第二模态影像进行真伪区分判别,判断器还计算输出两幅增强后模态影像对应的两幅预测第二模态影像在判别器中间层的两幅中间特征图;
所述参数优化模块用于基于两幅中间特征图构建特征之间的对比损失,将对比损失结合对抗生成网络的原有损失对对抗生成网络进行参数优化;
所述影像生成模块用于提取参数优化的生成器用于多模态影像生成。
为实现上述发明目的,实施例还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述处理器执行所述计算机程序时实现上述基于对抗生成网络的多模态影像生成方法的步骤。
为实现上述发明目的,实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理执行时实现上述基于对抗生成网络的多模态影像生成方法的步骤。
与现有技术相比,本发明具有的有益效果至少包括:
在构建增强后模态影像的基础上,对抗生成网络的判别器计算输出两幅增强后模态影像对应的两幅预测第二模态影像在判别器中间层的两幅中间特征图,并基于两幅中间特征图构建特征之间的对比损失,这种通过在判别器的中间层增加对比学习,增强了判别器对于图像浅层特征的学习从而提升判别器对于图片风格信息的敏感度,进一步提升生成器多模态生成的精度。同时,该方法可以以简单地适用于任何其他医学影像生成算法并在不改变原本算法网络结构的基础上来提升性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于对抗生成网络的多模态影像生成方法的流程图;
图2是实施例提供的模态影像处理的流程图;
图3是实施例提供的对抗生成网络的结构示意图;
图4是实施例提供的生成器的结构示意图;
图5是实施例提供的生成器中残差结构示意图;
图6是实施例提供的基于对抗生成网络的多模态影像生成装置的结构示意图;
图7是实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
最近有研究方法表明,分类模型更倾向于学习图片基于纹理表达的风格信息,也就是说如果这类纹理信息足够充分从而能够帮助实现较高的分类准确率,模型就不会再学习复杂的表示。由于GAN中的判别器同样可以视作是一个简单的分类器,判别器也依赖于图片的纹理信息进行判别因此,本发明提供了一种基于对抗生成网络的多模态影像生成方法和装置,设计的对抗生成网络包含了对判别器浅层特征的对比学习,目的是提升判别器对图片风格信息的敏感度,进一步提升多模态生成结果。
图1是实施例提供的基于对抗生成网络的多模态影像生成方法的流程图。如图1所示,实施例提供的一种基于对抗生成网络的多模态影像生成方法,包括以下步骤:
S110,获取同一目标的第一模态影像和第二模态影像,对第一模态影像进行增强得到两幅增强后模态影像。
实施例中,从医院获得多模态影像数据,包括例如磁共振图像(MR)的原始第一模态影像数据、例如计算机断层扫描图像(CT)的原始第二模态影像数据以及对应影像数据中的例如肿瘤区域等目标区域的掩码(mask)。其中,CT图像包含:动脉期(ART),门脉期(PV),平扫期(NC),延迟期(DL);MR图像包含:动脉期(ART),延迟期(DL),扩散加权成像(DWI),平扫期(NC),门脉期(PV),T2加权成像(T2)。MR和CT的数据格式为nii,掩码(mask)的数据格式为nrrd。
在获得原始多模态影像数据后还需要进行预处理以得到同一目标的第一模态影像和第二模态影像,如图2所示,具体包括:
S210,对原始第一模态影像和原始第二模态影像进行滤波。
具体地,对于CT这一原始第一模态影像,根据医生的先验知识,设置窗宽为(-110,190),使用numpy库中np.clip方法进行滤波去噪。对于MR图像这一原始第二模态影像,使用dipy库中的方法estimate_sigma和nlmeans进行滤波去噪。
S220,对滤波后的原始第一模态影像和原始第二模态影像进行基于目标区域的刚性配准。
具体地,以同一个病人的原始第一模态影像作为未配准图像(moving image),原始第二模态影像作为目标图像(fixed image),利用目标区域的掩码(mask),计算两模态影像的目标区域之间的变换关系,再用求得的变换关系作用于整个未配准图像(movingimage),得到配准后的第一模态影像。具体方法是使用dipy的仿射配准。
S230,对刚性配准后的原始第一模态影像和原始第二模态影像分别进行像素归一化。
具体地,对于原始第一模态影像,直接使用线性归一化将像素值归一化到[-1,1]。对于原始第二模态影像,先使用标准分数(z-score)处理,再使用线性归一化将像素值归一化到[-1,1]。
S240,对像素归一化后的原始第一模态影像和原始第二模态影像进行目标选取,得到同一目标的第一模态影像和第二模态影像。
具体地,分别计算原始第一模态影像和原始第二模态影像的目标区域的掩码数据中目标最大的切片索引,以此为基准,选取上下各四个,总计9个切片作为同一目标的第一模态影像和第二模态影像。
在获得第一模态影像后,还对第一模态影像进行增强,具体可以通过随机剪裁,随机水平翻转等方法得到第一模态影像对应的两幅增强后模态影像,其中,属于同一目标的第一模态影像及其对应的两幅增强后模态影像、第二模态影像组成样本数据。
S120,构建包括生成器和判别器的对抗生成网络。
如图3所示,构建的对抗生成网络包括生成器和判别器。其中,生成器基于第一模态影像及其两幅增强后模态影像生成三幅预测第二模态影像。实施例中,生成器采用pixelto pixel模型中生成器结构,如图4所示,由三个部分构成,其中,第一个部分包含三个下采样模块,每个下采样模块包含一个卷积核尺寸(kernel size)为3,步长(stride)为2,填充(padding)为1的卷积层,一个归一化层(instance normalization),和一个激活函数ReLU。第二个部分包含九个残差模块,每个残差模块的网络结构如图5所示,在基本残差模块的基础上增加了循环神经网络的思想,其中卷积层,归一化层和激活函数的选择与第一个部分下采样模块中的卷积层,归一化层和激活函数一致,图5中T=3表示循环3次。第三个部分包含三个上采样模块,每个上采样模块包含:一个卷积核尺寸(kernel size)为3,步长(stride)为2,填充(padding)为1,反卷积层参数(output_padding)为1的反卷积层,一个归一化层(instance normalization),和一个激活函数,其中前两个上采样模块中的激活函数是ReLU,最后一个上采样模块中的激活函数是Tanh。
判别器对第二模态影像和第一模态影像对应的预测第二模态影像进行真伪区分判别,判别器还计算输出两幅增强后模态影像对应的两幅预测第二模态影像在判别器中间层的两幅中间特征图。实施例中,判别器采用马尔科夫判别器,包含五个模块,其中第一个模块包含一个卷积核为3,步长为2,填充(padding)为1的卷积层和一个激活函数LeakyReLU,第二,三,四个下模块包含一个卷积核为3,步长为2,填充(padding)为1的卷积层,一个归一化层(instance normalization),和一个激活函数LeakyReLU,最后一个模块是一个全连接层。
实施例中,还为判别器中间层输出的每幅中间特征图增加至少2层MLP,中间特征图经过MLP进行特征更新,更新后的中间特征图参与对比损失计算。
S130,基于两幅中间特征图构建特征之间的对比损失,将对比损失结合对抗生成网络的原有损失对对抗生成网络进行参数优化。
实施例中,基于两幅中间特征图构建特征之间的对比损失,包括:将两幅增强后模态影像对应的两幅预测第二模态影像在判别器相同中间层的两幅中间特征图作为正样本对;将两幅增强后模态影像对应的两幅预测第二模态影像在判别器不同中间层的两幅中间特征图作为负样本对;基于正样本对和负样本对构建对比损失。
具体地,第一模态影像x及其对应的两幅增强后模态影像x1和x2均输入至生成器中,生成预测第二模态影像G(x)、G(x1)、G(x2),其中,G(x1)和G(x2)分别输入至判别器,分别得到N个中间层对应的中间特征图,总计有2N个中间特征图。假设G(x1)输入至判别器得到的中间特征图序号属于1-N,G(x2)输入至判别器得到的中间特征图序号属于N+1-2N,则相同中间层的中间特征图组成正样本对,不同中间层的中间特征图组成负样本对,具体计算对比损失过程为:
对于序号为i和i+N的正样本对,对比损失为:
其中,表示指示函数,当且仅当j不等于i,即/>时,/>取值为1,否则取值为0,/>表示第i个中间特征图与第/>个中间特征图之间的相似度,/>表示i个中间特征图与第/>个中间特征图之间的相似度,其中,i取值为1-N,j取值为1-2N,所有正样本对的对比损失/>为:
实施例中,将对比损失结合对抗生成网络的原有损失对对抗生成网络进行参数优化,并采用自适应矩估计(Adam)优化器更新权重。其中,对抗生成网络的原有损失包括基于第一模态影像对应的预测第二模态影像G(x)和第二模态影像y构建的L1损失,还包括生成器和判别器的对抗损失。
其中,L1损失表示为:
生成器和判别器的对抗损失表示为:
其中,表示L1范数,E()表示期望,D()表示判别结果。
综上所述,对抗生成网络的模型的损失函数为:
其中,,/>,/>和/>是用于控制损失函数的系数。
实施例中,对对抗生成网络进行优化后,还采用三个评估指标对网络进行评估,其中,三个评估指标为平均绝对误差(MAE)、峰值信噪比(PSNR)、结构相似性(SSIM)。具体地,采用60个病人的样本数据,由MR生成CT,使用这三个评估指标,结果如表1所示:
分析表1可得,本发明方法得到生成器从MAE、PSNR以及SSIM三个评价指标均优于pix2pix GAN生成的生成器。
S140,提取参数优化的生成器用于多模态影像生成。
经过S130对对抗生成网络参数优化后,提取参数优化的生成器用于多模态影像生成,具体地,将第一模态影像输入参数优化的生成器,经过计算得到预测的第二模态影像,该第二模态影像的精度更高。
实施例提供的一种基于对抗生成网络的多模态影像生成方法,使用的对抗生成网络包含了利用对比学习的判别器,增强了判别器对于图像浅层特征的学习从而提升判别器判别图像时对于纹理信息的鉴别能力,进一步提高生成图像的质量。
需要说明的是,本实施例仅以其中一种对抗生成网络为基础,在其他对抗生成网络中使用本发明的利用对比学习的判别器均属于本专利保护范围。
基于同样的发明构思,如图6所示,实施例还提供一种基于对抗生成网络的多模态影像生成装置600,包括获取模块610、网络构建模块620、参数优化模块630、影像生成模块640,
其中,获取模块610用于获取同一目标的第一模态影像和第二模态影像,对第一模态影像进行增强得到两幅增强后模态影像;网络构建模块620用于构建包括生成器和判别器的对抗生成网络,其中,生成器基于第一模态影像及其两幅增强后模态影像生成三幅预测第二模态影像,判别器对第二模态影像和第一模态影像对应的预测第二模态影像进行真伪区分判别,判断器还计算输出两幅增强后模态影像对应的两幅预测第二模态影像在判别器中间层的两幅中间特征图;参数优化模块630用于基于两幅中间特征图构建特征之间的对比损失,将对比损失结合对抗生成网络的原有损失对对抗生成网络进行参数优化;影像生成模块640用于提取参数优化的生成器用于多模态影像生成。
需要说明的是,上述实施例提供的多模态影像生成装置在进行多模态影像生成时,应以上述各功能模块的划分进行举例说明,可以根据需要将上述功能分配由不同的功能模块完成,即在终端或服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的多模态影像生成装置与多模态影像生成方法实施例属于同一构思,其具体实现过程详见多模态影像生成方法实施例,这里不再赘述。
实施例提供的一种基于对抗生成网络的多模态影像生成装置,使用的对抗生成网络包含了利用对比学习的判别器,增强了判别器对于图像浅层特征的学习从而提升判别器判别图像时对于纹理信息的鉴别能力,进一步提高生成图像的质量。
基于同样的发明构思,实施例还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述的基于对抗生成网络的多模态影像生成方法,包括以下步骤:
S110,获取同一目标的第一模态影像和第二模态影像,对第一模态影像进行增强得到两幅增强后模态影像;
S120,构建包括生成器和判别器的对抗生成网络;
S130,基于两幅中间特征图构建特征之间的对比损失,将对比损失结合对抗生成网络的原有损失对对抗生成网络进行参数优化;
S140,提取参数优化的生成器用于多模态影像生成。
如图7所示,实施例提供的计算设备,在硬件层面,除了包含处理器和存储器外,还包括内部总线、网络接口、内存等其他业务所需要的硬件。存储器为非易失性存储器,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述S110-S140所述的基于对抗生成网络的多模态影像生成方法。当然,除了软件实现方式之外,本发明并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
基于同样的发明构思,实施例还提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述基于对抗生成网络的多模态影像生成方法,具体包括以下步骤:
S110,获取同一目标的第一模态影像和第二模态影像,对第一模态影像进行增强得到两幅增强后模态影像;
S120,构建包括生成器和判别器的对抗生成网络;
S130,基于两幅中间特征图构建特征之间的对比损失,将对比损失结合对抗生成网络的原有损失对对抗生成网络进行参数优化;
S140,提取参数优化的生成器用于多模态影像生成。
实施例中,计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于对抗生成网络的多模态影像生成方法,其特征在于,包括以下步骤:
获取同一目标的第一模态影像和第二模态影像,对第一模态影像进行增强得到两幅增强后模态影像,其中,同一目标的第一模态影像和第二模态影像通过以下方式预处理得到:对原始第一模态影像和原始第二模态影像进行滤波;对滤波后的原始第一模态影像和原始第二模态影像进行基于目标区域的刚性配准;对刚性配准后的原始第一模态影像和原始第二模态影像分别进行像素归一化;对像素归一化后的原始第一模态影像和原始第二模态影像进行目标选取,得到同一目标的第一模态影像和第二模态影像;
构建包括生成器和判别器的对抗生成网络,其中,生成器基于第一模态影像及其两幅增强后模态影像生成三幅预测第二模态影像,判别器对第二模态影像和第一模态影像对应的预测第二模态影像进行真伪区分判别,判别器还计算输出两幅增强后模态影像对应的两幅预测第二模态影像在判别器中间层的两幅中间特征图;
为判别器中间层输出的每幅中间特征图增加至少2层MLP,中间特征图经过MLP进行特征更新,更新后的中间特征图参与对比损失计算;
基于两幅中间特征图构建特征之间的对比损失,将对比损失结合对抗生成网络的原有损失对对抗生成网络进行参数优化,其中,基于两幅中间特征图构建特征之间的对比损失,包括:将两幅增强后模态影像对应的两幅预测第二模态影像在判别器相同中间层的两幅中间特征图作为正样本对;将两幅增强后模态影像对应的两幅预测第二模态影像在判别器不同中间层的两幅中间特征图作为负样本对;基于正样本对和负样本对构建对比损失;
提取参数优化的生成器用于多模态影像生成。
2.根据权利要求1所述的基于对抗生成网络的多模态影像生成方法,其特征在于,所述生成器采用pixel to pixel模型中生成器结构。
3.根据权利要求1所述的基于对抗生成网络的多模态影像生成方法,其特征在于,所述判别器采用马尔科夫判别器。
4.根据权利要求1所述的基于对抗生成网络的多模态影像生成方法,其特征在于,对抗生成网络的原始损失包括基于第一模态影像对应的预测第二模态影像和第二模态影像构建的L1损失,还包括生成器和判别器的对抗损失。
5.一种基于对抗生成网络的多模态影像生成装置,其特征在于,包括获取模块、网络构建模块、参数优化模块、影像生成模块,
所述获取模块用于获取同一目标的第一模态影像和第二模态影像,对第一模态影像进行增强得到两幅增强后模态影像,其中,同一目标的第一模态影像和第二模态影像通过以下方式预处理得到:对原始第一模态影像和原始第二模态影像进行滤波;对滤波后的原始第一模态影像和原始第二模态影像进行基于目标区域的刚性配准;对刚性配准后的原始第一模态影像和原始第二模态影像分别进行像素归一化;对像素归一化后的原始第一模态影像和原始第二模态影像进行目标选取,得到同一目标的第一模态影像和第二模态影像;
所述网络构建模块用于构建包括生成器和判别器的对抗生成网络,其中,生成器基于第一模态影像及其两幅增强后模态影像生成三幅预测第二模态影像,判别器对第二模态影像和第一模态影像对应的预测第二模态影像进行真伪区分判别,判断器还计算输出两幅增强后模态影像对应的两幅预测第二模态影像在判别器中间层的两幅中间特征图;
所述参数优化模块用于为判别器中间层输出的每幅中间特征图增加至少2层MLP,中间特征图经过MLP进行特征更新,更新后的中间特征图参与对比损失计算,基于两幅中间特征图构建特征之间的对比损失,将对比损失结合对抗生成网络的原有损失对对抗生成网络进行参数优化,其中,基于两幅中间特征图构建特征之间的对比损失,包括:将两幅增强后模态影像对应的两幅预测第二模态影像在判别器相同中间层的两幅中间特征图作为正样本对;将两幅增强后模态影像对应的两幅预测第二模态影像在判别器不同中间层的两幅中间特征图作为负样本对;基于正样本对和负样本对构建对比损失;
所述影像生成模块用于提取参数优化的生成器用于多模态影像生成。
6.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-4任一项所述的基于对抗生成网络的多模态影像生成方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现权利要求1-4任一项所述的基于对抗生成网络的多模态影像生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310699766.2A CN116433795B (zh) | 2023-06-14 | 2023-06-14 | 基于对抗生成网络的多模态影像生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310699766.2A CN116433795B (zh) | 2023-06-14 | 2023-06-14 | 基于对抗生成网络的多模态影像生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116433795A CN116433795A (zh) | 2023-07-14 |
CN116433795B true CN116433795B (zh) | 2023-08-29 |
Family
ID=87081926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310699766.2A Active CN116433795B (zh) | 2023-06-14 | 2023-06-14 | 基于对抗生成网络的多模态影像生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116433795B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580695A (zh) * | 2019-08-07 | 2019-12-17 | 深圳先进技术研究院 | 一种多模态三维医学影像融合方法、***及电子设备 |
CN113205472A (zh) * | 2021-04-21 | 2021-08-03 | 复旦大学 | 基于循环生成对抗网络CycleGAN模型的跨模态MR影像互生成方法 |
CN114170118A (zh) * | 2021-10-21 | 2022-03-11 | 北京交通大学 | 基于由粗到精学习的半监督多模态核磁共振影像合成方法 |
WO2022120762A1 (zh) * | 2020-12-10 | 2022-06-16 | 中国科学院深圳先进技术研究院 | 多模态医学图像生成方法和装置 |
CN114926382A (zh) * | 2022-05-18 | 2022-08-19 | 深圳大学 | 用于融合图像的生成对抗网络、图像融合方法及终端设备 |
CN115601352A (zh) * | 2022-11-04 | 2023-01-13 | 河北工业大学(Cn) | 基于多模态自监督的医学影像分割方法 |
WO2023020198A1 (zh) * | 2021-08-16 | 2023-02-23 | 腾讯科技(深圳)有限公司 | 用于医学图像的图像处理方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210012486A1 (en) * | 2019-07-09 | 2021-01-14 | Shenzhen Malong Technologies Co., Ltd. | Image synthesis with generative adversarial network |
CN113449135B (zh) * | 2021-08-31 | 2021-11-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像生成***与方法 |
-
2023
- 2023-06-14 CN CN202310699766.2A patent/CN116433795B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580695A (zh) * | 2019-08-07 | 2019-12-17 | 深圳先进技术研究院 | 一种多模态三维医学影像融合方法、***及电子设备 |
WO2022120762A1 (zh) * | 2020-12-10 | 2022-06-16 | 中国科学院深圳先进技术研究院 | 多模态医学图像生成方法和装置 |
CN113205472A (zh) * | 2021-04-21 | 2021-08-03 | 复旦大学 | 基于循环生成对抗网络CycleGAN模型的跨模态MR影像互生成方法 |
WO2023020198A1 (zh) * | 2021-08-16 | 2023-02-23 | 腾讯科技(深圳)有限公司 | 用于医学图像的图像处理方法、装置、设备及存储介质 |
CN114170118A (zh) * | 2021-10-21 | 2022-03-11 | 北京交通大学 | 基于由粗到精学习的半监督多模态核磁共振影像合成方法 |
CN114926382A (zh) * | 2022-05-18 | 2022-08-19 | 深圳大学 | 用于融合图像的生成对抗网络、图像融合方法及终端设备 |
CN115601352A (zh) * | 2022-11-04 | 2023-01-13 | 河北工业大学(Cn) | 基于多模态自监督的医学影像分割方法 |
Non-Patent Citations (1)
Title |
---|
生成式对抗网络研究进展;王万良;李卓蓉;;通信学报(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116433795A (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Singh et al. | Medical image generation using generative adversarial networks: A review | |
CN109191476B (zh) | 基于U-net网络结构的生物医学图像自动分割新方法 | |
Nie et al. | 3-D fully convolutional networks for multimodal isointense infant brain image segmentation | |
CN109978037B (zh) | 图像处理方法、模型训练方法、装置、和存储介质 | |
CN110506278B (zh) | 隐空间中的目标检测 | |
CN106682435B (zh) | 一种多模型融合自动检测医学图像中病变的***及方法 | |
RU2677764C2 (ru) | Координатная привязка медицинских изображений | |
Zhang et al. | LU-NET: An improved U-Net for ventricular segmentation | |
Arafati et al. | Artificial intelligence in pediatric and adult congenital cardiac MRI: an unmet clinical need | |
CN110517198B (zh) | 用于ldct图像去噪的高频敏感gan网络 | |
WO2022121100A1 (zh) | 一种基于darts网络的多模态医学图像融合方法 | |
Upadhyay et al. | Uncertainty-guided progressive GANs for medical image translation | |
CN115496771A (zh) | 一种基于脑部三维mri图像设计的脑肿瘤分割方法 | |
JP2023540910A (ja) | 病変検出のための共同訓練を伴う接続機械学習モデル | |
Song et al. | Brain tissue segmentation via non-local fuzzy c-means clustering combined with Markov random field | |
CN113362360B (zh) | 基于流体速度场的超声颈动脉斑块分割方法 | |
Lohit et al. | Modified total Bregman divergence driven picture fuzzy clustering with local information for brain MRI image segmentation | |
CN116433795B (zh) | 基于对抗生成网络的多模态影像生成方法和装置 | |
Yang et al. | Hierarchical progressive network for multimodal medical image fusion in healthcare systems | |
CN111311531A (zh) | 图像增强方法、装置、控制台设备及医学成像*** | |
CN112950654B (zh) | 基于多核学习与超像素核低秩表示的脑肿瘤图像分割方法 | |
Liao et al. | A fast spatial constrained fuzzy kernel clustering algorithm for MRI brain image segmentation | |
CN112561918A (zh) | 卷积神经网络的训练方法和病灶分割方法 | |
Arega et al. | Using polynomial loss and uncertainty information for robust left atrial and scar quantification and segmentation | |
Hu et al. | Single image super resolution of 3D MRI using local regression and intermodality priors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |