CN113689542A - 一种基于自注意力Transformer的超声或CT医学影像三维重建方法 - Google Patents

一种基于自注意力Transformer的超声或CT医学影像三维重建方法 Download PDF

Info

Publication number
CN113689542A
CN113689542A CN202110878837.6A CN202110878837A CN113689542A CN 113689542 A CN113689542 A CN 113689542A CN 202110878837 A CN202110878837 A CN 202110878837A CN 113689542 A CN113689542 A CN 113689542A
Authority
CN
China
Prior art keywords
image
network
coding
step length
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110878837.6A
Other languages
English (en)
Other versions
CN113689542B (zh
Inventor
全红艳
董家顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202110878837.6A priority Critical patent/CN113689542B/zh
Publication of CN113689542A publication Critical patent/CN113689542A/zh
Application granted granted Critical
Publication of CN113689542B publication Critical patent/CN113689542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10132Ultrasound image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于自注意力Transformer的超声或CT医学影像三维重建方法,本发明的特点是基于Transformer的多层特征感知的无监督学习机制,根据超声或CT影像采集数据的特点,设计基于视觉Transformer的卷积神经网络结构,采样自注意力机制,通过迁移学习,采用无监督措施,实现超声影像的三维重建。利用本发明能够有效地预测超声或CT影像的三维几何信息,该方法可以为人工智能的医疗辅助诊断提供有效的3D重建解决方案,提高人工智能辅助诊断的效率。

Description

一种基于自注意力Transformer的超声或CT医学影像三维重 建方法
技术领域
本发明属于计算机技术领域,涉及医疗辅助诊断中超声或CT影像三维重建,是一种借助于自然图像的成像规律、利用人工智能的迁移学习策略,采用最新前沿的自注意力Transformer的编码技术,建立有效的网络结构,对超声或CT影像三维重建的方法。
背景技术
近年来,人工智能技术快速发展,智能医疗辅助诊断的关键技术的研究在现代医学临床中具有宏观的重大意义。目前,超声或CT影像的三维重建技术研究中,由于医学影像少纹理多噪声的客观事实,并且特别是对于超声摄像机的参数恢复存在一定的难度,导致目前超声或CT影像的三维重建技术的研究存在一定难点,这为模型的三维重建带来复杂性,不利于临床医疗辅助诊断技术的发展。如何建立有效的深度学习的网络编码模型,解决超声或CT影像的快速三维重建的问题,这是亟待解决的实际问题。Transformer模型由于采用全局上下文注意力机制,从而具有强大的特征感知能力,在医学影像分析中逐步被广泛应用。
发明内容
本发明的目的是提供一种基于自注意力Transformer的超声或CT医学影像三维重建方法,该方法结合医学影像的特点,采用自注意力Transformer编码结构,充分学习医学影像的上下文特征,并利用卷积神经网络,构建深度预测模型,充分利用医学影像的空间结构特点,作为重建过程优化的约束条件,使得本发明能够获得较为精细的医学目标的三维结构,因此,具有较高的实用价值。
实现本发明目的的具体技术方案是:
一种基于自注意力Transformer的超声或CT医学影像三维重建方法,该方法输入一个超声或者CT影像序列,其影像分辨率为M×N,100≤M≤2000,100≤N≤2000,三维重建的过程具体包括以下步骤:
步骤1:构建数据集
a)构建自然图像数据集
选取一个自然图像网站,要求具有图像序列及对应的摄像机内部参数,从所述自然图像网站下载a个图像序列及序列对应的内部参数,1≤a≤20,对于每个图像序列,每相邻3帧图像记为图像b、图像c和图像d,将图像b和图像d按照颜色通道进行拼接,得到图像τ,由图像c与图像τ构成一个数据元素,图像c为自然目标图像,图像c的采样视点作为目标视点,图像b、图像c和图像d的内部参数均为et(t=1,2,3,4),其中e1为水平焦距,e2为垂直焦距,e3及e4是主点坐标的两个分量;如果同一图像序列中最后剩余图像不足3帧,则舍弃;利用所有序列构建自然图像数据集,所构建的自然图像数据集中有f个元素,而且3000≤f≤20000;
b)构建超声影像数据集
采样g个超声影像序列,其中1≤g≤20,对于每个序列,每相邻3帧影像记为影像i、影像j和影像k,将影像i和影像k按照颜色通道进行拼接得到影像π,由影像j与影像π构成一个数据元素,影像j为超声目标影像,影像j的采样视点作为目标视点,如果同一影像序列中最后剩余影像不足3帧,则舍弃,利用所有序列构建超声影像数据集,所构建的超声影像数据集中有F个元素,而且1000≤F≤20000;
c)构建CT影像数据集
采样h个CT影像序列,其中1≤h≤20,对于每个序列,每相邻3帧记为影像l、影像m和影像n,将影像l和影像n按照颜色通道进行拼接得到影像σ,由影像m与影像σ构成一个数据元素,影像m为CT目标影像,影像m的采样视点作为目标视点,如果同一影像序列中最后剩余影像不足3帧,则舍弃,利用所有序列构建CT影像数据集,所构建的CT影像数据集中有ξ个元素,而且1000≤ξ≤20000;
步骤2:构建神经网络
神经网络输入的图像或影像的分辨率均为p×o,p为宽度,o为高度,以像素为单位,100≤o≤2000,100≤p≤2000;
(1)深度信息编码网络的结构
张量H作为输入,尺度为α×o×p×3,张量I作为输出,尺度为α×o×p×1,α为批次数量;
深度信息编码网络由编码器和解码器组成,对于张量H,依次经过编码和解码处理后,获得输出张量I;
编码器由5个单元组成,第一个单元为卷积单元,第2至第5个单元均由残差模块组成,在第一个单元中,有64个卷积核组成,这些卷积核的形状均为7×7,卷积的水平方向及垂直方向的步长均为2,卷积之后进行一次最大池化处理,第2至第5个单元分别包括3,4,6,3个残差模块,每个残差模块进行3次卷积,卷积核的形状均为3×3,卷积核的个数分别是64,128,256,512;
解码器由6个解码单元组成,每个解码单元均包括反卷积和卷积处理,反卷积和卷积处理的卷积核形状、个数相同,第1至第6解码单元中卷积核的形状均为3×3,卷积核的个数分别对应是512,256,128,64,32,16,编码器与解码器的网络层之间进行跨层连接,跨层连接的对应关系为:1与4、2与3、3与2、4与1;
(2)视觉Transformer参数学习网络的结构
视觉Transformer参数学习网络由模块W和模块G构成,对于模块W,张量J和张量C作为输入,尺度分别为α×o×p×3和α×o×p×6,输出为张量L、张量O和张量D,张量L尺度为:α×2×6,张量O尺度为α×4×1,张量D的尺度为α×3,α为批次数量;
对于模块W,由一个主干网络和3个网络分支构成,3个网络分支分别用于预测张量L、张量O和张量D;
首先,主干网络编码如下:将张量J和张量C按照最后一个通道串接,再输入到主干网络,依次进行3个阶段编码,在每个阶段编码时,注意力头的个数分别为2、3、4,每个阶段具体编码为:
a)嵌入编码
在嵌入编码中,首先进行卷积运算,在3个阶段编码时,卷积核尺度分别为7×7、3×3和3×3,水平方向及垂直方向的步长分别均为4、2、2,然后,进一步将所得编码特征从图像特征的空域形状拉伸为序列形式,再进行层归一化处理;
b)自注意力机制的Transformer编码
进行层归一化,得到中间处理特征,将中间处理特征按照查询维度进行可分离卷积运算处理:卷积核尺度为3×3,输入特征维度为64,水平方向及垂直方向的步长均为1,然后进行批归一化,再进行一个卷积单元的运算处理,包括卷积运算、批归一化处理,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,输出特征维度为注意力头的个数乘以输入特征维度,进一步将所得编码特征从图像特征的空域形状拉伸为序列形式,作为注意力学习的查询Q编码向量;
将所述中间处理特征,按照关键词维度进行可分离卷积运算处理:卷积核尺度为3×3,输入特征维度为64,水平方向及垂直方向的步长均为1,然后进行批归一化,再进行一个卷积单元的运算处理,包括卷积运算和批归一化处理,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,输出特征维度为注意力头的个数乘以输入特征维度,进一步将所得编码特征从图像特征的空域形状拉伸为序列形式,作为注意力学习的关键词K编码向量;
将所述中间处理特征,按照数值维度进行可分离卷积运算处理:卷积核尺度为3×3,输入特征维度为64,水平方向及垂直方向的步长均为1,然后进行批归一化,再进行一个卷积单元的运算处理,包括卷积运算、批归一化处理,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,输出特征维度为注意力头的个数乘以输入特征维度,进一步将所得编码特征从图像特征的空域形状拉伸为序列形式,作为注意力学习的数值V编码向量;
根据三个阶段编码分别得到的注意力学习的查询Q编码向量、关键词K编码向量和数值V编码向量,分别利用自注意力学习方法计算注意力权重矩阵;
第1个阶段注意力权重矩阵与第1个阶段中间处理特征相加得到第1个阶段主干网络编码特征,第2个阶段注意力权重矩阵与第2个阶段中间处理特征相加得到第2个阶段主干网络编码特征计算为,第3个阶段注意力权重矩阵与第3个阶段中间处理特征相加得到第3个阶段主干网络编码特征;
然后,依次进行3个网络分支编码:
对于第1个网络分支,将第1个阶段主干网络编码特征依次进行2个单元处理:在第1个单元处理中,卷积运算的特征通道数为16,卷积核尺度为7×7,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,在第2个单元处理中,卷积运算的特征通道数为32,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,然后,将所得到的特征与第1个阶段主干网络编码特征相串接,进行2个单元处理:第1个单元处理中,卷积运算的特征通道数为32,卷积核尺度为7×7,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,第2个单元处理中,卷积运算的特征通道数为64,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,然后,将所得到的特征与第3个阶段主干网络编码特征相串接,依次进行3个单元处理:在第1个单元处理中,卷积运算的特征通道数为64,卷积核尺度为7×7,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,在第2个单元处理中,卷积运算的特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,在第3个单元处理中,卷积运算的特征通道数为12,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,将所得的12通道的特征结果按照2×6的形式进行预测,得到张量L的结果;
对于第2个网络分支,将第1个阶段主干网络编码特征依次进行2个单元处理:在第1个单元处理中,卷积运算的特征通道数为16,卷积核尺度为7×7,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,在第2个单元处理中,卷积运算的特征通道数为32,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,然后将所得到的特征与第2个阶段主干网络编码特征相串接,再依次进行2个单元处理:在第1个单元处理中,卷积运算的特征通道数为32,卷积核尺度为7×7,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,在第2个单元处理中,卷积运算的特征通道数为64,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,将所得到的特征与第3个阶段主干网络编码特征相串接,再依次进行3个单元处理:在第1个单元处理中,卷积运算的特征通道数为64,卷积核尺度为7×7,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,在第2个单均为2,再进行特征激活、批归一化处理,在第3个单元处理中,卷积运算的特征通道数为4,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,将所得的4通道的特征结果作为张量O的结果;
对于第3个网络分支,将第3个阶段主干网络编码特征依次进行3个单元处理:在第1个单元处理中,卷积运算的特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,在第2个单元处理中,卷积运算的特征通道数为64,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,在第3个单元处理中,卷积运算的特征通道数为3,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,将所得到的特征作为第3通道的结果,作为张量D的结果;
对于模块G,张量J和张量C作为输入,输出为张量B,尺度为α×o×p×4,α为批次数量,模块G设计为,先进行跨视图嵌入编码,再进行卷积嵌入编码,最后进行解码处理,具体地:
a)跨视图嵌入编码
首先,分别将张量J、张量C最后一个维度的前3个特征分量、张量C最后一个维度的后3个特征分量分别进行跨视图嵌入编码处理为:卷积运算,卷积核尺度为7×7,特征通道数为32,水平方向及垂直方向的步长均为4,将编码特征从图像特征空域形状变换为序列结构,层归一化处理,得到跨视图嵌入编码1、跨视图嵌入编码2和跨视图嵌入编码3;
然后,将跨视图嵌入编码1与跨视图嵌入编码2按照最后一个维度进行串接,得到注意力编码输入特征1,将跨视图嵌入编码1与跨视图嵌入编码3按照最后一个维度进行串接,得到注意力编码输入特征2,将跨视图嵌入编码2与跨视图嵌入编码1按照最后一个维度进行串接,得到注意力编码输入特征3,将跨视图嵌入编码3与跨视图嵌入编码1按照最后一个维度进行串接,得到注意力编码输入特征4,将所述的4个注意力编码输入特征分别进行注意力编码处理:
将注意力编码输入特征1,按照最后一个通道,将前一半的特征作为目标编码特征1,进行可分离的卷积运算,其中卷积核尺度为3×3,特征通道数为32,水平方向及垂直方向的步长均为1,将所得编码特征分别作为注意力学***方向及垂直方向的步长均为1,将所得编码特征作为注意力学习的查询Q编码向量,然后,根据查询Q编码向量、关键词K编码向量和数值V编码向量,利用自注意力学习方法计算注意力权重矩阵1;
将注意力编码输入特征2,按照最后一个通道,将前一半通道特征作为目标编码特征2,进行可分离的卷积运算,其中卷积核尺度为3×3,特征通道数为32,水平方向及垂直方向的步长均为1,将所得编码特征分别作为注意力学***方向及垂直方向的步长均为1,将所得编码特征作为注意力学习的查询Q编码向量,然后,根据注意力学习的查询Q编码向量、关键词K编码向量和数值V编码向量,利用自注意力学习方法计算注意力权重矩阵2;
将注意力编码输入特征3,按照最后一个通道,将前一半通道特征作为目标编码特征3,进行可分离的卷积运算,其中卷积核尺度为3×3,特征通道数为32,水平方向及垂直方向的步长均为1,将所得编码特征分别作为注意力学***方向及垂直方向的步长均为1,将所得编码特征作为注意力学习的查询Q编码向量,然后,根据注意力学习的查询Q编码向量、关键词K编码向量和数值V编码向量,利用自注意力学习方法计算注意力权重矩阵3;
将注意力编码输入特征4,按照最后一个通道,将前一半通道特征作为目标编码特征4,进行可分离的卷积运算,其中卷积核尺度为3×3,特征通道数为32,水平方向及垂直方向的步长均为1,将所得编码特征分别作为注意力学***方向及垂直方向的步长均为1,将所得编码特征作为注意力学习的查询Q编码向量,然后,根据查询Q编码向量、关键词K编码向量和数值V编码向量,利用自注意力学习方法计算注意力权重矩阵4;
将注意力编码输入特征1加上注意力权重矩阵1得到跨视图嵌入编码特征1,将注意力编码输入特征2加上注意力权重矩阵2得到跨视图嵌入编码特征2,将注意力编码输入特征3加上注意力权重矩阵3得到跨视图嵌入编码特征3,将注意力编码输入特征4加上注意力权重矩阵4得到跨视图嵌入编码特征4,利用跨视图嵌入编码特征1和跨视图嵌入编码特征2平均特征作为跨视图跨层特征1,将所述的跨视图跨层特征1、跨视图嵌入编码特征3和跨视图嵌入编码特征4进行下一步的卷积嵌入编码处理;
b)卷积嵌入编码
利用所述跨视图跨层特征1、跨视图嵌入编码特征3和跨视图嵌入编码特征4分别依次进行2个单元处理:在第1个单元处理中,卷积运算的特征通道数为64,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行序列化处理,然后进行层归一化处理,在第2个单元处理中,卷积运算的特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行序列化处理,然后进行层归一化处理,得到3个嵌入编码特征,将跨视图跨层特征1经过所述的第1个单元处理后得到的特征作为跨视图跨层特征2,将跨视图跨层特征2经过所述的第2个单元处理后得到的特征作为跨视图跨层特征3,并将所述3个嵌入编码特征按照最后一个维度进行串接,作为卷积嵌入编码结果;
c)解码处理
将跨视图跨层特征1进行反卷积单元处理:反卷积特征通道数为16,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,将得到的结果进行一次卷积运算,卷积特征通道数为32,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,然后进行特征激活、批归一化处理,将得到的特征记为解码器跨层特征1,并将解码器跨层特征1与跨视图跨层特征2相串接,再将所述串接的结果进行一次卷积运算,卷积特征通道数128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,然后进行特征激活、批归一化处理,将得到的结果与跨视图跨层特征3相串接,再将所述串接的结果进行反卷积单元处理:反卷积特征通道数为128,反卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,将得到的结果与解码器跨层特征1相串接,将所得串接结果进行一次卷积单元处理:卷积特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为1,然后进行特征激活、批归一化处理,将所得特征作为张量B的第4个尺度结果,同时,将所得的第4尺度特征与跨视图跨层特征1相串接,并将所述串接的结果进行反卷积单元处理:反卷积的特征通道数为64,反卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,将所得特征作为张量B的第3个尺度结果,同时,将所得的第3尺度特征与跨视图跨层特征2相串接,将所述串接的结果进行反卷积单元处理:特征通道数为32,反卷积核尺度为3×3,水平方向及垂直方向的步长均为2,然后进行特征激活、批归一化处理,将所得特征作为张量B的第2个尺度结果,同时,将所得的第2尺度特征与跨视图跨层特征1相串接,并将所述串接的结果进行一个卷积单元处理:特征通道数为16,卷积核尺度为3×3,水平方向及垂直方向的步长均为1,然后进行特征激活、批归一化处理,将所得特征作为张量B的第1个尺度结果;
利用所述张量B的第4个尺度结果、第3个尺度结果、第2个尺度结果、第1个尺度结果,得到模块G的输出;
步骤3:神经网络的训练
分别将自然图像数据集、超声影像数据集和CT影像数据集中样本按照9∶1划分为训练集和测试集,训练集中数据用于训练,测试集数据用于测试,在训练时,分别从对应的数据集中获取训练数据,统一缩放到分辨率p×o,输入到对应网络中,迭代优化,通过不断修改网络模型参数,使得每批次的损失达到最小;
在训练过程中,各损失的计算方法:
内部参数监督合成损失:在自然图像的网络模型训练中,将深度信息编码网络输出的张量I作为深度,将视觉Transformer参数学习网络输出的张量L与训练数据的内部参数标签et(t=1,2,3,4)分别作为位姿参数和摄像机内部参数,根据计算机视觉原理算法,利用图像b和图像d分别合成图像c视点处的两个图像,利用图像c分别与所述的两个合成图像,按照逐像素、逐颜色通道强度差之和计算得到;
无监督合成损失:在超声或者CT影像的网络模型训练中,将深度信息编码网络的输出张量I作为深度,视觉Transformer参数学习网络W模块的输出张量L和张量O分别作为位姿参数和摄像机内部参数,根据计算机视觉算法,利用目标影像的两个相邻影像分别构建目标视点处的合成影像,利用目标影像分别与所述两个目标视点处的合成影像,按照逐像素、逐颜色通道强度差之和计算得到;
内部参数误差损失:视觉Transformer参数学习网络输出的张量O与训练数据的内部参数标签et(t=1,2,3,4)按照各分量差的绝对值之和计算得到;
空间结构误差损失:在超声或者CT影像的网络模型训练中,将深度信息编码网络的输出张量I作为深度,视觉Transformer参数学习网络W模块的输出张量L和张量O分别作为位姿参数和摄像机内部参数,根据计算机视觉算法,分别利用目标视点处影像的两个相邻影像重建目标视点处影像的三维坐标,采用RANSAC算法对重建点进行空间结构拟合,利用拟合得到的法向量与视觉Transformer参数学习网络输出张量D,利用余弦距离计算得到;
变换合成损失:在超声或者CT影像的网络模型训练中,将深度信息编码网络的输出张量I作为深度,视觉Transformer参数学习网络W模块的输出张量L和张量O分别作为位姿参数和摄像机内部参数,根据计算机视觉算法,利用目标影像的两个相邻影像构建目标影像视点处的两个合成影像,对于所述合成影像中的每个影像,在合成过程得到每个像素位置后,将模块G的输出张量B作为合成影像空域变形的位移量,利用所述目标影像视点处的两个合成影像分别与目标视点处影像,按照逐像素、逐颜色通道强度差之和计算得到;
具体训练步骤:
(1)自然图像数据集上,分别对深度信息编码网络及视觉Transformer参数学习网络的主干网络及第1个网络分支,训练60000次
每次从自然图像数据集中取出训练数据,统一缩放到分辨率p×o,将图像c输入深度信息编码网络,将图像c及图像τ输入视觉Transformer参数学习网络,对深度信息编码网络及视觉Transformer参数学习网络W模块的主干网络及第1个网络分支,训练60000次,每批次的训练损失由内部参数监督合成损失计算得到;
(2)自然图像数据集上,对视觉Transformer参数学习网络W模块的第2个网络分支,训练50000次
每次从自然图像数据集中取出训练数据,统一缩放到分辨率p×o,将图像c输入深度信息编码网络,将图像c及图像τ输入视觉Transformer参数学习网络,对视觉Transformer参数学习网络W模块的第2个网络分支进行训练,每批次的训练损失由无监督合成损失和内部参数误差损失之和计算得到;
(3)在超声影像数据集上,对深度信息编码网络、视觉Transformer参数学习网络W模块的主干网络及网络分支1-3以及G模块训练60000次,得到网络模型参数ρ
每次从超声影像数据集上取出超声训练数据,统一缩放到分辨率p×o,将影像j输入深度信息编码网络,将影像j及影像π输入到视觉Transformer参数学习网络,对深度信息编码网络、视觉Transformer参数学习网络W模块的主干网络分支1-3以及G模块进行训练,每批次的训练损失由变换合成损失和空间结构误差损失之和计算得到;
(4)在CT影像数据集上,对深度信息编码网络、视觉Transformer参数学习网络W模块的主干网络及网络分支1-3以及G模块训练60000次,得到模型参数ρ′
每次从CT影像数据集中取出CT影像训练数据,统一缩放到分辨率p×o,将影像m及影像σ输入到轻量深度视觉Transformer参数学***移运动的损失,训练60000次,得到模型参数ρ′;
步骤4:对超声或者CT影像三维重建
利用自采样的一个超声或者CT序列影像,同时进行以下3个处理实现三维重建:
(1)对序列影像中任一目标影像,按照如下方法计算摄像机坐标系下的三维坐标:缩放到分辨率p×o,对于超声序列影像,将影像j输入深度信息编码网络,将影像j及影像π输入到视觉Transformer参数学习网络,对于CT序列影像,将影像m输入深度信息编码网络,将,影像m及影像σ输入到输入视觉Transformer参数学习网络,分别利用模型参数ρ和模型参数ρ′进行预测,从深度信息编码网络得到每一帧目标影像的深度,从视觉Transformer参数学习网络的第1个网络分支输出的张量L和第2个网络分支输出的张量O分别作为摄像机位姿参数及摄像机内部参数,根据目标影像的深度信息及摄像机内部参数,依据计算机视觉的原理,计算目标影像的摄像机坐标系下的三维坐标;
(2)序列影像三维重建过程中,建立关键帧序列:将序列影像第一帧作为关键帧序列的第一帧,并作为当前关键帧,当前关键帧之后的帧作为目标帧,按照目标帧顺序依次动态选取新的关键帧:首先,用单位矩阵初始化目标帧相对于当前关键帧的位姿参数矩阵,针对任一目标帧,将所述位姿参数矩阵累乘目标帧摄像机位姿参数,并利用累乘结果,结合所述目标帧的内部参数及深度信息,合成所述目标帧视点处的影像,利用所述合成影像与所述目标帧之间逐像素逐颜色通道强度差之和的大小计算误差λ,再根据所述目标帧的相邻帧,利用摄像机位姿参数和内部参数,合成所述目标帧视点处的影像,利用所述合成的影像与所述目标帧之间逐像素逐颜色通道强度差之和的大小计算误差γ,进一步利用公式(1)计算合成误差比Z:
Figure BDA0003191268170000101
满足Z大于阈值η,1<η<2,将所述目标帧作为新的关键帧,并将所述目标帧相对于当前关键帧的位姿参数矩阵作为新的关键帧的位姿参数,同时将所述目标帧更新为当前关键帧;以此迭代,完成关键帧序列建立;
(3)将序列影像第一帧的视点作为世界坐标系的原点,对任一目标影像,将其分辨率缩放到M×N,根据网络输出得到的摄像机内部参数及深度信息,计算得到摄像机坐标系下的三维坐标,根据网络输出的摄像机位姿参数,并结合关键帧序列中每一关键帧的位姿参数以及目标帧相对于当前关键帧的位姿参数矩阵,计算得到所述目标帧的每个像素的世界坐标系中的三维坐标。
本发明的有益效果:
本发明设计视觉Transformer深度学习模型,建立神经网络,学习医学影像中的上下文特征,充分利用深度学习的机制,实现医学影像自动三维重建功能,利用本发明能够有效地得到超声或CT影像的三维几何信息,有助于在临床诊断中实现病灶区域的三维可视化功能,可以为人工智能医疗辅助诊断提供有效的3D重建解决方案,提高人工智能辅助医学诊断的效率。
附图说明
图1为本发明超声影像的三维重建结果图;
图2为本发明CT影像的三维重建结果图。
具体实施方式
下面结合附图及实施例对本发明进一步说明。
实施例
本实施例在PC机上Windows10 64位操作***下进行实施,其硬件配置是CPU i7-9700F,内存16G,GPU NVIDIA GeForce GTX 2070 8G;深度学习库采用Tensorflow1.14;编程采用Python3.7版本编程语言。
一种基于自注意力Transformer的超声或CT医学影像三维重建方法,该方法输入一个超声或者CT影像序列,分辨率为M×N,对于超声影像,M取450,N取300,对于CT影像,M和N均取512,三维重建的过程具体包括以下步骤:
步骤1:构建数据集
a)构建自然图像数据集
选取一个自然图像网站,要求具有图像序列及对应的摄像机内部参数,从该网站下载19个图像序列及序列对应的内部参数,对于每个图像序列,每相邻3帧图像记为图像b、图像c和图像d,将图像b和图像d按照颜色通道进行拼接,得到图像τ,由图像c与图像τ构成一个数据元素,图像c为自然目标图像,图像c的采样视点作为目标视点,图像b、图像c和图像d的内部参数均为et(t=1,2,3,4),其中e1为水平焦距,e2为垂直焦距,e3及e4是主点坐标的两个分量;如果同一图像序列中最后剩余图像不足3帧,则舍弃;利用所有序列构建自然图像数据集,其数据集有3600个元素;
b)构建超声影像数据集
采样10个超声影像序列,对于每个序列,每相邻3帧影像记为影像i、影像j和影像k,将影像i和影像k按照颜色通道进行拼接得到影像π,由影像j与影像π构成一个数据元素,影像j为超声目标影像,影像j的采样视点作为目标视点,如果同一影像序列中最后剩余影像不足3帧,则舍弃,利用所有序列构建超声影像数据集,其数据集有1600个元素;
c)构建CT影像数据集
采样1个CT影像序列,对于所述序列,每相邻3帧记为影像l、影像m和影像n,将影像l和影像n按照颜色通道进行拼接得到影像σ,由影像m与影像σ构成一个数据元素,影像m为CT目标影像,影像m的采样视点作为目标视点,如果同一影像序列中最后剩余影像不足3帧,则舍弃,利用所有序列构建CT影像数据集,其数据集有2000个元素;
步骤2:构建神经网络
神经网络处理的图像或影像的分辨率均为416×128,416为宽度,128为高度,以像素为单位;
(1)深度信息编码网络的结构
张量H作为输入,尺度为4×128×416×3,张量I作为输出,尺度为4×128×416×1;
网络A由编码器和解码器组成,对于张量H,依次经过编码和解码处理后,获得输出张量I;
深度信息编码网络由编码器和解码器组成,对于张量H,依次经过编码和解码处理后,获得输出张量I;
编码器由5个单元组成,第一个单元为卷积单元,第2至第5个单元均由残差模块组成,在第一个单元中,有64个卷积核组成,这些卷积核的形状均为7×7,卷积的水平方向及垂直方向的步长均为2,卷积之后进行一次最大池化处理,第2至5个单元分别包括3,4,6,3个残差模块,每个残差模块进行3次卷积,卷积核的形状均为3×3,卷积核的个数分别是64,128,256,512;
解码器由6个解码单元组成,每个解码单元均包括反卷积和卷积两步处理,反卷积和卷积处理的卷积核形状、个数相同,第1至第6解码单元中卷积核的形状均为3×3,卷积核的个数分别对应是512,256,128,64,32,16,编码器与解码器的网络层之间进行跨层连接,跨层连接的对应关系为:1与4、2与3、3与2、4与1;
(2)视觉Transformer参数学习网络的结构
视觉Transformer参数学习网络由模块W和模块G构成,对于模块P,张量J和张量C作为输入,尺度分别为4×128×416×3和4×128×416×6,输出为张量L、张量O和张量D,张量L尺度为:4×2×6,张量O尺度为4×4×1,张量D的尺度为4×3;
对于模块W,由一个主干网络和3个网络分支构成,3个网络分支分别用于预测张量L、张量O和张量D;
首先,主干网络编码如下:将张量J和张量C按照最后一个通道串接,再输入到主干网络,依次进行3个阶段编码,在每个阶段编码时,注意力头的个数分别为2、3、4,每个阶段具体编码为:
a)嵌入编码
在嵌入编码中,首先进行卷积运算,在3个阶段编码时,卷积核尺度分别为7×7、3×3和3×3,水平方向及垂直方向的步长分别均为4、2、2,然后,进一步将所得编码特征从图像特征的空域形状拉伸为序列形式,再进行层归一化处理;
b)自注意力机制的Transformer编码
进行层归一化,得到中间处理特征,将中间处理特征按照查询维度进行可分离卷积运算处理:卷积核尺度为3×3,输入特征维度为64,水平方向及垂直方向的步长均为1,然后进行批归一化,再进行一个卷积单元的运算处理,包括卷积运算和批归一化处理,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,输出特征维度为注意力头的个数乘以输入特征维度,进一步将所得编码特征从图像特征的空域形状拉伸为序列形式,作为注意力学习的查询Q编码向量;
将所述中间处理特征,按照关键词维度进行可分离卷积运算处理:卷积核尺度为3×3,输入特征维度为64,水平方向及垂直方向的步长均为1,然后进行批归一化,再进行一个卷积单元的运算处理,包括卷积运算和批归一化处理,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,输出特征维度为注意力头的个数乘以输入特征维度,进一步将所得编码特征从图像特征的空域形状拉伸为序列形式,作为注意力学习的关键词K编码向量;
将所述中间处理特征,按照数值维度进行可分离卷积运算处理:卷积核尺度为3×3,输入特征维度为64,水平方向及垂直方向的步长均为1,然后进行批归一化,再进行一个卷积单元的运算处理,包括卷积运算、批归一化处理,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,输出特征维度为注意力头的个数乘以输入特征维度,进一步将所得编码特征从图像特征的空域形状拉伸为序列形式,作为注意力学习的数值V编码向量;
根据三个阶段编码分别得到的注意力学习的查询Q编码向量、关键词K编码向量和数值V编码向量,分别利用自注意力学习方法计算注意力权重矩阵;
第1个阶段注意力权重矩阵与第1个阶段中间处理特征相加得到第1个阶段主干网络编码特征,第2个阶段注意力权重矩阵与第2个阶段中间处理特征相加得到第2个阶段主干网络编码特征计算为,第3个阶段注意力权重矩阵与第3个阶段中间处理特征相加得到第3个阶段主干网络编码特征;
然后,依次进行3个网络分支编码:
对于第1个网络分支,将第1个阶段主干网络编码特征依次进行2个单元处理:在第1个单元处理中,卷积运算的特征通道数为16,卷积核尺度为7×7,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,在第2个单元处理中,卷积运算的特征通道数为32,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,然后,将所得到的特征与第1个阶段主干网络编码特征相串接,进行2个单元处理:第1个单元处理中,卷积运算的特征通道数为32,卷积核尺度为7×7,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,第2个单元处理中,卷积运算的特征通道数为64,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,然后,将所得到的特征与第3个阶段主干网络编码特征相串接,依次进行3个单元处理:在第1个单元处理中,卷积运算的特征通道数为64,卷积核尺度为7×7,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,在第2个单元处理中,卷积运算的特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,在第3个单元处理中,卷积运算的特征通道数为12,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,将所得的12通道的特征结果按照2×6的形式进行预测,得到张量L的结果;
对于第2个网络分支,将第1个阶段主干网络编码特征依次进行2个单元处理:在第1个单元处理中,卷积运算的特征通道数为16,卷积核尺度为7×7,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,在第2个单元处理中,卷积运算的特征通道数为32,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,然后将所得到的特征与第2个阶段主干网络编码特征相串接,再依次进行2个单元处理:在第1个单元处理中,卷积运算的特征通道数为32,卷积核尺度为7×7,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,在第2个单元处理中,卷积运算的特征通道数为64,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,将所得到的特征与第3个阶段主干网络编码特征相串接,再依次进行3个单元处理:在第1个单元处理中,卷积运算的特征通道数为64,卷积核尺度为7×7,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,在第2个单元处理中,卷积运算的特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,在第3个单元处理中,卷积运算的特征通道数为4,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,将所得的4通道的特征结果作为张量O的结果;
对于第3个网络分支,将第3个阶段主干网络编码特征依次进行3个单元处理:在第1个单元处理中,卷积运算的特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,在第2个单元处理中,卷积运算的特征通道数为64,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,在第3个单元处理中,卷积运算的特征通道数为3,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,将所得到的特征作为第3通道的结果,作为张量D的结果;
对于模块G,张量J和张量C作为输入,输出为张量B,尺度为α×o×p×4,α为批次数量,模块G设计为,先进行跨视图嵌入编码,再进行卷积嵌入编码,最后进行解码处理,具体地:
c)跨视图嵌入编码
首先,分别将张量J、张量C最后一个维度的前3个特征分量及张量C最后一个维度的后3个特征分量分别进行跨视图嵌入编码处理:卷积运算,卷积核尺度为7×7,特征通道数为32,水平方向及垂直方向的步长均为4,将编码特征从图像特征空域形状变换为序列结构,层归一化处理,得到跨视图嵌入编码1、跨视图嵌入编码2和跨视图嵌入编码3;
然后,按照如下方式进行注意力编码输入特征初始化:将跨视图嵌入编码1与跨视图嵌入编码2按照最后一个维度进行串接,得到注意力编码输入特征1,将跨视图嵌入编码1与跨视图嵌入编码3按照最后一个维度进行串接,得到注意力编码输入特征2,将跨视图嵌入编码2与跨视图嵌入编码1按照最后一个维度进行串接,得到注意力编码输入特征3,将跨视图嵌入编码3与跨视图嵌入编码1按照最后一个维度进行串接,得到注意力编码输入特征4,将所述的4个注意力编码输入特征分别进行注意力编码处理:
将注意力编码输入特征1,按照最后一个通道,将前一半的特征作为目标编码特征1,进行可分离的卷积运算,其中卷积核尺度为3×3,特征通道数为32,水平方向及垂直方向的步长均为1,将所得编码特征分别作为注意力学***方向及垂直方向的步长均为1,将所得编码特征作为注意力学习的查询Q编码向量,然后,根据查询Q编码向量、关键词K编码向量和数值V编码向量,利用自注意力学习方法计算注意力权重矩阵1;
将注意力编码输入特征2,按照最后一个通道,将前一半通道特征作为目标编码特征2,进行可分离的卷积运算,其中卷积核尺度为3×3,特征通道数为32,水平方向及垂直方向的步长均为1,将所得编码特征分别作为注意力学***方向及垂直方向的步长均为1,将所得编码特征作为注意力学习的查询Q编码向量,然后,根据注意力学习的查询Q编码向量、关键词K编码向量和数值V编码向量,利用自注意力学习方法计算注意力权重矩阵2;
将注意力编码输入特征3,按照最后一个通道,将前一半通道特征作为目标编码特征3,进行可分离的卷积运算,其中卷积核尺度为3×3,特征通道数为32,水平方向及垂直方向的步长均为1,将所得编码特征分别作为注意力学***方向及垂直方向的步长均为1,将所得编码特征作为注意力学习的查询Q编码向量,然后,根据注意力学习的查询Q编码向量、关键词K编码向量和数值V编码向量,利用自注意力学习方法计算注意力权重矩阵3;
将注意力编码输入特征4,按照最后一个通道,将前一半通道特征作为目标编码特征4,进行可分离的卷积运算,其中卷积核尺度为3×3,特征通道数为32,水平方向及垂直方向的步长均为1,将所得编码特征分别作为注意力学***方向及垂直方向的步长均为1,将所得编码特征作为注意力学习的查询Q编码向量,然后,根据查询Q编码向量、关键词K编码向量和数值V编码向量,利用自注意力学习方法计算注意力权重矩阵4;
将注意力编码输入特征1加上注意力权重矩阵1得到跨视图嵌入编码特征1,将注意力编码输入特征2加上注意力权重矩阵2得到跨视图嵌入编码特征2,将注意力编码输入特征3加上注意力权重矩阵3得到跨视图嵌入编码特征3,将注意力编码输入特征4加上注意力权重矩阵4得到跨视图嵌入编码特征4,利用跨视图嵌入编码特征1和跨视图嵌入编码特征2平均特征作为跨视图跨层特征1,将所述的跨视图跨层特征1、跨视图嵌入编码特征3和跨视图嵌入编码特征4进行下一步的卷积嵌入编码处理;
a)卷积嵌入编码
利用所述跨视图跨层特征1、跨视图嵌入编码特征3和跨视图嵌入编码特征4分别依次进行2个单元处理:在第1个单元处理中,卷积运算的特征通道数为64,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行序列化处理,然后进行层归一化处理,在第2个单元处理中,卷积运算的特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行序列化处理,然后进行层归一化处理,得到3个嵌入编码特征,将跨视图跨层特征1经过所述的第1个单元处理后得到的特征作为跨视图跨层特征2,将跨视图跨层特征2经过所述的第2个单元处理后得到的特征作为跨视图跨层特征3,将所述3个嵌入编码特征按照最后一个维度进行串接,作为卷积嵌入编码结果;
b)解码处理
将跨视图跨层特征1进行反卷积单元处理:反卷积特征通道数为16,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,将得到的结果进行一次卷积运算,卷积特征通道数为32,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,然后进行特征激活、批归一化处理,将得到的特征记为解码器跨层特征1,并将解码器跨层特征1与跨视图跨层特征2相串接,再将所述串接的结果进行一次卷积运算,卷积特征通道数128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,然后进行特征激活、批归一化处理,将得到的结果与跨视图跨层特征3相串接,再将所述串接的结果进行反卷积单元处理:反卷积特征通道数为128,反卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,将得到的结果与解码器跨层特征1相串接,将所得串接结果进行一次卷积单元处理:卷积特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为1,然后进行特征激活、批归一化处理,将所得特征作为张量B的第4个尺度结果,同时,将所得的第4尺度特征与跨视图跨层特征1相串接,并将所述串接的结果进行反卷积单元处理:反卷积的特征通道数为64,反卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,将所得特征作为张量B的第3个尺度结果,同时,将所得的第3尺度特征与跨视图跨层特征2相串接,将所述串接的结果进行反卷积单元处理:特征通道数为32,反卷积核尺度为3×3,水平方向及垂直方向的步长均为2,然后进行特征激活、批归一化处理,将所得特征作为张量B的第2个尺度结果,同时,将所得的第2尺度特征与跨视图跨层特征1相串接,并将所述串接的结果进行卷积单元处理:特征通道数为16,卷积核尺度为3×3,水平方向及垂直方向的步长均为1,然后进行特征激活、批归一化处理,将所得特征作为张量B的第1个尺度结果;
利用所述张量B的第4个尺度结果、第3个尺度结果、第2个尺度结果、第1个尺度结果,得到模块G的输出;
步骤3:神经网络的训练
分别将自然图像数据集、超声影像数据集和CT影像数据集中样本按照9∶1划分为训练集和测试集,训练集中数据用于训练,测试集数据用于测试,在训练时,分别从对应的数据集中获取训练数据,统一缩放到分辨率416×128,输入到对应网络中,迭代优化,通过不断修改网络模型参数,使得每批次的损失达到最小;
在训练过程中,各损失的计算方法:
内部参数监督合成损失:在自然图像的网络模型训练中,将深度信息编码网络输出的张量I作为深度,将视觉Transformer参数学习网络输出的张量L与训练数据的内部参数标签et(t=1,2,3,4)分别作为位姿参数和摄像机内部参数,根据计算机视觉原理算法,利用图像b和图像d分别合成图像c视点处的两个图像,利用图像c分别与所述的两个合成图像,按照逐像素、逐颜色通道强度差之和计算得到;
无监督合成损失:在超声或者CT影像的网络模型训练中,将深度信息编码网络的输出张量I作为深度,视觉Transformer参数学习网络W模块的输出张量L和张量O分别作为位姿参数和摄像机内部参数,根据计算机视觉算法,利用目标影像的两个相邻影像分别构建目标视点处的合成影像,利用目标影像分别与所述两个目标视点处的合成影像,按照逐像素、逐颜色通道强度差之和计算得到;
内部参数误差损失:视觉Transformer参数学习网络输出的张量O与训练数据的内部参数标签et(t=1,2,3,4)按照各分量差的绝对值之和计算得到;
空间结构误差损失:在超声或者CT影像的网络模型训练中,将深度信息编码网络的输出张量I作为深度,视觉Transformer参数学习网络W模块的输出张量L和张量O分别作为位姿参数和摄像机内部参数,根据计算机视觉算法,分别利用目标视点处影像的两个相邻影像重建目标视点处影像的三维坐标,采用RANSAC算法对重建点进行空间结构拟合,利用拟合得到的法向量与视觉Transformer参数学习网络输出张量D,利用余弦距离计算得到;
变换合成损失:在超声或者CT影像的网络模型训练中,将深度信息编码网络的输出张量I作为深度,视觉Transformer参数学习网络W模块的输出张量L和张量O分别作为位姿参数和摄像机内部参数,根据计算机视觉算法,利用目标影像的两个相邻影像构建目标影像视点处的两个合成影像,对于所述合成影像中的每个影像,在合成过程得到每个像素位置后,将模块G的输出张量B作为合成影像空域变形的位移量,利用所述目标影像视点处的两个合成影像分别与目标视点处影像,按照逐像素、逐颜色通道强度差之和计算得到;
具体训练步骤:
(1)自然图像数据集上,分别对深度信息编码网络及视觉Transformer参数学习网络的主干网络及第1个网络分支,训练60000次
每次从自然图像数据集中取出训练数据,统一缩放到分辨率416×128,将图像c输入深度信息编码网络,将图像c及图像τ输入视觉Transformer参数学习网络,对深度信息编码网络及视觉Transformer参数学习网络W模块的主干网络及第1个网络分支,训练60000次,每批次的训练损失由内部参数监督合成损失计算得到;
(2)自然图像数据集上,对视觉Transformer参数学习网络W模块的第2个网络分支,训练50000次
每次从自然图像数据集中取出训练数据,统一缩放到分辨率416×128,将图像c输入深度信息编码网络,将图像c及图像τ输入视觉Transformer参数学习网络,对视觉Transformer参数学习网络W模块的第2个网络分支进行训练,每批次的训练损失由无监督合成损失和内部参数误差损失之和计算得到;
(3)在超声影像数据集上,对深度信息编码网络、视觉Transformer参数学习网络W模块的主干网络及网络分支1-3以及G模块训练60000次,得到网络模型参数ρ
每次从超声影像数据集上取出超声训练数据,统一缩放到分辨率416×128,将影像j输入深度信息编码网络,将影像j及影像π输入到视觉Transformer参数学习网络,对深度信息编码网络、视觉Transformer参数学习网络W模块的主干网络分支1-3以及G模块进行训练,每批次的训练损失由变换合成损失和空间结构误差损失之和计算得到;
(4)在CT影像数据集上,对深度信息编码网络、视觉Transformer参数学习网络W模块的主干网络及网络分支1-3以及G模块训练60000次,得到模型参数ρ′
每次从CT影像数据集中取出CT影像训练数据,统一缩放到分辨率p×o,将影像m及影像σ输入到轻量深度视觉Transformer参数学***移运动的损失,训练60000次,得到参数模型ρ′;
步骤4:对超声或者CT影像三维重建
利用自采样的一个超声或者CT序列影像,同时进行以下3个处理实现三维重建:
(1)对序列影像中任一目标影像,按照如下方法计算摄像机坐标系下的三维坐标:缩放到分辨率416×128,对于超声序列影像,将影像j输入深度信息编码网络,将影像j及影像π输入到视觉Transformer参数学习网络,对于CT序列影像,将影像m输入深度信息编码网络,将,影像m及影像σ输入到输入视觉Transformer参数学习网络,分别利用模型参数ρ和模型参数ρ′进行预测,从深度信息编码网络得到每一帧目标影像的深度,从视觉Transformer参数学习网络的第1个网络分支输出的张量L和第2个网络分支输出的张量O分别作为摄像机位姿参数及摄像机内部参数,根据目标影像的深度信息及摄像机内部参数,依据计算机视觉的原理,计算目标影像的摄像机坐标系下的三维坐标;
(2)序列影像三维重建过程中,建立关键帧序列:将序列影像第一帧作为关键帧序列的第一帧,并作为当前关键帧,当前关键帧之后的帧作为目标帧,按照目标帧顺序依次动态选取新的关键帧:首先,用单位矩阵初始化目标帧相对于当前关键帧的位姿参数矩阵,针对任一目标帧,将所述位姿参数矩阵累乘目标帧摄像机位姿参数,并利用累乘结果,结合所述目标帧的内部参数及深度信息,合成所述目标帧视点处的影像,利用所述合成影像与所述目标帧之间逐像素逐颜色通道强度差之和的大小计算误差λ,再根据所述目标帧的相邻帧,利用摄像机位姿参数和内部参数,合成所述目标帧视点处的影像,利用所述合成的影像与所述目标帧之间逐像素逐颜色通道强度差之和的大小计算误差γ,进一步利用公式(1)计算合成误差比Z:
Figure BDA0003191268170000201
满足Z大于1.2时,将所述目标帧作为新的关键帧,并将所述目标帧相对于当前关键帧的位姿参数矩阵作为新的关键帧的位姿参数,同时将所述目标帧更新为当前关键帧;以此迭代,完成关键帧序列建立;
(3)将序列影像第一帧的视点作为世界坐标系的原点,对任一目标影像,将其分辨率缩放到M×N,对于超声影像,M取450,N取300,对于CT影像,M和N均取512,根据网络输出得到的摄像机内部参数及深度信息,计算得到摄像机坐标系下的三维坐标,根据网络输出的摄像机位姿参数,并结合关键帧序列中每一关键帧的位姿参数以及目标帧相对于当前关键帧的位姿参数矩阵,计算得到所述目标帧的每个像素的世界坐标系中的三维坐标。
在本实施例中,实验的超参数:优化器采用Adam优化器,网络学习率均取0.0002,动量系数为0.9。
本实施例在构建的自然图像训练集、超声影像训练集和CT影像训练集进行网络训练,并利用公共数据集的10个超声影像序列及1个CT影像序列,分别进行测试,采用变换合成损失进行误差计算,在超声或者CT影像的误差计算中,利用目标影像的两个相邻影像构建目标影像视点处的两个合成影像,对于所述合成影像中的每个影像,利用所述两个目标视点处的合成影像,按照逐像素、逐颜色通道强度差之和计算得到。
表1为在超声影像序列重建时,计算得到的误差,表2为在CT影像序列重建时,计算得到的误差,本实施例,采用DenseNet对超声或者CT影像进行分割,然后进行3D重建,图1表示利用本发明得到的超声影像的三维重建结果,图2表示利用本发明得到的CT影像的三维重建结果,从中可以看出本发明能够得到较为准确的重建结果。
表1
序号 误差
1 0.10654667014503133
2 0.02526559898617755
3 0.053380661733795236
4 0.07186935243508444
5 0.055040699123203043
6 0.0569973246074301
7 0.031235526713007722
8 0.07208439064528675
9 0.08464272856695701
10 0.03252974517429145
表2
序号 误差
1 0.05769914209578394
2 0.06644105676866426
3 0.06760795378867354
4 0.06723370896784081
5 0.12021887377061856
6 0.1024131896296913
7 0.12699357037032025
8 0.1531152112275075
9 0.10963905408322308
10 0.11539085665406078

Claims (1)

1.一种基于自注意力Transformer的超声或CT医学影像三维重建方法,其特征在于,该方法输入一个超声或者CT影像序列,其影像分辨率为M×N,100≤M≤2000,100≤N≤2000,三维重建的过程具体包括以下步骤:
步骤1:构建数据集
(a)构建自然图像数据集
选取一个自然图像网站,要求具有图像序列及对应的摄像机内部参数,从所述自然图像网站下载a个图像序列及序列对应的内部参数,1≤a≤20,对于每个图像序列,每相邻3帧图像记为图像b、图像c和图像d,将图像b和图像d按照颜色通道进行拼接,得到图像τ,由图像c与图像τ构成一个数据元素,图像c为自然目标图像,图像c的采样视点作为目标视点,图像b、图像c和图像d的内部参数均为et(t=1,2,3,4),其中e1为水平焦距,e2为垂直焦距,e3及e4是主点坐标的两个分量;如果同一图像序列中最后剩余图像不足3帧,则舍弃;利用所有序列构建自然图像数据集,所构建的自然图像数据集中有f个元素,而且3000≤f≤20000;
(b)构建超声影像数据集
采样g个超声影像序列,其中1≤g≤20,对于每个序列,每相邻3帧影像记为影像i、影像j和影像k,将影像i和影像k按照颜色通道进行拼接得到影像π,由影像j与影像π构成一个数据元素,影像j为超声目标影像,影像j的采样视点作为目标视点,如果同一影像序列中最后剩余影像不足3帧,则舍弃,利用所有序列构建超声影像数据集,所构建的超声影像数据集中有F个元素,而且1000≤F≤20000;
(c)构建CT影像数据集
采样h个CT影像序列,其中1≤h≤20,对于每个序列,每相邻3帧记为影像l、影像m和影像n,将影像l和影像n按照颜色通道进行拼接得到影像σ,由影像m与影像σ构成一个数据元素,影像m为CT目标影像,影像m的采样视点作为目标视点,如果同一影像序列中最后剩余影像不足3帧,则舍弃,利用所有序列构建CT影像数据集,所构建的CT影像数据集中有ξ个元素,而且1000≤ξ≤20000;
步骤2:构建神经网络
神经网络输入的图像或影像的分辨率均为p×o,p为宽度,o为高度,以像素为单位,100≤o≤2000,100≤p≤2000;
(1)深度信息编码网络的结构
张量H作为输入,尺度为α×o×p×3,张量I作为输出,尺度为α×o×p×1,α为批次数量;
深度信息编码网络由编码器和解码器组成,对于张量H,依次经过编码和解码处理后,获得输出张量I;
编码器由5个单元组成,第一个单元为卷积单元,第2至第5个单元均由残差模块组成,在第一个单元中,有64个卷积核组成,这些卷积核的形状均为7×7,卷积的水平方向及垂直方向的步长均为2,卷积之后进行一次最大池化处理,第2至第5个单元分别包括3,4,6,3个残差模块,每个残差模块进行3次卷积,卷积核的形状均为3×3,卷积核的个数分别是64,128,256,512;
解码器由6个解码单元组成,每个解码单元均包括反卷积和卷积处理,反卷积和卷积处理的卷积核形状、个数相同,第1至第6解码单元中卷积核的形状均为3×3,卷积核的个数分别对应是512,256,128,64,32,16,编码器与解码器的网络层之间进行跨层连接,跨层连接的对应关系为:1与4、2与3、3与2、4与1;
(2)视觉Transformer参数学习网络的结构
视觉Transformer参数学习网络由模块W和模块G构成,对于模块W,张量J和张量C作为输入,尺度分别为α×o×p×3和α×o×p×6,输出为张量L、张量O和张量D,张量L尺度为:α×2×6,张量O尺度为α×4×1,张量D的尺度为α×3,α为批次数量;
模块W由一个主干网络和3个网络分支构成,3个网络分支分别用于预测张量L、张量O和张量D;
主干网络编码如下:将张量J和张量C按照最后一个通道串接,再输入到主干网络,依次进行3个阶段编码,在每个阶段编码时,注意力头的个数分别为2、3、4,每个阶段具体编码为:
a)嵌入编码
在嵌入编码中,首先进行卷积运算,在3个阶段编码时,卷积核尺度分别为7×7、3×3和3×3,水平方向及垂直方向的步长分别均为4、2、2,然后,进一步将所得编码特征从图像特征的空域形状拉伸为序列形式,再进行层归一化处理;
b)自注意力机制的Transformer编码
进行层归一化,得到中间处理特征,将中间处理特征按照查询维度进行可分离卷积运算处理:卷积核尺度为3×3,输入特征维度为64,水平方向及垂直方向的步长均为1,然后进行批归一化,再进行一个卷积单元的运算处理,包括卷积运算和批归一化处理,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,输出特征维度为注意力头的个数乘以输入特征维度,进一步将所得编码特征从图像特征的空域形状拉伸为序列形式,作为注意力学习的查询Q编码向量;
将所述中间处理特征,按照关键词维度进行可分离卷积运算处理:卷积核尺度为3×3,输入特征维度为64,水平方向及垂直方向的步长均为1,然后进行批归一化,再进行一个卷积单元的运算处理,包括卷积运算和批归一化处理,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,输出特征维度为注意力头的个数乘以输入特征维度,进一步将所得编码特征从图像特征的空域形状拉伸为序列形式,作为注意力学习的关键词K编码向量;
将所述中间处理特征,按照数值维度进行可分离卷积运算处理:卷积核尺度为3×3,输入特征维度为64,水平方向及垂直方向的步长均为1,然后进行批归一化,再进行一个卷积单元的运算处理,包括卷积运算、批归一化处理,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,输出特征维度为注意力头的个数乘以输入特征维度,进一步将所得编码特征从图像特征的空域形状拉伸为序列形式,作为注意力学习的数值V编码向量;
根据三个阶段编码分别得到的注意力学习的查询Q编码向量、关键词K编码向量和数值V编码向量,分别利用自注意力学习方法计算注意力权重矩阵;
第1个阶段注意力权重矩阵与第1个阶段中间处理特征相加得到第1个阶段主干网络编码特征,第2个阶段注意力权重矩阵与第2个阶段中间处理特征相加得到第2个阶段主干网络编码特征,第3个阶段注意力权重矩阵与第3个阶段中间处理特征相加得到第3个阶段主干网络编码特征;
然后,依次进行3个网络分支编码:
对于第1个网络分支,将第1个阶段主干网络编码特征依次进行2个单元处理:在第1个单元处理中,卷积运算的特征通道数为16,卷积核尺度为7×7,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理;在第2个单元处理中,卷积运算的特征通道数为32,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理;然后,将所得到的特征与第1个阶段主干网络编码特征相串接,进行2个单元处理:第1个单元处理中,卷积运算的特征通道数为32,卷积核尺度为7×7,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理;第2个单元处理中,卷积运算的特征通道数为64,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理;然后,将所得到的特征与第3个阶段主干网络编码特征相串接,依次进行3个单元处理:在第1个单元处理中,卷积运算的特征通道数为64,卷积核尺度为7×7,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理;在第2个单元处理中,卷积运算的特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理;在第3个单元处理中,卷积运算的特征通道数为12,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,将所得的12通道的特征结果按照2×6的形式进行预测,得到张量L的结果;
对于第2个网络分支,将第1个阶段主干网络编码特征依次进行2个单元处理:在第1个单元处理中,卷积运算的特征通道数为16,卷积核尺度为7×7,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理;在第2个单元处理中,卷积运算的特征通道数为32,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理;然后将所得到的特征与第2个阶段主干网络编码特征相串接,再依次进行2个单元处理:在第1个单元处理中,卷积运算的特征通道数为32,卷积核尺度为7×7,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理;在第2个单元处理中,卷积运算的特征通道数为64,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理;将所得到的特征与第3个阶段主干网络编码特征相串接,再依次进行3个单元处理:在第1个单元处理中,卷积运算的特征通道数为64,卷积核尺度为7×7,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理;在第2个单元处理中,卷积运算的特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理;在第3个单元处理中,卷积运算的特征通道数为4,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,将所得的4通道的特征结果作为张量O的结果;
对于第3个网络分支,将第3个阶段主干网络编码特征依次进行3个单元处理:在第1个单元处理中,卷积运算的特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理;在第2个单元处理中,卷积运算的特征通道数为64,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理;在第3个单元处理中,卷积运算的特征通道数为3,卷积核尺度为1×1,水平方向及垂直方向的步长均为1,再进行特征激活、批归一化处理,将所得到的特征作为张量D的结果;
对于模块G,张量J和张量C作为输入,输出为张量B,尺度为α×o×p×4,α为批次数量,模块G设计为,先进行跨视图嵌入编码,再进行卷积嵌入编码,最后进行解码处理,具体地:
a)跨视图嵌入编码
首先,分别将张量J、张量C最后一个维度的前3个特征分量及张量C最后一个维度的后3个特征分量分别进行跨视图嵌入编码处理:卷积运算,卷积核尺度为7×7,特征通道数为32,水平方向及垂直方向的步长均为4,将所得编码特征分别从图像特征空域形状变换为序列结构,层归一化处理,得到跨视图嵌入编码1、跨视图嵌入编码2和跨视图嵌入编码3;
然后,按照如下方式进行注意力编码输入特征初始化:将跨视图嵌入编码1与跨视图嵌入编码2按照最后一个维度进行串接,得到注意力编码输入特征1,将跨视图嵌入编码1与跨视图嵌入编码3按照最后一个维度进行串接,得到注意力编码输入特征2,将跨视图嵌入编码2与跨视图嵌入编码1按照最后一个维度进行串接,得到注意力编码输入特征3,将跨视图嵌入编码3与跨视图嵌入编码1按照最后一个维度进行串接,得到注意力编码输入特征4,将所述的4个注意力编码输入特征分别进行注意力编码处理:
将注意力编码输入特征1,按照最后一个通道,将前一半的特征作为目标编码特征1,进行可分离的卷积运算,其中卷积核尺度为3×3,特征通道数为32,水平方向及垂直方向的步长均为1,将所得编码特征分别作为注意力学***方向及垂直方向的步长均为1,将所得编码特征作为注意力学习的查询Q编码向量;然后,根据注意力学习的查询Q编码向量、关键词K编码向量和数值V编码向量,利用自注意力学习方法计算注意力权重矩阵1;
将注意力编码输入特征2,按照最后一个通道,将前一半通道特征作为目标编码特征2,进行可分离的卷积运算,其中卷积核尺度为3×3,特征通道数为32,水平方向及垂直方向的步长均为1,将所得编码特征分别作为注意力学***方向及垂直方向的步长均为1,将所得编码特征作为注意力学习的查询Q编码向量;然后,根据注意力学习的查询Q编码向量、关键词K编码向量和数值V编码向量,利用自注意力学习方法计算注意力权重矩阵2;
将注意力编码输入特征3,按照最后一个通道,将前一半通道特征作为目标编码特征3,进行可分离的卷积运算,其中卷积核尺度为3×3,特征通道数为32,水平方向及垂直方向的步长均为1,将所得编码特征分别作为注意力学***方向及垂直方向的步长均为1,将所得编码特征作为注意力学习的查询Q编码向量;然后,根据注意力学习的查询Q编码向量、关键词K编码向量和数值V编码向量,利用自注意力学习方法计算注意力权重矩阵3;
将注意力编码输入特征4,按照最后一个通道,将前一半通道特征作为目标编码特征4,进行可分离的卷积运算,其中卷积核尺度为3×3,特征通道数为32,水平方向及垂直方向的步长均为1,将所得编码特征分别作为注意力学***方向及垂直方向的步长均为1,将所得编码特征作为注意力学习的查询Q编码向量,然后,根据注意力学习的查询Q编码向量、关键词K编码向量和数值V编码向量,利用自注意力学习方法计算注意力权重矩阵4;
将注意力编码输入特征1加上注意力权重矩阵1得到跨视图嵌入编码特征1,将注意力编码输入特征2加上注意力权重矩阵2得到跨视图嵌入编码特征2,将注意力编码输入特征3加上注意力权重矩阵3得到跨视图嵌入编码特征3,将注意力编码输入特征4加上注意力权重矩阵4得到跨视图嵌入编码特征4;利用跨视图嵌入编码特征1和跨视图嵌入编码特征2平均特征作为跨视图跨层特征1,将所述的跨视图跨层特征1、跨视图嵌入编码特征3和跨视图嵌入编码特征4进行下一步的卷积嵌入编码处理;
b)卷积嵌入编码
利用所述跨视图跨层特征1、跨视图嵌入编码特征3和跨视图嵌入编码特征4分别依次进行2个单元处理:在第1个单元处理中,卷积运算的特征通道数为64,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行序列化处理,然后进行层归一化处理;在第2个单元处理中,卷积运算的特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行序列化处理,然后进行层归一化处理,分别得到3个嵌入编码特征;将跨视图跨层特征1经过所述的第1个单元处理后得到的特征作为跨视图跨层特征2,将跨视图跨层特征2经过所述的第2个单元处理后得到的特征作为跨视图跨层特征3;将所述3个嵌入编码特征按照最后一个维度进行串接,作为卷积嵌入编码结果;
c)解码处理
将跨视图跨层特征1进行反卷积单元处理:反卷积特征通道数为16,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,将得到的结果进行一次卷积运算,卷积特征通道数为32,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,然后进行特征激活、批归一化处理,将得到的特征记为解码器跨层特征1,并将解码器跨层特征1与跨视图跨层特征2相串接,再将所述串接的结果进行一次卷积运算,卷积特征通道数128,卷积核尺度为3×3,水平方向及垂直方向的步长均为2,然后进行特征激活、批归一化处理,将得到的结果与跨视图跨层特征3相串接,再将所述串接的结果进行反卷积单元处理:反卷积特征通道数为128,反卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,将得到的结果与解码器跨层特征1相串接,将所得串接结果进行一次卷积单元处理:卷积特征通道数为128,卷积核尺度为3×3,水平方向及垂直方向的步长均为1,然后进行特征激活、批归一化处理,将所得特征作为张量B的第4个尺度结果;同时,将所得的第4尺度特征与跨视图跨层特征1相串接,将所述串接的结果进行反卷积单元处理:反卷积的特征通道数为64,反卷积核尺度为3×3,水平方向及垂直方向的步长均为2,再进行特征激活、批归一化处理,将所得特征作为张量B的第3个尺度结果;同时,将所得的第3尺度特征与跨视图跨层特征2相串接,将所述串接的结果进行反卷积单元处理:特征通道数为32,反卷积核尺度为3×3,水平方向及垂直方向的步长均为2,然后进行特征激活、批归一化处理,将所得特征作为张量B的第2个尺度结果;同时,将所得的第2尺度特征与跨视图跨层特征1相串接,将所述串接的结果进行卷积单元处理:特征通道数为16,卷积核尺度为3×3,水平方向及垂直方向的步长均为1,然后进行特征激活、批归一化处理,将所得特征作为张量B的第1个尺度结果;
利用所述张量B的第4个尺度结果、第3个尺度结果、第2个尺度结果及第1个尺度结果,得到模块G的输出;
步骤3:神经网络的训练
分别将自然图像数据集、超声影像数据集和CT影像数据集中样本按照9∶1划分为训练集和测试集,训练集中数据用于训练,测试集数据用于测试,在训练时,分别从对应的数据集中获取训练数据,统一缩放到分辨率p×o,输入到对应网络中,迭代优化,通过不断修改网络模型参数,使得每批次的损失达到最小;
在训练过程中,各损失的计算方法:
内部参数监督合成损失:在自然图像的网络模型训练中,将深度信息编码网络输出的张量I作为深度,将视觉Transformer参数学习网络输出的张量L与训练数据的内部参数标签et(t=1,2,3,4)分别作为位姿参数和摄像机内部参数,根据计算机视觉原理算法,利用图像b和图像d分别合成图像c视点处的两个图像,利用图像c分别与所述的两个合成图像,按照逐像素、逐颜色通道强度差之和计算得到;
无监督合成损失:在超声或者CT影像的网络模型训练中,将深度信息编码网络的输出张量I作为深度,视觉Transformer参数学习网络W模块的输出张量L和张量O分别作为位姿参数和摄像机内部参数,根据计算机视觉算法,利用目标影像的两个相邻影像分别构建目标视点处的合成影像,利用目标影像分别与所述两个目标视点处的合成影像,按照逐像素、逐颜色通道强度差之和计算得到;
内部参数误差损失:视觉Transformer参数学习网络输出的张量O与训练数据的内部参数标签et(t=1,2,3,4)按照各分量差的绝对值之和计算得到;
空间结构误差损失:在超声或者CT影像的网络模型训练中,将深度信息编码网络的输出张量I作为深度,视觉Transformer参数学习网络W模块的输出张量L和张量O分别作为位姿参数和摄像机内部参数,根据计算机视觉算法,分别利用目标视点处影像的两个相邻影像重建目标视点处影像的三维坐标,采用RANSAC算法对重建点进行空间结构拟合,利用拟合得到的法向量与视觉Transformer参数学习网络输出张量D,利用余弦距离计算得到;
变换合成损失:在超声或者CT影像的网络模型训练中,将深度信息编码网络的输出张量I作为深度,视觉Transformer参数学习网络W模块的输出张量L和张量O分别作为位姿参数和摄像机内部参数,根据计算机视觉算法,利用目标影像的两个相邻影像构建目标影像视点处的两个合成影像,对于所述合成影像中的每个影像,在合成过程得到每个像素位置后,将模块G的输出张量B作为合成影像空域变形的位移量,利用所述目标影像视点处的两个合成影像分别与目标视点处影像,按照逐像素、逐颜色通道强度差之和计算得到;
具体训练步骤:
(1)自然图像数据集上,分别对深度信息编码网络及视觉Transformer参数学习网络的主干网络及第1个网络分支,训练60000次
每次从自然图像数据集中取出训练数据,统一缩放到分辨率p×o,将图像c输入深度信息编码网络,将图像c及图像τ输入视觉Transformer参数学习网络,对深度信息编码网络及视觉Transformer参数学习网络W模块的主干网络及第1个网络分支,训练60000次,每批次的训练损失由内部参数监督合成损失计算得到;
(2)自然图像数据集上,对视觉Transformer参数学习网络W模块的第2个网络分支,训练50000次
每次从自然图像数据集中取出训练数据,统一缩放到分辨率p×o,将图像c输入深度信息编码网络,将图像c及图像τ输入视觉Transformer参数学习网络,对视觉Transformer参数学习网络W模块的第2个网络分支进行训练,每批次的训练损失由无监督合成损失和内部参数误差损失之和计算得到;
(3)在超声影像数据集上,对深度信息编码网络、视觉Transformer参数学习网络W模块的主干网络及网络分支1-3以及G模块训练60000次,得到网络模型参数ρ
每次从超声影像数据集上取出超声训练数据,统一缩放到分辨率p×o,将影像j输入深度信息编码网络,将影像j及影像π输入到视觉Transformer参数学习网络,对深度信息编码网络、视觉Transformer参数学习网络W模块的主干网络分支1-3以及G模块进行训练,每批次的训练损失由变换合成损失和空间结构误差损失之和计算得到;
(4)在CT影像数据集上,对深度信息编码网络、视觉Transformer参数学习网络W模块的主干网络及网络分支1-3以及G模块训练60000次,得到模型参数ρ′
每次从CT影像数据集中取出CT影像训练数据,统一缩放到分辨率p×o,将影像m及影像σ输入到轻量深度视觉Transformer参数学***移运动的损失,训练60000次,得到模型参数ρ′;
步骤4:对超声或者CT影像三维重建
利用自采样的一个超声或者CT序列影像,同时进行以下3个处理,实现三维重建:
(1)对序列影像中任一目标影像,按照如下方法计算摄像机坐标系下的三维坐标:缩放到分辨率p×o,对于超声序列影像,将影像j输入深度信息编码网络,将影像j及影像π输入到视觉Transformer参数学习网络,对于CT序列影像,将影像m输入深度信息编码网络,将,影像m及影像σ输入到输入视觉Transformer参数学习网络,分别利用模型参数ρ和模型ρ′进行预测,从深度信息编码网络得到每一帧目标影像的深度,从视觉Transformer参数学习网络的第1个网络分支输出的张量L和第2个网络分支输出的张量O分别作为摄像机位姿参数及摄像机内部参数,根据目标影像的深度信息及摄像机内部参数,依据计算机视觉的原理,计算目标影像的摄像机坐标系下的三维坐标;
(2)序列影像三维重建过程中,建立关键帧序列:将序列影像第一帧作为关键帧序列的第一帧,并作为当前关键帧,当前关键帧之后的帧作为目标帧,按照目标帧顺序依次动态选取新的关键帧:首先,用单位矩阵初始化目标帧相对于当前关键帧的位姿参数矩阵,针对任一目标帧,将所述位姿参数矩阵累乘目标帧摄像机位姿参数,并利用累乘结果,结合所述目标帧的内部参数及深度信息,合成所述目标帧视点处的影像,利用所述合成影像与所述目标帧之间逐像素逐颜色通道强度差之和的大小计算误差λ,再根据所述目标帧的相邻帧,利用摄像机位姿参数和内部参数,合成所述目标帧视点处的影像,利用所述合成的影像与所述目标帧之间逐像素逐颜色通道强度差之和的大小计算误差γ,进一步利用公式(1)计算合成误差比Z:
Figure FDA0003191268160000101
满足Z大于阈值η,1<η<2,将所述目标帧作为新的关键帧,并将所述目标帧相对于当前关键帧的位姿参数矩阵作为新的关键帧的位姿参数,同时将所述目标帧更新为当前关键帧;以此迭代,完成关键帧序列建立;
(3)将序列影像第一帧的视点作为世界坐标系的原点,对任一目标影像,将其分辨率缩放到M×N,根据网络输出得到的摄像机内部参数及深度信息,计算得到摄像机坐标系下的三维坐标,根据网络输出的摄像机位姿参数,并结合关键帧序列中每一关键帧的位姿参数以及目标帧相对于当前关键帧的位姿参数矩阵,计算得到所述目标帧的每个像素的世界坐标系中的三维坐标。
CN202110878837.6A 2021-08-02 2021-08-02 一种基于自注意力Transformer的超声或CT医学影像三维重建方法 Active CN113689542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110878837.6A CN113689542B (zh) 2021-08-02 2021-08-02 一种基于自注意力Transformer的超声或CT医学影像三维重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110878837.6A CN113689542B (zh) 2021-08-02 2021-08-02 一种基于自注意力Transformer的超声或CT医学影像三维重建方法

Publications (2)

Publication Number Publication Date
CN113689542A true CN113689542A (zh) 2021-11-23
CN113689542B CN113689542B (zh) 2023-06-23

Family

ID=78578516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110878837.6A Active CN113689542B (zh) 2021-08-02 2021-08-02 一种基于自注意力Transformer的超声或CT医学影像三维重建方法

Country Status (1)

Country Link
CN (1) CN113689542B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740041A (zh) * 2023-06-27 2023-09-12 新疆生产建设兵团医院 基于机器视觉的cta扫描图像分析***及其方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007282945A (ja) * 2006-04-19 2007-11-01 Toshiba Corp 画像処理装置
AU2020103715A4 (en) * 2020-11-27 2021-02-11 Beijing University Of Posts And Telecommunications Method of monocular depth estimation based on joint self-attention mechanism
CN112767532A (zh) * 2020-12-30 2021-05-07 华东师范大学 一种基于迁移学习的超声或ct医学影像三维重建方法
CN113066028A (zh) * 2021-03-31 2021-07-02 山东师范大学 一种基于Transformer深度神经网络的图像去雾方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007282945A (ja) * 2006-04-19 2007-11-01 Toshiba Corp 画像処理装置
AU2020103715A4 (en) * 2020-11-27 2021-02-11 Beijing University Of Posts And Telecommunications Method of monocular depth estimation based on joint self-attention mechanism
CN112767532A (zh) * 2020-12-30 2021-05-07 华东师范大学 一种基于迁移学习的超声或ct医学影像三维重建方法
CN113066028A (zh) * 2021-03-31 2021-07-02 山东师范大学 一种基于Transformer深度神经网络的图像去雾方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740041A (zh) * 2023-06-27 2023-09-12 新疆生产建设兵团医院 基于机器视觉的cta扫描图像分析***及其方法
CN116740041B (zh) * 2023-06-27 2024-04-26 新疆生产建设兵团医院 基于机器视觉的cta扫描图像分析***及其方法

Also Published As

Publication number Publication date
CN113689542B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN112767532B (zh) 一种基于迁移学习的超声或ct医学影像三维重建方法
CN111310707A (zh) 基于骨骼的图注意力网络动作识别方法及***
CN113689545B (zh) 一种2d到3d端对端的超声或ct医学影像跨模态重建方法
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及***
CN114170671A (zh) 一种基于深度学习的按摩手法识别方法
CN116823850A (zh) 基于U-Net和Transformer融合改进的心脏MRI分割方法及***
CN117665825A (zh) 一种雷达回波外推预报方法、***及存储介质
CN113689542B (zh) 一种基于自注意力Transformer的超声或CT医学影像三维重建方法
Tong et al. Edge-assisted epipolar transformer for industrial scene reconstruction
CN113689548A (zh) 一种基于互注意力Transformer的医学影像三维重建方法
CN113689544B (zh) 一种跨视图几何约束的医学影像三维重建方法
CN112734906B (zh) 一种基于知识蒸馏的超声或ct医学影像的三维重建方法
CN112700534B (zh) 一种基于特征迁移的超声或ct医学影像三维重建方法
CN113689546A (zh) 一种两视图孪生Transformer的超声或CT影像跨模态三维重建方法
CN112734907B (zh) 一种超声或ct医学影像三维重建方法
CN116309754A (zh) 一种基于局部-全局信息协作的大脑医学图像配准方法及***
CN113689547B (zh) 一种跨视图视觉Transformer的超声或CT医学影像三维重建方法
CN112700535A (zh) 一种面向智能医疗辅助诊断的超声影像三维重建方法
CN116309679A (zh) 一种适用于多种模态的类mlp医学影像分割方法
CN113689543B (zh) 一种极线约束的稀疏注意力机制医学影像三维重建方法
CN115761377A (zh) 基于上下文注意力机制的吸烟者脑部磁共振影像分类方法
CN114708315A (zh) 一种基于深度虚拟对应点生成的点云配准方法及***
CN114820636A (zh) 一种三维医学图像分割模型及其训练方法和应用
CN116958557B (zh) 一种基于残差脉冲神经网络的三维室内场景语义分割方法
CN117745650A (zh) 一种基于深度多任务回归网络的左心室量化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant