CN116740170A - 一种单目内窥镜视频深度与位姿估计方法 - Google Patents
一种单目内窥镜视频深度与位姿估计方法 Download PDFInfo
- Publication number
- CN116740170A CN116740170A CN202310514950.5A CN202310514950A CN116740170A CN 116740170 A CN116740170 A CN 116740170A CN 202310514950 A CN202310514950 A CN 202310514950A CN 116740170 A CN116740170 A CN 116740170A
- Authority
- CN
- China
- Prior art keywords
- depth
- picture
- pose
- estimation
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 8
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 24
- 238000004364 calculation method Methods 0.000 description 6
- 238000002674 endoscopic surgery Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 210000000683 abdominal cavity Anatomy 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002324 minimally invasive surgery Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种单目内窥镜视频深度与位姿估计方法,构建深度估计网络和位姿估计网络;获取训练集和测试集并进行增强处理;将增强后的训练集输入至深度估计网络和位姿估计网络,得到深度估计值和位姿估计值;基于深度估计值、位姿估计值及参考图片进行视图合成得到合成的目标图片;将真实图片与目标图片比较计算损失函数;基于损失函数得到深度估计模型和位姿估计模型;对增强后的测试集进行预测得到深度估计结果和位姿估计结果。本发明通过深度训练学习的方法估计单目内窥镜视频的深度及位姿信息以进行三维模型重建,重建模型的场景信息能帮助医生直观地观察到各组织之间的空间距离信息,提高操作的准确性。
Description
技术领域
本发明属于视觉的深度估计与三维重建技术领域,具体涉及一种单目内窥镜视频深度与位姿估计方法。
背景技术
微创手术与传统的开放式手术相比具有出血少、感染率低的潜在优势。在传统单目内窥镜手术中,医生只能依靠2D图像推测各个组织的空间距离信息,导致手术非常困难且精确度不高。但MIS也存在视野受限、内镜定位差、缺乏触觉反馈等缺点。所以需要对单目内窥镜视频进行三维重建,将2D图像重建至3D图像。
传统的多视图立体重建方法,如sfM,SfS,SLAM等能在特征丰富的场景中重建三维结构,但应用到内窥镜图像的重建时存在一些问题。主要是:第一,内窥镜图像存在特征点少且分布不均的缺点,这会导致传统方法重建效果不佳,而且只能进行稀疏重建。第二:传统重建算法的特征点匹配牵涉到大量的非线性计算,而内窥镜视频通常是高帧率的,这就使得重建的实时性较差;第三:内窥镜视频采集时,是由附在内窥镜上的灯提供照片,当内窥镜运动时,照明灯随之运动,导致采集到的内窥镜视频会有较为明显的亮度波动,图片亮度不一致使传统重建算法中的特征点匹配步骤的难度增大。因此,应用传统重建算法难以对内窥镜手术场景进行实时且稠密的三维重建。
近年来有研究者提出使用深度学习进行实时稠密三维重建与位姿估计,基于深度学习的单目重建方法通常需要大量深度标签进行训练。在内窥镜手术中,获取深度真值需要昂贵的传感器和严格的校准,且在临床手术中增添侵入性设备会额外增加患者的痛苦,所以获取有监督单目内窥镜图像数据的难度较高。除此之外,还有一部分基于深度学习的重建方法需要双目图像数据,使用双目图像中的视差信息预测深度。但是,在当前大多数基层医院中,单目内窥镜手术远多于更昂贵的双目内窥镜手术。因此,有监督单目重建算法和双目重建算法在内窥镜手术领域中的应用有限。
发明内容
本发明的目的就是为了解决上述背景技术存在的不足,提供一种单目内窥镜视频深度与位姿估计方法。
本发明采用的技术方案是:一种单目内窥镜视频深度与位姿估计方法,包括以下步骤:
构建深度估计网络和位姿估计网络;
获取训练集和测试集,对训练集和测试集中的图片进行增强处理;
将增强后的训练集输入至深度估计网络和位姿估计网络,得到深度估计值和位姿估计值;
基于深度估计值、位姿估计值及参考图片进行视图合成得到合成的目标图片;
将真实图片与目标图片比较计算损失函数;
基于损失函数训练深度估计网络和深度位姿网络得到深度估计模型和位姿估计模型;
通过深度估计模型和位姿估计模型对增强后的测试集进行预测得到深度估计结果和位姿估计结果。
进一步地,所述增强处理包括对图片进行随机水平翻转,以及进行亮度、对比度、饱和度、色调的随机变化。
进一步地,将t时刻的图片It输入深度估计网络,得到其深度估计图将t时刻的图片及其相邻的t′时刻的图片{It,It′}输入位姿估计网络,得到从t时刻到t′时刻的相机位姿变换/>则深度估计图/>和位姿变换/>分别为t时刻的图片的深度估计值和位姿估计值;所述参考图片为t′时刻图片。
进一步地,目标图片中像素的齐次坐标与其在参考图片上的投影坐标的关系为:
其中,pt为目标图片中像素的齐次坐标,pt′为pt在参考图片It′上的投影坐标,K为相机内参矩阵,为t时刻到t′时刻的相机位姿变换,/>为t时刻图片的深度估计值,(pt)为(pt)为索引值,/>即该齐次坐标系下t时刻的深度值。
进一步地,所述损失函数如下:
其中,为损失函数,/>为光度重建损失,/>为峰值信噪比损失,/>为平滑性损失,λ1,λ2,λ3分别为光度重建损失、峰值信噪比损失和平滑性损失的权重。
进一步地,所述光度重建损失通过以下公式确定:
其中,为光度重建损失,M是与输入图像同尺寸的布尔矩阵,pe(·)为光度重建误差函数,/>为由t-1时刻的参考图片合成的目标图片,/>为由t+1时刻的参考图片合成的目标图片,I为真实图片。
进一步地,所述光度重建误差函数通过以下公式确定:
其中,为/>和I的光度重建误差函数,/>和I分别为目标图片和真实图片,α为权重系数,/>为/>和I的结构相似性,/>为合成图片与真实图片的像素之差的L1范数。
进一步地,所述峰值信噪比损失通过以下公式确定:
其中,为峰值信噪比损失,MAXI为图像点颜色的最大数值,MSE为均方误差。
进一步地,所述平滑性损失通过以下公式确定:
其中,为平滑性损失,/>为x方向的梯度算子,It为t时刻的图片,/>为y方向的梯度算子,/>为各像素深度估计除以整张图片的深度估计平均值的结果。
更进一步地,基于损失函数使用梯度下降法训练深度估计网络和深度位姿网络得到深度估计模型和位姿估计模型。
本发明的有益效果是:
本发明通过深度训练学习的方法估计单目内窥镜视频的深度及位姿信息以进行三维模型重建,重建模型的场景信息能帮助医生直观地观察到各组织之间的空间距离信息,提高操作的准确性。
本发明方法中的训练集、测试集直接采用视频图像中的图像,而不直接用深度图,应用到内窥镜图像的三维重建领域,可以实现较为精确的深度估计。
本发明深度估计网络,使用Transformer作为编码器,提高了深度图预测的准确率,在内窥镜图像深度图预测上表现较好。
本发明位姿估计网络采用多尺度的特征估计,进行损失函数计算时,将各个尺度的损失合并在一起,将较低分辨率的深度图上采样到较高的输入图像分辨率,然后在较高的输入分辨率下重新投影,重新采样并计算光度误差。这使得各个比例尺上的深度图以实现相同的目标,即对目标图像进行精确的高分辨率重建,提高位姿估计的准确性。
附图说明
图1为本发明的网络结构示意图。
图2为本发明深度编码网络结构示意图。
图3为本发明多尺度特征估计的示意图。
图4为本发明双线性插值的过程图。
图5为本发明深度估计的结果示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以互相结合。
本发明提供一种单目内窥镜视频深度与位姿估计方法,包括以下步骤:
S1,构建深度估计网络和位姿估计网络。
如图1所示,深度估计网络由深度编码器和深度解码器两部分组成。深度编码器是由50层的残差神经网络组成,用于从输入的单张RGB图像中提取深度特征;深度解码器由5层卷积神经网络组成,将编码器提取的深度特征映射为与输入图片尺寸相同的深度估计图。
如图2所示,本发明在深度编码器中使用transformer网络替代了ResNet网络,参考ViT的格式,将输入图片划分成大小相同的patch输入到网络中,Layer Norm为层归一化,对输入到Transformer中的数据进行归一化处理,MSA为多头注意力机制,MLP为多层感知机神经网络结构;经过Linear Embedding之后,输入到Transformer网络中,如图所示,Encoder为编码器,其中Patch Partition为分块操作,将完整的图像分成按照要求分成小块;Linear Embedding为线性嵌入模块,将分好的图像小块嵌入到Transformer层之中,xllayers代表有x个Transformer网络层,可以根据实验要求设置其个数,最后一层Transformer网络层输出特征图。Decoder为解码器模块,其中F为编码器输出的特征,Upconv layer为反卷积层,一共有4层,Upsample则为上采样操作,恢复出原始分辨率大小的深度图。
深度解码器则由反卷积层和上采样层组成,由深度编码器输出的深度图经过反卷积层和上采样层输出深度图,值得注意的是在这里使用了多尺度损失函数的计算方法,分别对不同分辨率的深度图进行采样恢复到源视图的分辨率,去进行最小重构误差的分析。
位姿估计网络由位姿编码器和位姿解码器组成,位姿编码器由50层的残差神经网络组成,用于从输入的图像对之间提取位姿特征,位姿解码器则由4层卷积神经网络组成,输出相机的位姿。
如图3所示,这里采用多尺度的特征估计,对每一个反卷积出来的深度图,对其进行上采样恢复到原始图像的分辨率,去进行视图合成和误差计算,得到损失函数,这有效地约束了深度图在每个尺度上都朝着同一个目标努力,即尽可能精确地重建高分辨率输入目标图像。图中,Multiscale Loss为多尺度损失函数,Baseline为基线网络,即原有网络的方法,Loss为损失函数,Ours表示本发明中采用的方法,Upscale为上采样,将小分辨率恢复到大分辨率。
S2,获取训练集和测试集,对训练集和测试集中的图片进行增强处理。
本发明采用SCALED内窥镜数据集,数据集为从单目视频中分割出来的有序列的图像,包括训练集15000张图像,验证集1700张图像,测试集500张图像,并将数据集的图像分辨率调整到320*256作为输入。
对数据集中的数据进行增强,具体的数据增强方法包括:随机水平翻转,亮度、对比度、饱和度及色调的随机变化,随机水平翻转能够为了扩充数据集;亮度、对比度、饱和度及色调的随机变化能够使数据更加适合训练,一般变化至设定范围。
S3,将增强后的训练集输入至深度估计网络和位姿估计网络,得到深度估计值和位姿估计值。
训练时,首先将数据增强后的训练数据输入上述的深度估计网络和位姿估计网络,得到一组深度和位姿估计值。具体到两个子网络中,在深度估计网络中,将t时刻的图片It输入深度估计网络,得到其深度估计图在位姿估计网络中,将t时刻的图片及其相邻的t′时刻的图片{It,It′}输入位姿估计网络,得到从t时刻到t′时刻的相机位姿变换/>具体到训练中,本发明按照索引去寻找t时刻的图片,t′可以是前一帧的图片,也可以是后一帧的图片。
S4,基于深度估计值、位姿估计值及参考图片进行视图合成得到合成的目标图片。
合成目标图片需要三方面的信息:深度估计网络输出的深度估计,位姿估计网络输出的相机位姿估计,以及目标图片前后的相邻帧。具体地,利用前一步骤估计的深度和位姿变换/>将t′时刻的图片It′作为参考图片,通过视图合成得到合成的目标图片令pt为目标图片中像素的齐次坐标,K为相机内参矩阵。根据视图合成的原理,可以获得pt在参考图片It′上的投影坐标pt′:
在上述公式中由于像素的齐次坐标不为整数,本发明采用双线性可微采样法在参考图片中索引像素值,线性插值4个临近像素(左上、右上、左下和右下)的值使其变为整数作为最终结果,填充到合成的目标图片的像素坐标,如图4所示,IS为目标视图投影到源视图的结果,其有可能不是一个整数,故将IS通过双线性插值法采样到整数点
S5,将真实图片与目标图片比较计算损失函数。
为了评估上一步合成目标图片的准确性,需要将合成的目标图片与真实图片It相比较,计算损失函数。损失函数/>由三部分组成,即光度重建损失/>峰值信噪比损失/>和平滑性损失/>
其中,λ1,λ2,λ3分别为光度重建损失、块间匹配相似性和平滑性损失的权重,为标定值,具体可以设置λ1=1,λ2=0.05,λ3=0.001。
光度重建损失通过以下公式确定:
其中,为光度重建损失,M是与输入图像同尺寸的布尔矩阵,/>为由t-1时刻的参考图片合成的目标图片,/>为由t+1时刻的参考图片合成的目标图片,I为真实图片。
其中,pe(·)为光度重建误差函数,也就是合成图片与真实图片的像素之差的L1范数,与其结构相似性(Structural Similarity,SSIM)的加权和。
其中,为/>和I的光度重建误差函数,/>和I分别为目标图片和真实图片,α为权重系数,/>为/>和I的结构相似性,/>为合成图片与真实图片的像素之差的L1范数。
上式中,本发明只取中的最小值作为光度重建损失。即,在分别由It-1,It+1作为参考图片合成的两张目标图片/>中,只有合成较好者被计入光度重建损失。当一张参考图片噪声较大时,根据该参考图片合成的目标图片噪声也较大,本发明则选择另一张噪声较小的合成图片计入光度重建损失。因此,取最小值操作有助于提升网络的抗噪声干扰性能。
光度重建损失是光度重建误差函数的最小值乘掩膜M。掩膜M是与输入图像同尺寸的布尔矩阵,决定每个像素是否被计算入光度重建损失。
如果合成图片的光度重建误差比It-1,It+1的光度重建误差大,意味着目标图片I的某些像素很可能在t-1,t+1时刻被遮挡,从而无法在目标图片中被正确合成,这些像素应当被尽量排除。因此,本发明通过掩膜M将这些像素排除在光度重建误差的计算之外。将掩膜M与合成的目标图片相乘后,黑色像素在计算光度重建损失时被排除。
是峰值信噪比损失,是一种衡量图像质量的指标,在重建图像时会用到这一指标。可以根据下式进行计算:
式中MAXI表示图像点颜色的最大数值,MSE为均方误差。
是平滑性损失,它鼓励较为平滑的深度估计。
其中,为x方向的梯度算子,It为t时刻的图片,/>为y方向的梯度算子,/>是各像素深度估计除以整张图片的深度估计平均值的结果,/>将深度估计除以其平均值可以避免网络收敛到/>的平凡解。
根据上述损失函数的构成,在具体计算时,可以将不同分辨率的图像恢复到源视图的分辨率,然后再去计算损失函数,最后的损失函数则是这几个的均值。
S6,根据上述损失函数及训练集,使用梯度下降法训练深度估计网络和位姿估计网络,训练一共迭代若干次,对每次迭代后的模型都进行保存,并用验证集进行测试,选取验证集测试中误差最小的模型作为最终的深度和位姿估计模型。
S7,通过深度估计模型和位姿估计模型对增强后的测试集进行预测,得到深度估计结果和位姿估计结果。
在本发明实施例中,以单目腹腔内窥镜图像作为数据集,数据集划分如图5所示,本发明在训练集上训练得到深度估计模型和位姿估计模型。使用训练得到的模型对测试集进行预测,可以得到一组预测结果。为了量化评估本发明的效果,将达芬奇手术机器人记录的相机位姿和由结构光方法获得的深度图作为参考标准,与模型的估计值进行比较。评价单目深度及位姿估计质量的常用指标如表1所示。
表1深度及位姿估计质量的评价指标及其公式
按照表1列举的评价指标,可以计算得到深度估计的质量指标如表2所示,位姿估计的质量指标如表3所示。表2、表3同时给出了自动驾驶领域的经典无监督单目三维重建算法Monodepth2在本医学图像问题中的表现。由表2、表3可知,本发明在这一任务上的表现优于经典算法Monodepth2。
表2本发明与经典算法的深度估计结果比较(单位:毫米)
表3本发明与经典算法的位姿估计结果比较(单位:毫米)
深度估计的可视化结果如图5所示,深度真值与深度估计均使用灰度表示深度大小,颜色越深的区域表示深度越大,颜色越浅的区域表示深度越小。图5展示的深度估计图中基本不存在从输入图片中错误继承的伪影,且很好地利用了图像的全局信息,精度较高。
以上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (10)
1.一种单目内窥镜视频深度与位姿估计方法,其特征在于,包括以下步骤:
构建深度估计网络和位姿估计网络;
获取训练集和测试集,对训练集和测试集中的图片进行增强处理;
将增强后的训练集输入至深度估计网络和位姿估计网络,得到深度估计值和位姿估计值;
基于深度估计值、位姿估计值及参考图片进行视图合成得到合成的目标图片;
将真实图片与目标图片比较计算损失函数;
基于损失函数训练深度估计网络和深度位姿网络得到深度估计模型和位姿估计模型;
通过深度估计模型和位姿估计模型对增强后的测试集进行预测得到深度估计结果和位姿估计结果。
2.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法,其特征在于:所述增强处理包括对图片进行随机水平翻转,以及进行亮度、对比度、饱和度、色调的随机变化。
3.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法,其特征在于:将t时刻的图片It输入深度估计网络,得到其深度估计图将t时刻的图片及其相邻的t′时刻的图片{It,It′}输入位姿估计网络,得到从t时刻到t′时刻的相机位姿变换/>则深度估计图和位姿变换/>分别为t时刻的图片的深度估计值和位姿估计值;所述参考图片为t′时刻图片。
4.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法,其特征在于,目标图片中像素的齐次坐标与其在参考图片上的投影坐标的关系为:
其中,pt为目标图片中像素的齐次坐标,pt′为pt在参考图片It′上的投影坐标,K为相机内参矩阵,为t时刻到t′时刻的相机位姿变换,/>为t时刻图片的深度估计值,(pt)为索引值。
5.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法,其特征在于,所述损失函数如下:
其中,为损失函数,/>为光度重建损失,/>为峰值信噪比损失,/>为平滑性损失,λ1,λ2,λ3分别为光度重建损失、峰值信噪比损失和平滑性损失的权重。
6.根据权利要求5所述的单目内窥镜视频深度与位姿估计方法,其特征在于,所述光度重建损失通过以下公式确定:
其中,为光度重建损失,M是与输入图像同尺寸的布尔矩阵,pe(·)为光度重建误差函数,/>为由t-1时刻的参考图片合成的目标图片,/>为由t+1时刻的参考图片合成的目标图片,I为真实图片。
7.根据权利要求6所述的单目内窥镜视频深度与位姿估计方法,其特征在于,光度重建误差函数通过以下公式确定:
其中,为/>和I的光度重建误差函数,/>和I分别为目标图片和真实图片,α为权重系数,/>为/>和I的结构相似性,/>为合成图片与真实图片的像素之差的L1范数。
8.根据权利要求5所述的单目内窥镜视频深度与位姿估计方法,其特征在于,所述峰值信噪比损失通过以下公式确定:
其中,为峰值信噪比损失,MAXI为图像点颜色的最大数值,MSE为均方误差。
9.根据权利要求5所述的单目内窥镜视频深度与位姿估计方法,其特征在于,所述平滑性损失通过以下公式确定:
其中,为平滑性损失,/>为x方向的梯度算子,It为t时刻的图片,/>为y方向的梯度算子,/>为各像素深度估计除以整张图片的深度估计平均值的结果。
10.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法,其特征在于:基于损失函数使用梯度下降法训练深度估计网络和深度位姿网络得到深度估计模型和位姿估计模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310514950.5A CN116740170A (zh) | 2023-05-09 | 2023-05-09 | 一种单目内窥镜视频深度与位姿估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310514950.5A CN116740170A (zh) | 2023-05-09 | 2023-05-09 | 一种单目内窥镜视频深度与位姿估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116740170A true CN116740170A (zh) | 2023-09-12 |
Family
ID=87914124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310514950.5A Pending CN116740170A (zh) | 2023-05-09 | 2023-05-09 | 一种单目内窥镜视频深度与位姿估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740170A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351157A (zh) * | 2023-12-05 | 2024-01-05 | 北京渲光科技有限公司 | 单视图三维场景位姿估计方法、***及设备 |
CN117671012A (zh) * | 2024-01-31 | 2024-03-08 | 临沂大学 | 术中内窥镜绝对与相对位姿计算的方法、装置及设备 |
-
2023
- 2023-05-09 CN CN202310514950.5A patent/CN116740170A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351157A (zh) * | 2023-12-05 | 2024-01-05 | 北京渲光科技有限公司 | 单视图三维场景位姿估计方法、***及设备 |
CN117351157B (zh) * | 2023-12-05 | 2024-02-13 | 北京渲光科技有限公司 | 单视图三维场景位姿估计方法、***及设备 |
CN117671012A (zh) * | 2024-01-31 | 2024-03-08 | 临沂大学 | 术中内窥镜绝对与相对位姿计算的方法、装置及设备 |
CN117671012B (zh) * | 2024-01-31 | 2024-04-30 | 临沂大学 | 术中内窥镜绝对与相对位姿计算的方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116740170A (zh) | 一种单目内窥镜视频深度与位姿估计方法 | |
CN112614169B (zh) | 基于深度学习网络的2d/3d脊椎ct层级配准方法 | |
JP2023550844A (ja) | 深層形状学習に基づく肝臓ct自動分割方法 | |
CN114022527A (zh) | 基于无监督学习的单目内窥镜深度及位姿估计方法及装置 | |
JP2022517769A (ja) | 三次元ターゲット検出及びモデルの訓練方法、装置、機器、記憶媒体及びコンピュータプログラム | |
CN111080778B (zh) | 一种双目内窥镜软组织图像的在线三维重建方法 | |
CN106327479A (zh) | 血管造影中介下先心病术中血管辨识的装置及方法 | |
CN116012344A (zh) | 一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法 | |
CN114170150B (zh) | 基于曲率损失函数的视网膜渗出液全自动分割方法 | |
CN114399527A (zh) | 单目内窥镜无监督深度和运动估计的方法及装置 | |
CN112819777B (zh) | 一种双目内窥镜辅助显示方法、***、装置和存储介质 | |
CN110827232A (zh) | 基于形态特征gan的跨模态mri合成方法 | |
CN110211193A (zh) | 三维ct层间图像插值修复与超分辨处理方法及装置 | |
JP7423338B2 (ja) | 画像処理装置及び画像処理方法 | |
Beetz et al. | Combined generation of electrocardiogram and cardiac anatomy models using multi-modal variational autoencoders | |
CN109741439B (zh) | 一种二维mri胎儿图像的三维重建方法 | |
CN117422788B (zh) | 一种基于ct脑梗图像生成dwi图像的方法 | |
CN114049344A (zh) | 图像分割方法及其模型的训练方法及相关装置、电子设备 | |
CN117333750A (zh) | 空间配准与局部全局多尺度的多模态医学图像融合方法 | |
Iddrisu et al. | 3D reconstructions of brain from MRI scans using neural radiance fields | |
US7030874B2 (en) | Method of following the three-dimensional deformation of a deformable organ | |
CN115731444A (zh) | 一种基于人工智能和超像素分割的医学影像融合方法 | |
CN114663543A (zh) | 一种基于深度学习和多视图几何的虚拟视图合成方法 | |
Gerats et al. | Dynamic Depth-Supervised NeRF for Multi-View RGB-D Operating Room Images | |
CN116246025B (zh) | 基于三维建模和mr图像的ct图像合成方法及成像方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |