CN116740170A

CN116740170A - 一种单目内窥镜视频深度与位姿估计方法

Info

Publication number: CN116740170A
Application number: CN202310514950.5A
Authority: CN
Inventors: 彭望; 张蒙召; 王植炜; ***
Original assignee: Huazhong Agricultural University
Current assignee: Huazhong Agricultural University
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-09-12

Abstract

本发明公开了一种单目内窥镜视频深度与位姿估计方法，构建深度估计网络和位姿估计网络；获取训练集和测试集并进行增强处理；将增强后的训练集输入至深度估计网络和位姿估计网络，得到深度估计值和位姿估计值；基于深度估计值、位姿估计值及参考图片进行视图合成得到合成的目标图片；将真实图片与目标图片比较计算损失函数；基于损失函数得到深度估计模型和位姿估计模型；对增强后的测试集进行预测得到深度估计结果和位姿估计结果。本发明通过深度训练学习的方法估计单目内窥镜视频的深度及位姿信息以进行三维模型重建，重建模型的场景信息能帮助医生直观地观察到各组织之间的空间距离信息，提高操作的准确性。

Description

一种单目内窥镜视频深度与位姿估计方法

技术领域

本发明属于视觉的深度估计与三维重建技术领域，具体涉及一种单目内窥镜视频深度与位姿估计方法。

背景技术

微创手术与传统的开放式手术相比具有出血少、感染率低的潜在优势。在传统单目内窥镜手术中，医生只能依靠2D图像推测各个组织的空间距离信息，导致手术非常困难且精确度不高。但MIS也存在视野受限、内镜定位差、缺乏触觉反馈等缺点。所以需要对单目内窥镜视频进行三维重建，将2D图像重建至3D图像。

传统的多视图立体重建方法，如sfM,SfS,SLAM等能在特征丰富的场景中重建三维结构，但应用到内窥镜图像的重建时存在一些问题。主要是：第一，内窥镜图像存在特征点少且分布不均的缺点，这会导致传统方法重建效果不佳，而且只能进行稀疏重建。第二：传统重建算法的特征点匹配牵涉到大量的非线性计算，而内窥镜视频通常是高帧率的，这就使得重建的实时性较差；第三：内窥镜视频采集时，是由附在内窥镜上的灯提供照片，当内窥镜运动时，照明灯随之运动，导致采集到的内窥镜视频会有较为明显的亮度波动，图片亮度不一致使传统重建算法中的特征点匹配步骤的难度增大。因此，应用传统重建算法难以对内窥镜手术场景进行实时且稠密的三维重建。

近年来有研究者提出使用深度学习进行实时稠密三维重建与位姿估计，基于深度学习的单目重建方法通常需要大量深度标签进行训练。在内窥镜手术中，获取深度真值需要昂贵的传感器和严格的校准，且在临床手术中增添侵入性设备会额外增加患者的痛苦，所以获取有监督单目内窥镜图像数据的难度较高。除此之外，还有一部分基于深度学习的重建方法需要双目图像数据，使用双目图像中的视差信息预测深度。但是，在当前大多数基层医院中，单目内窥镜手术远多于更昂贵的双目内窥镜手术。因此，有监督单目重建算法和双目重建算法在内窥镜手术领域中的应用有限。

发明内容

本发明的目的就是为了解决上述背景技术存在的不足，提供一种单目内窥镜视频深度与位姿估计方法。

本发明采用的技术方案是：一种单目内窥镜视频深度与位姿估计方法，包括以下步骤：

构建深度估计网络和位姿估计网络；

获取训练集和测试集，对训练集和测试集中的图片进行增强处理；

将增强后的训练集输入至深度估计网络和位姿估计网络，得到深度估计值和位姿估计值；

基于深度估计值、位姿估计值及参考图片进行视图合成得到合成的目标图片；

将真实图片与目标图片比较计算损失函数；

基于损失函数训练深度估计网络和深度位姿网络得到深度估计模型和位姿估计模型；

通过深度估计模型和位姿估计模型对增强后的测试集进行预测得到深度估计结果和位姿估计结果。

进一步地，所述增强处理包括对图片进行随机水平翻转，以及进行亮度、对比度、饱和度、色调的随机变化。

进一步地，将t时刻的图片I_t输入深度估计网络，得到其深度估计图将t时刻的图片及其相邻的t′时刻的图片{I_t，I_t′}输入位姿估计网络，得到从t时刻到t′时刻的相机位姿变换/>则深度估计图/>和位姿变换/>分别为t时刻的图片的深度估计值和位姿估计值；所述参考图片为t′时刻图片。

进一步地，目标图片中像素的齐次坐标与其在参考图片上的投影坐标的关系为：

其中，p_t为目标图片中像素的齐次坐标，p_t′为p_t在参考图片I_t′上的投影坐标，K为相机内参矩阵，为t时刻到t′时刻的相机位姿变换，/>为t时刻图片的深度估计值，(p_t)为(p_t)为索引值，/>即该齐次坐标系下t时刻的深度值。

进一步地，所述损失函数如下：

其中，为损失函数，/>为光度重建损失，/>为峰值信噪比损失，/>为平滑性损失，λ₁，λ₂，λ₃分别为光度重建损失、峰值信噪比损失和平滑性损失的权重。

进一步地，所述光度重建损失通过以下公式确定：

其中，为光度重建损失，M是与输入图像同尺寸的布尔矩阵，pe(·)为光度重建误差函数，/>为由t-1时刻的参考图片合成的目标图片，/>为由t+1时刻的参考图片合成的目标图片，I为真实图片。

进一步地，所述光度重建误差函数通过以下公式确定：

其中，为/>和I的光度重建误差函数，/>和I分别为目标图片和真实图片，α为权重系数，/>为/>和I的结构相似性，/>为合成图片与真实图片的像素之差的L1范数。

进一步地，所述峰值信噪比损失通过以下公式确定：

其中，为峰值信噪比损失，MAX_I为图像点颜色的最大数值，MSE为均方误差。

进一步地，所述平滑性损失通过以下公式确定：

其中，为平滑性损失，/>为x方向的梯度算子，I_t为t时刻的图片，/>为y方向的梯度算子，/>为各像素深度估计除以整张图片的深度估计平均值的结果。

更进一步地，基于损失函数使用梯度下降法训练深度估计网络和深度位姿网络得到深度估计模型和位姿估计模型。

本发明的有益效果是：

本发明通过深度训练学习的方法估计单目内窥镜视频的深度及位姿信息以进行三维模型重建，重建模型的场景信息能帮助医生直观地观察到各组织之间的空间距离信息，提高操作的准确性。

本发明方法中的训练集、测试集直接采用视频图像中的图像，而不直接用深度图，应用到内窥镜图像的三维重建领域，可以实现较为精确的深度估计。

本发明深度估计网络，使用Transformer作为编码器，提高了深度图预测的准确率，在内窥镜图像深度图预测上表现较好。

本发明位姿估计网络采用多尺度的特征估计，进行损失函数计算时，将各个尺度的损失合并在一起，将较低分辨率的深度图上采样到较高的输入图像分辨率，然后在较高的输入分辨率下重新投影，重新采样并计算光度误差。这使得各个比例尺上的深度图以实现相同的目标，即对目标图像进行精确的高分辨率重建，提高位姿估计的准确性。

附图说明

图1为本发明的网络结构示意图。

图2为本发明深度编码网络结构示意图。

图3为本发明多尺度特征估计的示意图。

图4为本发明双线性插值的过程图。

图5为本发明深度估计的结果示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以互相结合。

本发明提供一种单目内窥镜视频深度与位姿估计方法，包括以下步骤：

S1，构建深度估计网络和位姿估计网络。

如图1所示，深度估计网络由深度编码器和深度解码器两部分组成。深度编码器是由50层的残差神经网络组成，用于从输入的单张RGB图像中提取深度特征；深度解码器由5层卷积神经网络组成，将编码器提取的深度特征映射为与输入图片尺寸相同的深度估计图。

如图2所示，本发明在深度编码器中使用transformer网络替代了ResNet网络，参考ViT的格式，将输入图片划分成大小相同的patch输入到网络中，Layer Norm为层归一化，对输入到Transformer中的数据进行归一化处理，MSA为多头注意力机制，MLP为多层感知机神经网络结构；经过Linear Embedding之后，输入到Transformer网络中，如图所示，Encoder为编码器，其中Patch Partition为分块操作，将完整的图像分成按照要求分成小块；Linear Embedding为线性嵌入模块，将分好的图像小块嵌入到Transformer层之中，xllayers代表有x个Transformer网络层，可以根据实验要求设置其个数，最后一层Transformer网络层输出特征图。Decoder为解码器模块，其中F为编码器输出的特征，Upconv layer为反卷积层，一共有4层，Upsample则为上采样操作，恢复出原始分辨率大小的深度图。

深度解码器则由反卷积层和上采样层组成，由深度编码器输出的深度图经过反卷积层和上采样层输出深度图，值得注意的是在这里使用了多尺度损失函数的计算方法，分别对不同分辨率的深度图进行采样恢复到源视图的分辨率，去进行最小重构误差的分析。

位姿估计网络由位姿编码器和位姿解码器组成，位姿编码器由50层的残差神经网络组成，用于从输入的图像对之间提取位姿特征，位姿解码器则由4层卷积神经网络组成，输出相机的位姿。

如图3所示，这里采用多尺度的特征估计，对每一个反卷积出来的深度图，对其进行上采样恢复到原始图像的分辨率，去进行视图合成和误差计算，得到损失函数，这有效地约束了深度图在每个尺度上都朝着同一个目标努力，即尽可能精确地重建高分辨率输入目标图像。图中，Multiscale Loss为多尺度损失函数，Baseline为基线网络，即原有网络的方法，Loss为损失函数，Ours表示本发明中采用的方法，Upscale为上采样，将小分辨率恢复到大分辨率。

S2，获取训练集和测试集，对训练集和测试集中的图片进行增强处理。

本发明采用SCALED内窥镜数据集，数据集为从单目视频中分割出来的有序列的图像，包括训练集15000张图像，验证集1700张图像，测试集500张图像，并将数据集的图像分辨率调整到320*256作为输入。

对数据集中的数据进行增强，具体的数据增强方法包括：随机水平翻转，亮度、对比度、饱和度及色调的随机变化，随机水平翻转能够为了扩充数据集；亮度、对比度、饱和度及色调的随机变化能够使数据更加适合训练，一般变化至设定范围。

S3，将增强后的训练集输入至深度估计网络和位姿估计网络，得到深度估计值和位姿估计值。

训练时，首先将数据增强后的训练数据输入上述的深度估计网络和位姿估计网络，得到一组深度和位姿估计值。具体到两个子网络中，在深度估计网络中，将t时刻的图片I_t输入深度估计网络，得到其深度估计图在位姿估计网络中，将t时刻的图片及其相邻的t′时刻的图片{I_t，I_t′}输入位姿估计网络，得到从t时刻到t′时刻的相机位姿变换/>具体到训练中，本发明按照索引去寻找t时刻的图片，t′可以是前一帧的图片，也可以是后一帧的图片。

S4，基于深度估计值、位姿估计值及参考图片进行视图合成得到合成的目标图片。

合成目标图片需要三方面的信息：深度估计网络输出的深度估计，位姿估计网络输出的相机位姿估计，以及目标图片前后的相邻帧。具体地，利用前一步骤估计的深度和位姿变换/>将t′时刻的图片I_t′作为参考图片，通过视图合成得到合成的目标图片令p_t为目标图片中像素的齐次坐标，K为相机内参矩阵。根据视图合成的原理，可以获得p_t在参考图片I_t′上的投影坐标p_t′：

在上述公式中由于像素的齐次坐标不为整数，本发明采用双线性可微采样法在参考图片中索引像素值，线性插值4个临近像素(左上、右上、左下和右下)的值使其变为整数作为最终结果，填充到合成的目标图片的像素坐标，如图4所示，I_S为目标视图投影到源视图的结果，其有可能不是一个整数，故将I_S通过双线性插值法采样到整数点

S5，将真实图片与目标图片比较计算损失函数。

为了评估上一步合成目标图片的准确性，需要将合成的目标图片与真实图片I_t相比较，计算损失函数。损失函数/>由三部分组成，即光度重建损失/>峰值信噪比损失/>和平滑性损失/>

其中，λ₁，λ₂，λ₃分别为光度重建损失、块间匹配相似性和平滑性损失的权重，为标定值，具体可以设置λ₁＝1，λ₂＝0.05，λ₃＝0.001。

光度重建损失通过以下公式确定：

其中，为光度重建损失，M是与输入图像同尺寸的布尔矩阵，/>为由t-1时刻的参考图片合成的目标图片，/>为由t+1时刻的参考图片合成的目标图片，I为真实图片。

其中，pe(·)为光度重建误差函数，也就是合成图片与真实图片的像素之差的L1范数，与其结构相似性(Structural Similarity，SSIM)的加权和。

上式中，本发明只取中的最小值作为光度重建损失。即，在分别由I_t-1，I_t+1作为参考图片合成的两张目标图片/>中，只有合成较好者被计入光度重建损失。当一张参考图片噪声较大时，根据该参考图片合成的目标图片噪声也较大，本发明则选择另一张噪声较小的合成图片计入光度重建损失。因此，取最小值操作有助于提升网络的抗噪声干扰性能。

光度重建损失是光度重建误差函数的最小值乘掩膜M。掩膜M是与输入图像同尺寸的布尔矩阵，决定每个像素是否被计算入光度重建损失。

如果合成图片的光度重建误差比I_t-1，I_t+1的光度重建误差大，意味着目标图片I的某些像素很可能在t-1，t+1时刻被遮挡，从而无法在目标图片中被正确合成，这些像素应当被尽量排除。因此，本发明通过掩膜M将这些像素排除在光度重建误差的计算之外。将掩膜M与合成的目标图片相乘后，黑色像素在计算光度重建损失时被排除。

是峰值信噪比损失，是一种衡量图像质量的指标，在重建图像时会用到这一指标。可以根据下式进行计算：

式中MAX_I表示图像点颜色的最大数值，MSE为均方误差。

是平滑性损失，它鼓励较为平滑的深度估计。

其中，为x方向的梯度算子，I_t为t时刻的图片，/>为y方向的梯度算子，/>是各像素深度估计除以整张图片的深度估计平均值的结果，/>将深度估计除以其平均值可以避免网络收敛到/>的平凡解。

根据上述损失函数的构成，在具体计算时，可以将不同分辨率的图像恢复到源视图的分辨率，然后再去计算损失函数，最后的损失函数则是这几个的均值。

S6，根据上述损失函数及训练集，使用梯度下降法训练深度估计网络和位姿估计网络，训练一共迭代若干次，对每次迭代后的模型都进行保存，并用验证集进行测试，选取验证集测试中误差最小的模型作为最终的深度和位姿估计模型。

S7，通过深度估计模型和位姿估计模型对增强后的测试集进行预测，得到深度估计结果和位姿估计结果。

在本发明实施例中，以单目腹腔内窥镜图像作为数据集，数据集划分如图5所示，本发明在训练集上训练得到深度估计模型和位姿估计模型。使用训练得到的模型对测试集进行预测，可以得到一组预测结果。为了量化评估本发明的效果，将达芬奇手术机器人记录的相机位姿和由结构光方法获得的深度图作为参考标准，与模型的估计值进行比较。评价单目深度及位姿估计质量的常用指标如表1所示。

表1深度及位姿估计质量的评价指标及其公式

按照表1列举的评价指标，可以计算得到深度估计的质量指标如表2所示，位姿估计的质量指标如表3所示。表2、表3同时给出了自动驾驶领域的经典无监督单目三维重建算法Monodepth2在本医学图像问题中的表现。由表2、表3可知，本发明在这一任务上的表现优于经典算法Monodepth2。

表2本发明与经典算法的深度估计结果比较(单位：毫米)

表3本发明与经典算法的位姿估计结果比较(单位：毫米)

深度估计的可视化结果如图5所示，深度真值与深度估计均使用灰度表示深度大小，颜色越深的区域表示深度越大，颜色越浅的区域表示深度越小。图5展示的深度估计图中基本不存在从输入图片中错误继承的伪影，且很好地利用了图像的全局信息，精度较高。

以上仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种单目内窥镜视频深度与位姿估计方法，其特征在于，包括以下步骤：

构建深度估计网络和位姿估计网络；

将真实图片与目标图片比较计算损失函数；

2.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法，其特征在于：所述增强处理包括对图片进行随机水平翻转，以及进行亮度、对比度、饱和度、色调的随机变化。

3.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法，其特征在于：将t时刻的图片I_t输入深度估计网络，得到其深度估计图将t时刻的图片及其相邻的t′时刻的图片{I_t，I_t′}输入位姿估计网络，得到从t时刻到t′时刻的相机位姿变换/>则深度估计图和位姿变换/>分别为t时刻的图片的深度估计值和位姿估计值；所述参考图片为t′时刻图片。

4.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法，其特征在于，目标图片中像素的齐次坐标与其在参考图片上的投影坐标的关系为：

其中，p_t为目标图片中像素的齐次坐标，p_t′为p_t在参考图片I_t′上的投影坐标，K为相机内参矩阵，为t时刻到t′时刻的相机位姿变换，/>为t时刻图片的深度估计值，(p_t)为索引值。

5.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法，其特征在于，所述损失函数如下：

6.根据权利要求5所述的单目内窥镜视频深度与位姿估计方法，其特征在于，所述光度重建损失通过以下公式确定：

7.根据权利要求6所述的单目内窥镜视频深度与位姿估计方法，其特征在于，光度重建误差函数通过以下公式确定：

8.根据权利要求5所述的单目内窥镜视频深度与位姿估计方法，其特征在于，所述峰值信噪比损失通过以下公式确定：

9.根据权利要求5所述的单目内窥镜视频深度与位姿估计方法，其特征在于，所述平滑性损失通过以下公式确定：

10.根据权利要求1所述的单目内窥镜视频深度与位姿估计方法，其特征在于：基于损失函数使用梯度下降法训练深度估计网络和深度位姿网络得到深度估计模型和位姿估计模型。