CN117671012A - 术中内窥镜绝对与相对位姿计算的方法、装置及设备 - Google Patents
术中内窥镜绝对与相对位姿计算的方法、装置及设备 Download PDFInfo
- Publication number
- CN117671012A CN117671012A CN202410129170.3A CN202410129170A CN117671012A CN 117671012 A CN117671012 A CN 117671012A CN 202410129170 A CN202410129170 A CN 202410129170A CN 117671012 A CN117671012 A CN 117671012A
- Authority
- CN
- China
- Prior art keywords
- endoscope
- pose
- pose estimation
- decoder
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 84
- 230000008569 process Effects 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims description 66
- 238000012360 testing method Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 34
- 238000004088 simulation Methods 0.000 claims description 30
- 230000009977 dual effect Effects 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001727 in vivo Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000000611 regression analysis Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000009877 rendering Methods 0.000 claims description 3
- 238000002324 minimally invasive surgery Methods 0.000 abstract description 6
- 230000004044 response Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Endoscopes (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种术中内窥镜绝对与相对位姿计算的方法、装置及设备,属于计算机视觉与图像处理技术领域。方法包括步骤:构建RMIS场景下的虚拟数据集和真实世界‑模拟数据集;对上述数据集进行数据预处理;建立单编码器‑双解码器的内窥镜位姿估计模型;对内窥镜位姿估计模型进行训练和评估,得到训练后的内窥镜位姿估计模型;实时采集RMIS过程中内窥镜***捕获的患者体内图像数据,并输入至训练后的内窥镜位姿估计模型,获得实时图像对应的内窥镜绝对位姿数据;基于内窥镜绝对位姿数据,计算内窥镜的实时相对位姿。本发明提高了RMIS场景下的自动化水平与手术机器人响应外科医生的准确性,保证了机器人辅助微创手术中患者的安全。
Description
技术领域
本发明涉及一种术中内窥镜绝对与相对位姿计算的方法、装置及设备,属于机器视觉与计算机视觉技术领域。
背景技术
随着机器人技术的快速发展,将机器人技术与微创手术结合的机器人辅助微创手术(Robot-assisted Minimal Invasive Surgery,简称为“RMIS”)技术获得了广泛应用。RMIS是指利用机器人、内窥镜以及计算机等设备所进行的一种手术,具有创伤小、疼痛轻、恢复快等优势。
在RMIS此类手术中内窥镜要***患者体内,操作过程中的血渍飞溅等通常会引起内窥镜镜头区域部分或者全部被遮挡,导致内窥镜所拍摄的图像不清晰。在上述情形下,内窥镜需要立刻抽离手术机器人进行镜头清洁后重新***患者体内,导致内窥镜坐标系与夹持内窥镜的机器人坐标系的相对位置与姿态(简称为“位姿”)关系产生改变并成为了“未知量”。从安全性角度出发,为了重新精确获得上述位姿关系,一个至关重要的环节是术中内窥镜相对位姿的确定,即确定内窥镜坐标系在夹持内窥镜机械臂的相邻两次运动中的相对旋转与平移矩阵。在工业机器应用场景中,常借助于空间标记物(如棋盘格标定板)等来辅助实现这一目的。
然而,在RMIS场景中,由于手术的无菌环境要求以及患者狭小体内空间限制,通常无法放置上述标记物,导致RMIS场景中的内窥镜位姿确定具有一定的挑战性,因此,需要一种能够有效获取术中内窥镜绝对与相对位姿的技术措施。
发明内容
为了解决上述问题,本发明提出了一种术中内窥镜绝对与相对位姿计算的方法、装置及设备,能够实现RMIS场景下的获取术中内窥镜绝对与相对位姿的目的,以便更好地应用于机器人辅助微创手术(RMIS)场景。
本发明解决其技术问题采取的技术方案是:
第一方面,本发明实施例提供的一种术中内窥镜绝对与相对位姿计算的方法,包括以下步骤:
采集虚拟相机模拟内窥镜动作时数据,构建RMIS场景下的虚拟数据集;
基于通过外部标定技术获取内窥镜坐标系相对于传感器坐标系的位姿,采集模拟手术操作带动内窥镜进行运动时的数据,构建RMIS场景下的真实世界-模拟数据集;
对所述的虚拟数据集和真实世界-模拟数据集进行数据预处理,将预处理后的虚拟数据集划分为第一训练集和第一测试集,将预处理后的真实世界-模拟数据集划分为第二训练集和第二测试集;
基于编码器-解码器架构建立单编码器-双解码器的内窥镜位姿估计模型,所述内窥镜位姿估计模型包括编码器、特征跳跃连接器、语义分割解码器和位姿估计解码器;所述编码器用于提取RMIS过程中图像数据的各级特征图,所述各级特征图包含图像的不同抽象级别信息;所述特征跳跃连接器用于将编码器所提取的各级特征图送入语义分割解码器;所述语义分割解码器用于学习从特征图中恢复图像细节的能力并为位姿估计解码器提供隐式几何约束;所述位姿估计解码器用于从特征图中回归分析内窥镜的绝对位姿并输出RMIS过程中图像对应的内窥镜绝对位姿;
采用预处理后的虚拟数据集和真实世界-模拟数据集对所述内窥镜位姿估计模型进行训练和评估,得到训练后的内窥镜位姿估计模型;
实时采集RMIS过程中内窥镜***捕获的患者体内图像数据,并输入至训练后的内窥镜位姿估计模型,获得RMIS过程中实时图像对应的内窥镜绝对位姿数据;
基于RMIS过程中实时图像对应的内窥镜绝对位姿数据,计算RMIS过程中内窥镜的实时相对位姿。
作为本实施例一种可能的实现方式,所述采集虚拟相机模拟内窥镜动作时数据,构建RMIS场景下的虚拟数据集,包括:
将手术机器人手术器械以及不同生物组织背景的三维模型导入至三维渲染软件中,设置一虚拟相机模拟内窥镜并令其按预设好的轨迹移动且对准手术器械三维模型;
按一定帧率持续渲染生成虚拟相机视野下的手术器械及生物组织背景图像,同时采集各帧图像相对应的手术器械分割掩码及虚拟内窥镜绝对位姿标注,形成虚拟数据集。
作为本实施例一种可能的实现方式,所述基于通过外部标定技术获取内窥镜坐标系相对于传感器坐标系的位姿,采集模拟手术操作带动内窥镜进行运动时的数据,构建RMIS场景下的真实世界-模拟数据集,包括:
在实际手术场景外,将能自动记录本身坐标系相对于世界坐标系位姿的外部传感器固连在内窥镜上,通过外部标定技术,获取固连状态下内窥镜坐标系相对于传感器坐标系的位姿;
使用机器人机械臂夹持内窥镜及与内窥镜所固连的传感器,通过模拟手术操作带动内窥镜进行运动,并记录内窥镜采集的RMIS现场图像数据与传感器坐标系相对于世界坐标系的位姿数据,利用外部标定得到的固连状态下内窥镜坐标系相对于传感器坐标系的位姿计算得到内窥镜坐标系相对于世界坐标系的位姿;
使用标注工具对每张现场图像数据标注出手术器械分割掩码,并将各张现场图像数据与相应的内窥镜坐标系相对于世界坐标系的位姿以及手术器械分割掩码进行合并,构建真实世界-模拟数据集。
作为本实施例一种可能的实现方式,所述对所述的虚拟数据集和真实世界-模拟数据集进行数据预处理,将预处理后的虚拟数据集划分为第一训练集和第一测试集,将预处理后的真实世界-模拟数据集划分为第二训练集和第二测试集,包括:
首先对虚拟数据集中的数据进行调整图像尺寸和图像归一化处理,然后将虚拟数据集中所有图像样本所对应的虚拟内窥镜位姿标注转换为对偶四元数形式,最后将虚拟数据集划分为第一训练集和第一测试集,所述虚拟数据集中的每个图像都至少对应含有手术器械分割掩码以及拍摄此图像的虚拟内窥镜的坐标系相对于世界坐标系的对偶四元数参数化的位姿真值标注;
首先对真实世界-模拟数据集中的数据进行调整图像尺寸和图像归一化处理,然后将所有图像样本所对应的内窥镜位姿标注转换为对偶四元数形式,最后将真实世界-模拟数据集划分为第二训练集和第二测试集,所述真实世界-模拟数据集中的每个图像都至少对应含有手术器械分割掩码以及拍摄此图像的内窥镜的坐标系相对于世界坐标系的使用对偶四元数参数化的位姿真值标注。
作为本实施例一种可能的实现方式,所述基于编码器-解码器架构建立单编码器-双解码器的内窥镜位姿估计模型,包括:
获取编码器(特征提取网络)的初始模型参数并加载至编码器,并去除编码器的全连接分类层,使之成为一个全卷积网络;
将选定数据集的训练集中的若干个图像输入编码器;
依据全卷积网络各卷积块的输出尺寸将所有卷积层划分为若干层级,对训练图像进行编码操作,得到各训练图像在各层级卷积层的第一特征图;
根据选用的编码器所划分出的层级数,设置数量相同、输出尺寸与编码器各层级一一对应的级联子解码器,由所有子解码器及预测模块构成语义分割解码器,语义分割解码器的最后一级子解码器块的输出尺寸与原始训练图像尺寸相同;
设置一高维全连接层与一维数与位姿向量长度相同的全连接层,构成位姿估计解码器;
语义分割解码器的最低级子解码器接收尺寸最小的第一特征图作为输入,次低级解码器接收最低级子解码器的输出作为输入,以此类推,最后位姿估计解码器输出内窥镜绝对位姿向量。
作为本实施例一种可能的实现方式,所述采用预处理后的虚拟数据集和真实世界-模拟数据集对所述内窥镜位姿估计模型进行训练和评估,得到训练后的内窥镜位姿估计模型,包括:
基于第一训练集,为内窥镜位姿估计模型的语义分割解码器和位姿估计解码器分别设置损失函数,并将两个损失函数进行加权组合作为总损失函数,依次将模型的输出的语义分割结果与位姿估计结果以及相应的标注代入,计算损失值,采用优化器进行内窥镜位姿估计模型的预训练并更新权重,直至内窥镜位姿估计模型收敛,在预训练收敛后保存整体网络模型权重;
为内窥镜位姿估计模型加载保存的预训练收敛后的整体网络模型权重,输入第一测试集中的图像样本,获取各样本所对应的内窥镜位姿估计值并度量其与相应位姿真值的误差,对内窥镜位姿估计模型对于虚拟内窥镜位姿估计的效果进行评估;
基于第二训练集,为内窥镜位姿估计模型的语义分割解码器和位姿估计解码器分别设置损失函数,并将两个损失函数进行加权组合作为总损失,依次将模型的输出的语义分割结果与位姿估计结果以及相应的标注代入,计算损失值,采用优化器进行内窥镜位姿估计模型的微调训练并更新权重,直至内窥镜位姿估计模型收敛,在微调训练收敛后保存整体网络模型权重;
为内窥镜位姿估计模型加载微调训练后的模型权重,输入第二测试集中的图像样本,获取各样本所对应的内窥镜位姿估计值并度量其与相应位姿地面真值的误差,评估内窥镜位姿估计模型的位姿估计效果。
作为本实施例一种可能的实现方式,所述语义分割解码器的损失函数L 1为:
其中,n为样本数量,C为类别交叉熵损失,I和表示输出-标注图像对中每个像素的预测值和对应的标注值,α为权重标量;
所述位姿估计解码器的损失函数L 2为:
其中,p为位姿估计值,为位姿真值;
所述总损失函数为:
其中,为权重标量。
第二方面,本发明实施例提供的一种术中内窥镜绝对与相对位姿计算的装置,包括:
虚拟数据集构建模块,用于采集虚拟相机模拟内窥镜动作时数据,构建RMIS场景下的虚拟数据集;
真实世界-模拟数据集构建模块,用于基于通过外部标定技术获取内窥镜坐标系相对于传感器坐标系的位姿,采集模拟手术操作带动内窥镜进行运动时的数据,构建RMIS场景下的真实世界-模拟数据集;
数据预处理模块,用于对所述的虚拟数据集和真实世界-模拟数据集进行数据预处理,将预处理后的虚拟数据集划分为第一训练集和第一测试集,将预处理后的真实世界-模拟数据集划分为第二训练集和第二测试集;
内窥镜位姿估计模型建立模块,用于基于编码器-解码器架构建立单编码器-双解码器的内窥镜位姿估计模型,所述内窥镜位姿估计模型包括编码器、特征跳跃连接器、语义分割解码器和位姿估计解码器;所述编码器用于提取RMIS过程中图像数据的各级特征图,所述各级特征图包含图像的不同抽象级别信息;所述特征跳跃连接器用于将编码器所提取的各级特征图送入语义分割解码器;所述语义分割解码器用于学习从特征图中恢复图像细节的能力并为位姿估计解码器提供隐式几何约束;所述位姿估计解码器用于从特征图中回归分析内窥镜的绝对位姿并输出RMIS过程中图像对应的内窥镜绝对位姿;
模型训练模块,用于采用预处理后的虚拟数据集和真实世界-模拟数据集对所述内窥镜位姿估计模型进行训练和评估,得到训练后的内窥镜位姿估计模型;
绝对位姿输出模块,用于实时采集RMIS过程中内窥镜***捕获的患者体内图像数据,并输入至训练后的内窥镜位姿估计模型,获得RMIS过程中实时图像对应的内窥镜绝对位姿数据;
相对位姿计算模块,用于基于RMIS过程中实时图像对应的内窥镜绝对位姿数据,计算RMIS过程中内窥镜的实时相对位姿。
第三方面,本发明实施例提供的一种计算机设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任意术中内窥镜绝对与相对位姿计算的方法的步骤。
第四方面,本发明实施例提供的一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任意术中内窥镜绝对与相对位姿计算的方法的步骤。
本发明实施例的技术方案可以具有的有益效果如下:
本发明在使用深度神经网络对内窥镜绝对位姿进行回归的基础上,在内窥镜位姿估计模型中加入了额外的语义分割分支来为位姿回归任务提供隐式几何约束,并在获取到两个或两个以上内窥镜绝对位姿后,根据物理意义计算得到内窥镜相对位姿,实现了RMIS场景下内窥镜绝对位姿估计与相对位姿计算,提高了RMIS场景下的自动化水平与手术机器人响应外科医生的准确性,保证了机器人辅助微创手术中患者的安全。
附图说明
图1是根据一示例性实施例示出的一种术中内窥镜绝对与相对位姿计算的方法的流程图;
图2是根据一示例性实施例示出的一种术中内窥镜绝对与相对位姿计算的装置的方框图;
图3是根据一示例性实施例示出的一种内窥镜位姿估计模型的总体结构图;
图4是根据一示例性实施例示出的一种内窥镜相对位姿计算示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明:
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明实施例提供了一种术中内窥镜绝对与相对位姿计算的方法,包括以下步骤:
采集虚拟相机模拟内窥镜动作时数据,构建RMIS场景下的虚拟数据集;
基于通过外部标定技术获取内窥镜坐标系相对于传感器坐标系的位姿,采集模拟手术操作带动内窥镜进行运动时的数据,构建RMIS场景下的真实世界-模拟数据集;
对所述的虚拟数据集和真实世界-模拟数据集进行数据预处理,将预处理后的虚拟数据集划分为第一训练集和第一测试集,将预处理后的真实世界-模拟数据集划分为第二训练集和第二测试集;
基于编码器-解码器架构建立单编码器-双解码器的内窥镜位姿估计模型,所述内窥镜位姿估计模型包括编码器、特征跳跃连接器、语义分割解码器和位姿估计解码器;所述编码器用于提取RMIS过程中图像数据的各级特征图,所述各级特征图包含图像的不同抽象级别信息;所述特征跳跃连接器用于将编码器所提取的各级特征图送入语义分割解码器;所述语义分割解码器用于学习从特征图中恢复图像细节的能力并为位姿估计解码器提供隐式几何约束;所述位姿估计解码器用于从特征图中回归分析内窥镜的绝对位姿并输出RMIS过程中图像对应的内窥镜绝对位姿;
采用预处理后的虚拟数据集和真实世界-模拟数据集对所述内窥镜位姿估计模型进行训练和评估,得到训练后的内窥镜位姿估计模型;
实时采集RMIS过程中内窥镜***捕获的患者体内图像数据,并输入至训练后的内窥镜位姿估计模型,获得RMIS过程中实时图像对应的内窥镜绝对位姿数据;
基于RMIS过程中实时图像对应的内窥镜绝对位姿数据,计算RMIS过程中内窥镜的实时相对位姿。
作为本实施例一种可能的实现方式,所述采集虚拟相机模拟内窥镜动作时数据,构建RMIS场景下的虚拟数据集,包括:
将手术机器人手术器械以及不同生物组织背景的三维模型导入至三维渲染软件中,设置一虚拟相机模拟内窥镜并令其按预设好的轨迹移动且对准手术器械三维模型;
按一定帧率持续渲染生成虚拟相机视野下的手术器械及生物组织背景图像,同时采集各帧图像相对应的手术器械分割掩码及虚拟内窥镜绝对位姿标注,形成虚拟数据集。
作为本实施例一种可能的实现方式,所述基于通过外部标定技术获取内窥镜坐标系相对于传感器坐标系的位姿,采集模拟手术操作带动内窥镜进行运动时的数据,构建RMIS场景下的真实世界-模拟数据集,包括:
在实际手术场景外,将能自动记录本身坐标系相对于世界坐标系位姿的外部传感器固连在内窥镜上,通过外部标定技术,获取固连状态下内窥镜坐标系相对于传感器坐标系的位姿;
使用机器人机械臂夹持内窥镜及与内窥镜所固连的传感器,通过模拟手术操作带动内窥镜进行运动,并记录内窥镜采集的RMIS现场图像数据与传感器坐标系相对于世界坐标系的位姿数据,利用外部标定得到的固连状态下内窥镜坐标系相对于传感器坐标系的位姿计算得到内窥镜坐标系相对于世界坐标系的位姿;
使用标注工具对每张现场图像数据标注出手术器械分割掩码,并将各张现场图像数据与相应的内窥镜坐标系相对于世界坐标系的位姿以及手术器械分割掩码进行合并,构建真实世界-模拟数据集。
作为本实施例一种可能的实现方式,所述对所述的虚拟数据集和真实世界-模拟数据集进行数据预处理,将预处理后的虚拟数据集划分为第一训练集和第一测试集,将预处理后的真实世界-模拟数据集划分为第二训练集和第二测试集,包括:
首先对虚拟数据集中的数据进行调整图像尺寸和图像归一化处理,以增强模型鲁棒性、泛化能力并确保其输出质量和一致性;然后将虚拟数据集中所有图像样本所对应的虚拟内窥镜位姿标注转换为对偶四元数形式,最后将虚拟数据集划分为第一训练集和第一测试集,所述虚拟数据集中的每个图像都至少对应含有手术器械分割掩码以及拍摄此图像的虚拟内窥镜的坐标系相对于世界坐标系的对偶四元数参数化的位姿真值标注;
首先对真实世界-模拟数据集中的数据进行调整图像尺寸和图像归一化处理,以增强模型鲁棒性、泛化能力并确保其输出质量和一致性;然后将所有图像样本所对应的内窥镜位姿标注转换为对偶四元数形式,最后将真实世界-模拟数据集划分为第二训练集和第二测试集,所述真实世界-模拟数据集中的每个图像都至少对应含有手术器械分割掩码以及拍摄此图像的内窥镜的坐标系相对于世界坐标系的使用对偶四元数参数化的位姿真值标注。
作为本实施例一种可能的实现方式,所述基于编码器-解码器架构建立单编码器-双解码器的内窥镜位姿估计模型,包括:
步骤S1,获取待预训练编码器(特征提取网络)的初始模型参数并加载至编码器,并去除编码器的全连接分类层,使之成为一个全卷积网络,所述待预训练编码器的初始模型参数为在大规模数据集中预训练好的各层初始权重矩阵;
步骤S2,将选定数据集的训练集中的若干个图像输入编码器;
步骤S3,依据全卷积网络各卷积块的输出尺寸将所有卷积层划分为若干层级,对训练图像进行编码操作,得到各训练图像在各层级卷积层的第一特征图;
步骤S4,根据选用的编码器所划分出的层级数,设置数量相同、输出尺寸与编码器各层级一一对应的级联子解码器,由所有子解码器及预测模块构成语义分割解码器,语义分割解码器的最后一级子解码器块的输出尺寸与原始训练图像尺寸相同;
步骤S5,设置一高维全连接层与一维数与位姿向量长度相同的全连接层,构成位姿估计解码器;
步骤S6,语义分割解码器的最低级子解码器接收尺寸最小的第一特征图作为输入,次低级解码器接收最低级子解码器的输出作为输入,以此类推,最后位姿估计解码器输出内窥镜绝对位姿向量。
上述步骤S2至S6中所述位姿估计模型中编码器、语义分割解码器及位姿估计解码器的逻辑关系和数据传递关系如下:
选取一深度神经网络(Deep Neural Networks, DNNs)作为编码器,用来提取输入图像I的第一图像特征图集合,根据选取的深度神经网络的网络特点(输出尺寸层级数i),将/>;
(1)
所述语义分割解码器D由数个子解码器di,i={1,2,,4}及预测模块构成。每一个子解码器构成及组件顺序如下:一个上采样层、一个3*3卷积层、一个Batch Norm层、一个ReLU层、一个1*1卷积层、一个Batch Norm层以及一个ReLU层,用来逐级恢复图像细节得到第二图像特征图集合/>。预测模块P由一个1*1卷积层和一个Softmax层组成。预测模块接收/>作为输入,输出图像I所对应的语义分割结果O,为位姿估计解码器提供隐式几何约束。
编码器与语义分割解码器间的特征图传递关系如下:
(2)
其中,⊕表示特征跳跃连接,用于特征图的通道维度串联。
所述位姿估计解码器E由一高维全连接层与一维数与位姿向量长度相同的全连接层构成,接收f i作为输入,输出图像I对应的内窥镜绝对位姿向量v。
编码器与语义分割解码器间的特征图传递关系如下:
(3)
其中,为第一图像特征图。
作为本实施例一种可能的实现方式,所述采用预处理后的虚拟数据集和真实世界-模拟数据集对所述内窥镜位姿估计模型进行训练和评估,得到训练后的内窥镜位姿估计模型,包括:
基于第一训练集,为内窥镜位姿估计模型的语义分割解码器和位姿估计解码器分别设置损失函数,并将两个损失函数进行加权组合作为总损失函数,依次将模型的输出的语义分割结果与位姿估计结果以及相应的标注代入,计算损失值,采用优化器进行内窥镜位姿估计模型的预训练并更新权重,直至内窥镜位姿估计模型收敛,在预训练收敛后保存整体网络模型权重;
为内窥镜位姿估计模型加载保存的预训练收敛后的整体网络模型权重,输入第一测试集中的图像样本,获取各样本所对应的内窥镜位姿估计值并度量其与相应位姿真值的误差,对内窥镜位姿估计模型对于虚拟内窥镜位姿估计的效果进行评估;
基于第二训练集,为内窥镜位姿估计模型的语义分割解码器和位姿估计解码器分别设置损失函数,并将两个损失函数进行加权组合作为总损失,依次将模型的输出的语义分割结果与位姿估计结果以及相应的标注代入,计算损失值,采用优化器进行内窥镜位姿估计模型的微调训练并更新权重,直至内窥镜位姿估计模型收敛,在微调训练收敛后保存整体网络模型权重;
为内窥镜位姿估计模型加载微调训练后的模型权重,输入第二测试集中的图像样本,获取各样本所对应的内窥镜位姿估计值并度量其与相应位姿地面真值的误差,评估内窥镜位姿估计模型的位姿估计效果。
作为本实施例一种可能的实现方式,所述语义分割解码器的损失函数L 1为:
其中,n为样本数量,C为类别交叉熵损失,I和表示输出-标注图像对中每个像素的预测值和对应的标注值,α为权重标量;
所述位姿估计解码器的损失函数L 2为:
其中,p为位姿估计值,为位姿真值;
所述总损失函数为:
其中,和/>为权重标量。
如图2所示,本发明实施例提供的一种术中内窥镜绝对与相对位姿计算的装置,包括:
虚拟数据集构建模块,用于采集虚拟相机模拟内窥镜动作时数据,构建RMIS场景下的虚拟数据集;
真实世界-模拟数据集构建模块,用于基于通过外部标定技术获取内窥镜坐标系相对于传感器坐标系的位姿,采集模拟手术操作带动内窥镜进行运动时的数据,构建RMIS场景下的真实世界-模拟数据集;
数据预处理模块,用于对所述的虚拟数据集和真实世界-模拟数据集进行数据预处理,将预处理后的虚拟数据集划分为第一训练集和第一测试集,将预处理后的真实世界-模拟数据集划分为第二训练集和第二测试集;
内窥镜位姿估计模型建立模块,用于基于编码器-解码器架构建立单编码器-双解码器的内窥镜位姿估计模型,所述内窥镜位姿估计模型包括编码器、特征跳跃连接器、语义分割解码器和位姿估计解码器;所述编码器用于提取RMIS过程中图像数据的各级特征图,所述各级特征图包含图像的不同抽象级别信息;所述特征跳跃连接器用于将编码器所提取的各级特征图送入语义分割解码器;所述语义分割解码器用于学习从特征图中恢复图像细节的能力并为位姿估计解码器提供隐式几何约束;所述位姿估计解码器用于从特征图中回归分析内窥镜的绝对位姿并输出RMIS过程中图像对应的内窥镜绝对位姿;
模型训练模块,用于采用预处理后的虚拟数据集和真实世界-模拟数据集对所述内窥镜位姿估计模型进行训练和评估,得到训练后的内窥镜位姿估计模型;
绝对位姿输出模块,用于实时采集RMIS过程中内窥镜***捕获的患者体内图像数据,并输入至训练后的内窥镜位姿估计模型,获得RMIS过程中实时图像对应的内窥镜绝对位姿数据;
相对位姿计算模块,用于基于RMIS过程中实时图像对应的内窥镜绝对位姿数据,计算RMIS过程中内窥镜的实时相对位姿。
采用本发明所述术中内窥镜绝对与相对位姿计算的技术进行术中内窥镜绝对与相对位姿的具体过程如下。
一、虚拟数据集的构建。
获取手术机器人手术器械以及不同生物组织背景的三维模型,将模型导入至三维渲染软件blender中,在软件中将手术器械坐标系与世界坐标系固连,保持相对静止。规划出不同的、运动角度足够大的轨迹(如螺旋),设置一虚拟相机模拟内窥镜,将某一轨迹设置为虚拟内窥镜的跟随路径即令虚拟内窥镜光心吸附在此轨迹上进行运动,并使虚拟内窥镜的光心始终对准手术器械模型。在三维渲染软件blender中保持以上场景配置,采用不同的轨迹与生物组织背景组合,以每秒30帧的速率渲染数千张图像并启用VisionBlender插件收集各图像相应的手术器械的分割掩码及虚拟内窥镜位姿标注(齐次矩阵形式),形成虚拟数据集。对虚拟数据集中的数据进行预处理,并将所有图像样本所对应的虚拟内窥镜位姿标注转换为对偶四元数形式,后将虚拟数据集划分为训练集和测试集;所述虚拟数据集中的每个图像都至少对应含有拍摄此图像的虚拟内窥镜坐标系相对于世界坐标系的使用对偶四元数参数化的位姿真值标注;
二、真实世界-模拟数据集的构建。
2.1、外部传感器配置:在实际进行手术的场景之外,将能在拍摄过程中自动记录所配备的惯性测量单元相对于世界坐标系的位姿的英特尔实感追踪摄像头 T265(以下简称为“T265”)固连在内窥镜上。
2.2、外部标定:使内窥镜与T265同时地采集数十张一棋盘格标定板的图像,采用T265一侧鱼眼镜头(左侧或右侧)以及内窥镜所拍摄的图像对两者进行双目标定,得到内窥镜坐标系相对于T265一侧鱼眼镜头光心坐标系的相对位姿。
2.3、数据采集:完成上述过程后,使用机器人机械臂夹持内窥镜,并将T265固连在内窥镜上,在模拟手术平台上,模拟手术操作,使用两者同时地采集数百张RMIS过程中的现场图像数据,对于每一张图像,根据 T265所配备的惯性测量单元在世界坐标系下的位姿、T265所配备的惯性测量单元与一侧鱼眼镜头的物理关系、以及内窥镜坐标系相对于T265一侧鱼眼镜头坐标系的相对位姿,计算得到内窥镜坐标系相对于世界坐标系下的位姿并记录,构建真实世界-模拟数据集。
2.4、数据预处理:对真实世界-模拟数据集中的数据进行预处理,并将所有图像样本所对应的内窥镜位姿标注转换为对偶四元数形式,后将真实世界-模拟数据集划分为训练集和测试集。所述真实世界-模拟数据集中的每个图像都至少对应含有拍摄此图像的内窥镜光心坐标系相对于世界坐标系的使用对偶四元数参数化的位姿真值标注。
三、建立如图3所示的内窥镜位姿估计深度神经网络模型。
采用ResNet-50作为编码器,提取输入图像I的第一特征图集合,根据ResNet-50的网络特点(四个输出尺寸层级),将/>;
。
根据ResNet-50的层级数,设置四个级联的子解码器及一个预测模块。每一个子解码器包括一个上采样层、一个3*3卷积层、一个Batch Norm层、一个ReLU层、一个1*1卷积层、一个Batch Norm层以及一个ReLU层。预测模块P由一个1*1卷积层和一个Softmax层组成。同时,设置位姿估计解码器,该解码器由一个2048维的全连接层和一个8维的全连接层构成。
四、模型的训练。
使用TensorFlow 2.12.1、keras 2.12.0实现了本申请所提出的模型。采用ExponentialDecay学习率更新策略和Adam优化器来提高模型训练的效果和稳定性。
基于虚拟数据集的训练集,使用类别交叉熵损失和对数交并比损失的加权组合作为语义分割分支的损失函数L 1进行网络模型的预训练:
(4)
其中,n为样本数量,C为类别交叉熵损失,I和表示输出-标注图像对中每个像素的预测值和对应的标注值,α为权重标量。
同时,使用平均均方误差作为位姿估计分支的损失函数L 2:
(5)
其中,n为样本数量,p为位姿估计值,为位姿真值。
将两分支的损失函数进行加权组合,形成总损失函数L:
其中,为权重标量。
采用Adam优化器进行整体网络模型的预训练并更新权重,在预训练收敛后保存整体网络模型权重;
为内窥镜位姿估计模型加载保存的预训练收敛后的整体网络模型权重,输入虚拟数据集的测试集中的图像样本,获取各样本所对应的内窥镜位姿估计值,并度量其与相应位姿地面真值的旋转误差与平移误差,以评估模型对于虚拟内窥镜位姿估计的效果;
为内窥镜位姿估计模型加载在虚拟数据集上预训练收敛后的整体网络模型权重,基于真实世界-模拟数据集的训练集,使用类别交叉熵损失和对数交并比损失的加权组合作为语义分割分支的损失函数L 1进行网络模型的微调训练:
(6)
其中,n为样本数量,C为类别交叉熵损失,I和表示输出-标注图像对中每个像素的预测值和对应的标注值,α为权重标量。
使用平均均方误差作为位姿估计分支的损失函数L 2:
其中,p为位姿估计值,为位姿真值,n为样本数量。
将两分支的损失函数进行加权组合,形成总损失L:
其中,为权重标量。
采用Adam优化器进行整体网络模型的微调训练并更新权重,在微调训练收敛后保存整体网络模型权重;
为内窥镜位姿估计模型加载微调训练收敛后的整体网络模型权重,输入真实世界-模拟数据集的测试集中的图像样本,获取各样本所对应的内窥镜位姿估计值并度量其与相应位姿地面真值的旋转误差与平移误差,以评估模型对于真实世界-模拟内窥镜位姿估计的效果。
旋转误差E R与平移误差E T的计算公式如下:
(7)
(8)
其中,p为位姿估计值,为位姿真值,p q与/>表示从对偶四元数形式的位姿估计值和位姿真值中提取出的旋转四元数,p t与/>表示从对偶四元数形式的位姿估计值和位姿真值中提取出的平移向量,/>表示四元数乘法。
五、模型的测试与应用。
模型收敛后,直接将RMIS场景下内窥镜所拍摄的图像输入至模型,即可得到内窥镜绝对位姿估计结果。
六、内窥镜相对位姿的计算。
在重复上一步两次或两次以上后,可得到各图像对应的内窥镜绝对位姿估计值,任选其二,如图4所示,可通过下式计算内窥镜相对位姿p r:
其中,表示将位姿转换为齐次矩阵的运算符,/>表示矩阵H的逆矩阵。
本发明提出了一种加入了语义分割信息为位姿估计提供隐式约束的术中内窥镜绝对与相对位姿计算方法,可实现RMIS场景下内窥镜绝对位姿估计与相对位姿估计,提高了此场景下的自动化水平与手术机器人响应外科医生的准确性,保证了机器人辅助微创手术中患者的安全。
本发明实施例提供了一种计算机设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述装置运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任意术中内窥镜绝对与相对位姿计算的方法的步骤。
具体地,上述存储器和处理器能够为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机程序时,能够执行上述术中内窥镜绝对与相对位姿计算的方法。
本领域技术人员可以理解,所述计算机设备的结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。
在一些实施例中,该计算机设备还可以包括触摸屏可用于显示图形用户界面(例如,应用程序的启动界面)和接收用户针对图形用户界面的操作(例如,针对应用程序的启动操作)。具体的触摸屏可包括显示面板和触控面板。其中显示面板可以采用LCD(LiquidCrystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置。触控面板可收集用户在其上或附近的接触或者非接触操作,并生成预先设定的操作指令,例如,用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作。另外,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位、姿势,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成处理器能够处理的信息,再送给处理器,并能接收处理器发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板,也可以采用未来发展的任何技术实现触控面板。进一步的,触控面板可覆盖显示面板,用户可以根据显示面板显示的图形用户界面,在显示面板上覆盖的触控面板上或者附近进行操作,触控面板检测到在其上或附近的操作后,传送给处理器以确定用户输入,随后处理器响应于用户输入在显示面板上提供相应的视觉输出。另外,触控面板与显示面板可以作为两个独立的部件来实现也可以集成而来实现。
对应于上述应用程序的启动方法,本发明实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任意术中内窥镜绝对与相对位姿计算的方法的步骤。
本申请实施例所提供的应用程序的启动装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的***、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种术中内窥镜绝对与相对位姿计算的方法,其特征在于,包括以下步骤:
采集虚拟相机模拟内窥镜动作时数据,构建RMIS场景下的虚拟数据集;
基于通过外部标定技术获取内窥镜坐标系相对于传感器坐标系的位姿,采集模拟手术操作带动内窥镜进行运动时的数据,构建RMIS场景下的真实世界-模拟数据集;
对所述的虚拟数据集和真实世界-模拟数据集进行数据预处理,将预处理后的虚拟数据集划分为第一训练集和第一测试集,将预处理后的真实世界-模拟数据集划分为第二训练集和第二测试集;
基于编码器-解码器架构建立单编码器-双解码器的内窥镜位姿估计模型,所述内窥镜位姿估计模型包括编码器、特征跳跃连接器、语义分割解码器和位姿估计解码器;所述编码器用于提取RMIS过程中图像数据的各级特征图,所述各级特征图包含图像的不同抽象级别信息;所述特征跳跃连接器用于将编码器所提取的各级特征图送入语义分割解码器;所述语义分割解码器用于学习从特征图中恢复图像细节的能力并为位姿估计解码器提供隐式几何约束;所述位姿估计解码器用于从特征图中回归分析内窥镜的绝对位姿并输出RMIS过程中图像对应的内窥镜绝对位姿;
采用预处理后的虚拟数据集和真实世界-模拟数据集对所述内窥镜位姿估计模型进行训练和评估,得到训练后的内窥镜位姿估计模型;
实时采集RMIS过程中内窥镜***捕获的患者体内图像数据,并输入至训练后的内窥镜位姿估计模型,获得RMIS过程中实时图像对应的内窥镜绝对位姿数据;
基于RMIS过程中实时图像对应的内窥镜绝对位姿数据,计算RMIS过程中内窥镜的实时相对位姿。
2.根据权利要求1所述的术中内窥镜绝对与相对位姿计算的方法,其特征在于,所述采集虚拟相机模拟内窥镜动作时数据,构建RMIS场景下的虚拟数据集,包括:
将手术机器人手术器械以及不同生物组织背景的三维模型导入至三维渲染软件中,设置一虚拟相机模拟内窥镜并令其按预设好的轨迹移动且对准手术器械三维模型;
按一定帧率持续渲染生成虚拟相机视野下的手术器械及生物组织背景图像,同时采集各帧图像相对应的手术器械分割掩码及虚拟内窥镜绝对位姿标注,形成虚拟数据集。
3.根据权利要求1所述的术中内窥镜绝对与相对位姿计算的方法,其特征在于,所述基于通过外部标定技术获取内窥镜坐标系相对于传感器坐标系的位姿,采集模拟手术操作带动内窥镜进行运动时的数据,构建RMIS场景下的真实世界-模拟数据集,包括:
在实际手术场景外,将能自动记录本身坐标系相对于世界坐标系位姿的外部传感器固连在内窥镜上,通过外部标定技术,获取固连状态下内窥镜坐标系相对于传感器坐标系的位姿;
使用机器人机械臂夹持内窥镜及与内窥镜所固连的传感器,通过模拟手术操作带动内窥镜进行运动,并记录内窥镜采集的RMIS现场图像数据与传感器坐标系相对于世界坐标系的位姿数据,利用外部标定得到的固连状态下内窥镜坐标系相对于传感器坐标系的位姿计算得到内窥镜坐标系相对于世界坐标系的位姿;
使用标注工具对每张现场图像数据标注出手术器械分割掩码,并将各张现场图像数据与相应的内窥镜坐标系相对于世界坐标系的位姿以及手术器械分割掩码进行合并,构建真实世界-模拟数据集。
4.根据权利要求1所述的术中内窥镜绝对与相对位姿计算的方法,其特征在于,所述对所述的虚拟数据集和真实世界-模拟数据集进行数据预处理,将预处理后的虚拟数据集划分为第一训练集和第一测试集,将预处理后的真实世界-模拟数据集划分为第二训练集和第二测试集,包括:
首先对虚拟数据集中的数据进行调整图像尺寸和图像归一化处理,然后将虚拟数据集中所有图像样本所对应的虚拟内窥镜位姿标注转换为对偶四元数形式,最后将虚拟数据集划分为第一训练集和第一测试集,所述虚拟数据集中的每个图像都至少对应含有手术器械分割掩码以及拍摄此图像的虚拟内窥镜的坐标系相对于世界坐标系的对偶四元数参数化的位姿真值标注;
首先对真实世界-模拟数据集中的数据进行调整图像尺寸和图像归一化处理,然后将所有图像样本所对应的内窥镜位姿标注转换为对偶四元数形式,最后将真实世界-模拟数据集划分为第二训练集和第二测试集,所述真实世界-模拟数据集中的每个图像都至少对应含有手术器械分割掩码以及拍摄此图像的内窥镜的坐标系相对于世界坐标系的使用对偶四元数参数化的位姿真值标注。
5.根据权利要求4所述的术中内窥镜绝对与相对位姿计算的方法,其特征在于,所述基于编码器-解码器架构建立单编码器-双解码器的内窥镜位姿估计模型,包括:
获取编码器的初始模型参数并加载至编码器,并去除编码器的全连接分类层,使之成为一个全卷积网络;
将选定数据集的训练集中的若干个图像输入编码器;
依据全卷积网络各卷积块的输出尺寸将所有卷积层划分为若干层级,对训练图像进行编码操作,得到各训练图像在各层级卷积层的第一特征图;
根据选用的编码器所划分出的层级数,设置数量相同、输出尺寸与编码器各层级一一对应的级联子解码器,由所有子解码器及预测模块构成语义分割解码器,语义分割解码器的最后一级子解码器块的输出尺寸与原始训练图像尺寸相同;
设置一高维全连接层与一维数与位姿向量长度相同的全连接层,构成位姿估计解码器;
语义分割解码器的最低级子解码器接收尺寸最小的第一特征图作为输入,次低级解码器接收最低级子解码器的输出作为输入,以此类推,最后位姿估计解码器输出内窥镜绝对位姿向量。
6.根据权利要求1-5任意一项所述的术中内窥镜绝对与相对位姿计算的方法,其特征在于,所述采用预处理后的虚拟数据集和真实世界-模拟数据集对所述内窥镜位姿估计模型进行训练和评估,得到训练后的内窥镜位姿估计模型,包括:
基于第一训练集,为内窥镜位姿估计模型的语义分割解码器和位姿估计解码器分别设置损失函数,并将两个损失函数进行加权组合作为总损失函数,依次将模型的输出的语义分割结果与位姿估计结果以及相应的标注代入,计算损失值,采用优化器进行内窥镜位姿估计模型的预训练并更新权重,直至内窥镜位姿估计模型收敛,在预训练收敛后保存整体网络模型权重;
为内窥镜位姿估计模型加载保存的预训练收敛后的整体网络模型权重,输入第一测试集中的图像样本,获取各样本所对应的内窥镜位姿估计值并度量其与相应位姿真值的误差,对内窥镜位姿估计模型对于虚拟内窥镜位姿估计的效果进行评估;
基于第二训练集,为内窥镜位姿估计模型的语义分割解码器和位姿估计解码器分别设置损失函数,并将两个损失函数进行加权组合作为总损失,依次将模型的输出的语义分割结果与位姿估计结果以及相应的标注代入,计算损失值,采用优化器进行内窥镜位姿估计模型的微调训练并更新权重,直至内窥镜位姿估计模型收敛,在微调训练收敛后保存整体网络模型权重;
为内窥镜位姿估计模型加载微调训练后的模型权重,输入第二测试集中的图像样本,获取各样本所对应的内窥镜位姿估计值并度量其与相应位姿地面真值的误差,评估内窥镜位姿估计模型的位姿估计效果。
7.根据权利要求6所述的术中内窥镜绝对与相对位姿计算的方法,其特征在于,所述语义分割解码器的损失函数L 1为:
其中,n为样本数量,C为类别交叉熵损失,I和表示输出-标注图像对中每个像素的预测值和对应的标注值,α为权重标量;
所述位姿估计解码器的损失函数L 2为:
其中,p为位姿估计值,为位姿真值;
所述总损失函数为:
其中,为权重标量。
8.一种术中内窥镜绝对与相对位姿计算的装置,其特征在于,包括:
虚拟数据集构建模块,用于采集虚拟相机模拟内窥镜动作时数据,构建RMIS场景下的虚拟数据集;
真实世界-模拟数据集构建模块,用于基于通过外部标定技术获取内窥镜坐标系相对于传感器坐标系的位姿,采集模拟手术操作带动内窥镜进行运动时的数据,构建RMIS场景下的真实世界-模拟数据集;
数据预处理模块,用于对所述的虚拟数据集和真实世界-模拟数据集进行数据预处理,将预处理后的虚拟数据集划分为第一训练集和第一测试集,将预处理后的真实世界-模拟数据集划分为第二训练集和第二测试集;
内窥镜位姿估计模型建立模块,用于基于编码器-解码器架构建立单编码器-双解码器的内窥镜位姿估计模型,所述内窥镜位姿估计模型包括编码器、特征跳跃连接器、语义分割解码器和位姿估计解码器;所述编码器用于提取RMIS过程中图像数据的各级特征图,所述各级特征图包含图像的不同抽象级别信息;所述特征跳跃连接器用于将编码器所提取的各级特征图送入语义分割解码器;所述语义分割解码器用于学习从特征图中恢复图像细节的能力并为位姿估计解码器提供隐式几何约束;所述位姿估计解码器用于从特征图中回归分析内窥镜的绝对位姿并输出RMIS过程中图像对应的内窥镜绝对位姿;
模型训练模块,用于采用预处理后的虚拟数据集和真实世界-模拟数据集对所述内窥镜位姿估计模型进行训练和评估,得到训练后的内窥镜位姿估计模型;
绝对位姿输出模块,用于实时采集RMIS过程中内窥镜***捕获的患者体内图像数据,并输入至训练后的内窥镜位姿估计模型,获得RMIS过程中实时图像对应的内窥镜绝对位姿数据;
相对位姿计算模块,用于基于RMIS过程中实时图像对应的内窥镜绝对位姿数据,计算RMIS过程中内窥镜的实时相对位姿。
9.一种计算机设备,其特征在于,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-7任一所述的术中内窥镜绝对与相对位姿计算的方法的步骤。
10.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1-7任一所述的术中内窥镜绝对与相对位姿计算的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410129170.3A CN117671012B (zh) | 2024-01-31 | 2024-01-31 | 术中内窥镜绝对与相对位姿计算的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410129170.3A CN117671012B (zh) | 2024-01-31 | 2024-01-31 | 术中内窥镜绝对与相对位姿计算的方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117671012A true CN117671012A (zh) | 2024-03-08 |
CN117671012B CN117671012B (zh) | 2024-04-30 |
Family
ID=90064411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410129170.3A Active CN117671012B (zh) | 2024-01-31 | 2024-01-31 | 术中内窥镜绝对与相对位姿计算的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671012B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105962879A (zh) * | 2016-04-22 | 2016-09-28 | 重庆金山科技(集团)有限公司 | 胶囊内窥镜的位姿控制***、控制方法及胶囊内窥镜 |
CN107456278A (zh) * | 2016-06-06 | 2017-12-12 | 北京理工大学 | 一种内窥镜手术导航方法和*** |
CN109288591A (zh) * | 2018-12-07 | 2019-02-01 | 微创(上海)医疗机器人有限公司 | 手术机器人*** |
CN112802185A (zh) * | 2021-01-26 | 2021-05-14 | 合肥工业大学 | 面向微创手术空间感知的内窥镜图像三维重构方法和*** |
CN112975973A (zh) * | 2021-03-02 | 2021-06-18 | 中山大学 | 一种应用于柔性机器人的混合标定方法及装置 |
CN114022527A (zh) * | 2021-10-20 | 2022-02-08 | 华中科技大学 | 基于无监督学习的单目内窥镜深度及位姿估计方法及装置 |
WO2022170562A1 (zh) * | 2021-02-10 | 2022-08-18 | 中国科学院深圳先进技术研究院 | 一种消化内镜导航方法和*** |
CN115222878A (zh) * | 2022-06-17 | 2022-10-21 | 浙江大学 | 一种应用于肺支气管镜手术机器人的场景重建方法 |
WO2023030523A1 (zh) * | 2021-09-06 | 2023-03-09 | 北京字节跳动网络技术有限公司 | 用于内窥镜的组织腔体定位方法、装置、介质及设备 |
CN115829978A (zh) * | 2022-12-13 | 2023-03-21 | 北京柏惠维康科技股份有限公司 | 内窥镜图像处理方法、装置、电子设备及计算机存储介质 |
WO2023129562A1 (en) * | 2021-12-29 | 2023-07-06 | Noah Medical Corporation | Systems and methods for pose estimation of imaging system |
CN116740170A (zh) * | 2023-05-09 | 2023-09-12 | 华中农业大学 | 一种单目内窥镜视频深度与位姿估计方法 |
CN117011381A (zh) * | 2023-08-08 | 2023-11-07 | 赫丽佰(合肥)智能科技有限公司 | 基于深度学习和立体视觉的实时手术器械位姿估计方法与*** |
CN117115448A (zh) * | 2023-10-23 | 2023-11-24 | 临沂大学 | 基于深度神经网络的图像语义分割方法、装置及设备 |
-
2024
- 2024-01-31 CN CN202410129170.3A patent/CN117671012B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105962879A (zh) * | 2016-04-22 | 2016-09-28 | 重庆金山科技(集团)有限公司 | 胶囊内窥镜的位姿控制***、控制方法及胶囊内窥镜 |
CN107456278A (zh) * | 2016-06-06 | 2017-12-12 | 北京理工大学 | 一种内窥镜手术导航方法和*** |
CN109288591A (zh) * | 2018-12-07 | 2019-02-01 | 微创(上海)医疗机器人有限公司 | 手术机器人*** |
CN112802185A (zh) * | 2021-01-26 | 2021-05-14 | 合肥工业大学 | 面向微创手术空间感知的内窥镜图像三维重构方法和*** |
WO2022170562A1 (zh) * | 2021-02-10 | 2022-08-18 | 中国科学院深圳先进技术研究院 | 一种消化内镜导航方法和*** |
CN112975973A (zh) * | 2021-03-02 | 2021-06-18 | 中山大学 | 一种应用于柔性机器人的混合标定方法及装置 |
WO2023030523A1 (zh) * | 2021-09-06 | 2023-03-09 | 北京字节跳动网络技术有限公司 | 用于内窥镜的组织腔体定位方法、装置、介质及设备 |
CN114022527A (zh) * | 2021-10-20 | 2022-02-08 | 华中科技大学 | 基于无监督学习的单目内窥镜深度及位姿估计方法及装置 |
WO2023129562A1 (en) * | 2021-12-29 | 2023-07-06 | Noah Medical Corporation | Systems and methods for pose estimation of imaging system |
CN115222878A (zh) * | 2022-06-17 | 2022-10-21 | 浙江大学 | 一种应用于肺支气管镜手术机器人的场景重建方法 |
CN115829978A (zh) * | 2022-12-13 | 2023-03-21 | 北京柏惠维康科技股份有限公司 | 内窥镜图像处理方法、装置、电子设备及计算机存储介质 |
CN116740170A (zh) * | 2023-05-09 | 2023-09-12 | 华中农业大学 | 一种单目内窥镜视频深度与位姿估计方法 |
CN117011381A (zh) * | 2023-08-08 | 2023-11-07 | 赫丽佰(合肥)智能科技有限公司 | 基于深度学习和立体视觉的实时手术器械位姿估计方法与*** |
CN117115448A (zh) * | 2023-10-23 | 2023-11-24 | 临沂大学 | 基于深度神经网络的图像语义分割方法、装置及设备 |
Non-Patent Citations (3)
Title |
---|
MIKADA T等: "Three-dimensional posture estimation of robot forceps using endoscope with convolutional neural network", 《INTERNATIONAL JOURNAL OF MEDICAL ROBOTICS AND COMPUTER ASSISTED SURGERY》, 8 January 2020 (2020-01-08), pages 1 - 9 * |
王连香;杨德伟;李耀;: "微创手术机器人的运动目标跟踪优化仿真", 计算机仿真, no. 10, 15 October 2016 (2016-10-15), pages 330 - 335 * |
郭明 等: "基于双目视觉的零件位姿测量***研究", 《机械设计与制造》, 27 September 2023 (2023-09-27), pages 145 - 149 * |
Also Published As
Publication number | Publication date |
---|---|
CN117671012B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011511652A (ja) | トラックされた超音波の自動較正のためのシステム及び方法 | |
Wu et al. | Three-dimensional modeling from endoscopic video using geometric constraints via feature positioning | |
CN113662573B (zh) | 乳腺病灶定位方法、装置、计算机设备和存储介质 | |
WO2024094227A1 (zh) | 一种基于卡尔曼滤波和深度学习的手势姿态估计方法 | |
CN113197665A (zh) | 一种基于虚拟现实的微创外科手术模拟方法、*** | |
CN108090954A (zh) | 基于图像特征的腹腔环境地图重建与腹腔镜定位的方法 | |
Menegozzo et al. | Surgical gesture recognition with time delay neural network based on kinematic data | |
CN114792326A (zh) | 一种基于结构光的手术导航点云分割与配准方法 | |
JP7189355B2 (ja) | コンピュータプログラム、内視鏡用プロセッサ、及び情報処理方法 | |
KR20240015109A (ko) | 내시경 영상 식별 방법, 전자 기기 및 저장 매체 | |
CN113657184B (zh) | 一种钢琴弹奏指法的评估方法及装置 | |
Luo et al. | Towards hybrid bronchoscope tracking under respiratory motion: evaluation on a dynamic motion phantom | |
CN111477318B (zh) | 一种用于远程操纵的虚拟超声探头跟踪方法 | |
CN117671012B (zh) | 术中内窥镜绝对与相对位姿计算的方法、装置及设备 | |
Stoyanov et al. | Intra-operative visualizations: Perceptual fidelity and human factors | |
WO2019152566A1 (en) | Systems and methods for subject specific kinematic mapping | |
Xiao et al. | Automated assessment of neonatal endotracheal intubation measured by a virtual reality simulation system | |
CN116782850A (zh) | 超声波模拟*** | |
Gong et al. | Real-time camera localization during robot-assisted telecystoscopy for bladder cancer surveillance | |
CN110837751B (zh) | 基于rgbd深度摄像头的人体运动捕捉与步态分析方法 | |
CN111882936A (zh) | 一种基于力反馈与虚拟现实的手术预演及教学*** | |
TWI756996B (zh) | 生物檢體自動採檢系統及其採檢方法和非揮發性電腦可讀記錄媒體 | |
CN115281584B (zh) | 柔性内窥镜机器人控制***及柔性内窥镜机器人模拟方法 | |
CN117103286B (zh) | 一种机械手手眼标定方法、***和可读存储介质 | |
WO2024028934A1 (ja) | 内視鏡検査支援装置、内視鏡検査支援方法、及び、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |