CN107667380A

CN107667380A - 用于内窥镜和腹腔镜导航的同时场景解析和模型融合的方法和***

Info

Publication number: CN107667380A
Application number: CN201580080670.1A
Authority: CN
Inventors: 斯特凡·克卢克纳; 阿里·卡门; 陈德仁
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2015-06-05
Filing date: 2015-06-05
Publication date: 2018-02-06
Also published as: US20180174311A1; WO2016195698A1; JP2018522622A; EP3304423A1

Abstract

公开了一种用于在腹腔镜和内窥镜2D/2.5D图像数据中进行场景解析和模型融合的方法和***。接收包括2D图像通道和2.5D深度通道的术中图像流的当前帧。在术前3D医学图像数据中分割的目标器官的3D术前模型被融合到术中图像流的当前帧中。基于目标器官的融合术前3D模型，将来自术前3D医学图像数据的语义标签信息传播到术中图像流的当前帧中的多个像素中的每个像素，从而产生用于术中图像流的当前帧的渲染标签图。语义分类器基于用于术中图像流的当前帧的渲染标签图来训练。

Description

用于内窥镜和腹腔镜导航的同时场景解析和模型融合的方法和***

技术领域

本发明涉及腹腔镜或内窥镜图像数据中的语义分割和场景解析，并且更具体地，涉及使用分割的术前图像数据在腹腔镜和内窥镜图像流中同时进行场景解析和模型融合。

背景技术

在微创外科手术期间，图像序列为经采集以引导外科手术的腹腔镜或内窥镜图像。可以采集多个2D/2.5D图像并将其拼接在一起以生成所观察到的关注器官的3D模型。然而，由于摄像头和器官移动的复杂性，精确的3D拼接是具有挑战性的，因为这种3D拼接需要对腹腔镜或内窥镜图像序列的连续帧之间的对应关系进行稳健的估算。

发明内容

本发明提供一种用于使用分割术前图像数据在术中图像流如腹腔镜或内窥镜图像流中同时进行场景解析和模型融合的方法和***。本发明的实施方式利用目标器官的术前和术中模型的融合来促进采集术中图像流的采集帧的特定场景语义信息。本发明的实施方式自动地将来自术前图像数据的语义信息传播到术中图像流的各个帧，并且随后可以使用具有语义信息的帧来训练用于执行对输入的术中图像的语义分割的分类器。

在本发明的一个实施方式中，接收包括2D图像通道和2.5D深度通道的术中图像流的当前帧。在术前3D医学图像数据中分割的目标器官的3D术前模型被融合到术中图像流的当前帧中。基于目标器官的融合术前3D模型，将来自术前3D医学图像数据的语义标签信息传播到术中图像流的当前帧中的多个像素中的每个像素，从而产生用于术中图像流的当前帧的渲染标签图。语义分类器基于用于术中图像流的当前帧的渲染标签图来训练。

通过参考下面的详细描述和附图，本发明的这些和其它优点对于本领域的普通技术人员应是显而易见的。

附图说明

图1示出了根据本发明实施方式的使用3D术前图像数据在术中图像流中进行场景解析的方法；

图2示出了根据本发明实施方式的将3D术前医学图像数据刚性配准到术中图像流的方法；

图3示出了肝脏的示例性扫描和通过肝脏扫描产生的对应2D/2.5D帧；以及

图4为能够实现本发明的计算机的高级框图。

具体实施方式

本发明涉及一种使用分割的术前图像数据在腹腔镜和内窥镜图像数据中同时进行模型融合和场景解析的方法和***。本文描述了本发明的实施方式以给出用于模型融合和场景解析术中图像数据如腹腔镜和内窥镜图像数据的方法的视觉理解。数字图像往往由一个或多个对象(或形状)的数字表示组成。对象的数字表示往往在本文中根据识别和操纵对象来描述。此类操纵为在计算机***的存储器或其它电路/硬件中完成的虚拟操纵。因此，应理解，可以使用存储在计算机***内的数据在计算机***内执行本发明的实施方式。

图像的语义分割着重于提供关于定义的语义标签的图像域中的每个像素的解释。由于像素级分割，图像中的对象边界被精确地捕获。由于视觉外观、三维形状、采集设置和场景特征的变化，学***台。

根据本发明的实施方式，在采集的腹腔镜/内窥镜RGB-D(红色、绿色、蓝色光学和计算的2.5D深度图)流中执行自动化的和同时的场景解析和模型融合。这使得能够基于分割的术前医学图像数据来采集用于采集的视频帧的场景特定的语义信息。考虑到模态的基于生物力学的非刚性对准，使用逐帧模式将语义信息自动传播到光学表面成像(即，RGB-D流)。这支持在临床手术期间的视觉导航和自动化识别，并提供用于报告和文档编制的重要信息，因为冗余信息可以被简化为重要信息，例如示出相关解剖结构或提取内窥镜采集的关键视图的关键帧。本文描述的方法可以用交互式响应时间来实现，并因此可以在外科手术期间实时或接近实时地执行。应理解，术语“腹腔镜图像”和“内窥镜图像”在本文中可互换使用，并且术语“内窥镜图像”是指在外科手术或介入期间采集的任何医学图像数据，包括腹腔镜图像和内窥镜图像。

图1示出根据本发明实施方式的使用3D术前图像数据在术中图像流中进行场景解析的方法。图1的方法变换术中图像流的帧以对所述帧执行语义分割以便生成语义标记的图像并训练用于语义分割的基于机器学习的分类器。在示例性实施方式中，图1的方法可以用于在肝脏的术中图像序列的帧中执行场景解析以用于引导对肝脏的外科手术，如肝切除以从肝脏去除肿瘤或病变，在术前3D医学图像体积中使用基于肝脏的分割3D模型的模型融合。

参考图1，在步骤102，接收患者的术前3D医学图像数据。术前3D医学图像数据在外科手术之前采集。3D医学图像数据可以包括3D医学图像体积，其可以使用任何成像模态如计算机断层扫描(CT)、磁共振(MR)或正电子发射断层扫描(PET)来采集。术前3D医学图像体积可以从图像采集装置如CT扫描仪或MR扫描仪直接接收，或者可以通过从计算机***的存储器或储存器加载预先存储的3D医学图像体积来接收。在可能的实施方式中，在术前计划阶段，术前3D医学图像体积可以使用图像采集装置采集并将其存储在计算机***的存储器或储存器中。然后可以在外科手术期间从存储器或储存器***加载术前3D医学图像。

术前3D医学图像数据还包括目标解剖对象如目标器官的分割3D模型。术前3D医学图像体积包括目标解剖学对象。在有利的实施方式中，目标解剖对象可以为肝脏。与术中图像如腹腔镜和内窥镜图像相比，术前体积成像数据可以提供目标解剖对象的更详细的视图。目标解剖对象和可能的其它解剖对象在术前3D医学图像体积中被分割。可以使用任何分割算法从术前成像数据中分割出表面目标(例如，肝脏)、关键结构(例如，门静脉、肝脏***、胆道)和其它目标(例如，原发性和转移性肿瘤)。3D医学图像体积中的每个体素可以用对应于分割的语义标签进行标记。例如，所述分割可以为二维分割，其中3D医学图像中的每个体素被标记为前景(即，目标解剖结构)或背景，或者所述分割可以具有对应于多个解剖对象的多个语义标签以及背景标签。例如，分割算法可以为基于机器学习的分割算法。在一个实施方式中，可以采用基于边缘空间学习(MSL)的框架，例如，使用在题为“system andMethod for Segmenting Chambers of a Heart in a Three Dimensional Image(用于在三维图像中分割心脏的***和方法)”的美国专利号7,916,919中描述的方法，该专利的全部内容通过引用并入本文。在另一个实施方式中，可以使用半自动分割技术，例如图形切割或随机沃克分割。响应于从图像采集装置接收到3D医学图像体积，可以在3D医学图像体积中对目标解剖对象进行分割。在可能的实施方式中，患者的目标解剖对象在外科手术之前进行分割并将其存储在计算机***的存储器或储存器中，然后在外科手术开始或外科手术期间，从计算机***的存储器或储存器加载目标解剖对象的分割的3D模型。

在步骤104，接收术中图像流。术中图像流也可以被称为视频，其中每个视频帧为术中图像。例如，术中图像流可以为经由腹腔镜采集的腹腔镜图像流或经由内窥镜采集的内窥镜图像流。根据有利的实施方式，术中图像流的每个帧为2D/2.5D图像。也就是说，术中图像序列的每个帧包括提供用于多个像素中的每个像素的2D图像外观信息的2D图像通道和提供对应于2D图像通道中的多个像素中的每个像素的深度信息的2.5D深度通道。例如，术中图像序列的每一帧可以为RGB-D(红、绿、蓝+深)图像，其包括RGB图像和深度图像(深度图)，在所述RGB图像中，每个像素具有RGB值，在所述深度图中，每个像素的值对应于所考虑像素距图像采集装置(例如，腹腔镜或内窥镜)的摄像头中心的深度或距离。可以注意到，深度数据表示较小尺度的3D点云。用于采集术中图像的术中图像采集装置(例如，腹腔镜或内窥镜)可以配备有摄像头或摄像机以采集每个时间帧的RGB图像以及飞行时间或结构化的光传感器以采集每个时间帧的深度信息。术中图像流的帧可以从图像采集装置直接接收。例如，在有利的实施方式中，术中图像流的帧可以在它们被术中图像采集装置采集时实时接收。另选地，通过加载先前采集的存储在计算机***的存储器或储存器中的术中图像，可以接收术中图像序列的帧。

在步骤106，在3D术前医学图像数据和术中图像流之间执行初始刚性配准。初始刚性配准将术前医学图像数据中的目标器官的分割3D模型与从术中图像流的多个帧生成的目标器官的拼接3D模型对准。图2示出根据本发明实施方式的将3D术前医学图像数据刚性配准到术中图像流的方法。图2的方法可以用来实现图1的步骤106。

参考图2，在步骤202，接收术中图像流的多个初始帧。根据本发明的实施方式，术中图像流的初始帧可以由使用者(例如，医生、临床医生等)通过使用图像采集装置(例如，腹腔镜或内窥镜)执行对目标器官的完整扫描来采集。在此情况下，在术中图像采集装置连续采集图像(帧)时，使用者移动术中图像采集装置，使得术中图像流的帧覆盖目标器官的整个表面。这可以在外科手术开始时执行以获得目标器官在当前变形的完整图像。因此，术中图像流的多个初始帧可以用于术前3D医学图像数据到术中图像流的初始配准，然后术中图像流的后续帧可以用于外科手术的场景解析和引导。图3示出肝脏的示例性扫描和通过肝脏扫描产生的对应2D/2.5D帧。如图3所示，图像300示出肝脏的示例性扫描，其中，腹腔镜被定位在多个位置302、304、306、308和310，并且采集腹腔镜相对于肝脏312取向的每个位置和肝脏312的对应的腹腔镜图像(帧)。图像320示出具有RGB通道322和深度通道324的腹腔镜图像序列。腹腔镜图像序列320的每个帧326、328和330分别包括RGB图像326a、328a和330a以及对应的深度图像326b、328b和330b。

返回图2，在步骤204，执行3D拼接程序以将术中图像流的初始帧拼接在一起以形成目标器官的术中3D模型。3D拼接程序匹配各个帧以便估算具有重叠图像区域的对应帧。然后可以通过成对计算在这些对应的帧之间确定相对姿态的假设。在一个实施方式中，基于对应的2D图像测量和/或界标来估算对应帧之间的相对姿态的假设。在另一个实施方式中，基于可用的2.5D深度信道来估算对应帧之间的相对姿态的假设。也可以采用用于计算对应帧之间的相对姿态的假设的其它方法。然后，通过将在对应的3D点之间的3D距离最小化以最小化像素空间或度量3D空间中的2D重投影误差，3D拼接程序可以应用后续的束调整步骤来优化该组估算的相对姿态假设中的最终几何结构，以及相对于在2D图像域中定义的误差度量的初始摄像头姿态。在优化之后，在标准的世界坐标系中表示采集的帧和它们的计算的摄像头姿态。3D拼接程序将2.5D深度数据拼接成标准世界坐标系中的目标器官的高质量和密集的术中3D模型。目标器官的术中3D模型可以被表示为表面网格或者可以被表示为3D点云。术中3D模型包括目标器官的详细的纹理信息。可以执行另外的处理步骤，以使用例如已知的基于3D三角测量的表面网格化程序来创建术中图像数据的视觉印象。

在步骤206，术前3D医学图像数据中的目标器官(术前3D模型)的分割3D模型被刚性地配准到目标器官的术中3D模型。执行初步刚性配准，以将目标器官的分割的术前3D模型和通过3D拼接程序生成的目标器官的术中3D模型对准到共同的坐标系中。在一个实施方式中，通过识别术前3D模型和术中3D模型之间的三个或更多个对应关系来执行配准。对应关系可以基于解剖界标手动识别，或者通过确定在术前模型214和术中模型的2D/2.5D深度图两者中识别的唯一关键点(突出点)来半自动地识别。也可以采用其它配准方法。例如，更复杂的全自动配准方法包括通过探测器208的外部跟踪，其通过将探测器208的跟踪***先验地配准术前成像数据的坐标系(例如，通过术中解剖学扫描或一组共同的基准点)。在有利的实施方式中，一旦目标器官的术前3D模型被刚性地配准到目标器官的术中3D模型，则纹理信息被从目标器官的术中3D模型映射到术前3D模型来生成目标器官的纹理映射3D术前模型。所述映射可以通过将变形的术前3D模型表示为图结构来执行。在变形的术前模型上可见的三角面对应于图的节点，并且相邻面(例如，共享两个共同顶点)通过边缘连接。节点被标记(例如，颜色提示或语义标签图)，并且纹理信息基于标记被映射。在2015年4月29日提交的题为“System and Method for Guidance of Laparoscopic SurgicalProcedures through Anatomical Model Augmentation(用于通过解剖模型增强引导腹腔镜外科手术的***和方法)”的国际专利申请号PCT/US2015/28120中描述了关于纹理信息的映射的另外的细节，该专利申请的全部内容通过引用并入本文。

返回到图1，在步骤108，使用目标器官的计算生物力学模型将术前3D医学图像数据与术中图像流的当前帧对准。该步骤将目标器官的术前3D模型融合到术中图像流的当前帧。根据有利的实施方式，生物力学计算模型被用于使目标器官的分割的术前3D模型变形，以使术前3D模型与当前帧的捕获的2.5D深度信息对准。执行逐帧非刚性配准可处理呼吸等自然运动，还可处理运动相关的外观变化如阴影和反射。基于生物力学模型的配准使用当前帧的深度信息自动估算术前3D模型与当前帧中的目标器官之间的对应关系，并且针对每个识别的对应关系导出偏差的模式。偏差模式编码或表示在每个识别的对应关系中在术前模型与当前帧中的目标器官之间的空间分布的对准误差。将偏差模式转换为局部一致力的3D区域，这使用目标器官的计算生物力学模型引导术前3D模型的变形。在一个实施方式中，可以通过执行归一化或加权概念将3D距离转换为力。

目标器官的生物力学模型可以基于机械组织参数和压力水平来模拟目标器官的变形。为了将该生物力学模型并入配准框架中，参数与用于调整模型参数的相似性度量相匹配。在一个实施方式中，生物力学模型将目标器官表示为均匀线性弹性固体，其运动由弹性动力学方程控制。可以使用几种不同的方法来求解这个方程。例如，可以使用总拉格朗日显式动力学(TLED)有限元算法来计算在术前3D模型中定义的四面体元素的网格。生物力学模型使网格元素变形并且通过使组织的弹性能量最小化基于上述的局部一致的力的区域来计算术前3D模型的网格点的位移。将生物力学模型与相似性度量结合，以将生物力学模型包括在配准框架中。在这方面，通过优化术中图像流的当前帧内的目标器官与变形的术前3D模型之间的对应关系之间的相似性，迭代地更新生物力学模型参数，直到模型收敛(即，当运动模型已经达到与目标模型相似的几何结构时)。因此，生物力学模型提供与当前帧中的目标器官的变形一致的术前模型的物理学上可靠的变形，其目标是最小化术中聚集的点与变形的术前3D模型之间的逐点距离度量。虽然本文相对于弹性动力学方程描述了目标器官的生物力学模型，但是应理解，可以采用其它结构模型(例如，更复杂的模型)来考虑目标器官的内部结构的动态。例如，目标器官的生物力学模型可以表示为非线性弹性模型、粘性效应模型或非均质材料特性模型。也可以考虑其它模型。基于生物力学模型的配准在2015年4月29日提交的题为“System and Method for Guidance of LaparoscopicSurgical Procedures through Anatomical Model Augmentation(用于通过解剖模型增强引导腹腔镜外科手术的***和方法)”的国际专利申请号PCT/US2015/28120中进一步描述，该专利申请的全部内容通过引用并入本文。

在步骤110，将语义标签从3D术前医学图像数据传播到术中图像流的当前帧。使用分别在步骤106和108中计算的刚性配准和非刚性变形，可以估算光学表面数据和基础几何信息之间的精确关系，并因此可以通过模型融合将语义标注和标签可靠地从术前3D医学图像数据提供给术中图像序列的当前图像域。对于这一步骤，目标器官的术前3D模型被用于模型融合。3D表示使得能够估算密集的2D到3D对应关系，并且反之亦然，这意味着对于术中图像流的特定2D帧中的每个点，可以在术前3D医学图像数据中准确地访问对应的信息。因此，通过使用术中流的RGB-D帧的计算姿态，视觉、几何和语义信息可以从术前3D医学图像数据传播到术中图像流的每个帧中的每个像素。然后使用在术中图像流的每个帧与标记的术前3D医学图像数据之间建立的链接来生成初始标记的帧。也就是说，通过使用刚性配准和非刚性变形来变换术前3D医学图像数据，将目标器官的术前3D模型与术中图像流的当前帧融合。一旦术前3D医学图像数据被对准以将目标器官的术前3D模型与当前帧融合，则使用基于渲染或类似可见性检查的技术(例如，AABB树或基于Z缓冲区的渲染)在术前3D医学图像数据中定义对应于当前帧的2D投影图像，以及2D投影图像中的每个像素位置的语义标签(以及视觉和几何信息)被传播到当前帧中的对应像素，从而产生当前和对准的2D帧的渲染标签图。

在步骤112，基于当前帧中传播的语义标签更新初始训练的语义分类器。基于当前帧中传播的语义标签，经训练的语义分类器利用当前帧的特定场景外观和2.5D深度线索进行更新。语义分类器通过从当前帧中选择训练样本并且利用包括在用于重新训练语义分类器的训练样本池中的当前帧的训练样本重新训练语义分类器来更新。语义分类器可以使用在线监督学习技术或快速学习者如随机森林进行训练。基于当前帧的传播的语义标签，从当前帧采样来自每个语义类别(例如，目标器官和背景)的新的训练样本。在可能的实施方式中，在该步骤的每次迭代中，可以针对当前帧中的每个语义类别随机地采样预定数量的新的训练样本。在另一个可能的实施方式中，可以在该步骤的第一次迭代中针对当前帧中的每个语义类别随机地采样预定数量的新训练样本，并且可以使用在先前迭代中训练的语义分类器通过选择不正确分类器的像素在每个后续迭代中选择训练样本。

从当前帧中的每个新训练样本周围的图像块中提取统计图像特征，并且使用图像块的特征矢量来训练分类器。根据有利的实施方式，统计图像特征从当前帧的2D图像通道和2.5D深度通道中提取。统计图像特征可以用于这种分类，因为它们捕获图像数据的集成的低级特征层之间的方差和协方差。在有利的实施方式中，当前帧的RGB图像的颜色通道和来自当前帧的深度图像的深度信息被集成在每个训练样本周围的图像块中，以便计算直到二阶的统计值(即，均值和方差/协方差)。例如，可以针对每个单独的特征通道计算如图像块中的均值和方差的统计值，并且可以通过考虑通道对来计算图像块中的每对特征通道之间的协方差。具体地，涉及的通道之间的协方差提供了区分能力，例如在肝脏分割中，其中纹理和颜色之间的相关性有助于区分来自周围胃区域的可见肝脏片段。根据深度信息计算的统计特征提供了与当前图像中的表面特征相关的附加信息。除了RGB图像的颜色通道和来自深度图像的深度数据之外，RGB图像和/或深度图像可以通过各种滤波器进行处理，并且滤波器响应也可以被整合并用于计算额外的统计特征(例如，均值、方差、协方差)。例如，求导滤波器、滤波器组等的滤波器。例如，除了对纯RGB值进行操作之外，还可以使用任何种类的滤波(例如，求导滤波器、滤波器组等)。可以使用整体结构并且例如使用大规模并行架构如图形处理单元(GPU)或通用GPU(GPGPU)来高效地计算统计特征，这允许交互式响应时间。以特定像素为中心的图像块的统计特征被组合到特征矢量中。像素的矢量化特征描述符描述以该像素为中心的图像块。在训练期间，向特征矢量分配从术前3D医学图像数据传播到对应像素并用于训练基于机器学习的分类器的语义标签(例如，肝像素对背景)。在有利的实施方式中，基于训练数据来训练随机决策树分类器，但是本发明不限于此，并且也可以使用其它类型的分类器。经训练的分类器被存储在例如计算机***的存储器或储存器中。

尽管步骤112在本文中被描述为更新经训练的语义分类器，但是应理解，该步骤还可以被实现为在新的训练数据集合变为可用时使已经建立的经训练的语义分类器适应新的训练数据集合(即，每个当前帧)或者针对一个或多个语义标签的新的语义分类器启动训练阶段。在新的语义分类器正在训练的情况下，语义分类器可以首先使用一个帧进行训练，或者另选地，可以对多个帧执行步骤108和110以累积更多数量的训练样本，然后语义分类器可以使用从多个帧中提取的训练样本进行训练。

在步骤114，使用经训练的语义分类器对术中图像流的当前帧进行语义分割。也就是说，最初采集的当前帧使用在步骤112中更新的经训练的语义分类器来分割。如上文在步骤112中所述，为了执行术中图像序列的当前帧的语义分割，针对当前帧的每个像素周围的图像块提取统计特征的特征矢量。经训练的分类器评估与每个像素相关联的特征矢量并计算每个像素的每个语义对象分类的概率。基于所计算的概率，还可以将标签(例如，肝脏或背景)分配给每个像素。在一个实施方式中，经训练的分类器可以为仅具有目标器官或背景的两个对象类别的二元分类器。例如，经训练的分类器可以计算每个像素作为肝脏像素的概率，并且基于所计算的概率将每个像素分类为肝脏或背景。在另选的实施方式中，经训练的分类器可以为多分类器，其计算每个像素为与多个不同解剖结构相对应的多个类别以及背景的概率。例如，随机森林分类器可以经训练将像素分割成胃、肝脏和背景。

在步骤116，确定当前帧是否满足停止标准。在一个实施方式中，将使用经训练的分类器进行语义分割所产生的当前帧的语义标签图与从术前3D医学图像数据传播的当前帧的标签图进行比较，并且当使用经训练的语义分类器进行语义分割所产生的标签图向从术前3D医学图像数据传播的标签图收敛(即，标签图中的分割的目标器官之间的误差小于阈值)时，满足停止标准。在另一个实施方式中，将在当前迭代使用经训练的分类器进行语义分割所产生的当前帧的语义标签图与在先前迭代使用经训练的分类器进行语义分割所产生的标签图进行比较，并且在来自当前和之前迭代的标签图中的分割的目标器官的姿态变化小于阈值时，则满足停止标准。在另一个可能的实施方式中，当执行步骤112和114的预定最大次数的迭代时，满足停止标准。如果确定不满足停止标准，则该方法返回步骤112，并从当前帧中提取更多训练样本并再次更新经训练的分类器。在一种可能的实施方式中，当步骤112被重复时，在步骤114中由经训练的语义分类器错误地分类的当前帧中的像素被选择为训练样本。如果确定满足停止标准，则该方法进行到步骤118。

在步骤118，输出语义分割的当前帧。例如，通过在计算机***的显示装置上显示由经训练的语义分类器产生的语义分割结果(即，标签图)和/或由模型融合产生的语义分割结果以及来自术前3D医学图像数据的语义标签传播，可以输出语义分割的当前帧。在一种可能的实施方式中，在当前帧被显示在显示装置上时，术前3D医学图像数据，并且特别是目标器官的术前3D模型可以被覆盖在当前帧上。

在有利的实施方式中，可以基于当前帧的语义分割来生成语义标签图。一旦使用经训练的分类器计算每个语义类别的概率并且每个像素被标记有语义类别，则可以使用基于图表的方法来完善关于RGB图像结构如器官边界的像素标记，同时考虑到每个语义类别的每个像素的置信度(概率)。基于图表的方法可以基于条件随机场公式(CRF)，其使用针对当前帧中的像素计算的概率以及使用另一分割技术在当前帧中提取的器官边界来完善当前帧中的像素标记。生成表示当前帧的语义分割的图。该图包括多个节点和连接节点的多个边缘。该图的节点表示当前帧中的像素以及每个语义类别的对应置信度。边缘的权重从对2.5D深度数据和2D RGB数据执行的边界提取程序导出。基于图的方法将节点分组成代表语义标签的组，并且找到所述节点的最佳分组以使基于每个节点的语义类别概率和连接节点的边缘权重的能量函数最小化，所述能量函数充当连接穿过提取的器官边界的节点的惩罚函数。这产生当前帧的完善语义图，所述完善语义图可以在计算机***的显示装置上显示。

在步骤120，针对术中图像流的多个帧重复步骤108-118。因此，对于每个帧，目标器官的术前3D模型与该帧融合，并且使用从术前3D医学图像数据传播到该帧的语义标签更新(重新训练)经训练的语义分类器。预定数量的帧可以重复这些步骤，或者直到经训练的语义分类器收敛。

在步骤122，使用经训练的语义分类器对术中图像流的附加采集的帧执行语义分割。经训练的语义分类器也可以用于在不同术中图像序列的帧中执行语义分割，例如在针对患者的不同外科手术或针对不同患者的外科手术中。在[西门子参考文献第201424415号-我将填写必要的信息]中描述了关于使用经训练的语义分类器对术中图像进行语义分割的附加细节，该参考文献的全部内容通过引用并入本文。由于冗余图像数据被捕获并用于3D拼接，因此所生成的语义信息可以使用2D-3D对应关系与术前3D医学图像数据进行融合和验证。

在可能的实施方式中，可以采集与目标器官的完整扫描对应的术中图像序列的附加帧，并且可以对每个帧执行语义分割，并且语义分割的结果可以用于引导3D拼接这些帧以生成目标器官的更新的术中3D模型。3D拼接可以通过基于不同帧中的对应关系将各个帧彼此对准来执行。在有利的实施方式中，可以使用语义分割的帧中的目标器官的像素的连接区域(例如，肝像素的连接区域)来估算帧之间的对应关系。因此，可以基于帧中目标器官的语义分割的连接区域通过将多个帧拼接在一起来生成目标器官的术中3D模型。拼接的术中3D模型可以在语义上用每个考虑的对象类别的概率来充实，其被从用于生成3D模型的拼接帧的语义分割结果映射到3D模型。在示例性实施方式中，概率图可被用于通过将类别标签分配给每个3D点来给3D模型“着色”。这可以通过使用从拼接过程已知的3D到2D投影的快速查找来完成。然后可以基于类别标签将颜色分配给每个3D点。该更新的术中3D模型可以比用于在术前3D医学图像数据与术中图像流之间执行刚性配准的初始术中3D模型更精确。因此，可以重复步骤106以使用更新的术中3D模型来执行刚性配准，然后可以对术中图像流的新的一组帧重复步骤108-120，以便进一步更新经训练的分类器。该序列可以被重复以迭代地改善术中图像流与术前3D医学图像数据之间的配准精度以及经训练分类器的准确性。

腹腔镜和内窥镜成像数据的语义标记以及分割到各个器官中可能是耗时的，因为对于各种观点需要准确的注释。上述方法利用标记的术前医学图像数据，其可以从应用于CT、MR、PET等的高度自动化的3D分割程序中获得。通过将模型融合到腹腔镜和内窥镜成像数据，基于机器学习的语义分类器可以被训练用于腹腔镜和内窥镜成像数据，而不需要预先标记图像/视频帧。训练用于场景解析(语义分割)的通用分类器是具有挑战性的，因为在形状、外观、纹理等中发生真实世界的变化。上述方法利用特定患者或场景信息，所述特定患者或场景信息在采集和导航期间动态学习。此外，获得融合的信息(RGB-D和术前体积数据)及其关系使得能够在外科手术的导航期间有效呈现语义信息。通过使融合信息(RGB-D和术前体积数据)可用及其在语义层面上的关系，也可以高效地解析用于报告和文档编制的信息。

用于术中图像流中的场景解析和模型融合的上述方法可以使用公知的计算机处理器、存储器单元、存储装置、计算机软件和其它部件在计算机上实现。图4中示出此计算机的高级框图。计算机402包含处理器404，其通过执行定义此类操作的计算机程序指令来控制计算机402的整体操作。当期望执行计算机程序指令时，计算机程序指令可以被存储在存储装置412(例如，磁盘)中并被加载到存储器410中。因此，图1和2的方法的步骤可以由存储在存储器410和/或存储412中的计算机程序指令来定义，并且由执行计算机程序指令的处理器404来控制。图像采集装置420如腹腔镜、内窥镜、CT扫描仪、MR扫描仪、PET扫描仪等可以连接到计算机402以将图像数据输入到计算机402。图像采集装置420和计算机402可以通过网络进行无线通信。计算机402还包括用于经由网络与其它装置通信的一个或多个网络接口406。计算机402还包括使使用者能够与计算机402(例如，显示器、键盘、鼠标、扬声器、按钮等)交互的其它输入/输出装置408。此类输入/输出装置408可以与一组计算机程序一起用作注释工具以注释从图像采集装置420接收到的体积。本领域的技术人员应认识到，实际的计算机的实施方式也可以包含其它部件，并且为了说明的目的，图4为这种计算机的一些部件的高级表示。

前面的详细描述应理解为在每个方面都是说明性的和示例性的而不是限制性的，并且本文公开的本发明的范围不是从详细描述确定，而是根据专利法允许的全部范围来解释。应理解，本文所示出和描述的实施方式仅仅是对本发明原理的说明，并且在不脱离本发明的范围和精神的情况下，本领域的技术人员可以实现各种修改。本领域的技术人员可以在不脱离本发明的范围和精神的情况下实现各种其它的特征组合。

Claims

1.一种用于在术中图像流中进行场景解析的方法，包括：

接收包括2D图像通道和2.5D深度通道的术中图像流的当前帧；

将在术前3D医学图像数据中分割的目标器官的3D术前模型融合到所述术中图像流的所述当前帧；

基于所述目标器官的所述融合术前3D模型，将来自所述术前3D医学图像数据的语义标签信息传播到所述术中图像流的所述当前帧中的多个像素中的每个像素，从而产生所述术中图像流的所述当前帧的渲染标签图；以及

基于用于所述术中图像流的所述当前帧的所述渲染标签图来训练语义分类器。

2.根据权利要求1所述的方法，其中，将在术前3D医学图像数据中分割的目标器官的3D术前模型融合到所述术中图像流的所述当前帧包括：

在所述术前3D医学图像数据与所述术中图像流之间执行初始非刚性配准；以及

使用所述目标器官的计算生物力学模型使所述目标器官的所述3D术前模型变形以将所述术前3D医学图像数据与所述术中图像流的所述当前帧对准。

3.根据权利要求2所述的方法，其中，在所述术前3D医学图像数据与所述术中图像流之间执行初始非刚性配准包括：

拼接所述术中图像流的多个帧以生成所述目标器官的3D术中模型；以及

在所述目标器官的所述3D术前模型与所述目标器官的所述3D术中模型之间执行刚性配准。

4.根据权利要求2所述的方法，其中，使用所述目标器官的计算生物力学模型使所述目标器官的所述3D术前模型变形以将所述术前3D医学图像数据与所述术中图像流的所述当前帧对准包括：

使用所述目标器官的所述计算生物力学模型使所述目标器官的所述3D术前模型变形，以将所述术前3D医学图像数据与所述术中图像流的所述当前帧的所述2.5D深度通道中的深度信息对准。

5.根据权利要求2所述的方法，其中，使用所述目标器官的计算生物力学模型使所述目标器官的所述3D术前模型变形以将所述术前3D医学图像数据与所述术中图像流的所述当前帧对准包括：

估算所述目标器官的所述3D术前模型与所述当前帧中的所述目标器官之间的对应关系；

根据所述对应关系估算所述目标器官上的力；以及

使用所述目标器官的所述计算生物力学模型基于估算的力来模拟所述目标器官的所述3D术前模型的变形。

6.根据权利要求1所述的方法，其中，基于所述目标器官的所述融合术前3D模型，将来自所述术前3D医学图像数据的语义标签信息传播到所述术中图像流的所述当前帧中的多个像素中的每个像素，从而产生所述术中图像流的所述当前帧的渲染标签图包括：

基于所述目标器官的所述融合术前3D模型，将所述术前3D医学图像数据与所述术中图像流的所述当前帧对准；

基于所述当前帧的姿态来估算对应于所述术中图像流的所述当前帧的所述3D医学图像数据中的投影图像；以及

通过将来自所述3D医学图像数据中的所述估算的投影图像中的多个像素位置中的每个像素位置的语义标签传播到所述术中图像流的所述当前帧中的所述多个像素中的对应像素术中来渲染所述术中图像流的所述当前帧的渲染标签图。

7.根据权利要求1所述的方法，其中，基于用于所述术中图像流的所述当前帧的所述渲染标签图来训练语义分类器的过程包括：

基于用于所述术中图像流的所述当前帧的所述渲染标签图来更新经训练的语义分类器。

8.根据权利要求1所述的方法，其中，基于用于所述术中图像流的所述当前帧的所述渲染标签图来训练语义分类器包括：

针对所述术中图像流的所述当前帧，在所述渲染标签图中的一个或多个经标记的语义类别中的每个语义类别中对所述训练样本进行采样；以及

针对所述术中图像流的所述当前帧，基于所述渲染标签图中的所述一个或多个经标记的语义类别中的每个语义类别中的所述训练样本来训练所述语义分类器。

9.根据权利要求8所述的方法，其中，针对所述术中图像流的所述当前帧，基于所述渲染标签图中的所述一个或多个经标记的语义类别中的每个语义类别中的所述训练样本来训练所述语义分类器的过程包括：

从所述术中图像流的所述当前帧中的每个训练样本周围的对应图像块中的所述2D图像通道和所述2.5D深度通道提取统计特征；以及

针对每个训练样本以及与所述渲染标签图中的每个训练样本相关联的语义标签，基于所提取的统计特征来训练所述语义分类器。

10.根据权利要求8所述的方法，还包括：

使用经训练的语义分类器对所述术中图像流的所述当前帧执行语义分割。

11.根据权利要求10所述的方法，还包括：

将使用所述经训练的分类器对所述当前帧执行语义分割所产生的标签图与用于所述当前帧的所述渲染标签图进行比较；以及

使用从所述一个或多个语义类别中的每个语义类别中采样的附加训练样本重复所述语义分类器的训练，并且使用所述经训练的语义分类器执行所述语义分割，直到使用所述经训练的分类器对所述当前帧执行语义分割产生的所述标签图收敛于所述当前帧的所述渲染标签图。

12.根据权利要求11所述的方法，其中，所述附加训练样本选自在使用所述经训练的分类器对所述当前帧执行语义分割所产生的所述标签图中被错误分类的所述术中图像流的所述当前帧中的像素。

13.根据权利要求10所述的方法，还包括：

使用从所述一个或多个语义类别中的每个语义类别采样的附加训练样本重复所述语义分类器的训练，并且使用所述经训练的语义分类器执行所述语义分割，直到所述目标器官的姿态收敛在使用所述经训练的分类器对所述当前帧执行语义分割所产生的所述标签图中。

14.根据权利要求1所述的方法，还包括：

针对所述术中图像流的一个或多个后续帧中的每个后续帧，重复所述接收、融合、传播和训练步骤。

15.根据权利要求1所述的方法，还包括：

接收所述术中图像流的一个或多个后续帧；以及

使用所述经训练的语义分类器在所述术中图像流的所述一个或多个后续帧中的每个后续帧中执行语义分割。

16.根据权利要求15所述的方法，还包括：

基于所述术中图像流的所述一个或多个后续帧中的每个后续帧的所述语义分割结果，拼接所述术中图像流的所述一个或多个后续帧以生成所述目标器官的术中3D模型。

17.一种用于在术中图像流中进行场景解析的设备，包括：

用于接收包括2D图像通道和2.5D深度通道的术中图像流的当前帧的装置；

用于将在术前3D医学图像数据中分割的目标器官的3D术前模型融合到所述术中图像流的所述当前帧的装置；

用于基于所述目标器官的所述融合术前3D模型，将来自所述术前3D医学图像数据的语义标签信息传播到所述术中图像流的所述当前帧中的多个像素中的每个像素，从而产生所述术中图像流的所述当前帧的渲染标签图的装置；以及

用于基于所述术中图像流的所述当前帧的所述渲染标签图来训练语义分类器的装置。

18.根据权利要求17所述的设备，其中，所述用于将在术前3D医学图像数据中分割的目标器官的3D术前模型融合到所述术中图像流的所述当前帧的装置包括：

用于在所述术前3D医学图像数据与所述术中图像流之间执行初始非刚性配准的装置；以及

用于使用所述目标器官的计算生物力学模型使所述目标器官的所述3D术前模型变形以将所述术前3D医学图像数据与所述术中图像流的所述当前帧对准的装置。

19.根据权利要求17所述的设备，其中，所述用于基于所述术中图像流的所述当前帧的所述渲染标签图来训练语义分类器的装置包括：

用于基于所述术中图像流的所述当前帧的所述渲染标签图来更新经训练的语义分类器的装置。

20.根据权利要求17所述的设备，其中，所述用于基于所述术中图像流的所述当前帧的所述渲染标签图来训练语义分类器的装置包括：

用于针对所述术中图像流的所述当前帧，在所述渲染标签图中的一个或多个经标记的语义类别中的每个语义类别中对所述训练样本进行采样的装置；以及

用于针对所述术中图像流的所述当前帧，基于所述渲染标签图中的所述一个或多个经标记的语义类别中的每个语义类别中的所述训练样本来训练所述语义分类器的装置。

21.根据权利要求20所述的设备，其中，用于针对所述术中图像流的所述当前帧，基于所述渲染标签图中的所述一个或多个经标记的语义类别中的每个语义类别中的所述训练样本来训练所述语义分类器的装置包括：

用于从所述术中图像流的所述当前帧中的每个训练样本周围的对应图像块中的所述2D图像通道和所述2.5D深度通道提取统计特征的装置；以及

用于针对每个训练样本以及与所述渲染标签图中的每个训练样本相关联的语义标签，基于所提取的统计特征来训练所述语义分类器的装置。

22.根据权利要求20所述的设备，还包括：

用于使用经训练的语义分类器对所述术中图像流的所述当前帧执行语义分割的装置。

23.根据权利要求17所述的设备，还包括：

用于接收所述术中图像流的一个或多个后续帧的装置；以及

用于使用所述经训练的语义分类器在所述术中图像流的所述一个或多个后续帧中的每个后续帧中执行语义分割的装置。

24.根据权利要求23所述的设备，还包括：

用于基于所述术中图像流的所述一个或多个后续帧中的每个后续帧的所述语义分割结果，拼接所述术中图像流的所述一个或多个后续帧以生成所述目标器官的术中3D模型的装置。

25.一种存储用于在术中图像流中进行场景解析的计算机程序指令的非暂态计算机可读介质，所述计算机程序指令在由处理器执行时使所述处理器执行以下操作，包括：

接收包括2D图像通道和2.5D深度通道的术中图像流的当前帧；

26.根据权利要求25所述的非暂态计算机可读介质，其中，将在术前3D医学图像数据中分割的目标器官的3D术前模型融合到所述术中图像流的所述当前帧包括：

27.根据权利要求26所述的非暂态计算机可读介质，其中，在所述术前3D医学图像数据与所述术中图像流之间执行初始非刚性配准包括：

28.根据权利要求26所述的非暂态计算机可读介质，其中，使用所述目标器官的计算生物力学模型使所述目标器官的所述3D术前模型变形以将所述术前3D医学图像数据与所述术中图像流的所述当前帧对准包括：

29.根据权利要求26所述的非暂态计算机可读介质，其中，使用所述目标器官的计算生物力学模型使所述目标器官的所述3D术前模型变形以将所述术前3D医学图像数据与所述术中图像流的所述当前帧对准包括：

根据所述对应关系估算所述目标器官上的力；以及

30.根据权利要求25所述的非暂态计算机可读介质，其中，基于所述目标器官的所述融合术前3D模型，将来自所述术前3D医学图像数据的语义标签信息传播到所述术中图像流的所述当前帧中的多个像素中的每个像素，从而产生所述术中图像流的所述当前帧的渲染标签图包括：

通过将来自所述3D医学图像数据中的所述估算的投影图像中的多个像素位置中的每个像素位置的语义标签传播到所述术中图像流的所述当前帧中的所述多个像素中的对应像素中来渲染所述术中图像流的所述当前帧的渲染标签图。

31.根据权利要求25所述的非暂态计算机可读介质，其中，基于用于所述术中图像流的所述当前帧的所述渲染标签图来训练语义分类器包括：

32.根据权利要求26所述的非暂态计算机可读介质，其中，基于用于所述术中图像流的所述当前帧的所述渲染标签图来训练语义分类器包括：

针对所述术中图像流的所述当前帧，基于所述渲染标签图中的一个或多个经标记的语义类别中的每个语义类别中的所述训练样本来训练所述语义分类器。

33.根据权利要求32所述的非暂态计算机可读介质，其中，针对所述术中图像流的所述当前帧，基于所述渲染标签图中的一个或多个经标记的语义类别中的每个语义类别中的所述训练样本来训练所述语义分类器包括：

34.根据权利要求32所述的非暂态计算机可读介质，其中，所述操作还包括：

使用所述经训练的语义分类器对所述术中图像流的所述当前帧执行语义分割。

35.根据权利要求34所述的非暂态计算机可读介质，其中，所述操作还包括：

36.根据权利要求35所述的非暂态计算机可读介质，其中，所述附加训练样本选自在使用所述经训练的分类器对所述当前帧执行语义分割所产生的所述标签图中被错误分类的所述术中图像流的所述当前帧中的像素。

37.根据权利要求34所述的非暂态计算机可读介质，其中，所述操作还包括：

38.根据权利要求25所述的非暂态计算机可读介质，其中，所述操作还包括：

针对所述术中图像流的一个或多个后续帧中的每个后续帧，重复所述接收、融合、传播和训练操作。

39.根据权利要求25所述的非暂态计算机可读介质，其中，所述操作还包括：

接收所述术中图像流的一个或多个后续帧；以及

40.根据权利要求39所述的非暂态计算机可读介质，其中，所述操作还包括：