CN116472565A

CN116472565A - 多视图医疗活动识别***和方法

Info

Publication number: CN116472565A
Application number: CN202180076403.2A
Authority: CN
Inventors: O·莫哈雷里; A·T·施密特; A•莎吉卡尔甘罗迪
Original assignee: Intuitive Surgical Operations Inc
Current assignee: Intuitive Surgical Operations Inc
Priority date: 2020-11-13
Filing date: 2021-11-12
Publication date: 2023-07-21
Also published as: CN116508070A

Abstract

本文描述了多视图医疗活动识别***和方法。在某些说明性示例中，***访问表示由多个传感器从多个视点捕获的医疗会话的场景的影像的多个数据流。***暂时地对准多个数据流，并且利用视点不可知机器学习模型并且基于多个数据流来确定场景内的活动。

Description

多视图医疗活动识别***和方法

相关申请

本申请要求2021年1月26日提交的美国临时专利申请号63/141,830和2021年1月26日提交的美国临时专利申请号63/141,853和2020年11月13日提交的美国临时专利申请号63/113,685的优先权，其内容以其全部内容通过引入并入本文。

背景技术

计算机实施的活动识别通常涉及捕获和处理场景的影像(imagery)以确定场景的特性。传统的活动识别对于动态和/或复杂环境可能缺乏期望水平的准确度和/或可靠性。例如，动态和复杂环境(诸如与手术程序相关联的环境)中的一些对象可以从成像装置的视图中被遮挡。

发明内容

以下描述呈现了本文所述的***和方法的一个或多个方面的简化概述。本概述不是对所有预期方面的广泛概述，并且既不旨在标识所有方面的关键或重要元素，也不旨在描绘任何或所有方面的范围。其唯一目的是呈现本文描述的***和方法的一个或多个方面，作为下面给出的详细描述的序言。

说明性***包括存储指令的存储器和处理器，所述处理器通信地耦连到所述存储器并且被配置成执行指令以访问表示由多个传感器从多个视点捕获的医疗会话的场景的影像的多个数据流；暂时地(temporally)对准多个数据流；以及利用视点不可知机器学习模型并且基于多个数据流来确定场景内的活动。

一种说明性方法包括通过处理器访问表示由多个传感器从多个视点捕获的医疗会话的场景的影像的多个数据流；通过处理器暂时地对准多个数据流；以及通过处理器利用视点不可知机器学习模型并且基于多个数据流确定场景内的活动。

说明性非暂时性计算机可读介质存储指令，指令可通过处理器执行以访问表示由多个传感器从多个视点捕获的医疗会话的场景的影像的多个数据流；暂时地对准多个数据流；以及利用视点不可知机器学习模型并且基于多个数据流来确定场景内的活动。

附图说明

附图示出了各种实施方式并且是说明书的一部分。示出的实施方式仅为示例，并且不限制本公开的范围。在整个附图中，相同或相似的附图标记表示相同或相似的元件。

图1描绘了根据本文描述的原理的说明性多视图医疗活动识别***。

图2描绘了根据本文描述的原理的说明性处理***。

图3-图5描绘了根据本文描述的原理的说明性多视图医疗活动识别***。

图6描绘了根据本文描述的原理的说明性计算机辅助机器人手术***。

图7描绘了根据本文描述的原理的附接到机器人手术***的成像装置的说明性配置。

图8描绘了根据本文描述的原理的说明性方法。

图9描绘了根据本文描述的原理的说明性计算装置。

具体实施方式

本文描述了用于多视图医疗活动识别的***和方法。活动识别***可以包括多个传感器，所述多个传感器包括配置成从不同的任意的视点捕获场景的影像的至少两个成像装置。活动识别***可以基于所捕获的影像来确定在影像中捕获的场景内的活动。可以利用经训练以基于影像和活动融合数据的视点不可知机器学习模型来确定活动。视点不可知模型和/或***可以被配置成从任意位置和/或视点接收任意数量的数据流，并且利用任意数量的数据流来融合数据，并且基于融合的数据来确定场景内的活动。如本文中所描述的，机器学习模型可以被配置成融合数据且以各种方式确定场景内的活动。

在某些示例中，场景可以是诸如手术会话(session)的医疗会话，并且活动可以包括手术会话的阶段。由于本文描述的***和方法是视点不可知的，因此本文所述的***和方法可以在任何合适的环境中实现。任何合适数量和/或配置的传感器可以被部署并用于捕获作为输入提供给***的数据，然后***可以基于由传感器提供的数据流来确定活动。

本文描述的***和方法可以提供各种优点和益处。例如，本文描述的***和方法可以利用各种传感器配置在各种环境中提供准确、动态和/或灵活的活动识别。本文描述的活动识别的说明性示例可以比基于单传感器活动识别或固定多传感器活动识别的常规活动识别更准确和/或灵活。本文描述的***和方法的说明性示例可以非常适合于动态和/或复杂场景的活动识别，诸如与医疗会话相关联的场景。

现在将更详细地描述各种说明性实施方式。所公开的***和方法可以提供上述益处中的一个或多个和/或将在本文中显而易见的各种额外和/或可替代的益处。

图1描绘了说明性多视图医疗活动识别***100(***100)。如图所示，***100可以包括相对于场景104定位的多个传感器，诸如，成像装置102-1和102-2(统称为“成像装置102”)，成像装置102可以被配置成通过同时捕获场景104的图像来成像场景104。

场景104可以包括可以由成像装置102成像的环境的任何环境和/或元件，例如，场景104可以包括物理元件的有形现实世界场景(tangible real-world scene)。在某些说明性示例中，场景104与诸如手术会话的医疗会话相关联。例如，场景104可以包括手术部位(诸如手术设备、操作室或诸如此类)处的手术场景。例如，场景104可以包括其中可对患者执行手术程序的操作室的全部或一部分。在某些实现方式中，场景104包括靠近用于执行手术程序的机器人手术***的操作室的区域。在某些实现方式中，场景104包括患者体内的区域。虽然本文中所描述的某些说明性示例针对包含手术设备处的场景的场景104，但本文中所描述的一或多个原理可以应用于其它实现方式中的其它合适场景。

成像装置102可以包括配置为捕获场景104的图像的任何成像装置。例如，成像装置102可以包括视频成像装置、红外成像装置、可见光成像装置、非可见光成像装置、强度成像装置(例如，颜色、灰度、黑白成像装置)、深度成像装置(例如，立体成像装置、飞行时间成像装置、红外成像装置等)、内窥镜成像装置、任何其它成像装置、或此类成像装置的任何组合或子组合。成像装置102可以被配置成以任何合适的捕获速率捕获场景104的图像。成像装置102可以以用于同步捕获场景104的图像的任何合适的方式同步。同步可以包括正被同步的成像装置的操作和/或由成像装置输出的数据集通过将数据集匹配到公共时间点而被同步。

图1示出了定位成从两个不同视点捕获场景104的图像的两个成像装置102的简单配置。该配置是示例性的。将理解，诸如多视图架构的多传感器架构可以包括被定位成从两个或更多个不同视点捕获场景104的图像的两个或更多个成像装置102。例如，***100可以包括任意数量的成像装置102，多达***100被配置成接收的预定义最大值。预定义的最大值可以基于成像装置102的输入端口的数量、***100的最大处理能力、用于***100的通信的最大带宽、或任何其它此类特性。成像装置102可以被定位在每个允许相应成像装置102从特定一个或多个视点捕获场景104的图像的任意位置处。传感器的任何合适位置可以被认为是任意位置，其可以包括不由***100确定的固定位置、随机位置和/或动态位置。成像装置102的视点(即，位置、取和视图设置，诸如成像装置102的变焦)确定由成像装置102捕获的图像的内容。多传感器架构还可以包括被定位成从额外方位捕获场景104的数据的额外传感器。此类额外传感器可以包括被配置成捕获数据的任何合适的传感器，诸如麦克风、运动学传感器(例如，加速度计、陀螺仪、与机器人手术***相关联的传感器等)、力传感器(例如，与手术器械相关联的传感器等)、温度传感器、运动传感器、非成像装置、额外成像装置、其它类型的成像装置等。

***100可以包括通信地耦连到成像装置102的处理***106。处理***106可以被配置成访问由成像装置102捕获的影像并且确定场景104的活动，如本文进一步所描述的。

图2示出了多视图医疗活动识别***(例如，***100)的处理***106的示例配置。处理***106可以包括但不限于存储设备202和选择性地并且通信地彼此耦连的处理设备204。设备202和204可以各自包括一个或多个物理计算装置或由一个或多个物理计算装置来实现，该一个或多个物理计算装置包括硬件和/或软件部件，诸如处理器、存储器、存储驱动器、通信接口、存储在存储器中用于由处理器执行的指令等。虽然设备202和204被示出为图2中的单独设备，但是设备202和204可以被组合成更少的设备，诸如组合成单个设备，或者被划分成可服务于特定实现方式的更多设备。在一些示例中，设备202和204中的每个可以分布在可服务于特定实现方式的多个装置和/或多个方位之间。

存储设备202可以保持(例如，存储)由处理设备204用来执行本文描述的任何功能的可执行数据。例如，存储设备202可以存储可以由处理设备204执行以执行本文描述的操作中的一个或多个的指令206。指令206可以由任何合适的应用、软件、代码和/或其它可执行数据示例来实施。存储设备202还可以保持由处理设备204接收、生成、管理、利用和/或发送的任何数据。

处理设备204可以被配置成执行(例如，执行存储在存储设备202中的指令206以执行)与活动识别相关联的各种操作，诸如由计算机辅助的手术***执行和/或促进的医疗会话的场景的活动识别。

本文描述了可以由处理***106(例如，由处理***106的处理设备204)执行的这些和其它说明性操作。在以下描述中，对由处理***106执行的功能的任何提及可以被理解为由处理设备204基于存储在存储设备202中的指令206来进行。

图3示出了处理***106的示例配置300。如图所示，处理***106访问由活动识别***(例如，***100)的成像装置(例如，成像装置102)捕获的场景(例如，场景104)的影像302(例如，影像302-1至302-N)。处理***106包括被配置成暂时地对准影像302的图像对准模块304。处理***106还包括机器学习模型306，机器学习模型306被配置成基于暂时对准的影像302来确定场景内的活动。

例如，处理***106可以从成像装置102-1接收影像302-1。影像302-1可以包括表示由场景104的成像装置102-1捕获的多个图像或图像的一个或多个方面的任何图像数据和/或由表示由场景104的成像装置102-1捕获的多个图像或图像的一个或多个方面的任何图像数据来表示。例如，多个图像可以是一个或多个视频片段形式的图像流。每个视频片段可以包括在一段时间内捕获的时间排序的一系列图像。每一视频片段可以包含任何合适数量(例如，16、32等)的帧(例如，图像)。视频片段可以捕获在场景104中进行的一个或多个活动。活动可以是由人或***在场景104中执行的任何动作。在一些示例中，场景104可以描绘医疗会话，并且活动可以特定于与场景104的医疗会话(诸如医疗会话的预定义阶段)相关联地执行的动作。例如，特定手术会话可以包括10-20(或任何其它合适数量的)不同的预定义阶段，诸如无菌制备、患者调入(roll in)、手术等，其可以是定义的活动集，***100从该活动集对如在特定视频片段中捕获的场景104的活动进行分类。

处理***106可以以任何合适的方式访问影像302-1(例如，一个或多个视频片段)。例如，处理***106可以从成像装置102-1接收影像302-1、从成像装置102-1检索影像302-1、从存储装置和/或通信地耦连到成像装置102-1的任何其它合适的装置接收和/或检索影像302-1等。

图像对准模块304可以访问影像302-1以及影像302-2至302-N，并暂时地对准影像302。例如，影像302-1可以包括从与成像装置102-1相关联的第一视点捕获的场景104的图像。影像302-2可以包括从与成像装置102-2相关联的第二视点捕获的场景104的图像，并且对于影像302的每个示例(其可以由图1中未示出的额外成像装置捕获)以此类推。图像对准模块304可以暂时地对准影像302，以便影像302的经对准图像(例如，暂时对准的视频帧)描绘从不同视点捕获的场景104的相同或基本上相同的时间点。

图像对准模块304可以以任何合适的方式暂时地对准影像302。例如，影像302的图像中的一些或全部可以包括与图像相关联的时间戳或其它时间信息，并且图像对准模块304可以利用该信息来对准影像302。例如，影像302的一个或多个图像流(例如，影像302-1)可以被用作主要图像流，而其它图像流(例如，影像302-2到影像302-N)可以利用对于其它图像流中的每个的具有最近的先前时间戳的(nearest prior-timestamped)图像来对准到主要图像流。以这种方式，即使影像302的图像流包括不同数量的图像、帧速率、放弃的(dropped)图像等，图像对准模块304也可以实时地暂时地对准影像302。

机器学习模型306可以基于暂时对准的影像302来确定由影像302捕获的场景104的活动。机器学习模型306可以以任何合适的方式确定活动，如本文进一步描述的。例如，机器学习模型306可以是视点不可知机器学习模型，所述视点不可知机器学习模型被训练成基于影像302来确定场景104的活动，所述影像302包括从任意视点捕获的任意数量的图像流。因此，成像装置102的配置不被模型限制于固定数量的成像装置102或仅位于某些固定或相对位置处的成像装置102，但处理***106可以被配置成在任何合适的医疗设置和/或环境中从成像装置102的任何配置中接收输入。例如，***100可以是动态***或包括动态部件，诸如具有可以在医疗会话期间(例如，在医疗会话的任何阶段期间，诸如在术前活动(例如，设置活动)、术中活动和/或术后活动期间)动态地改变的视点的一个或多个成像装置102。成像装置102的视点可以以改变成像装置102的视场的任何方式动态地改变，诸如通过改变成像装置102的位置、姿态、取向、变焦设置或其它参数。此外，虽然配置300示出了包括图像流的影像302，但是机器学习模型306(和处理***106)可以被配置成访问由如本文所述的任何合适的传感器从场景104捕获的任何合适的数据流(例如，音频数据、运动学数据等)。机器学习模型306可以被训练以进一步基于此类数据流确定场景104的活动。

图4示出了处理***106的示例配置400，其示出了机器学习模型306的示例实现方式。如在配置300中，配置400示出了访问影像302的处理***106和暂时地对准影像302的图像对准模块304。此外，处理***106被配置成利用机器学习模型306来确定由影像302捕获的场景104的活动。如图所示，机器学习模型306包括活动识别算法402(例如，活动识别算法402-1至402-N)、循环神经网络(RNN)算法404(例如，RNN算法404-1至404-N)和数据融合模块406。

如所描述的，影像302的每个实例可以是包括视频片段的图像流。机器学习模型306利用活动识别算法402来提取相应图像流的视频片段的特征，以确定在视频片段中捕获的场景内的活动。例如，活动识别算法402-1可以提取影像302-1的视频片段的特征，活动识别算法402-2可以提取影像302-2的视频片段的特征等。活动识别算法402可以通过任何合适的一种或多种算法(诸如微调的I3D模型或任何其它神经网络或其它算法)来实现。活动识别算法402中的每个可以为相同算法集的实例，和/或利用不同算法集实现。

活动识别算法402各自向相应RNN算法404提供输出。RNN算法404可以利用由活动识别算法402提取的特征来确定场景104的活动的相应分类。例如，RNN算法404-1可以接收通过活动识别算法402-1从影像302-1中提取的特征，并且确定从与成像装置102-1相关联的第一视点捕获的场景104的活动的第一分类。类似地，RNN算法404-2可以基于由活动识别算法402-2从影像302-2中提取的特征来确定从与成像装置102-2相关联的第二视点捕获的场景104的活动的第二分类，到RNN算法404-N以此类推。

RNN算法404可以各自向数据融合模块406提供分类，数据融合模块406可以生成用于确定场景104的活动的融合数据。例如，数据融合模块406可以从RNN算法404中的每个接收场景104的活动的相应分类，并且基于相应的分类来确定场景104的活动的最终分类。数据融合模块406可以以任何合适的方式生成融合数据以确定最终分类。例如，数据融合模块406可以对来自RNN算法404的分类加权以确定最终分类。

另外，在一些示例中，数据融合模块406可以接收具有每个分类的额外信息以生成融合数据以确定场景104的活动。例如，数据融合模块406还可以接收针对每个视频片段或图像流的活动可见性度量，该活动可见性度量对场景104的活动在对应的影像中的可见程度进行分级。活动可见性度量可以包括表示场景104的活动在影像中的可见程度的分级的得分或任何其它度量。例如，活动可见性度量可以基于影像302的一般可见性和/或影像302中活动的特定可见性。一般可见性可以对应于影像302的任何内容在影像302中的总体可见程度，而活动的特定可见性可以基于场景104的活动在影像302中的可见程度，其可以与一般可见性分离。基于此类活动可见性度量，数据融合模块406可以针对相对高的活动可见性度量更高地和/或针对相对低的活动可见性度量更低地对从影像确定的分类加权。

另外或可替代地，数据融合模块406可以接收由RNN算法404生成的分类的置信度测量。数据融合模块406可以进一步基于置信度测量对分类加权。另外或可替代地，数据融合模块406可以使融合数据的生成和/或场景104的活动的确定基于与分类和/或影像相关联的任何其它此类合适的信息。

此外，如图所示的机器学***”层。机器学***和/或竖直)可以以任何合适的方式连接，使得连接层可以在层之间或之中通信和/或共享数据。

作为配置400的一个示例实现方式，影像302的每个视频片段可以被表示为作为在时间t处结束的大小为l_clip的同步片段。i表示主图像流的视点，而j表示与主图像流对准的次图像流的视点。

活动识别算法402可以利用I3D算法来实现，所述I3D算法可以被训练以包含用于I3D模型f的一组权重，被配置成接收视频片段并输出分类。因此，用I3D模型变换视频片段以生成一组潜在向量z：

这些潜在向量可以被输入到表示为g的RNN算法404的实现方式中，RNN算法404利用潜在向量、一些完全连接的层和RNN来估计输出分类：

其中是针对来自视点i的片段s的估计对数概率(logit probability)，g是RNN模型，以及fc:/>是完全连接的最终层，其输出大小等级(classes)的对数(logits)。模型g生成每个图像流的相应分类(利用模型的单视图版本，g_single)并且自适应地融合分类。

例如，每个g_single可以被配置成输出d_latent维度输出：

其中g接收单个视点I的所有先前帧作为输入，并且输出特征其被转变成具有完全连接层的对数概率。完全连接层可以用于获得估计的分类向量：

数据融合模块406可以被实现以生成

g_multi＝mix(g_single(zⁱ⁰)，...，g_single(z^iN))，

其中，mix接收一组d_iatent大小向量，并且通过对向量集求和来融合向量：

完全连接层可以输出最终分类：

混合权重w可以是预定义的，诸如w_j＝1/N，这导致每个图像流的平均池化(pooling)。另外或可替代地，可以利用任何其它此类预定义函数，诸如最大函数(例如，选择最确信的分类)等。

可替代地，权重w可以基于如本文中所描述的输入。例如，可以利用注意力算法来确定加权，诸如由下式限定的权重向量

其中q是利用潜在向量的平均池化全局地估计的查询向量，k是潜在视图特征向量的矩阵，以及d_k是数据融合模块406的混频器模块的维度。因此，该示例机器学习模型306可以被表示为

图5示出示例配置500，其显示机器学习模型306的另一示例实现方式。配置500可以类似于配置300，包括处理***106和图像对准模块304，但是没有在图5中示出。虽然配置400示出了机器学习模型306被配置成基于从影像302的每个实例(例如，每个数据流)确定的分类来生成融合数据，但是配置500示出机器学习模型306被配置成更直接地基于影像302和从影像302提取的特征生成融合数据。

例如，如图所示，机器学习模型306包括数据融合模块502(例如，数据融合模块502-1至502-4)。机器学习模型306还包括特征处理模块504(例如，特征处理模块504-1和504-2)、特征处理模块506(例如，特征处理模块506-1和506-2)、以及特征处理模块508(例如，特征处理模块508-1和508-2)。数据融合模块502中的每个可以被配置成接收数据(例如，影像、从影像提取的特征和/或其它特征)，组合数据并且将数据提供到一个或多个接下来的模块。

例如，数据融合模块502-1可以访问影像302(例如，影像302-1和影像302-2)。数据融合模块502-1可以基于影像302生成融合数据，并且将融合数据提供给特征处理模块504和数据融合模块502-2。特征处理模块504可以被配置成基于从数据融合模块502-1接收的融合数据从影像302提取特征。数据融合模块502-2可以接收来自数据融合模块502-1的融合数据和由特征处理模块504提取的特征，并且基于这些输入中的一些或全部来生成融合数据。进而，数据融合模块502-2可以将融合数据输出到特征处理模块506以及数据融合模块502-3。特征处理模块506可以被配置成基于由数据融合模块502-2生成的融合数据从由特征处理模块504提取的特征提取特征(例如，降维等)。另外或可替代地，特征处理模块506(以及特征处理模块504和508)可以被配置成基于融合数据以其它方式处理特征(例如，串联(concatenation)、增加(addition)、池化、回归等)。

每个数据融合模块502可以被配置成以任何合适的方式融合数据。例如，数据融合模块502可以包括机器学习算法，所述机器学习算法被训练以基于影像302和由影像302捕获的场景104的活动对输入加权。数据融合模块502可以被端到端训练以基于如本文所述的训练数据来学习这些配置成。

机器学习模型306还包括视频长短期存储器(LSTM)510(例如，视频LSTM 510-1和510-2)，其被配置成确定由影像302捕获的场景104的活动的分类。例如，视频LSTM 510-1可以基于影像302-1和由特征处理模块504-1、506-1和508-1提取和/或处理的特征来确定活动的第一分类。视频LSTM 510-2可以基于影像302-2和由特征处理模块504-2、506-2和508-2提取和/或处理的特征来确定活动的第二分类。如图所示，虽然视频LSTM 510的分类可以基于影像302的相应图像流(例如，基于影像302-1的视频LSTM 510-1和基于影像302-2的视频LSTM 510-2)，但是由于特征处理模块504-508共享由数据融合模块502生成的融合数据，因此每个相应分类可以导致比仅基于个体图像流的分类更准确的场景104的活动的确定。

机器学习模型306还包括全局LSTM 512，全局LSTM 512被配置成基于由数据融合模块502-4生成的融合数据来确定场景104的活动的全局分类。由于全局分类基于融合数据，因此全局分类可以是基于影像302-1和影像302-2两者的场景104的活动的确定。

机器学习模型306还包括数据融合模块514，数据融合模块514被配置成接收视频LSTM 510的分类和全局LSTM 512的全局分类。基于这些分类，数据融合模块514可以确定最终分类以确定场景104的活动，数据融合模块514可以以如本文所描述的任何合适的方式来确定最终分类。

虽然配置500示出了影像302的两个图像流，但是机器学习模型306可以被配置成接收和利用来自任意视点的任何任意数量的图像流和/或其它数据流，以确定场景104的活动。此外，虽然配置500示出了特征处理模块504-508之间的特征处理的三个级和数据融合模块502的四个级，但是机器学习模型306可以包括任何合适数量的特征处理模块和数据融合模块。例如，在一些示例中，融合数据可以在特征和/或数据的子集上生成(例如，仅在影像302上、仅在特征处理模块508之后、或任何其它合适的组合)。此外，虽然配置500包括视频LSTM 510，但是在一些示例中，机器学习模型306可以省略视频LSTM 510(和数据融合模块514)并且将最终分类基于全局LSTM 512所确定的全局分类。

为了确定应用于输入以生成融合数据的加权，可以基于训练数据来训练机器学习模型306。一旦被训练，机器学习模型306被配置成确定应用于输入的加权。例如，对于配置400，输入可以包括基于分类、影像和/或场景内的活动中的一个或多个的分类。对于配置500，输入可以包括影像302、影像302的特征和/或场景内的活动。

机器学习模型306可以基于标记的影像集被端到端训练。另外或可替代地，特定模块和/或模块集(例如，RNN算法404和/或数据融合模块406，数据融合模块502、视频LSTM510和/或全局LSTM 512中的任一者)可以在标记的影像集上训练以基于影像302预测活动分类。

训练数据集可以包括由成像装置捕获的医疗会话的影像，诸如类似于影像302的影像。训练数据集可以进一步包括由医疗会话的成像装置捕获的影像的子集。例如，可以由四个成像装置和标记为生成训练集的四个图像流的视频片段来捕获特定医疗会话。包括四个图像流中的三个的视频片段的子集可以被用作另一训练数据集。因此，利用同一组图像流，可以生成多个训练数据集。另外或可替代地，可以基于图像流来生成训练数据集。举例来说，来自两个或两个以上图像流的视频片段可以被内插(interpolated)和/或以其它方式处理以生成可被包含于额外训练数据集中的额外视频片段。以这种方式，机器学习模型306可以被训练成是视点不可知的，能够基于来自任意视点的任意数量的图像流来确定场景的活动。在一些实现方式中，视点不可知可以意味着从预定视点捕获影像的任意数量的成像装置。在一些实现方式中，视点不可知可以意味着从成像装置102的任意位置、取向和/或设置捕获影像的预定数量的成像装置。在一些实现方式中，视点不可知可以意味着从成像装置的任意视点捕获影像的任意数量的成像装置。因此，视点不可知模型对于图像捕获装置102的数量和/或那些图像捕获装置102的视点可能是不可知。

***100可以与诸如如图6中所示的计算机辅助机器人手术***相关联。图6示出了说明性计算机辅助机器人手术***600(“手术***600”)。***100可以由手术***600实现、连接到手术***600和/或以其它方式与手术***600结合使用。例如，***100可以由手术***600的一个或多个部件(诸如操纵***、用户控制***或辅助***)来实现。作为另一示例，***100可以由通信地耦连到计算机辅助的手术***的独立计算***来实现。

如图所示，手术***600可以包括操纵***602、用户控制***604和彼此通信地耦连的辅助***606。手术团队可利用手术***600来对患者608执行计算机辅助手术程序。如图所示，手术团队可以包括外科医生610-1、助理610-2、护士610-3和麻醉科医师610-4，所有这些人可以被统称为“手术团队成员610”。可以在手术会话期间存在额外的或可替代的手术团队成员。

虽然图6示出正在进行的微创手术程序，但是应当理解，手术***600可以类似地用于执行开放式手术程序或可以类似地受益于手术***600的准确性和便利性的其它类型的手术程序。另外，将理解的是，可以在整个过程中使用手术***600的诸如手术会话的医疗会话可以不仅包括手术程序的术中阶段(如图6所示)，而且还可以包括术前(其可以包括手术***600的设置)、术后和/或手术会话的其它合适的阶段。

如图6所示，操纵***602可以包括多个操纵器臂612(例如，操纵器臂612-1到612-4)，多个手术器械可以耦连到操纵器臂612。每个手术器械可以由以下各项实现：任何合适的手术工具(例如，具有组织交互功能的工具)、医疗工具、成像装置(例如，内窥镜、超声工具等)、感测器械(例如，力感测手术器械)、诊断器械或可用于患者608上的计算机辅助手术程序(例如，通过至少部分地***患者608中并操纵以在患者608上执行计算机辅助手术程序)的其它器械。虽然操纵***602在本文中被描绘和描述为包括四个操纵器臂612，但是将认识到，操纵***602可以仅包括可服务于特定实现方式的单个操纵器臂612或任何其它数量的操纵器臂。

操纵器臂612和/或附接到操纵器臂612的手术器械可以包括一个或多个位移换能器、取向传感器和/或用于生成原始(即，未校正)运动学信息的位置传感器。手术***600的一个或多个部件可以被配置成利用运动学信息来跟踪(例如，确定姿态)和/或控制手术器械，以及连接到器械和/或臂的任何东西。如本文所述，***100可以利用运动学信息来跟踪手术***600的部件(例如，操纵器臂612和/或附接到操纵器臂612的手术器械)。

用户控制***604可以被配置成便于外科医生610-1对操纵器臂612和附接到操纵器臂612的手术器械进行控制。例如，外科医生610-1可以与用户控制***604交互以远程地移动或操纵操纵器臂612和手术器械。为此，用户控制***604可以向外科医生610-1提供由成像***(例如，内窥镜)捕获的与患者608相关联的手术部位的影像(例如，高清晰度3D影像)。在某些示例中，用户控制***604可以包括具有两个显示器的立体观察器，其中与患者608相关联的手术部位并且由立体成像***生成的立体图像可以由外科医生610-1观看。外科医生610-1可以利用由用户控制***604显示的影像来用附接到操纵器臂612的一个或多个手术器械执行一个或多个程序。

为了便于控制手术器械，用户控制***604可以包括一组主控制器。这些主控制器可以由外科医生610-1操纵以控制手术器械的移动(例如，通过利用机器人和/或远程操作技术)。主控制器可以被配置成检测外科医生610-1的各种各样的手、手腕和手指移动。以这种方式，外科医生610-1可以利用一个或多个手术器械直观地执行程序。

辅助***606可以包括被配置成进行手术***600的处理操作的一个或多个计算装置。在此类配置中，包括在辅助***606中的一个或多个计算装置可以控制和/或协调由手术***600的各种其它部件(例如，操纵***602和用户控制***604)进行的操作。例如，包括在用户控制***604中的计算装置可以通过包括在辅助***606中的一个或多个计算装置来向操纵***602传送指令。作为另一示例，辅助***606可以接收并处理表示由附接到操纵***602的一个或多个成像装置捕获的影像的图像数据。

在一些示例中，辅助***606可以配置成将视觉内容呈现给可能不具有对在用户控制***604处提供给外科医生610-1的图像的访问的手术团队成员610。为此，辅助***606可以包括显示监视器614，该显示监视器614配置成显示一个或多个用户界面，诸如手术部位的图像、与患者608和/或手术程序相关联的信息和/或可服务于特定实现方式的任何其它视觉内容。例如，显示监视器614可以显示手术部位的图像，以及与图像同时显示的额外内容(例如，图形内容、上下文信息等)。在一些实施方式中，显示监视器614由触摸屏显示器实现，手术团队成员610可以与该触摸屏显示器交互(例如，通过触摸手势)以向手术***600提供用户输入。

操纵***602、用户控制***604和辅助***606可以以任何合适的方式彼此通信地耦连。例如，如图6所示，操纵***602、用户控制***604和辅助***606可以通过控制线616通信地耦连，控制线616可以表示可以服务于特定实现方式的任何有线或无线通信链路。为此，操纵***602、用户控制***604和辅助***606可以各自包括一个或多个有线或无线通信接口，诸如一个或多个局域网络接口、Wi-Fi网络接口、蜂窝接口等。

在某些示例中，诸如成像装置102的成像装置可以附接到手术***600的部件和/或其中手术***600被设置的手术设备的部件。例如，成像装置可以附接到操纵***602的部件。

图7描绘了附接到操纵***602的部件的成像装置102(成像装置102-1至102-4)的说明性配置700。如图所示，成像装置102-1可以附接到操纵***602的定向平台(OP)702，成像装置102-2可以附接到操纵***602的操纵臂612-1，成像装置102-3可以附接到操纵***602的操纵臂612-4，以及成像装置102-4可以附接到操纵***602的基座704。附接到OP 702的成像装置120-1可以被称为OP成像装置，附接到操纵臂612-1的成像装置120-2可以被称为通用设置操纵器1(USM1)成像装置，附接到操纵臂612-4的成像装置120-3可以被称为通用设置操纵器4(USM4)成像装置，并且附接到基座704的成像装置120-4可以被称为基座成像装置即BASE成像装置。在操纵***602被定位成靠近患者(例如，作为患者侧推车)的实现方式中，成像装置602在操纵***602上的关键位置处的安置提供靠近患者的有利成像视点和在患者上执行的手术程序。

在某些实现方式中，操纵***602(或在其它示例中的其它机器人***)的部件可以具有允许部件的多个配置到达附接到部件的末端执行器(例如，连接到操纵器臂612的器械)的相同输出位置的冗余自由度。因此，处理***106可以引导操纵***602的部件移动，而不影响附接到部件的末端执行器的位置。这可以允许在不改变附接到部件的末端执行器的位置的情况下重新定位待执行活动识别的部件。

成像装置102到操纵***602的部件的说明性安置是示例性的。在操纵***602上的任何合适数量的成像装置102、手术***600的其它部件和/或手术设备处的其它部件的额外和/或可替代安置可以在其它实现方式中利用。成像装置102可以以任何合适的方式附接到操纵***602的部件、手术***600的其它部件和/或手术设备处的其它部件。

图8示出了多视图医疗活动识别***的示例性方法800。虽然图8示出了根据一个实施方式的示例性操作，但是其它实施方式可以省略、添加、重新排序、组合和/或修改图8中所示的操作中的任何操作。图8中所示的操作中的一个或多个可以由活动识别***(诸如***100、其中包括的任何部件和/或其任何实现方式)来执行。。

在操作802中，活动识别***可以访问表示由多个传感器从多个视点捕获的医疗会话的场景的影像的多个数据流。操作802可以以本文描述的任何方式来进行。

在操作804中，活动识别***可以暂时地对准多个数据流。操作804可以以本文描述的任何方式来进行。

在操作806中，活动识别***可以利用视点不可知机器学习模型并且基于多个数据流来确定场景内的活动。操作806可以以本文描述的任何方式来进行。

本文中所描述的多视图医疗活动识别原理、***和方法可以用于各种应用中。作为示例，本文描述的一个或多个活动识别方面可以用于实时或追溯地进行手术工作流分析。作为另一示例，本文描述的一个或多个活动识别方面可以用于手术会话的自动转录(例如，出于文档编制、进一步规划和/或资源分配的目的)。作为另一示例，本文描述的活动识别方面中的一个或多个可以用于手术子任务的自动化。作为另一示例，本文描述的活动识别方面中的一个或多个可以用于手术***和/或手术设备的计算机辅助设置(例如，设置机器人手术***的一个或多个操作可以基于对手术场景的感知和机器人手术***的自动移动而被自动化)。本文描述的活动识别原理、***和方法的应用的这些示例是示例性的。本文描述的活动识别原理、***和方法可以针对其它合适的应用来实现。

此外，虽然本文描述的活动识别原理、***和方法已聚焦于由传感器捕获的场景的活动的分类，但是类似的原理、***和方法可以应用于任何合适的场景感知应用(例如，场景分割、对象识别等)。

另外，虽然本文描述的活动识别原理、***和方法大体已包括机器学习模型，但是类似的原理、***和方法可以利用包括任何人工智能算法和/或非机器学习算法的任何合适的算法来实现。

在一些示例中，可以根据本文描述的原理来提供存储计算机可读指令的非暂时性计算机可读介质。指令在由计算装置的处理器执行时可以指导处理器和/或计算装置执行一个或多个操作，包括本文描述的一个或多个操作。可以利用各种已知的计算机可读介质中的任一种来存储和/或发送这样的指令。

如本文中所提及的非暂时性计算机可读介质可以包含任何非暂时性存储介质，所述非暂时性存储介质参与提供可由计算装置(例如，由计算装置的处理器)读取及/或执行的数据(例如，指令)。例如，非暂时性计算机可读介质可以包括但不限于非易失性存储介质和/或易失性存储介质的任何组合。示例性非易失性存储介质包含但不限于只读存储器、闪速存储器、固态驱动器、磁性存储装置(例如，硬盘、软盘、磁带等)、铁电随机存取存储器(“RAM”)及光盘(例如，压缩光盘、数字视频光盘、蓝光光盘等)。示例性易失性存储介质包括但不限于RAM(例如，动态RAM)。

图9示出了可以被具体地配置为执行本文描述的过程中的一个或多个的示例性计算装置900。本文描述的***、单元、计算装置和/或其它部件中的任一个可以实现或由计算装置900来实现。

如图9所示，计算装置900可以包括通信接口902、处理器904、存储装置906、以及经由通信基础设备910彼此通信地连接的输入/输出(“I/O”)模块908。虽然图9中示出了示例性计算装置900，但是图9中示出的部件不旨在是限制性的。在其它实施方式中可以利用额外的或可替代的部件。图9中示出的计算装置900的部件现在将更详细地描述。

通信接口902可以被配置成与一个或多个计算装置通信。通信接口902的示例包括但不限于有线网络接口(诸如网络接口卡)、无线网络接口(诸如无线网络接口卡)、调制解调器、音频/视频连接以及任何其它合适的接口。

处理器904通常表示能够处理数据和/或解释、执行和/或指导本文描述的指令、过程和/或操作中的一个或多个的执行的任何类型或形式的处理单元。处理器904可以通过执行存储在存储装置906中的计算机可执行指令912(例如，应用、软件、代码和/或其它可执行数据示例)来执行操作。

存储装置906可以包括一个或多个数据存储介质、装置或配置，并且可以采用任何类型、形式的数据存储介质和/或装置和其组合。例如，存储装置906可以包括但不限于本文描述的非易失性介质和/或易失性介质的任何组合。包括本文中所描述的数据的电子数据可以被临时地和/或永久地存储在存储装置906中。例如，表示被配置成指导处理器904执行本文描述的任何操作的计算机可执行指令912的数据可以被存储在存储装置906内。在一些示例中，数据可以被布置在存在于存储装置906内的一个或多个数据库中。

I/O模块908可以包括配置成接收用户输入并提供用户输出的一个或多个I/O模块。I/O模块908可以包括支持输入和输出能力的任何硬件、固件、软件或其组合。例如，I/O模块908可以包括用于捕获用户输入的硬件和/或软件，包括但不限于键盘或小键盘、触摸屏部件(例如，触摸屏显示器)、接收器(例如，RF或红外接收器)、运动传感器和/或一个或多个输入按钮。

I/O模块908可以包括用于向用户呈现输出的一个或多个装置，包括但不限于图形引擎、显示器(例如，显示屏)、一个或多个输出驱动器(例如，显示驱动器)、一个或多个音频扬声器以及一个或多个音频驱动器。在某些实施方式中，I/O模块908被配置成向显示器提供图形数据以用于呈现给用户。图形数据可以表示一个或多个图形用户界面和/或可以服务于特定实现方式的任何其它图形内容。

在一些示例，本文描述的***、模块和/或设备中的任一个可以由计算装置900的一个或多个部件实现或在计算装置900的一个或多个部件内实现。例如，存在于存储装置906内的一个或多个应用912可以被配置成指导处理器904的实现来执行与***100的处理***108相关联的一个或多个操作或功能。

如所提及的，本文描述的一个或多个操作可以在医疗会话期间例如，动态地、实时地和/或近实时地执行。如本文所用的，被描述为“实时”发生的操作将被理解为立即执行并且没有过度延迟，即使不可能存在绝对零延迟。

***、装置和/或其部件中的任一个可以以任何合适的组合或子组合来实现。例如，***、装置和/或其部件中的任一个可以被实现为被配置成执行本文中所描述的操作中的一个或多个的装置。

在本文的描述中，已经描述了各种示例性实施方式。然而，显而易见的是，可以对其进行各种修改和改变，并且可以实现额外实施方式，而不脱离如所附权利要求书中所阐述的本发明的范围。例如，本文描述的一个实施方式的某些特征可以与本文描述的另一实施方式的特征组合或替换。因此，说明书和附图应被认为是说明性的而不是限制性的。

Claims

1.一种***，其包括：

存储指令的存储器；

处理器，所述处理器通信地耦连到所述存储器并且被配置成执行所述指令以：

访问表示由多个传感器从多个视点捕获的医疗会话的场景的影像的多个数据流；

暂时地对准所述多个数据流；以及

利用视点不可知机器学习模型并且基于所述多个数据流来确定所述场景内的活动。

2.根据权利要求1所述的***，其中：

所述机器学习模型被配置成基于所述多个数据流生成融合数据；以及

所述确定所述场景内的活动基于所述融合数据。

3.根据权利要求2所述的***，其中：

所述多个数据流包括第一数据流和第二数据流；

所述机器学习模型还被配置成：

基于所述第一数据流确定所述场景内的所述活动的第一分类，以及

基于所述第二数据流确定所述场景内的所述活动的第二分类；以及

所述生成融合数据包括利用基于所述第一数据流、所述第二数据流和所述场景内的所述活动确定的加权来组合所述第一分类和所述第二分类。

4.根据权利要求2所述的***，其中：

所述多个数据流包括第一数据流和第二数据流；以及

所述生成融合数据包括：

基于所述第一数据流和所述第二数据流确定所述场景内的所述活动的全局分类，基于所述第一数据流和所述全局分类来确定所述场景内的所述活动的第一分类，基于所述第二数据流和所述全局分类来确定所述场景内的所述活动的第二分类，以及

利用基于所述第一数据流、所述第二数据流和所述场景内的所述活动确定的加权来组合所述第一分类、所述第二分类和所述全局分类。

5.根据权利要求4所述的***，其中所述确定全局分类包括利用基于所述第一数据流、所述第二数据流和所述场景内的所述活动确定的加权，针对时间点，将来自对应于所述时间点的所述第一数据流和所述第二数据流的相应暂时对准数据进行组合。

6.根据权利要求4所述的***，其中所述确定全局分类包括：

从所述第一数据流的数据提取第一特征：

从所述第二数据流的数据提取第二特征；以及

利用基于所述第一数据流、所述第二数据流和所述场景内的所述活动确定的加权来组合所述第一特征和所述第二特征。

7.根据权利要求1所述的***，其中在所述场景内的所述活动期间执行所述确定所述场景内的所述活动。

8.根据权利要求1所述的***，其中所述多个数据流进一步包括表示由非成像传感器捕获的数据的数据流。

9.根据权利要求1所述的***，其中所述视点不可知模型对于所述多个传感器的数量是不可知的。

10.根据权利要求1所述的***，其中所述视点不可知模型对于所述多个传感器的位置是不可知的。

11.一种方法，其包括：

通过处理器访问表示由多个传感器从多个视点捕获的医疗会话的场景的影像的多个数据流；

通过所述处理器暂时地对准所述多个数据流；以及

通过所述处理器利用视点不可知机器学习模型并且基于所述多个数据流来确定所述场景内的活动。

12.根据权利要求11所述的方法，其中：

所述确定所述场景内的所述活动基于所述融合数据。

13.根据权利要求12所述的方法，其中：

所述多个数据流包括第一数据流和第二数据流；

所述机器学习模型还被配置成：

14.根据权利要求12所述的方法，其中：

所述多个数据流包括第一数据流和第二数据流；以及

所述生成融合数据包括：

15.根据权利要求14所述的方法，其中所述确定全局分类包括利用基于所述第一数据流、所述第二数据流和所述场景内的所述活动确定的加权，针对时间点，将来自对应于所述时间点的所述第一数据流和所述第二数据流的相应暂时对准数据进行组合。

16.根据权利要求14所述的方法，其中所述确定全局分类包括：

从所述第一数据流的数据提取第一特征；

从所述第二数据流的数据提取第二特征；以及

17.根据权利要求11所述的方法，其中在所述场景内的所述活动期间执行所述确定所述场景内的活动。

18.根据权利要求11所述的方法，其中所述多个数据流进一步包括表示由非成像传感器捕获的数据的数据流。

19.一种存储指令的非暂时性计算机可读介质，所述指令可通过处理器执行以：

暂时地对准所述多个数据流；以及

20.根据权利要求19所述的非暂时性计算机可读介质，其中：

所述确定所述场景内的活动基于所述融合数据。

21.根据权利要求20所述的非暂时性计算机可读介质，其中：

所述多个数据流包括第一数据流和第二数据流；

所述机器学习模型还被配置成：

22.根据权利要求20所述的非暂时性计算机可读介质，其中：

所述多个数据流包括第一数据流和第二数据流；以及

所述生成融合数据包括：

23.根据权利要求22所述的非暂时性计算机可读介质，其中所述确定全局分类包括利用基于所述第一数据流、所述第二数据流和所述场景内的所述活动确定的加权，针对时间点，将来自对应于所述时间点的所述第一数据流和所述第二数据流的相应暂时对准数据进行组合。

24.根据权利要求22所述的非暂时性计算机可读介质，其中所述确定全局分类包括：

从所述第一数据流的数据提取第一特征；

从所述第二数据流的数据提取第二特征；以及

25.根据权利要求19所述的非暂时性计算机可读介质，其中在所述场景内的所述活动期间执行所述确定所述场景内的所述活动。

26.根据权利要求19所述的非暂时性计算机可读介质，其中所述多个数据流还包括表示由非成像传感器捕获的数据的数据流。