CN117693772A

CN117693772A - 用于动态识别手术托盘和其上包含的物品的***和方法

Info

Publication number: CN117693772A
Application number: CN202280028305.6A
Authority: CN
Inventors: T·唐纳利; S·格林曼; P·巴纳辛斯基
Original assignee: Ultraligans GmbH
Current assignee: Ultraligans GmbH
Priority date: 2021-03-15
Filing date: 2022-03-14
Publication date: 2024-03-12
Also published as: JP2024515448A; US11769320B2; IL305918A; US20240013519A1; AU2024200033A1; CA3212374A1; WO2022197587A1; EP4309125A1; US20220292815A1; AU2022238786B2; KR20230152149A

Abstract

本发明提供了用于持续训练计算机***以使用3维合成物品的至少100个随机创建的2维图像来准确地识别托盘中的手术物品的支持人工智能的图像辨识方法和***，2维图像具有分配给图像或物品的唯一识别符。本发明还提供了一种支持人工智能的图像辨识方法和***，用于确定手术器械在手术托盘上存在还是缺失，并且如果适用，识别那些缺失。在一个方面，服务器接收图像并用深度卷积神经网络分析图像以对托盘的类型进行分类，然后将应该在托盘上的物品列表与计算机辨识的在托盘上的物品列表进行比较以生成向用户显示的识别存在和/或缺失的物品的输出。

Description

用于动态识别手术托盘和其上包含的物品的***和方法

相关申请

本申请要求在2021年3月15日提交的序列号为63/161,270、标题为“Systems andMethods for Dynamic Identification of a Surgical Tray and the Items ContainedThereon”的美国临时专利申请的优先权和益处，该专利申请的内容通过引用整体并入本申请。

技术领域

本发明的实施例的方面涉及计算机视觉领域，并且包括被配置为自动地和准确地进行以下操作的***和方法：当手术托盘和其中的内容移动通过手术室时，识别、确认和跟踪手术托盘和内容，并且如果托盘上的一个或多个物品缺失，则通知用户，例如医务人员。

背景技术

手术需要特定的一组或多组物品来执行。一些物品包括执行手术所需的器械(例如，钻头、剪刀、解剖刀等)，而其它物品是被设计成替代、支撑或增强现有生物结构的设备或植入物。在将物品移入手术室之前，必须对所有物品进行消毒并放置在特定的手术托盘上。在手术完成之后，将使用过的和未使用的物品以相同或不同的状态、配置从手术室中移除，或者在一些情况下，在与手术之前放置物品的托盘不同的托盘上将其移除。例如，某些物品可能在它们的表面上具有生物材料，例如血液。此外，手术团队的成员可能将使用过的物品彼此叠置在托盘上，从而部分地遮挡某些物品的视野。对于从手术室出来的托盘上的物品来说，通常看起来与进入手术室相比是不同的，并且不那么有序。无论如何，重要的是识别和跟踪进入手术室的所有必要物品和离开手术室的所有物品。

保持跟踪托盘上的物品是乏味的，并且需要大量的时间和工作人员集中精力来跟踪物品和托盘。医院使用规程和流程，其要求个人对进入和离开手术的所有手术器械进行计数。常规规程需要视觉确认和/或单独手动处理每个器械以便于计数。这种方法缓慢、易于出现人为错误并且效率低。

已经提出了成像技术来跟踪手术物品，该成像技术可以包括使用计算机视觉的人工智能(AI)***。迄今为止，这种提议的支持AI的***没有提供解决方案，因为这种***没有被适当地训练以准确地识别托盘及其内容物。不存在用于训练大到足以使用计算机视觉***来准确地识别托盘和托盘上的物品的数据集的解决方案，因为这样的数据集需要在各种照明条件下以不同角度呈现的和/或被其它物品部分地覆盖的真实世界物品的许多图像，以反映在真实世界使用中物品可能如何被看见。将需要大量的时间来仅仅创建必要的训练数据集，该训练数据集由在所有不同角度、光强度、遮挡水平等下的器械的数十万张真实世界图像填充。时间限制使得构建AI***的训练数据集不切实际。因此，所提出的支持AI的***没有解决用于识别和跟踪托盘上的手术物品的常规规程所固有的问题。

真实世界的时间限制显著阻碍了基于AI的***的学习，并负面地影响了***的回忆能力，即，***需要多久一次猜测物品是什么，以及其精确性，即，***多久一次正确猜测物品。迄今为止，创建支持AI的计算机视觉***可以从中学习以识别手术托盘上的物品的可工作数据集还不可行。这种可工作数据库需要将每一个物品放置在托盘上的几十万张真实世界图像。需要一种用于训练支持AI的计算机视觉***的更高效的解决方案。

一种所提出的解决可行性问题的捷径涉及使用托盘和器械标记。利用这种捷径，支持AI的***必须仅学习标记，而不是物品本身。例如，美国专利10,357,325提出使用相机：(1)基于存在于托盘上的矩阵码(例如，条形码或QR码)识别托盘，以及(2)基于附着到器械的彩色标记(例如，色带、带或环)识别托盘上的器械。这种基于标记的方法的问题是必须被标记和编码的不同手术物品和制造商的数量，以及在手术室中缺乏足够的、可靠的可操作性。此外，手术在白天和夜晚的所有时间发生，这改变了当托盘上的物品进入和离开手术室时对它们的照明暴露的性质。照明变化可以使自动成像器(例如相机)在进入手术室时将颜色标记读取为一个色调，但是在离开时将其读取为不同的色调。因此，如果发生以下一种或多种情况，基于标记的方法将失败：(1)托盘缺少识别托盘的特定矩阵或矩阵被遮挡而无法看到，(2)器械未返回到(a)其在同一托盘上的原始槽，(b)其在同一托盘中的原始取向，或(c)同一托盘，或(3)物品上的颜色标记被遮掩而无法看到，在不同照明条件下呈现为不同色调，或甚至从物品掉落。

因此，目前需要一种***和方法，用于训练人工智能(AI)使能的计算机视觉***以自动地和准确地识别手术托盘上的物品：(1)不需要附着到托盘或托盘中的物品的独立标记或代码，(2)不管各种照明条件如何，以及(3)不受托盘上物品的位置、角度、状态或遮挡百分比的影响。还存在对使用训练过的AI使能的计算机视觉***以高召回率(recall)和精确度准确地识别托盘上的物品的***和方法的当前需求。

发明内容

本发明通过提供一种可用于识别手术托盘、器械和植入物的支持AI的、动态的计算机视觉***来满足当前的需要。本发明的支持AI的***被训练成满足***管理员或管理员的雇员、承包人或代理人先前上传的最小召回率和精确度阈值。一旦被训练，支持AI的***被配置成以允许用户利用移动计算机设备拍摄至少一个手术工具托盘的图片、视频或图像的方式部署以供使用，所述移动计算机设备包括成像器(例如，相机)，然后***通知用户：(1)(一个或多个)托盘的类型，(2)所述(一个或多个)托盘上的器械和植入物，和/或(3)从(一个或多个)托盘中缺失的任何器械和植入物。在实施例中，***允许用户在手术之后拍摄(一个或多个)托盘的另一图片、视频或图像，并且然后***将哪些器械和植入物存在于(一个或多个)托盘上通知给用户，并且记录到***的数据库中。

一般地，本发明的***和方法通过以下步骤提供了对支持AI的计算机视觉***的训练：(1)扫描手术器械或托盘至少两次以创建所述物品的初步3-D合成模型；(2)修改所述初步3-D合成模型以创建最终3-D合成物品，所述最终3-D合成物品完全存在于虚拟世界中，但其属性，例如反射率或形状，模拟所述物品的真实世界属性；(3)向最终3-D合成物品分配唯一识别(标识)(identification)；(4)创建最终3-D合成物品的2维图像的无限训练集，计算机视觉辅助AI平台可通过改变以下各项来学习所述无限训练集：(a)虚拟物品的取向，(b)击中所述虚拟物品的虚拟光颜色/强度，(c)虚拟物品被遮挡多少不被看到，(d)虚拟物品在所识别的表面上方的高度，(e)用虚拟生物材料对虚拟物品的表面进行虚拟模糊等；(5)将训练集提供给***，直到***识别出训练集中的至少一个模式并且创建/修改归因于模式的至少一个识别模型；(6)创建唯一测试集，其中***提供表示***具有的物品识别是正确的置信度的数值置信度因子；(7)如果***通过将用于识别物品的更新模型上传到服务器以供稍后使用，则确定***是否正确地识别了测试集中的物品，以及置信度因子是否等于或大于期望的置信度因子，以及如果物品被错误识别或者置信度因子不在或高于期望的阈值，则重复步骤4-7，直到物品的识别并且满足置信阈值。

一般地，本发明的***和方法通过以下步骤提供使用AI使能的计算机视觉***：(1)接收手术托盘和其上包含的物品的图像；(2)启动包括张量的多个托盘分类模型，其中托盘分类模型已经如上所述在训练案例部分中被预先上传；(3)分析所述图像，并基于托盘分类模型对图像中的托盘类型进行分类；(4)在对托盘进行分类时，从数据库调出链接到托盘的分类的多个器械识别模型，其中，器械识别模型如上文在所述训练案例部分中概述的那样被上传；(5)分析所述图像并基于器械识别模型识别所述图像中的物品的类型；(6)将分类的物品与链接到所分类的托盘的物品列表进行比较以确定任何缺失的物品，以及(7)向软件应用通知所分类的物品和任何缺失的物品。

在本发明的示例性非限制性实施例中，提供了一种***，其被配置为被训练以对手术托盘进行分类并识别其上包含的物品。该***包括通过有线和/或无线通信网络与软件应用通信的处理器，以及成像器和服务器。成像器可以是能够拍摄图片或视频的相机。在实施例中，成像器使用像素和/或矢量创建真实世界场景的视觉描绘的文件。例如，相机能够产生以下文件格式中的任何一个或多个的图像：JPEG(或JPG)-联合图像专家组、PNG-便携式网络图形、GIF-图形交换格式、TIFF-标记的图像文件、PSD-Photoshop文档、PDF-便携式文档格式、EPS-封装的Postscript、AI-Adobe图册文档、INDD-Adobe设计文档或RAW-原始图像格式。

本发明的***利用托盘和物品的合成图像来创建托盘或手术器械的初步3维模型。该方法使得能够创建合成图像的可工作的训练数据集。在非限制性实施例中，本发明的***被配置成允许***的管理者或管理者的雇员、承包人或代理人用成像器扫描托盘或手术器械、植入物、工具或紧固件至少两次以创建托盘或手术器械的初步3维模型，然后使用软件应用来修改托盘或手术器械、植入物、工具或紧固件的初步3维模型，以创建用于每个手术器械、植入物、工具或紧固件的最终3维合成物品文件。软件应用允许对最终3维合成物品的修改，包括限定从由以下组成的列表中选择的至少一个要素：物品的几何形状、每一顶点的位置、每一纹理坐标顶点的UV位置、顶点法线、构成被限定为顶点列表的每一多边形的面，和纹理坐标。软件应用将唯一识别分配给最终3维合成模型，也称为“3维合成物品”。“唯一识别可以是字母数字和/或色度的。在一个实施例中，软件应用可将唯一识别链接到所上传的图像中的一个或多个托盘分类。托盘分类可以包括器械、植入物、工具、紧固件或链接到托盘的其他物体的预定义列表，***可以对其进行识别。

接下来，本发明的***被配置为自动创建训练数据集和测试数据集，其中的每一个是针对每个最终3维合成物品而导出的。训练数据集被链接到由软件分配的唯一识别，以使得***能够从最终的3维合成物品学习。相反，测试数据集不包括到唯一识别的链接。所有数据集，即(一个或多个)训练数据集和(一个或多个)测试数据集，包括最终3维合成物品的独特合成图像，其中最终3维合成物品的取向、照明最终3-D合成物品的合成光颜色或强度、或者最终3维合成物品在所识别表面上方的高度在每个图像中是唯一的(或独特的)。在某些实施例中，训练数据集还可以包括托盘、手术工具、植入物、紧固件或其他物体的多达100个或更多个真实世界图像。用于每个3维合成物品的唯一训练数据集可包含3维合成物品的数十万个独特2维图像，并且可选地包含被扫描以创建3维合成物品的物体的许多真实世界图像，所有这些图像可用于本发明的支持AI的计算机视觉***的训练过程中，从而以高召回率和精确度辨识每个3维合成物品。每个训练数据集可以由本发明的***和方法高效地创建。本发明的一个特征是，***的训练可以是持续进行的，以通过使用训练数据集中的3维合成物品的多达无限数量的合成训练图像来持续地提高召回率和精确度。

本发明的***和方法可以通过3维合成物品的每个训练数据集来训练，该训练数据集包含托盘、或手术工具、植入物、紧固件、或托盘中或托盘上的其他物体的2维图像和唯一识别。该***被配置为处理训练数据集中的每个2维图像，并且创建和更新识别模型，该识别模型可以被部署用于识别托盘或托盘、手术工具、植入物、紧固件或托盘上或托盘中的其他物体，而不需要与训练数据集一起提供的正确识别。识别模型包括归因于在每个训练数据集中识别的托盘或手术工具、植入物、紧固件或其他物体的视觉模式的特征向量。特征向量可以被组合成矩阵以提供特征向量的2维阵列。矩阵可以被分层为张量以提供3维阵列，该阵列由***用来在***被部署在手术室中时对(一个或多个)托盘进行分类或识别(一个或多个)器械。

一旦创建，用于3维合成物品的每个识别模型(其包括归因于已知托盘和在托盘上或托盘中的手术工具、植入物、紧固件或其他物体的张量)被存储在服务器上，该服务器在最终3维合成物品所位于的场所处或在远离最终3维合成物品的地点处。当***处理附加的训练数据集时，***可以创建归因于最终3维合成物品的已知或新模式的至少一个附加特征向量。这些附加特征向量可以被组合以创建新的矩阵或被添加到相关识别模型中的预先存在的矩阵。在识别模型中对矩阵的添加或修改可以用于修改或创建新的张量，然后由***将其上传到服务器或上传到第二服务器以供稍后部署使用。对特征向量的该创建构建了归因于手术工具、植入物、紧固件或其他物体的识别模式的张量，这训练了***，使得当***被部署以与新的或更新的识别模型一起使用时，***能够在不同的图像中自动辨识相同的器械。

3维合成物品的每个测试数据集可用于评估***已经经历的训练的量和有效性。在相关的训练数据集被提供给***以进行处理期间或之后，测试数据集可以被提供给***。当处理训练数据集时，***被提供有答案，但是当处理测试数据集时，***不被提供有答案。当测试数据集中的每个合成图像被提供给***时，***识别合成图像中的物品，并提供数值置信度因子，其表示***认为物品的识别正确的置信度。如果数值置信度因子未能满足或超过***管理员或管理员的雇员、承包人或代理人在***中预先设置的最小阈值，则向***提供附加的训练数据集，使得***可以通过创建归因于所识别的模式的更新的特征向量来改进置信度因子，以便存储在服务器上以供稍后部署。相反，如果***识别和数值置信度值正确，并且置信度因子等于或大于***中设置的置信度因子，则可以部署***以与新的或更新的识别模型一起使用。

在某些实施例中，即使在***被部署以与新的或更新的识别模型一起使用之后，附加的训练数据集也可被持续地提供给***以持续地创建归因于所识别的模式的特征向量，以提高***在针对独特图像(合成或真实世界)被测试时的召回率和精确度值，其大于先前由***的管理员或管理员的雇员、承包人或代理人确定的最小阈值。

在示例性非限制性实施例中，本发明的部署***包括软件应用。该应用被配置成在移动计算机设备上或在计算机设备上操作，移动计算机设备或计算机设备中的任一个与被配置成产生手术托盘的图像的至少一个图像数据收集设备通信。该应用被配置为从图像数据收集设备接收手术托盘或手术工具、植入物、紧固件或手术托盘上或手术托盘中的其他物体的图像，并且通过有线和/或无线通信网络将图像传送到位于手术托盘所位于的场所处或位于远离该场所的地点处的服务器。该***包括通过有线和/或无线通信网络与***的软件应用以及服务器通信的处理器。处理器被配置为在将所述图像传送到所述服务器时从所述***的库数据库调用：多个先前创建的识别模型，包括链接到合成托盘的先前创建的张量。链接到合成托盘的识别模型由前述训练***预先上传。处理器被配置成分析图像并且基于链接到合成托盘的(一个或多个)识别模型对图像中的托盘的类型进行分类。然后，基于由处理器分配的图像中的托盘的分类，处理器从库数据库中调用：(1)多个识别模型，其链接到3维合成物品，所述合成物品链接到所述托盘的分类，(2)识别模型，包括：(a)表面纹理，(b)物品材料成分，以及(c)尺寸公差；(3)链接到合成托盘的物品的列表，以及(4)如上所述为3维合成物品创建的多个特征向量。处理器然后分析图像并且继续基于链接到3维合成物品的(一个或多个)识别模型对图像中的物品的类型进行分类。处理器然后将分类物品列表与链接到分类托盘的物品列表进行比较以确定是否存在任何缺失的物品。***通知软件应用分类的物品和任何缺失的物品。软件应用然后显示所识别的和缺失的物品的列表。

在其他实施例中，公开了一种用于识别手术托盘和其上包含的物体的方法。该方法包括首先从图像数据收集器(例如相机)接收手术托盘和其上包含的物体的图像(照片或视频)。图像数据收集设备使用在移动计算机设备或者可以与移动计算机设备同步的计算机设备上运行的软件应用连接到服务器或远程服务器。移动计算机设备或计算机设备通过有线和/或无线通信网络与拍摄图像的地点处的服务器通信，或者与在远离该场所的位置处并与服务器通信的远程服务器通信。在接收到所述信息时，所述方法包括使用处理器从数据库调用：链接到合成托盘的多个识别模型。同样，先前已经通过以先前讨论的方式训练基于AI的计算机视觉***而获得了所述识别模型。接下来，该方法包括分析图像并基于链接到合成托盘的识别模型对图像中的托盘的类型进行分类。在对托盘进行分类时，该方法包括从数据库调用与3维合成物品链接的多个识别模型，所述3维合成物品被包括在托盘的分类中，所述识别模型包括：(a)链接到所识别的托盘分类的3维合成物品的表面纹理，(b)物品材料成分，以及(c)尺寸公差；以及(d)列表。同样，通过训练基于AI的计算机视觉***创建了链接到3维合成物品的识别模型，并且将3维合成物品链接到合成托盘的列表先前已由具有旨在包含在托盘上的物品的知识的专业人员上传。然后，该方法包括分析图像并基于链接到3维合成物品的(一个或多个)识别模型对图像中的物品的类型进行分类。接下来，该方法包括将分类的物品与链接到分类的托盘的物品列表进行比较以确定任何缺失的物品。然后，该方法包括向软件应用通知分类的物品和任何缺失的物品。最后，该方法包括在显示器上向移动计算机设备的用户显示结果。

在某些实施例中，图像数据收集设备是相机并且可以安装在可穿戴设备上。

参考以下描述和所附权利要求，本发明的这些和其它特征、方面和优点将变得更好理解。

附图说明

当在考虑结合附图进行的附图的以下描述的情况下考虑本发明时，将理解并清楚本发明的关于其***、架构、组件、配置和功能性的额外方面、特征和优点，其中：

图1A示出了本发明的***的组件之间的信息流。

图1B示出了本发明的***的组件之间的信息流。

图2A示出了由***从一个有利位置观察的三个合成物品。

图2B示出了由***从不同的有利位置观察的图2A中的同一合成物品。

图3示出了在先前导入到3-D建模应用中的初步3-D模型周围绘制的碰撞体边界框(虚线)。

图4示出了用于训练包含置信度阈值图的卷积神经网络的一个实施例。

图5示出了本发明的***的硬件组件。

具体实施方式

下面详细描述本发明的各种实施例。尽管描述了特定的实现，但是这仅是出于说明的目的而提供的。相关领域的技术人员将认识到，在不脱离本公开的精神和范围的情况下，可以使用其他组件和配置。

术语“3维”、“3-D”、“2维”和“2-D”具有它们的简单和普通的含义。

术语“3维合成物品”意指真实世界手术工具、植入物、紧固件或其它物体的3维合成模型(或3维模型)。

术语“3维合成模型”或“3维模型”意指由用于在虚拟环境中创建三维表示的软件创建的以及利用该软件创建的真实世界物体的三维表示。

单数或复数形式的术语“合成图像”意指真实世界图像的计算机生成的图像或另一虚拟图像的计算机生成的虚拟渲染。

本发明提供了一种针对本领域当前需要的用于手术物品跟踪的***和方法的解决方案。本发明通过使用支持AI的计算机视觉***解决了现有技术问题，该计算机视觉***经专门编程以使用在具有显示器的移动计算机设备(例如，移动电话)上运行的软件应用与诸如相机之类的成像器同步。相机将经由有线或无线网络传输的真实世界手术托盘和其上包含的物品的图像(照片或视频)提供给软件应用，以：(1)识别托盘的类型和托盘上的物品；以及(2)如果物品从托盘中缺失，则通知用户。必须首先训练软件应用以识别托盘和托盘中或托盘上的物品，即工具、植入物、紧固件等。训练是使用某些特征向量进行的，这些特征向量被组合以创建二维矩阵，这些二维矩阵本身被组合以创建用于从3维合成物品自动构建识别模型的3维张量。识别模型由支持AI的计算机视觉***创建，该支持AI的计算机视觉***使用由管理员或其雇员、承包人或代理人先前上传到库数据库的3维合成物品。软件应用被训练以基于以相同方式创建的识别模型来识别托盘上的物品，即，特征向量被组合以创建2维矩阵，其被组合以从由管理员或他们的雇员、承包人或代理人先前上传到库数据库的合成器械产生3维张量。通过持续输入包括3维合成物品的随机2维视图的合成训练数据集，由软件应用创建识别模型，其中(1)3维合成物品的取向、(2)对3维合成物品进行照明的合成光颜色或强度、和/或(3)3维合成物品在识别表面上方的高度是唯一的。

基于托盘分类，***从数据库中调用所有真实世界物品的列表，这些物品应该在包括与由管理员或他们的雇员、承包商或代理人预先上传到库数据库的合成物品链接的对应的(多个)器械识别模型的托盘上。接着，***将器械识别模型与托盘的图像进行比较，以识别位于托盘上的物品。最后，***显示不位于手术托盘的图像中的物品的列表。

图4示出了本发明的***训练的实施例的处理的流程图。软件应用可以从图像(照片或视频)中识别真实世界物品，因为先前已经用与真实世界物品相对应的3维合成物品训练了应用。在用于数据准备步骤的这种实施例中，管理员或他们的雇员、承包人或代理人：(1)选择物品(例如，托盘、工具、植入物、紧固件等)并创建场景，以及(2)将场景上传到3-D渲染程序，诸如例如3ds Max和/或Unity，并且此后，并且***(3)渲染设备的合成图像(即，2维图像)并创建相关的合成有色掩模，(4)向软件应用提供数据集以开发注释的文件或将器械掩模映射到器械的真实世界图像，以及(5)将注释的文件分割成子文件以便对图像进行分层。对于检测器训练，管理员或他们的雇员、承包商或代理人或者***可以自动地：(1)选择用于训练的数据集，(2)准备模型架构，(3)选择要改变的数据集中的图像的特定增强(例如，颜色、物品的几何形状、边界框大小或形状、亮度级等)，(4)设置图像输入大小，(5)设置数据加载器设置，诸如批量大小、学习速率、迭代等，以及(6)在***中部署模型训练并监视它。

***训练导致创建多个：(1)与(多个)特定托盘分类链接的(多个)托盘特征向量，以及(2)与(多个)特定器械分类链接的(多个)器械特征向量。链接到特定托盘分类的托盘特征向量和链接到特定器械分类的器械分类向量被上传到位于拍摄真实世界托盘/器械的图像的站点处或远离拍摄真实世界托盘/器械的图像的站点的站点处的服务器。

使用管理员或其雇员、承包人或代理人先前上传到***以便训练AI使能的计算机视觉***的3维合成物品通过允许***以大于90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或甚至99.5％的准确度正确地识别托盘上的所有物品而不需要独立的物品特定标记，解决了先前讨论的真实世界可行性问题。***准确性不会受到托盘上的真实世界物品从它们在托盘上的典型位置/取向重新定位(或丢失)的图像的显著影响，因为***和方法适于操纵3维合成物品的取向、阴影和表面纹理(例如，粗糙度、使用磨损、反射率等)。***创建用于创建必要的链接特征向量的3维合成物品的几十万个2维合成图像，允许***确定物品是否在托盘上或托盘中。本发明可以被配置成识别在其表面上具有生物材料或部分地被遮挡而看不见的真实世界物品。此外，本发明可以通过使用3维合成物品的更多2维合成图像来持续训练***以达到甚至更高的准确度。

下面提供本发明的***和方法的详细讨论。首先，讨论***概述。其次，概述3维合成物品的创建。第三，讨论了训练***的方式。第四，概述***识别图片中的真实世界物品的方式。第五，讨论用户可以与***交互的方式。第六，确定***组件。第七，进行对用于该***的环境的云计算***的描述。第八，公开了相关数据的收集和保留。

***概述

图1A示出了***，***包括：服务器110，包括由与(一个或多个)图像数据收集设备120通信的存储器辅助的处理器；和(一个或多个)数据库130。例如，如图1B中所公开的，用户使用图像拍摄设备(例如，智能电话)拍摄手术托盘135的照片。软件应用的前端自动分配案例ID，并将该图像发送140到部署***的分类器和检测器模块的服务器110。分类器和检测器模块连接145到数据库130。数据库确认150到服务器110的成功连接。包括图像的连接流155被发送到分类器和检测器模块。托盘的类型被分类160。一旦托盘被分类，分类器和检测器模块就从数据库130请求链接到识别的托盘分类160的器械检测器模块165。部署链接的器械检测器模块170，并且分类器检测器模块检测图像175中的器械。置信度阈值180被应用于每个检测到的器械。确定未检测到的链接到托盘分类的器械的列表。最后，分类托盘与检测到的器械和丢失的器械的列表一起然后被提供给软件应用，以在图形用户界面上显示给用户。

如上所概述的，***分两个阶段进行。首先，该***被配置成分析图像以对图像中的托盘的类型进行识别和分类。其次，***被配置成然后分析托盘以确定什么(如果有的话)物品从托盘中缺失，然后通过图形用户界面向用户显示结果。可选地，***可以将结果存储在数据库中以供稍后分析，诸如用于审计。数据库包含：

(1)3维物品(例如，托盘和手术设备)的多个2维合成图像，用于训练诸如卷积神经网络(CNN)之类的支持AI的计算机视觉***，其中合成图像展示：(a)表面纹理，(b)物品材料成分(例如，金属、塑料、云母、玻璃等)，(c)尺寸公差，其可以考虑生产公差或物品磨损(例如，使用过的钻头可以具有比当其是新的时稍小的圆周)，以及(d)物品在托盘上或托盘中的位置；

(2)托盘分类模型的列表，其将不同的托盘分类模型链接到作为使用合成图像训练所述***的结果而获得的特定合成手术托盘；

(3)多个器械识别模型，其将不同的器械特征向量链接到作为使用合成图像训练***的结果而获得的特定器械；以及

(4)可选地，用于训练支持AI的***的知识的多个现实图像。

该信息可以由***管理员或他们的雇员、承包人或代理人上传或提供给数据库。最后，处理器被结合到支持AI的***中以：(1)识别并分类图像中的托盘；(2)基于图像中的托盘的分类，识别链接到托盘的物品的列表；(3)分析图像的内容以确定特定列表上的物品是否包含在图像中；(4)通知软件应用哪些物品包含在图像中以及哪些物品不包含在图像中；以及可选地(5)确定任何缺失的物品可能位于何处或者图像中包含的物品是否可以充当缺失物品的替代品。

本发明可以利用每个3维物品的数万个2维合成图像来操作，必须首先创建所述图像以使得能够训练***以动态地识别图像中的物品，而不管物品的位置、取向、替代表面纹理(例如，物品表面上存在的生物材料)或使用证据如何。可以教导该***通过识别特征向量并将其链接到不同的特征向量和/或特定的托盘和器械、植入物、工具或紧固件来识别不同的物品。

可选地，物体的许多真实图像可以用于帮助训练***识别不同物品的能力。这样的图像是利用尽可能多的物品种类和属性(例如，照明、背景、相机角度等)的随机化视图来拍摄的。然后以类似于3维合成物品的方式对现实物体的图像进行注释。在一个实施例中，使用SENSE软件工具来完成这样的注释。在此类实施例中，使用SENSE工具在每个物品周围绘制边界框并对其加标签。

一旦被训练，***被配置成接收例如由相机拍摄的图像(照片或视频)，并且使用图像来识别图像中的手术托盘，识别手术托盘上应该有什么器械以及这些器械实际上是否在那里，并且向用户实时显示分析结果(即，是否缺失任何器械)以进行适当的动作。

合成物品的创建

创建真实世界物体的每个3维合成物品是用于训练***以辨识由相机拍摄的照片中的真实世界物体的特征的第一步骤。图2A和2B示出了完成的3维合成物品的示例以及在训练期间***如何可以从不同的有利位置查看那些合成物品。

该***从3维合成物品创建无限数量的2维合成图像，由此2维合成图像被用于训练该***。3维合成物品的创建开始于管理员或他们的雇员、承包人或代理人收集关于物品的几何形状(形状)、表面形貌/纹理、物品材料组成和/或颜色信息以创建初步3维模型。初步3维模型由管理员或其雇员、承包人或代理人细化，以创建最终3维合成物品，其将是***所使用的物品的所有合成图像的起源。相反，***可以接收3-D CAD绘图文件以创建初步3维模型。这样的CAD文件可以由托盘或物品的制造商或经销商提供给***。

在某些实施例中，从相对于真实世界物体或托盘的多个不同有利点(姿态)收集用于创建初步3维模型的初始信息。这种捕获物品的视图的过程可以被称为三维扫描或三维建模，其可以使用3维建模***来初步完成，该***包括例如一个或多个3D扫描器，诸如Artec 3D扫描器。每个扫描器可包括一个或多个深度相机，这些深度相机以一个或多个图像流形式获得视觉信息。深度相机还可包括获取关于物品的颜色信息的一个或多个颜色相机，以及可结合IR结构化光照明器使用以初步捕捉关于物品的几何结构、表面纹理和材料信息的一个或多个红外(IR)相机。颜色和IR相机可以被同步和几何校准，从而允许相机捕获由颜色图像和深度图构成的帧序列，对于这些帧序列，可以提供几何对准。在某些实施例中，物品需要被扫描最少2次以拍摄物品的所有侧面。在某些实施例中，图像分辨率可被设置为2048×1536像素。

上述3维建模***可被用来识别真实世界物体的表面上的可见点相对于参考坐标系(例如，原点在深度相机处的坐标系)的3维位置。因此，包括3维点的初步3维模型可被3维建模***用来描述真实世界物体的表面的一部分，以及深度相机的视野内的其他表面属性。

初步3维模型可以包括具有x、y和z坐标的3维点的集合和/或网格(例如，三角形的集合)。深度相机还可以捕获并且初步3维模型可以包含关于表面纹理、物品材料成分(例如，金属、塑料、云母、玻璃等)和尺寸公差(其可以考虑生产公差或物品磨损(例如，所使用的钻头上的磨损))的信息。

因为3维建模***不是完美的，所以图像校正技术可以用于适应来自相机透镜形状和相机取向的变化的图像失真。3维建模***还可以自动处理初步3维模型以去除由于错误测量(例如，测量噪声)而导致的“异常”点或者去除不是物品或托盘的一部分的结构，诸如物品被放置在其上的搁置表面。背景物品可通过例如限制具有大于特定阈值深度的深度的点的映射或通过检测最底部的点平面来去除。

在一些情况下，多个3维点和/或网格可以被组合以生成初步3维模型。可以通过合并模块(例如Artec Studio 15或软件)来进行组合，以生成初步3维模型(例如，通过使用ICP来对准和合并点或网格，并且通过去除无关的或伪的点来减少噪声和管理3维模型的大小)。在一些实施例中，网格生成模块使用诸如Delaunay三角测量和阿尔法形状之类的技术以及诸如MeshLab之类的软件工具来从合并的初步3维模型计算3维网格。3维模型可以与使用颜色相机获得的图像中的颜色信息组合，并且可以被应用为纹理映射(例如，关于模型的表面的颜色的信息)。这种网格的创建通过提供以后有助于多边形化的结构信息来提高合成图像中的分割质量。

一旦创建了初步3维模型，就将其导出到用于以一种格式修改3维模型的应用，该格式定义了几何形状、每个顶点的位置、每个纹理坐标顶点的UV位置、顶点法线、使得每个多边形被定义为顶点的列表的面、纹理坐标、以及物品或托盘的其他属性。用于修改3维模型的应用可以是Autodesk 3d Max，并且文件格式可以是OBJ格式。一旦初步3维模型已经被导入到3维建模应用中，就生成修改量并且应用该修改量以在初步3维模型中描绘的物体周围绘制碰撞边界框。碰撞边界框是围绕物体绘制的框，其包含整个物体。图3示出了在初步3维模型中描绘的物体周围绘制的边界框的示例。边界框可以被表示为具有x和y坐标以及宽度和高度的矩形。通过在初步3维模型中描绘的物体周围绘制碰撞边界框，***具有物体的清楚定义。图3示出了使用MassFX的这种限界框的应用，MassFX是与Autodesk 3ds Max一起工作的工具集。虽然限界框快速且易于使用，但多边形化是不规则形状的替代方案，因为多边形化不限于矩形和正方形，且因此捕获更多的线和角。不管是使用限界框还是多边形化来映射物品，都将标签应用于初步3维模型。

标签标识物品的材料类型、表面纹理和尺寸公差信息。标签被手动或自动地确认、补充或分配给物品或保持托盘的每个限界区域。例如，管理员或他们的雇员、承包人或代理人可以针对托盘中的金属保持器将托盘保持器的相关限界框设置为模仿抛光铝的金属属性，并针对其他塑料保持器设置为云母带(micarta)材料。实际上，每个合成物品或托盘部分可以通过多边形选择来手动选择，并且可以由管理员或他们的雇员、承包人或代理人将材料ID手动分配到多边形的该子集上。

在某些实施例中，手动或自动创建初步3维模型包括添加到材料信息并应用于所有合成物品的实用着色器。该着色器基于合成物品的名称生成唯一物体掩码，其中向每个合成物品的名称分配唯一颜色。这种方法允许***和用户两者通过合成颜色关联更容易地辨识合成物品。

此外，为了帮助***识别处于不同照明条件或强度的物品，使用合成相机沿着设定数量的帧中的路径拍摄初步3维模型或者甚至3维合成物品的不同2维视图，同时动态地改变合成照明的强度或对比度。合成相机可在3D空间中拍摄初步3维模型或甚至3维合成物品的各种取向的图像。该方法在不同的照明条件和不同的取向下拍摄初步3维模型或者甚至3维合成物品的数千幅图像。使用合成图像，可以识别最佳照明条件(即，默认照明条件，在该默认照明条件下，***可以最准确地将合成物品与真实世界物品匹配，而不管真实世界照明条件如何)。一旦被识别，最佳照明条件被分配给每个初步3维模型或者甚至3维合成物品的不同表面。

最后，管理员或他们的雇员、承包人或代理人可通过将某些模型或物品放置在托盘的初步3维模型上或初步3维模型中的特定位置来手动组合初步3维模型或甚至3维合成物品，以产生特定的完整合成托盘。然后，将特定的完整合成托盘、与该合成托盘相关联的所有合成物品、连同位于特定的完整合成托盘上的所有合成物品的列表一起上传到数据库。在其它某些实施例中，***自动地将合成器械、植入物、工具或紧固件与合成托盘组合。

通过手动地确认、补充或分配材料标识、表面纹理、尺寸公差和最佳照明条件给初步3-D模型的每个多边形，创建3维合成物品，其可以：(1)从数据库中被调用；(2)应用于托盘的图像；以及(3)在图像上***纵(例如，改变合成物品的位置、取向、遮挡、表面纹理、或托盘上的光遮蔽)以进一步训练***。通过使用3维合成物品(其可***纵以根据需要生成必要的数十万个2维图像)，***能够解决与获得托盘和器械的数十万个真实世界图像以训练其AI使能的计算机视觉***相关联的时间问题，而不需要独立地标记物品。

此外，因为与材料、表面纹理、尺寸公差信息和遮蔽响应相关的信息已经被链接到合成物品的每个单独表面，所以使用3维合成物品来训练***可以显著地变化，得到具有更高召回率和精确度的***。例如，真实世界物体的材料可以是反射性的(例如，金属的)。因为材料信息可以被包括在3维合成物品上，所以***可以在其训练中并入眩光和反射要素，使得当***被部署以供使用时，***可以识别照片中示出的真实世界物品，而不管撞击器械或从器械反射的光强度如何。

一旦(一个或多个)3维合成物品被产生并且被***的软件分配唯一标识，***就可以使用(一个或多个)3维合成物品来训练深度神经网络计算机视觉物体检测模型，诸如卷积神经网络(CNN)。利用3维合成物品和对应的唯一标识(例如，物品的正确分类)以及可选地利用真实生活图像来训练计算机视觉辅助的深度神经网络。神经网络的参数(例如，层之间的连接的权重)可以使用用于训练神经网络的标准处理(诸如反向传播、梯度下降、颜色、几何或边界框增强)来实现。此外，可以使用来自预先训练的通用图像分类神经网络的参数来初始化训练处理。该训练数据的一部分可被保留为交叉验证数据以在训练处理期间进一步调整参数，并且一部分也可被保留为测试数据集以确认网络被正确训练。

通过这种训练，***可以识别关于3维合成物品和真实世界物体的图像的特征向量，其可以链接到特定托盘和/或器械。可以将这样识别的特征向量上传到位于训练位置处的服务器或远离训练位置的服务器。一旦被训练，***就被配置成使用向量来自动地确定在将一个图像(照片或视频)中的真实世界物体与另一图像中的另一真实世界物体区分开时有用的模式。使用这种方法，***可以识别不同角度、不同光照条件下以及在物体可能被其他物体遮挡时的真实世界物体。该***可以对托盘中或托盘上的图像中示出的真实世界物体，或者甚至对托盘外的表面上的真实世界物体进行这种识别。

***训练

如前所述，***被配置成在图像中以显著的准确度识别物体在手术托盘中或手术托盘上的存在或不存在，因为其先前已经被训练。训练经由串行化机器学习流水线发生。机器学习流水线是端到端构造，其协调数据流入机器学习模型或多个模型的集合中以及从其输出。该***利用3维合成物品来学习：(1)对不同的托盘进行分类，以及(2)识别哪些器械位于分类的托盘内。3维合成物品的2维图像的使用可以用于产生无限训练数据集。用于训练***的数据量仅受时间和创建和处理合成图像的可用计算能力的限制。通过采用(一个或多个)合成物品，***被配置为创建独特合成图像的无终止的(unending)流，其可以被提供给***以训练它。这种无限训练数据源提供了物品检测器，其具有高召回百分比，意味着***不必那么经常猜测，并且具有高精度百分比，意味着当***猜测图像中的物品时，***经常是正确的。

训练任何机器学习模型的处理涉及提供机器学习算法，即，具有用于构建包括张量的手术托盘或物品的识别模型的训练数据的学习算法。在这种情况下，合成图像被用作训练数据。另外，在某些实施例中，为了训练的目的，使用真实生活的图像来补充合成图像。因为用于训练***的图像的绝大多数是合成地创建的，所以可以容易地改变以下方面以辅助***的训练：(1)器械在托盘内的位置可以是随机化的；(2)可以随机选择应该在托盘上的器械以使其丢失；(3)器械相对于托盘的高度可以是随机化的；(4)光源可以是随机化的；(5)托盘内的器械分布可以是随机化的(例如，器械可以堆叠)，或(6)不应在托盘上的***器械的添加。由于使用了合成物品，所以可以创建数以万计的随机化合成图像，并且可以实时使用这些图像来训练***。

训练处理创建并细化识别模型。在训练处理期间，向***提供合成图像，以及可选地，物体(例如，托盘或物品)的真实生活图像，以及链接到每个合成图像以及可选地真实世界图像的正确结果。正确结果被称为目标或目标属性。学习算法在训练数据中找到将输入数据属性映射到目标的模式。模式辨识可以是由标量组成的特征向量的形式，标量仅是单个数字(例如，特定物理点的反射率)。特征向量是数字阵列，其被布置成通过其在该排序中的索引来标识每个单独的数字(例如，空间中的点，其中每个元素给出沿不同轴的坐标)。特征向量被组合以形成矩阵，矩阵是2维数字阵列，因此每个元素由两个索引而不是仅一个索引(例如，螺丝刀在沿轴的坐标处的反射率)来标识。矩阵被组合以创建张量，张量是排列在具有可变数量的轴的规则网格上的数字阵列。可以通过添加附加标量来修改特征向量，可以通过添加附加特征向量来修改矩阵，并且如果每个具有相同形状，则可以通过添加附加矩阵来修改张量。这样的修改可以通过***在训练时自动添加相应的元素来完成。当***训练时，它以最佳地捕获模式(即，提供最高的召回率和精确度)的方式自动地修正相关的张量。训练继续，更新的学习算法暴露于新的2维合成图像，而无需知道目标或目标属性的帮助。此外，因为2维合成图像是从3维合成物品创建的，所以当训练时，可以自动排除使训练数据包括或排除用于***的复习的正确答案的能力被发送到***。结果，不仅2维合成图像可以用于训练***，而且它们还可以用作自动评估***的召回率和精确度的基础。

图4示出了机器学习训练模块的实施例。门模块(即，识别图像中的托盘的模块)和检测器模块(即，识别图像中的物品的模块)两者被训练。这种训练可以串行或并行地发生。这种训练可以是自动的。此外，这种训练可以是监督的机器学习和深度学习，因为***的管理员或管理员的雇员、承包人或代理人评估结果并批准对学习算法的改变。如前所述，监督学习涉及使用对输入示例建模的算法来识别目标分类(例如，图像中有什么器械)或数值(例如，图像中有多少螺钉)。在某些实施例中，目标分类与数值被链接(例如，图像中有多少特定类型的螺钉)。

图4示出了唯一数据集可以由***410自动准备。托盘分类器415和器械识别420模块两者在2维合成图像上被训练。在某些实施例中，使用真实世界物体的图像来训练托盘分类器415和器械识别420。接下来，针对器械识别模块430和托盘分类器425两者评估***结果。***提供器械识别器的置信度阈值435。***提供器械识别器440和托盘分类器450两者的最终识别结果。最后，在置信度阈值满足或超过先前设置的置信度阈值的情况下，***将器械识别模块和托盘分类器两者部署或更新460到服务器中的数据库。

一旦识别模型已经被训练以具有预期性能，下一步是在受控的、接近真实的设置中评估识别模型的预测结果，以获得该模型有效、可靠并满足商业使用要求的置信度。在该步骤中，设置检测器模块(即，识别物品是否在图像中的模块)的置信度阈值。在用检测器模块识别真实世界物体的目标分类时，***向每个输出分配数值置信度值。该置信度值表示***在预测中的置信度。该***确定预测集合中的每个预测的正确性，并确定测试预测的正确性和置信度分数之间的关系。该***基于所确定的关系和标签来建立用于识别模型的置信度阈值。为了避免不正确的指定，***的管理员或管理员的雇员、承包人或代理人指定最小置信度阈值，并将该最小置信度阈值链接到数据库中的相关物品。最小阈值可以是跨所有物品通用的，诸如如果***以大于90％的置信度识别真实世界物体，则***将仅从托盘的图像识别真实世界物体。相反，可将唯一置信度阈值链接到各个物品。例如，***可以被配置为以70％的置信度识别图像中的螺钉，但是可以被限制为不确认图像中的手术植入物的存在，除非该识别的置信度值大于95％。

一旦完成托盘分类器模型或识别模型的评估，模型就准备好部署到生产***中。在某些实施例中，生产***被部署为服务器上的Web服务，其可以被诸如网络边缘设备之类的目标生产***中的其他组件调用，以获得关于什么器械可能位于图像(照片或视频)内的预测结果。在一些实施例中，将以与用于训练***的编程语言不同的编程语言来重新实现生产***。例如，***可以使用Python来训练，但是以Java来实现。

***图像辨识

当部署时，***能够在图像(照片或视频)或真实世界手术托盘中识别物体，诸如手术器械、工具、植入物等。在这方面，深度神经网络模型首先接受由用户拍摄的手术托盘的真实世界图像作为输入。在某些实施例中，成像器分辨率可设定为2048×1536个像素。通过首先对特定托盘进行分类，图像被提供给***并由***处理。利用该信息，***从数据库中调用应当位于托盘上的所有物品的列表。然后，***通过将其与识别模型进行比较来处理图像，并返回检测到的手术物品的列表以及它们在图像上的位置或应当已经位于图像中但不位于图像中的物品的列表。该***使用以下组件来分析图像：(a)托盘分类器；以及(b)手术物品检测器。

由托盘分类器返回的信息被***用来选择针对特定托盘的特定手术物品检测器。手术物品检测器在照片中找到特定手术物品的列表并将它们定位(返回包含手术物品的最小矩形的坐标)。分类器和检测器两者可以基于卷积神经网络(CNN)。在某些实施例中，手术物品检测器使用诸如更快RCNN之类的模型架构。

在某些实施例中，在手术物品看起来相似的情况下，手术物品分类器可以用于支持手术物品检测器。在这种情况下，***可以将包含有问题的物品的照片的部分传递到手术物品分类器，该手术物品分类器区分若干相似类型的物品。如在托盘分类器的情况下那样，手术物品分类器可以基于CNN模型。

在某些实施例中，通过计算包含合成物品的唯一分配ID的描述符来执行手术物品识别，其中描述符是多维向量(即，矩阵或张量)。用于计算合成物品的描述符的常见技术基于多视图卷积神经网络(MV-CNN)的前向评估，或基于通过体积卷积神经网络(V-CNN)的前向评估。这样的网络通常被训练用于物体分类，并且在一些实施例中，网络的倒数第二层的输出被用作描述符。

例如，如先前所描述的，可以使用由视图生成模块渲染的3维合成物品的2维图像来训练CNN。在操作中，合成的2维图像被提供给描述符生成器以提取每个视图的描述符或特征向量。可以组合每个视图的特征向量以生成合成物品的2维图像的描述符，以基于该描述符对视图进行分类。在这样的实施例中，CNN被用于处理合成的2维图像以生成物体的分类。通常，深度CNN通过将输入图像数据(例如，合成的2维图像)传递通过级联的层来处理图像。这些层可以被分组为多个级。深度CNN可包括两个级，由N层(或子过程)构成的第一级CNN₁和由M层构成的第二级CNN₂。在一个实施例中，第一级CNN₁的N层中的每一个可包括线性卷积层的堆(bank)，后面是点非线性层和非线性数据减少层。相对照，第二级CNN₂的M层中的每个可以是完全连接层。第二级的输出p是类分配概率分布。例如，如果整个CNN被训练以将输入图像分配到k个不同类之一，则第二级CNN₂的输出是包括k个不同值的向量p，每个值表示输入图像应当被分配对应类的概率(或“置信度”)。

由第一级CNN₁(卷积级)计算并提供给第二级CNN₂(全连接级)的值被称为描述符(或特征向量)f。特征向量或描述符可以是具有固定大小的数据向量，其浓缩或概括了输入图像的主要特性。第一级CNN₁可以被称为分类***的特征提取级。

如果必要，基于物体的n个不同的2-D视图，上述分类器的体系结构可以应用于对合成物品的多视图形状表示进行分类。例如，第一级CNN₁可独立地应用于用于表示合成物品的n个2-D视图中的每一个，从而计算n个特征向量的集合(2-D视图中的每一个一个特征向量)。在一些实施例中，使用例如最大池化来组合n个单独的特征向量，其中，n个视图中的每一个被提供给描述符生成器的第一级CNN₁以生成n个特征向量。在最大池化中，n个特征向量被组合以生成单个组合特征向量或描述符F，其中描述符F的第j个条目等于n个特征向量f中的各第j个条目中的最大值。所得到的描述符F具有与n个特征向量f相同的长度(或秩)，并且因此描述符F也可以作为输入被提供给第二级CNN₂以计算物体的分类。

本发明的一些实施例还可以使用体素化方法来从合成物品的体积表示生成张量。例如，CNN可被提供对应于与合成物品的表面相交的体积的张量，其中这些体积具有对应于体积3-D卷积核的大小和形状，而不是对应于2-D卷积核的大小的2-D视图的2-D块(patch)。

然后，所提取的张量可被提供给分类器，以将物体分类为k个不同类C的特定集合中的一个的成员，从而导致目标物品的分类。这可以例如通过将描述符F提供给第二级CNN₂来完成，从而产生表示类分配概率分布的标准化正数的向量p。该向量p的最大条目的索引是给定形状的最可能的类(即，其识别图像最可能包含的手术物品)，其中相关联的最大值表示该分类的置信度。第二级CNN₂可被称为CNN的分类级。

在本发明的一些实施例中，描述符向量用于查询与先前使用相同技术计算的描述符相关联的物体(即，手术物品)的数据库。该物体的数据库构成已知手术物品的集合，并且可以通过搜索描述符的多维空间中相对于目标物品的描述符最接近(例如，最相似)的描述符来识别与当前物体(例如，目标物品)相对应的已知手术物品。

在本发明的一些实施例中，CNN₁通过使用目标物品的描述符F检索数据集中最相似的形状，而不是通过将描述符F提供给第二级CNN₂，来对目标物品进行分类。例如，训练集中的所有物体可被提供给第一级CNN₁以生成已知描述符的集合{F_ds(m)}，其中索引m指示训练数据中的特定标记形状。相似性度量被定义为测量任意两个给定描述符(向量)F和F_ds(m)之间的距离。相似性度量的一些简单示例是欧几里德向量距离和马氏向量距离。在其他实施例中，使用度量学***均距离(如从训练数据中的示例测量的)最小化并且使属于不同类的向量对之间的平均距离最大化。

在本发明的一些实施例中，***的管理员或管理员的雇员、承包人或代理人可将打印表面特性链接到不同的手术物品。例如，颈椎植入物可以识别植入物的特定高度(例如，“6mm”、“8mm”或“12mm”)，并且可以具有指定植入物的左侧与右侧的不同着色的框。该***可以包括能够识别物品表面上的笔迹或颜色的光学字符识别模块。该***可以被配置成调用物品列表和链接的印刷表面特性，其先前已经由***的管理员或管理员的雇员、承包商或代理人上传到数据库。表面印刷的辨识可由***使用以增加或减小所识别物品的数值置信度值。

一旦目标物品被识别，关于其身份的数据可从例如库数据库中检索。检索到的数据可以包括例如托盘上的预期位置、参考合成物品(例如，物品的预期形状)、一个或多个缺陷检测模型(例如，诸如第二卷积神经网络之类的模型，被训练以检测物品中的缺陷)等。

显示输出

***继续，直到所有目标物品被识别。在识别所有目标物品之前、期间或之后，***检索应当包括在托盘上的所有物品的列表。该***将超过设定置信度值的识别物品的列表与应该在托盘上的物品的列表进行比较，并确定它确信什么物品在托盘上，以及什么物品不在托盘上。然后，***在图形用户界面上向用户显示位于托盘上的物品列表和未被识别为在托盘上的物品列表。可选地，***可以显示托盘的名称、位于托盘上的物品的位置、以及缺失物品应当在托盘上所位于的位置。用户然后可以与***交互，并且或者将缺失物品手动分类为实际上在托盘上，确认物品实际上从托盘中缺失和/或请求***识别缺失物品的潜在替代物。

与用户的***交互

尽管所公开的***可以自动地进行，但是(一个或多个)个人和/或(一个或多个)团队可以与用户交互。例如，在一个实施例中，用户可以审核或改变***对手术托盘上的物品的识别，其中此类信息被传送回***的管理员或管理员的雇员、承包人或代理人以并入到附加的***训练中。本节描述了这样的交互的非限制性的示例性实施例，其中用户可以审查、批准或改变由***识别的托盘或物品的任何方面。

用户登录

软件应用的第一步是用户登录。在一个实施例中，***提供多角色支持。例如，用户可以是保健管理者、护士、医生/外科医生、制造应当包括在托盘上的物品的公司的代表、或保险专业人员。

用户通过访问网站或加载计算机应用而开始。服务器确定这是否是用户的第一次访问。如果服务器确定这是后续访问，则加载先前的一般信息(例如，姓名、联系信息、访问授权等)。如果这是用户的第一次访问，则收集相同的一般信息。一旦用户被识别，他们被允许登录到应用中。在登录时，用户到达登录页面。在一个非限制性实施例中，登录页面是动态的，并且可以根据用户的角色显示不同的信息(即，保险专业人员将被呈现与外科医生不同的登录页面，外科医生本身将看到与医院管理员不同的页面)。

设备选择

在一个实施例中，检查托盘和其上包含的和/或缺失的物品的列表的能力取决于用户的角色。例如，如果用户作为护士登录，则***可以限制用户访问以仅针对即将进行的手术查看托盘和其上包含的物品的列表。相反，医院管理员不仅可以被允许查看即将进行的手术，而且可以被允许查看相关外科医生在所有先前手术中使用的托盘和设备的列表。此外，某些用户，例如医疗设备销售代表，可被限制为看到被认为包含他们的产品的托盘的内容，这将允许那些代表识别他们的产品何时从托盘中缺失。

在另一实施例中，该***还可以包括审核托盘上的物品的选项。在这样的实施例中，诸如医院管理员之类的用户可以首先查看患者的病例以及所需托盘和物品的列表。然后，用户可以查看同一设备的多个部件是否位于其它托盘上。在这点上，用户可以识别潜在的废物区域。

***组件

图5示出了***组件的实施例。该***的非限制性实施例包括通用计算设备，该通用计算设备包括处理单元(CPU或处理器)以及将包括诸如只读存储器(ROM)和随机存取存储器(RAM)之类的***存储器在内的各种***组件耦接到处理器的***总线。该***可以包括通过***总线连接到处理器的存储设备。该***可以包括通过***总线连接到处理器的接口。该***可以包括高速存储器的高速缓存，其直接与处理器连接、紧邻处理器或集成为处理器的一部分。***可以将数据从存储器和/或存储设备复制到高速缓存以供处理器快速访问。以此方式，高速缓存提供了性能提升，这避免了等待数据时的处理器延迟。存储在存储器、存储设备或高速缓存中的这些和其他模块可以控制或被配置为控制处理器以执行各种动作。其它***存储器也可以使用。存储器可以包括具有不同性能特性的多种不同类型的存储器。

计算机处理器

本发明可以在具有多于一个处理器的计算设备上或者在联网在一起的一组或一群计算设备上操作，以提供更大的处理能力。处理器可以包括任何通用处理器和硬件模块或软件模块，其存储在外部或内部存储设备中，被配置为控制处理器，以及专用处理器，其中软件指令被并入实际处理器设计中。处理器可以是完全独立的计算***，包含多个核或处理器、总线、存储器控制器、高速缓存等。多核处理器可以是对称的或非对称的。

为了清楚起见，***实施例可以包括单独的功能块，所述功能块包括被标记为“处理器”的功能块。可以通过使用共享或专用硬件来提供这些块所代表的功能，所述硬件包括但不限于能够执行软件的硬件和诸如处理器之类的硬件，所述硬件是专门构建的以便作为在通用处理器上执行的软件的等效物来操作。例如，一个或多个处理器的功能可以由单个共享处理器或多个处理器提供，并且术语“处理器”的使用不应被解释为排他地指代能够执行软件的硬件。说明性实施例可以包括微处理器和/或数字信号处理器(DSP)硬件、用于存储执行下面讨论的操作的软件的只读存储器(ROM)以及用于存储结果的随机存取存储器(RAM)。也可提供超大规模集成(VLSI)硬件实施例，以及与通用DSP电路结合的定制VLSI电路。

***总线

***总线可以是若干类型的总线结构中的任一种，包括存储器总线或存储器控制器、***总线、以及使用各种总线体系结构中的任一种的局部总线。存储在ROM等中的基本输入/输出(BIOS)可以提供诸如在启动期间帮助在计算设备内的元件之间传输信息的基本例程。

存储设备

计算设备还可以包括存储设备，诸如硬盘驱动器、磁盘驱动器、光盘驱动器、固态驱动器、磁带驱动器等。与***存储器类似，存储设备可以用于存储数据文件，例如位置信息、菜单、软件、有线和无线连接信息(例如，能够使移动设备建立有线或无线连接(例如USB、蓝牙或无线网络连接)的信息)以及任何其它合适的数据。具体地，存储设备和/或***存储器可以存储用于执行所公开的技术的代码和/或数据以及其它数据。

在一个方面，执行功能的硬件模块包括存储在非暂时性计算机可读介质中的软件组件，其与诸如处理器、总线、显示器等之类的必要硬件组件结合以执行功能。基本组件对于本领域技术人员是已知的，并且根据设备的类型，诸如设备是小型手持式计算设备、台式计算机还是计算机服务器，来构想适当的变型。

尽管这里描述的实施例采用云计算和云存储，但是本领域技术人员应当理解，在操作环境中也可以使用能够存储可由计算机访问的数据的其它类型的计算机可读介质，诸如磁带盒、闪存卡、数字多功能盘、盒式磁带、随机存取存储器(RAM)、只读存储器(ROM)、包含比特流的缆线或无线信号等。此外，如本文所使用的非暂时性计算机可读存储介质包括所有计算机可读介质，唯一例外是暂时性传播信号本身。

接口

为了使用户能够与计算设备交互，输入设备表示任何数量的输入机构，诸如用于语音的麦克风、用于视频的web相机、用于手势或图形输入的触敏屏幕、键盘、鼠标、运动输入、语音等。输出设备也可以是本领域技术人员已知的若干输出机制中的一个或多个，诸如显示屏、扬声器、警报器等。在一些实例中，多模态***使得用户能够提供多种类型的输入以与计算设备通信。通信接口通常控制和管理用户输入和***输出。此外，诸如触摸屏之类的一个接口可以充当输入、输出和/或通信接口。

对任何硬件装置的操作没有限制，因此这里的基本特征可以在改进的硬件或固件装置被开发时被改进的硬件或固件装置替代。

图像数据收集设备

该***包括用于获得相关手术托盘的真实世界图片的至少一个图像收集设备。在某些实施例中，图像数据收集设备可以是能够拍摄真实世界物体的照片或视频的相机。

在一个非限制性实施例中，图像数据收集设备可以安装在诸如头戴式耳机或眼镜之类的可穿戴设备上。可穿戴设备可以包括可穿戴数据收集设备，其被配置为如果物品被识别为从手术托盘中缺失则报警或振动，这可能需要在手术之前的立即干预。

在一个实施例中，图像数据收集设备包括用于与***进行有线或无线通信的电子组件。结果，数据收集设备可以避免对手术的干扰。在一个实施例中，图像数据收集设备是可替换的或被添加的，使得不同的图像数据收集设备可以被移除，这可以允许图像数据收集设备被清洁。

在另一实施例中，图像数据收集设备可以包括嵌入式监视组件，其被配置为验证用户的身份并监视手术。例如，数据收集设备可以采用面部识别软件或指纹分析来以设定的间隔或连续地确认用户的身份。

该***可以包括多于一个的图像数据收集设备。实际上，***可以包括2、3、4、5、6、7、8、9或10个图像数据收集设备。例如，外科医生和护士都可以佩戴相机。

在一个实施例中，图像数据收集设备可以被包含在防干涉壳体内，以防止对象移除图像数据收集设备。

软件操作

所公开的各种实施例的逻辑操作被实现为：(1)在通用计算机内的可编程电路上运行的计算机实现的步骤、操作或过程的序列，(2)在专用可编程电路上运行的计算机实现的步骤、操作或过程的序列；和/或(3)可编程电路内的互连机器模块或程序引擎。该***可以实施所叙述的方法的全部或部分，可以是所叙述的***的一部分，和/或可以根据所叙述的非暂时性计算机可读存储介质中的指令来操作。这样的逻辑操作可以被实现为模块，其被配置为控制处理器以根据模块的编程来执行功能。例如，如果存储设备包含被配置为控制处理器的模块，则这些模块可以在运行时被加载到RAM或存储器中，或者可以如本领域已知的那样被存储在其他计算机可读存储器位置中。已经公开了计算***的一些组件，现在，本公开转到云计算的描述，云计算是本发明的优选环境。

云***

云计算是一种基于因特网的计算，其中各种资源由实体托管和/或控制，并且由实体经由因特网使其对授权用户可用。可以配置云计算***，其中各种电子设备可以经由网络通信以便交换内容和其他数据。该***可以被配置成在便于电子设备的相互通信的各种网络配置上使用。例如，云计算***的每个组件可以以本地化或分布式方式在网络中实现。

云资源

云计算***可以被配置为包括云计算资源(即，“云”)。云资源可以包括各种硬件和/或软件资源，诸如云服务器、云数据库、云存储、云网络、云应用、云平台和/或任何其他基于云的资源。在一些情况下，云资源是分布式的。例如，云存储可以包括多个存储设备。在一些情况下，云资源可以跨多个云计算***和/或单独的网络使能计算设备分布。例如，云计算资源可以与服务器、数据库和/或任何其他支持网络的计算设备通信以提供云资源。

在一些情况下，云资源可以是冗余的。例如，如果云计算资源被配置为提供数据备份服务，则可以存储数据的多个副本，使得即使存储资源离线、繁忙或以其他方式不可用于处理请求，数据仍然对用户可用。在另一示例中，如果云计算资源被配置为提供软件，则软件可以从不同的云服务器可用，使得软件可以从不同的云服务器中的任何一个提供。可以应用算法，以便选择最近的服务器或具有最低当前负载的服务器来处理给定的请求。

用户终端

用户通过用户终端或通过直接和/或间接通信连接到网络的链接设备与云计算资源交互。云计算资源可以支持来自各种不同电子设备的连接，诸如服务器；台式计算机；移动计算机；手持通信设备(例如，移动电话、智能电话、平板电脑)；机顶盒；网络使能的硬盘驱动器；和/或任何其它网络使能的计算设备。此外，云计算资源可以同时接受来自多个电子设备的连接并与其交互。与多个电子设备的交互可以被优先化或同时发生。

云计算资源可以通过各种部署模型来提供云资源，诸如公共、私有、社区、混合和/或任何其他云部署模型。在一些情况下，云计算资源可以支持多个部署模型。例如，云计算资源可以通过公共部署模型提供一组资源，并且通过私有部署模型提供另一组资源。

在一些配置中，用户终端可以从因特网连接可用的任何位置访问云计算资源。然而，在其他情况下，云计算资源可以被配置为限制对某些资源的访问，使得资源仅可以从某些位置被访问。例如，如果云计算资源被配置为使用私有部署模型来提供资源，则云计算资源可以限制对资源的访问，诸如通过要求用户终端从防火墙后面访问资源。

服务模型

云计算资源可以通过各种服务模型向用户终端提供云资源，所述服务模型诸如软件即服务(SaaS)、平台即服务(PaaS)、基础设施即服务(IaaS)和/或任何其他云服务模型。在一些情况下，云计算资源可以向用户终端提供多个服务模型。例如，云计算资源可以向用户终端提供SaaS和IaaS两者。在一些情况下，云计算资源可以向不同的用户终端提供不同的服务模型。例如，云计算资源可以向一个用户终端提供SaaS，并且向另一个用户终端提供PaaS。

用户交互

在一些情况下，云计算资源可以维护账户数据库。账户数据库可以存储注册用户的简档信息。简档信息可以包括资源访问权限，例如允许用户使用的软件、最大存储空间等。简档信息还可以包括使用信息，诸如所消耗的计算资源、数据存储位置、安全设置、个人配置设置等。在一些情况下，账户数据库可以驻留在远离云计算资源的数据库或服务器上，诸如服务器或数据库。

云计算资源可以提供需要用户交互的各种功能。因此，可以提供用户界面(UI)以用于与云计算资源通信和/或执行与云资源相关联的任务。UI可以经由与云计算资源通信的最终用户终端来访问。UI可以被配置为以各种客户端模式操作，包括胖客户端模式、瘦客户端模式或混合客户端模式，这取决于云计算资源和/或用户终端的存储和处理能力。因此，在一些实施例中，UI可以被实现为在用户终端处操作的独立应用。在其它实施例中，基于web浏览器的门户可用于提供UI。在各种实施例中，也可以使用访问云计算资源的任何其他配置。

数据的收集

在一些配置中，在实现上述***或方法期间，存储设备或资源可以用于存储从(一个或多个)图像数据收集设备传输的相关数据。这样的信息可以被***使用以进一步细化在将来对手术托盘上的物品的识别。在这样的实施例中，***可以参与附加的机器学习。这种学习将允许在将来更高效的物品识别。

在另一个实施例中，(一个或多个)图像数据收集设备可以捕获执行该手术的(一个或多个)个人和/或(一个或多个)团队的特定倾向。***可以利用这样的信息来立即或在将来建议对托盘上的物品和/或所需设备的调整。实际上，***可以是动态***，其通过使用来学习执行手术的(一个或多个)个人和/或(一个或多个)团队的偏好和倾向。通过学习这些偏好和/或倾向，***可以提高手术的效率和/或降低手术的成本。例如，***可以推荐将团队从未使用的某些物品从未来的托盘中被移除。

该***还预期，在一些情况下，该采集的数据可以包括个人和/或敏感数据。该***还预期负责收集、分析、公开、传输、存储或其他使用这种数据的实体应当实现并一致地使用隐私策略和实践，这些隐私策略和实践通常被认为满足或超过用于维护个人信息数据隐私和安全的行业或政府要求。例如，用户数据应当仅针对实体的合法和合理使用而被收集，并且在那些合法使用之外不被共享或出售。此外，这种收集应当仅在对象的知情同意之后发生。另外，这些实体应当采取任何所需的步骤来保卫和保护对这些个人数据的访问，并确保有权访问个人数据的其他人遵守其隐私和安全策略和规程。此外，这样的实体可以使其自身经受第三方的评估，以证明其对广泛接受的隐私策略和实践的遵守。

尽管已经参考具体实施例公开了本主题，但是显然，在不脱离本文所述主题的真实精神和范围的情况下，本领域技术人员可以设计出其它实施例和变型。所附权利要求包括所有这些实施例和等同变化。

Claims

1.一种用于训练计算机***以动态地识别手术托盘和其上包含的物品的方法，所述方法包括：

a.用扫描仪设备扫描手术器械至少两次以创建手术器械的初步3维模型；

b.通过限定选自包括以下各项的组的至少一个要素来修改所述手术器械的初步3维模型以创建最终3维合成物品：所述物品的几何形状、每个顶点的位置、每个纹理坐标顶点的UV位置、顶点法线、构成被定义为顶点列表的每个多边形的面、以及纹理坐标；

c.向最终3维合成物品分配唯一识别，其中具有唯一识别的最终3维合成物品被存储在数据库中；

d.创建最终3维合成物品的至少一百个独特训练合成图像，所述独特训练合成图像中的每一个通过随机地改变最终3维合成物品的选自包括以下各项的组的至少一个要素而不同于最终3维合成物品：所述最终3维合成物品的取向、照射所述最终3维合成物品的合成光颜色或强度、以及所述最终3维合成物品在所识别表面上方的高度，其中所述至少一百个独特训练合成图像中的每一个链接到所述最终3维合成物品的所述唯一识别；

e.创建最终3维合成物品的至少一个独特测试合成图像，所述独特测试合成图像通过随机地改变最终3维合成物品的选自包括以下各项的组的至少一个要素而不同于最终3维合成物品：最终3D合成物品的取向、照射最终3D合成物品的合成光颜色或强度、以及最终3D合成物品在所识别表面上方的高度，其中所述独特测试合成图像不链接到最终3维合成物品的所述唯一识别；

f.利用所述***重复地处理所述训练合成图像，使得所述***识别所述训练合成图像中的一个或多个模式，所述模式用于创建和更新链接到所述3维合成物品的所述唯一识别的识别模型；

g.用所述***处理所述合成测试图像，使得所述***基于所述识别模型从所述合成测试图像识别3维合成物品，并且所述***提供表示所述***已经正确地识别所述3维合成物品的置信度的数值置信度因子；以及

h.确定所述数值置信度因子是否等于或大于上传到所述***中的预设置信度因子，且如果所述识别不正确或所述数值置信度因子小于所述预设置信度因子，那么重复步骤d到h。

2.如权利要求1所述的方法，步骤b到h中的至少一个步骤是在没有用户输入的情况下自动完成的。

3.根据权利要求2所述的方法，其中步骤d到h是使用计算机视觉驱动的人工智能网络自动完成的。

4.根据权利要求2所述的方法，其中所述计算机视觉驱动的人工智能网络是卷积神经网络。

5.根据权利要求1所述的方法，还包括：

i.当***正确地识别3维合成物品并且数值置信度因子等于或大于预设置信度因子时，将归因于所述唯一识别的识别模型上传到服务器以用于部署。

6.根据权利要求1所述的方法，其中步骤d通过改变选自包括以下各项的组的至少一个要素而持续地产生所述最终3维合成物品的新的独特训练合成图像：所述最终3D合成模型的取向、照射所述最终3D合成模型的合成光颜色或强度，以及所述最终3D合成模型在所识别表面上方的高度，其中每个新的独特训练合成图像链接到所述最终3维合成物品的所述唯一识别。

7.根据权利要求1所述的方法，其中步骤e通过改变选自包括以下各项的组的至少一个要素而持续地产生所述最终3维合成物品的新的独特测试合成图像：所述最终3D合成模型的取向、照射所述最终3D合成模型的合成光颜色或强度，以及所述最终3D合成模型在所识别表面上方的高度，其中所述新的独特测试合成图像不链接到所述最终3维合成物品的所述唯一识别。

8.根据权利要求1所述的方法，其中所述数值置信度因子大于95％。

9.一种用于动态地识别手术托盘和其上包含的物品的***，所述***包括：

软件应用，所述软件应用在移动计算机设备或与至少一个图像数据收集设备通信的计算机设备上操作，所述至少一个图像数据收集设备被配置成产生所述手术托盘的图像，所述软件应用被配置成从所述图像数据收集设备接收所述手术托盘的图像，然后通过有线和/或无线通信网络将图像传送到位于所述手术托盘所位于的场所或远离所述场所的位置处的服务器；以及

通过所述有线和/或无线通信网络与所述软件应用以及所述服务器通信的处理器，所述处理器被配置为在将所述图像传送到所述服务器时从所述***的库数据库调用：

包括张量的多个托盘识别模型，所述托盘识别模型由所述***的管理员或所述管理员的雇员、承包人或代理人预先上传；

由此所述处理器被配置为：

分析所述图像并且基于应用于所述图像的托盘识别模型来对所述图像中的托盘的类型进行分类，

从库数据库中调用：

链接到托盘类型的分类的物品列表，以及

包括张量的多个器械识别模型，器械识别模型链接到所述物品，并且先前由所述***的管理员或所述管理员的雇员、承包人或代理人上传；

分析所述图像并基于所述器械识别模型识别所述图像中的物品的类型，

将分类的物品与链接到分类的托盘的物品列表进行比较以确定任何缺失的物品，以及

将分类的物品和任何缺失的物品通知给软件应用。

10.根据权利要求9所述的***，其中所述图像数据收集设备是相机。

11.根据权利要求9所述的***，其中所述图像数据收集设备被安装在可穿戴设备上。

12.根据权利要求9所述的***，其中，使用计算机视觉驱动的人工智能网络来生成包括张量的托盘识别模型和包括张量的器械识别模型，所述计算机视觉驱动的人工智能网络是使用由视图生成模块渲染的3维合成物品的2维视图来训练的。

13.根据权利要求12所述的***，其中所述人工智能网络是卷积神经网络。

14.根据权利要求12所述的***，其中所述计算机视觉驱动的人工智能网络是使用由视图生成模块渲染的3维合成物品的2维视图持续地训练的。

15.一种用于识别手术托盘和其上包含的物品的方法，所述方法包括：

使用在移动计算机设备或能够与移动计算机设备同步的计算机设备上运行的软件应用从连接到服务器或远程服务器的图像数据收集器接收所述手术托盘和其上包含的物品的图像，并且其中移动计算机设备或计算机设备通过有线和/或无线通信网络与所述手术托盘所位于的场所处的服务器通信，或与在远离所述场所的地点中并且与所述服务器通信的远程服务器通信；

在接收到所述信息时，使用处理器从数据库调用：包括张量的多个托盘识别模型，其中所述托盘识别模型先前已由具有托盘名称和意图由那些托盘包含的物品的知识的专业人员上传；

分析所述图像，并基于所述托盘识别模型对所述图像中的托盘的类型进行分类；

在对所述托盘进行分类时，从所述数据库中调用链接到所述托盘的分类并且包括张量的多个器械识别模型，所述器械识别模型包括：(a)表面纹理，(b)物品材料成分，以及(c)尺寸公差；以及链接到所述托盘分类的物品列表；其中所述器械识别模型先前已由所述专业人员上传；

分析所述图像并基于所述器械识别模型对所述图像中的物品的类型进行分类；

将分类的物品和任何缺失的物品通知给软件应用。

16.根据权利要求15所述的方法，其中所述图像数据收集设备是相机。

17.根据权利要求15所述的方法，其中，所述图像数据收集设备被安装在可穿戴设备上。

18.根据权利要求15所述的方法，其中使用计算机视觉驱动的人工智能网络生成包括张量的托盘识别模型和包括张量的器械识别模型，所述计算机视觉驱动的人工智能网络使用由视图生成模块渲染的3维合成物品的2维视图来训练。

19.根据权利要求18所述的方法，其中所述人工智能网络是卷积神经网络。

20.根据权利要求18所述的方法，其中使用由视图生成模块渲染的3维合成物品的2维视图来持续地训练所述计算机视觉驱动的人工智能网络。