CN112041852A

CN112041852A - 对360度图像中的对象的神经网络标识

Info

Publication number: CN112041852A
Application number: CN201880093028.0A
Authority: CN
Inventors: R·坎贝尔; J·王
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2018-07-30
Filing date: 2018-07-30
Publication date: 2020-12-04
Also published as: EP3750106A1; WO2020027778A1; US11798126B2; US20210357639A1; EP3750106A4

Abstract

根据一个示例，一种方法包括：接收由360度相机捕获的360度图像；将所述360度图像转换成矩形图像；以及拷贝来自所述矩形图像的第一边缘的边缘部分，并且将所拷贝的边缘部分粘贴到所述矩形图像的第二边缘，从而形成修改后的矩形图像。所述方法进一步包括：将神经网络应用于修改后的矩形图像以标识出现在修改后的矩形图像中的对象，其中修改后的矩形图像便于在第二边缘附近进行对象标识。

Description

对360度图像中的对象的神经网络标识

背景技术

感测会议室或办公室空间中的占用情况有助于监测和改善工作人员的体验。正式安排的和临时聚集的出席者想要在会议的所有阶段（开始、中间、结束）处都具有无缝的体验。可以部署传感器来尝试使这些阶段自动化。可以使用徽章（badge）读取器、蓝牙低功耗（BLE）信标、超声通信等。这些方法涉及会议出席者采取动作、或者携带对象或设备进行会议。

附图说明

图1是图示了根据一个示例的具有360度相机和神经网络以用于对象标识的计算***的框图。

图2是图示了根据一个示例的采用双鱼眼格式的360度相机图像的简化表示的示图。

图3是图示了根据一个示例的采用等矩形格式的矩形图像的简化表示的示图。

图4是图示了根据一个示例的在利用侧边缘复制的情况下的采用等矩形格式的修改后的矩形图像的简化表示的示图。

图5是图示了根据一个示例的用于标识出现在图像中的对象的方法的流程图。

具体实施方式

在以下具体实施方式中，参考了形成其一部分的附图，并且其中通过图示的方式示出了其中可以实践本公开的具体示例。要理解的是，在不偏离本公开的范围的情况下，可以利用其他示例，并且可以做出结构上的或逻辑上的改变。因此，不应在限制性的意义上理解以下具体实施方式，并且本公开的范围由所附权利要求来限定。要理解的是，本文中描述的各种示例的特征可以与彼此部分或全部地组合，除非另行具体地指出。

感测会议室或办公室空间中的占用情况有助于改善工作人员的体验。用于感测占用情况的一些方法涉及会议出席者采取动作、或者携带对象或设备进行会议。本文中公开的一些示例使用与神经网络对象标识相组合的360度相机来实现跟踪占用情况、人员计数和人员标识，而无需用户采取动作或者携带对象或设备（诸如，个人计算机、令牌或徽章）。

一些会议解决方案可以简化会议体验。可以使用单个触摸来启动日程表上接下来的呼叫（call）。在运动传感器处于房间控制的中心的情况下，该***可以在有人员接近屏幕时唤醒。然而，这种解决方案可能具有安全性问题。例如，任何有权进入房间的人员都可能能够在没有任何认证的情况下连接到该呼叫。另一个问题涉及跟踪房间的使用情况和占用情况。例如，可能预定了一个房间用于面对面会议（in-person meeting），而会议***可能不被用于这种会议，所以该***不会跟踪活动。控制屏幕也可能不会面对房间中的人员/人们从而不能够感测他们的存在。而且，出于安全性和其他目的，会议***的相机可能没有被定位成用于最佳房间感测。本文中公开的示例使用与神经网络对象标识相组合的360度相机解决了这些问题。

神经网络可以被用在图像上以标识人员的存在和身份，以及分析说话者和参与者的注意力水平。还可以分析其他参数。针对图像和视频中的对象识别而开发的神经网络通常在标准格式（例如，4：3和16：9的比例）上工作良好，但是对于360度相机图像可能无法良好地工作。本文中公开的一些示例涉及通过神经网络来改善对象识别，该神经网络被应用于360度相机图像（静止图像或视频图像）以进行推理。相机所捕获的360度视图由矩形图像（例如，等矩形图像或环形图像）来表示。出现在矩形图像的边缘附近的对象可能被分割，使得该对象的一部分出现在左边缘处，而另一部分出现在右边缘处。这可能会阻止神经网络正确地识别该对象。在一个示例中，来自矩形图像的第一边缘（例如，左边缘）的边缘部分被拷贝到矩形图像的第二边缘（例如，右边缘）以形成修改后的矩形图像。对于被分割在左边缘与右边缘之间的对象，这些对象在修改后的矩形图像中作为完整的对象出现，并且被神经网络正确地识别。标准的对象识别神经网络可以在这种修改后的图像上使用，而无需重新训练。

图1是图示了根据一个示例的具有360度相机136和神经网络108以用于对象标识的计算***100的框图。计算***100包括：至少一个处理器102、存储器104、输入设备130、输出设备132、显示器134、以及360度相机136。在所图示的示例中，处理器102、存储器104、输入设备130、输出设备132、显示器134、以及360度相机136通过通信链路128彼此通信地耦合。

输入设备130包括：键盘、鼠标、数据端口、和/或用于将信息输入到***100中的其他合适设备。输出设备132包括：扬声器、数据端口、和/或用于从***100输出信息的其他合适设备。显示器134可以是向计算***100的用户显示信息的任何类型的显示设备。

360度相机136生成360度相机图像116，可以将图像116存储在存储器104中。在一个示例中，360度相机136是具有两个图像传感器（例如，背对背定位，并且每个传感器具有足以提供完整360度覆盖的视场）的双鱼眼球形相机，并且产生采用双鱼眼格式的360度相机图像。在另一个示例中，360度相机136包括具有镜子的单个图像传感器，并且产生采用环形格式的360度相机图像。360度相机136例如当在会议场景中被使用时可以位于房间的中心附近以捕获完整房间的图像。

处理器102包括中央处理单元（CPU）或另一个合适的处理器。在一个示例中，存储器104存储由处理器102执行以用于操作***100的机器可读指令。存储器104包括易失性和/或非易失性存储器的任何合适的组合，诸如随机存取存储器（RAM）、只读存储器（ROM）、闪速存储器、和/或其他合适存储器的组合。这些是非暂时性计算机可读存储介质的示例。存储器104在其不涵盖暂时性信号的意义上是非暂时性的，但是代替地由至少一个存储器组件组成，以存储用于实行本文中描述的技术的机器可执行指令。

存储器104存储会议应用模块106、神经网络模块108、图像修改模块110、对象标识信息112、训练图像114、360度相机图像116、矩形图像118、以及修改后的矩形图像120。处理器102执行模块106、108和110的指令以实行本文中描述的技术。要注意的是，可以使用云计算资源来实现模块106、108和110的一些或全部功能。图像114、116、118和120中的任一个也可以在云计算环境中使用。例如，训练图像114可以在云计算环境或其他高性能训练计算机环境中使用，以训练神经网络108。

会议应用模块106允许用户与远程参与者进行音频和视频会议。神经网络模块108包括至少一个神经网络，该至少一个神经网络是在一组训练图像114上训练的，并且在被训练之后，该至少一个神经网络使用其他图像（诸如，图像116、118或120）来实行对象标识功能或其他功能。神经网络模块108可以被用来跟踪占用情况、人员计数和人员标识，并且输出指示所跟踪的信息的对象标识信息112。360度相机图像116由360度相机136来生成。矩形图像118可以由360度相机136直接产生（例如，采用环形格式），或者可以由图像修改模块110通过修改360度相机136所生成的非矩形图像（例如，采用双鱼眼格式的图像）来产生。修改后的矩形图像120由图像修改模块110通过修改矩形图像（诸如，通过拷贝来自矩形图像的第一边缘的边缘部分，并且将所拷贝的边缘部分粘贴到矩形图像的第二边缘，以形成修改后的矩形图像）来产生。

在一些示例中，当一个人员或多个人员进入会议室或包含计算***100的其他房间时，计算***100将基于由相机136捕获的图像来检测该房间是否被占用。这可以被用来发信号通知会议应用106或管理***以跟踪该房间的使用情况。会议应用106可以使用该动作作为欢迎占用者的唤醒信号，无论是已经安排了会议还是人员正在进入以参加临时会议，这都提供了流畅的体验。

除了检测占用情况之外，计算***100还可以基于由相机136捕获的图像来提供该房间中的人员计数。这对于跟踪房间使用不足或过度使用而言是有用的。该信息还可以向日程安排者（scheduler）建议例行会议在未来应当移动到更大或更小的房间。

计算***100还可以按姓名来实行对人员的标识作为一种形式的认证。可以由神经网络模块108基于相机136所捕获的图像来实行面部识别，以确定出现在图像中的人员的身份。可能不允许进入该房间的人员开始会议，除非他们被***100确定为在参与者列表上。一旦会议已经开始，如果房间中有不在该列表上的人员，则***100可以生成标记。可以通知经授权的用户以用于采取动作（如果他们愿意的话），并且***100可以记录这些事件以用于进一步的分析或动作。

在一个示例中，***100的各种子组件或元件可以体现在多个不同的***中，其中不同的模块可以跨该多个不同的***而分组或分布。为了实现其期望的功能，***100可以包括各种硬件组件。在这些硬件组件当中的可以是多个处理设备、多个数据存储设备、多个***设备适配器和多个网络适配器。这些硬件组件可以通过使用多个总线和/或网络连接而互连。处理设备可以包括用以从数据存储设备检索可执行代码并且执行该可执行代码的硬件架构。该可执行代码在由处理设备执行时可以使处理设备实现本文中公开的功能中的至少一些。尽管本文中公开的一些示例与音频和视频会议有关，但是其他示例可以应用于其他场景。

图2是图示了根据一个示例的采用双鱼眼格式的360度相机图像116（1）的简化表示的示图。双鱼眼格式是双鱼眼相机（其是360度相机136（图1）的一个示例）的原始馈送，而没有映射到平面等矩形图像中。

图3是图示了根据一个示例的采用等矩形格式的矩形图像118（1）的简化表示的示图。等矩形格式是采用双鱼眼格式的360度相机图像（诸如，图2中所示的图像116（1））到平面图像中的映射，该映射由图像修改模块110实行。这种映射在“赤道”附近是准确的，但是在“极点”处的扭曲（distortion）可能非常明显。矩形图像118（1）包括左边缘302和右边缘304、以及左边缘图像部分306。如图3中所示，主要出现在图像118（1）的右边缘304附近的男性被分割，使得该男性的上半身的大部分出现在右边缘304附近，而该男性的上半身的较小部分（即，其左臂的一部分）出现在左边缘304附近。这可能会防止神经网络模块108正确地识别该男性。该问题可以被解决，如下面参考图4进一步描述的那样。

图4是图示了根据一个示例的在利用侧边缘复制的情况下的采用等矩形格式的修改后的矩形图像120（1）的简化表示的示图。修改后的矩形图像120（1）由图像修改模块110（图1）通过修改矩形图像118（1）（图3）来创建。具体地，图像修改模块110拷贝来自矩形图像118（1）的左边缘302的左边缘图像部分306，并且将该图像部分306粘贴到矩形图像118（1）的右边缘304，以形成具有新的右边缘图像部分408和新的右边缘404的修改后的矩形图像120（1）。在修改后的矩形图像120（1）中，出现在该图像中的男性具有在右边缘404附近示出的其完整上半身，而不是如图3中所示的那样被分割在左边缘与右边缘之间。该图像修改便于神经网络108对该男性的识别。

在一些示例中，神经网络模块108所使用的360度图像116可以采用环形格式。环形格式是单个图像的映射，该映射补偿了镜头的复杂曲线。环形相机（其是360度相机136的另一个示例）会切除该图像的“极点”处的高度扭曲的区域。采用环形格式的360度相机图像116是矩形的，并且在本文中也可以被称为矩形图像118。在一些示例中，上面参考图3和图4描述的用于拷贝来自一个边缘的图像部分并且将该图像部分粘贴到另一个边缘的边缘复制过程可以直接在采用环形格式的360度图像上实行。

在一些示例中，训练图像114不是360度图像，而是采用标准格式，诸如使用50 mm视场的镜头捕获的并且具有4：3比例的图像。在这些示例中，神经网络模块108是在非360度图像上训练的，但是随后被用于在360度图像116上实行推理。在一些示例中，上面参考图3和图4描述的边缘复制过程被应用于训练图像114、以及由神经网络模块108用于推理的图像两者。在其他示例中，不使用边缘复制过程，并且训练图像114、以及由神经网络模块108用于推理的图像两者都是相同类型的360度图像（例如，双鱼眼、等矩形或环形的）。在其他示例中，训练图像114是非360度图像，这些非360度图像在计算上被扭曲并且被转换成合成360度图像，这些合成360度图像模拟了来自360度相机的原始馈送的实际360度图像，并且这些合成360度图像被用来训练神经网络108以用于在实际360度图像上进行推理。

一个示例涉及一种用于标识出现在图像中的对象的方法。图5是图示了根据一个示例的用于标识出现在图像中的对象的方法500的流程图。在一个示例中，计算***100实行方法500。在方法500中的502处，接收由360度相机捕获的360度图像。在504处，将360度图像转换成矩形图像。在506处，拷贝来自矩形图像的第一边缘的边缘部分并且将该边缘部分粘贴到矩形图像的第二边缘，从而形成修改后的矩形图像。在508处，将神经网络应用于修改后的矩形图像，以标识出现在修改后的矩形图像中的对象，其中修改后的矩形图像便于在第二边缘附近进行对象标识。

方法500中的360度图像可以采用双鱼眼格式。方法500中的360度图像可以采用环形格式。方法500中的矩形图像可以采用等矩形格式。

方法500可以进一步包括：基于神经网络的输出来标识房间是否被占用。方法500可以进一步包括：基于神经网络的输出来标识房间中的人员的总数。方法500中的对象可以是人员，并且方法500可以进一步包括：利用神经网络来实行面部识别功能以确定人员的身份。

方法500可以进一步包括：提供多个训练图像；以及针对每个训练图像，拷贝来自训练图像的第一边缘的边缘部分，并且将所拷贝的边缘部分粘贴到训练图像的第二边缘，从而形成多个修改后的训练图像。方法500可以进一步包括：在将神经网络应用于修改后的矩形图像之前，在该多个修改后的训练图像上训练神经网络。方法500可以进一步包括：在作为非360度图像的训练图像上训练神经网络。方法500可以进一步包括：在作为非360度图像的训练图像上训练神经网络，所述非360度图像在计算上被扭曲并且被转换成模拟了实际360度图像的合成360度图像。

另一个示例涉及一种***，该***包括用以生成360度图像的360度相机。该***包括：图像修改模块，用以将360度图像转换成矩形图像，拷贝来自矩形图像的第一边缘的边缘部分，并且将所拷贝的边缘部分粘贴到矩形图像的第二边缘，从而形成便于在第二边缘附近进行对象标识的修改后的矩形图像。该***包括：神经网络，用以接收修改后的矩形图像作为输入，并且标识出现在修改后的矩形图像中的对象。360度图像可以采用双鱼眼格式或环形格式之一。

又一个示例涉及一种存储指令的非暂时性计算机可读存储介质，该指令在由处理器执行时使处理器进行如下操作：接收采用矩形格式的360度图像；拷贝该图像的第一边缘附近的图像部分；将所拷贝的图像部分粘贴在该图像的第二边缘附近，从而形成修改后的图像；以及利用至少一个神经网络来分析修改后的图像，以标识出现在修改后的图像中的人员的总数。该非暂时性计算机可读存储介质可以进一步存储指令，该指令在由处理器执行时进一步使处理器进行如下操作：利用至少一个神经网络来分析修改后的图像，以确定出现在修改后的图像中的人员的身份。

尽管已经在本文中说明和描述了特定示例，但是在不偏离本公开的范围的情况下，各种各样的可替代和/或等同的实现方式可以代替所示出和描述的特定示例。本申请意图覆盖本文中讨论的特定示例的任何适配或变型。因此，所意图的是，本公开仅由权利要求及其等同物所限制。

Claims

1.一种方法，其包括：

接收由360度相机捕获的360度图像；

将所述360度图像转换成矩形图像；

拷贝来自所述矩形图像的第一边缘的边缘部分，并且将所拷贝的边缘部分粘贴到所述矩形图像的第二边缘，从而形成修改后的矩形图像；以及

将神经网络应用于修改后的矩形图像以标识出现在修改后的矩形图像中的对象，其中修改后的矩形图像便于在第二边缘附近进行对象标识。

2.根据权利要求1所述的方法，其中所述360度图像采用双鱼眼格式。

3.根据权利要求1所述的方法，其中所述360度图像采用环形格式。

4.根据权利要求1所述的方法，其中所述矩形图像采用等矩形格式。

5.根据权利要求1所述的方法，并且进一步包括：

基于神经网络的输出来标识房间是否被占用。

6.根据权利要求1所述的方法，并且进一步包括：

基于神经网络的输出来标识房间中的人员的总数。

7.根据权利要求1所述的方法，其中所述对象是人员，并且其中所述方法进一步包括：

利用神经网络来实行面部识别功能以确定人员的身份。

8. 根据权利要求1所述的方法，并且进一步包括：

提供多个训练图像；以及

针对每个训练图像，拷贝来自所述训练图像的第一边缘的边缘部分，并且将所拷贝的边缘部分粘贴到所述训练图像的第二边缘，从而形成多个修改后的训练图像。

9.根据权利要求8所述的方法，并且进一步包括：

在将神经网络应用于修改后的矩形图像之前，在所述多个修改后的训练图像上训练神经网络。

10.根据权利要求1所述的方法，并且进一步包括：

在作为非360度图像的训练图像上训练神经网络。

11.根据权利要求1所述的方法，并且进一步包括：

在作为非360度图像的训练图像上训练神经网络，所述非360度图像在计算上被扭曲并且被转换成模拟了实际360度图像的合成360度图像。

12.一种***，其包括：

360度相机，用以生成360度图像；

图像修改模块，用以将所述360度图像转换成矩形图像，拷贝来自所述矩形图像的第一边缘的边缘部分，并且将所拷贝的边缘部分粘贴到所述矩形图像的第二边缘，从而形成便于在第二边缘附近进行对象标识的修改后的矩形图像；以及

神经网络，用以接收修改后的矩形图像作为输入，并且标识出现在修改后的矩形图像中的对象。

13.根据权利要求12所述的***，其中所述360度图像采用双鱼眼格式或环形格式之一。

14.一种存储指令的非暂时性计算机可读存储介质，所述指令在由处理器执行时使处理器进行如下操作：

接收采用矩形格式的360度图像；

拷贝所述图像的第一边缘附近的图像部分；

将所拷贝的图像部分粘贴在所述图像的第二边缘附近，从而形成修改后的图像；以及

利用至少一个神经网络来分析修改后的图像，以标识出现在修改后的图像中的人员的总数。

15.根据权利要求14所述的存储指令的非暂时性计算机可读存储介质，所述指令在由处理器执行时进一步使处理器进行如下操作：

利用至少一个神经网络来分析修改后的图像，以确定出现在修改后的图像中的人员的身份。