CN110168477B

CN110168477B - 用于长方体检测的深度学习***

Info

Publication number: CN110168477B
Application number: CN201780082830.5A
Authority: CN
Inventors: T·马利西维茨; A·拉比诺维奇; V·巴德里娜拉亚楠; D·德维贝蒂
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2016-11-15
Filing date: 2017-11-14
Publication date: 2022-07-08
Anticipated expiration: 2037-11-14
Also published as: US11328443B2; KR102610030B1; AU2017361061A1; JP6854344B2; KR20210075225A; US20220237815A1; AU2017361061B2; IL297846B2; IL285121B; EP3542250A4; US10937188B2; CN110168477A; JP2022126809A; CN115097937A; US10621747B2; IL297846B1; US11797860B2; IL297846A; KR20190085519A; WO2018093796A1

Abstract

公开了用于图像中的长方体检测和关键点定位的***和方法。在一个方面，深度长方体检测器可用于单眼图像中的同时长方体检测和关键点定位。深度长方体检测器可包括训练卷积神经网络的多个卷积层和非卷积层，用于从输入图像确定卷积特征图。深度长方体检测器的区域生成网络可以使用卷积特征图确定围绕图像中的长方体的边界框。深度长方体检测器的池化层和回归层可以实现迭代特征池化，用于确定长方体的细化边界框和参数化表示。

Description

用于长方体检测的深度学习***

相关申请的交叉引用

本申请要求2016年11月15日提交的题为“DEEP CUBOID DETECTION：BEYOND 2DBOUNDING BOXES”的美国专利申请号62/422,547的优先权，其内容通过引用整体并入在此。

技术领域

本公开一般涉及用于图像中的三维对象检测的***和方法，并且更具体地涉及用于在图像中检测长方体的深度机器学习***。

背景技术

深度神经网络(DNN)是一种计算机器学习方法。DNN属于一类人工神经网络(NN)。利用NN，构建了模拟生物神经网络特征的计算图。生物神经网络包括突出用于计算并且负责生物***的许多能力的特征，否则这些特征可能难以通过其它方法捕获。在一些实施方式中，这种网络被布置成单向连接的顺序分层结构。例如，特定层的人工神经元的输出可以连接到后续层的人工神经元的输入。DNN可以是具有大量层(例如，10、100或更多层)的NN。

不同的NN在不同的视角中彼此不同。例如，不同NN的拓扑或架构(例如，层的数量和层如何互连)和权重可以是不同的。权重可以近似类似于生物***中神经连接的突触强度。权重影响从一层传播到另一层的效果强度。人工神经元的输出可以是其输入的加权和的非线性函数。NN的权重可以是在这些求和中出现的权重。

发明内容

从单个单眼图像构建世界的三维(3D)表示是计算机视觉中的重要挑战。本公开提供了用于在图像中的3D长方体(例如，盒状对象)检测和关键点定位的***和方法的示例。在一个方面，深度长方体检测器可用于在图像中的同时的长方体检测和关键点定位。深度长方体检测器可以包括经训练的卷积神经网络的多个卷积层和非卷积层，用于从输入图像确定卷积特征图。深度长方体检测器的区域生成网络可以使用卷积特征图确定在图像中围绕长方体的边界框。深度长方体检测器的池化层和回归层可以实现迭代特征池化，用于确定长方体的细化边界框和参数化表示。

在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实现方式的细节。根据说明书、附图和权利要求，其它特征、方面和优点将变得显而易见。该概述和以下详细描述都不旨在限定或限制本发明主题的范围。

附图说明

图1A是示出了二维(2D)对象检测的示例单眼图像，其中边界框覆盖在检测到的对象周围。

图1B是示出三维(3D)长方体检测的示例单眼图像，其中长方体的表示覆盖在检测到的对象上。图1B示出了检测单眼图像内的一个长方体并且定位其顶点(示为连接的八个黑色圆圈)。

图2描绘了长方体检测器的示例架构。

图3是示出关注区域(RoI)归一化坐标的示例图像。

图4A-4G示出了说明示例长方体检测和关键点定位的图像。在每个图像中检测到一个或多个长方体，每个长方体的关键点被定位，示为白色连接的圆圈。

图5A-5C示出了示例图像，其示出了具有经由迭代特征池化的关键点细化的改进性能。

图6是示出示例长方体消失点的示意图。

图7A-7F是示出长方体检测器的示例性能的曲线图。

图8是训练长方体检测器的示例过程的流程图。

图9是使用长方体检测器用于长方体检测和关键点定位的示例过程的流程图。

图10示意性地示出了可穿戴显示***的示例，其可以实现深度长方体检测器的实施例。

在整个附图中，可以重复使用附图标记来指示所引用的元件之间的对应关系。提供附图是为了说明在此描述的示例实施例，并且不旨在限制本公开的范围。

具体实施方式

概述

表示数据关系和模式的模型(诸如函数、算法、***等)可以接受输入，并以某种方式产生与输入对应的输出。例如，模型可以实现为机器学习方法，诸如卷积神经网络(CNN)或深度神经网络(DNN)。深度学习是基于学习数据表示而不是任务特定算法的思想的更广泛的机器学习方法系列的一部分，并且在解决对增强现实、混合现实、虚拟现实和机器智能有用的视听计算问题方面示出很大的前景。在机器学习中，卷积神经网络(CNN或ConvNet)可以包括一类深度前馈人工神经网络，并且CNN已成功应用于分析视觉图像。机器学习方法包括一系列方法，这些方法可以针对各种各样的问题实现稳健和准确的解决方案，包括眼睛图像分割和眼睛跟踪。

在此公开的是长方体检测器的示例，其在图像中处理场景的输入图像并且定位至少一个长方体。例如，长方体检测器(诸如深度长方体检测器)可以处理在图像中的杂乱场景的消费者质量的红-绿-蓝(RGB)图像并且定位一些或所有三维(3D)长方体。长方体可以包括盒形或盒状对象，并且可以包括具有例如4、5、6、7、8、10、12或更多个面的多面体(可以是凸的)。例如，长方体可以包括金字塔、立方体、棱柱、平行六面体等。长方体不限于几何形状的这种多面体形状，并且可以包括盒状结构，诸如例如家用电器(例如，电视机、计算机监视器、烤面包机、洗衣机、冰箱)、家具(例如沙发、椅子、床、婴儿床、桌子、书柜、橱柜)、车辆(例如汽车、公共汽车)等。如下面进一步描述的，长方体可以根据它们的面、顶点、边或边界框内的存在来识别。

在一些实施例中，长方体可包括表征为N个参数的元组的几何形状。参数在性质上可以是几何的，如球体的半径或长方体的长度、宽度和高度。参数化任何几何图元的更一般方法可以是将其表示为图元表面上的点的集合。如果选择了图元表面上的随机点，则从计算机视觉的角度来看，随机点可能无法定位。可能有利的是，该组参数化点在几何上是信息性的并且在视觉上是有区别的。例如，在长方体的情况下，该组参数化点可以是长方体的顶点(在此有时可以将其称为角或关键点)。

在一些实施例中，长方体被表示为八个顶点的元组，其中每个顶点可以由其在图像中的坐标(例如，笛卡尔x、y坐标)表示。在这种表示中，长方体由16个参数表示：八个顶点中的每一个顶点的两个坐标。在一些情况下可能不需要所有16个参数，例如，如下所述，替代的长方体表示可能不包括一些顶点(例如，仅使用六个顶点)，并使用消失点确定其它顶点。

与从如角、边和消失点的低级线索拟合3D模型的其它方法相反，在此公开的长方体检测器可以是端到端深度学习***，其检测跨越许多语义类别的长方体(例如，烤箱、运输箱和家具)。在一些实施方式中，长方体检测器可以采用二维(2D)边界框来定位长方体，并且同时定位长方体的关键点(例如，顶点或角)，有效地产生框状对象的3D解释或表示。长方体检测器可以通过迭代地池化卷积特征来改进关键点，从而提高检测到的关键点的精度。基于端到端深度学习框架，长方体检测器的一些实施方式的优点是很少或根本不需要为线段、消失点、交叉点等设计定制的低级检测器。

长方体检测器可包括卷积神经网络的多个卷积层和非卷积层、区域生成网络(RPN)以及多个池化和回归层。RPN可以在图像中生成对象推荐。多个卷积层和非卷积层可以生成输入图像的卷积特征图。CNN的卷积层可以包括内核的内核堆栈。卷积层的内核在应用于其输入时，可以产生结果输出激活图，示出对该特定学习内核的响应。然后，结果输出激活图可以由CNN的另一层处理。CNN的非卷积层可包括例如归一化层、整流线性层或池化层。

可以是卷积神经网络或深度神经网络的区域生成网络(RPN)可以从卷积特征图确定图像中的长方体周围的2D边界框。2D边界框可以表示图像上的关注区域(RoI)，其包括图像位置处的长方体。多个池化和回归层可包括例如池化层和两个或更多个全连接层(诸如3、5、10或更多的层)。基于初始2D边界框，多个长方体池化和回归层可以迭代地确定细化的2D边界框和长方体的关键点。

长方体检测器可以以端到端的方式进行训练，并且在一些实现方式中可以适用于增强现实(AR)、混合现实(MR)或机器人中的实时应用。如下所述，可穿戴混合现实显示设备(例如，参考图10描述的可穿戴显示***1000)可包括处理器，该处理器被编程为对由显示设备的面向外的相机获取的图像执行长方体检测。可以在称为训练的过程中学习长方体检测器的一些或所有参数。例如，可以使用训练数据训练机器学习模型，该训练数据包括输入数据和对应输入数据的模型的正确或优选输出。机器学习模型可以重复处理输入数据，并且机器学习模型的参数(例如，权重值)可以在针对试错过程的量中修改，直到模型产生(或“收敛”)正确或首选的输出。例如，可以通过称为“反向传播”的过程来执行权重值的修改。反向传播包括确定预期模型输出和获得的模型输出之间的差异，并且然后确定如何修改模型的一些或所有参数的值，以减少预期模型输出和获得的模型输出之间的差异。

对象检测和长方体检测的示例比较

从单个单眼图像构建世界的3D表示是计算机视觉中的重要问题。在一些应用中，具有显式3D模型的对象采用它们估计的姿势来定位。但是在没有这种3D模型的情况下，人或计算机***(例如，参考图10描述的可穿戴显示***1000)可能仍然需要根据如长方体、圆柱体和球体的几何形状的简单组合来推断其周围环境。这种图元(有时称为geon)对于人类来说可能易于推断。人类可以毫不费力地关于这些简单几何图元的姿势进行粗略估计，并且甚至比较完全不同的实例之间例如长度、半径或面积的几何参数。虽然许多对象由多个几何图元组成，但是大量的真实对象可以通过仅仅一个图元很好地近似。

例如，常见的形状是盒子。许多日常对象可以在几何上被分类为盒子(例如，运输箱、橱柜、洗衣机、骰子、微波炉、台式计算机)。盒子(它们是长方体的示例)跨越不同的日常对象实例集，并且人类可以容易地将虚构的长方体拟合到这些对象并定位它们的顶点和面。人们还可以比较不同盒状对象的尺寸，即使它们不知道盒状对象的确切尺寸，或者甚至对象不是完美的长方体。在此公开了实现用于检测类别不可知(class agnostic)几何实体(诸如长方体)的长方体检测器的***和方法。类别不可知意味着不区分几何实体的不同类别。例如，长方体检测器可能无法区分不同类别的长方体，诸如运输箱、微波炉或橱柜。所有这些盒状对象都可以用相同的简化概念(长方体)来表示。

长方体检测器的实施例可以用于如下的3D对象检测：将3D边界框拟合到图像中的对象(例如，RGB图像或RGB深度(RGB-D)图像)，检测图像中的3D关键点，或执行3D模型到2D图像对齐。因为图像可能包含多个长方体以及大量杂乱物体(例如，非长方体对象)，所以长方体检测器可以首先确定与长方体对应的关注区域(RoI)的候选名单。除了包围每个长方体的2D边界框之外，长方体检测器还可以确定所有八个顶点的位置。

深度学习在过去几年中彻底改革了图像识别。当今对象检测中的许多最先进的方法都建立在已经针对图像分类任务进行训练的深度网络之上。长方体检测器可以是实现一种或多种深度学习方法的深度长方体检测器。

长方体检测器可以具有高精度并且使用移动设备的硬件(例如，参考图10描述的可穿戴显示***1000)实时运行。

图1A是示例单眼图像100a，其示出了采用围绕检测到的对象覆盖的边界框104的二维(2D)对象检测。图1B是示出三维(3D)长方体检测的示例单眼图像100b，其中长方体的表示108覆盖在检测到的对象上。图1B示出了检测到单眼图像100内的一个长方体108并且定位其顶点。八个顶点示为由四个边120a-120d(表示为虚线)连接的四个黑色圆圈112a-112d和由四个边124a-124d(表示为实线)连接的四个另外的黑色圆圈116a-116d。顶点112a-112d中的四个顶点表示长方体的一个面128a，并且顶点116a-116d中的另外四个顶点表示长方体的另一个面128b。长方体108的两个面128a、128b由通过顶点112a-112d、116a-116d的四个边132a-132d(表示为虚线)连接。长方体检测器可以检测场景中的盒状对象。与对象检测不同，长方体检测器可以比对象的边界框确定更多。另外，长方体检测器可以定位长方体的顶点(例如，比较图1A和图1B)。在一些实施例中，长方体检测器可以是类别不可知的。例如，长方体检测器不关心正被检测的长方体的类别。例如，长方体检测器可以区分两类对象：长方体和非长方体。长方体检测器可以通过确定单眼图像内的所有长方体并定位它们的顶点来执行3D长方体检测。长方体检测器可以以端到端的方式进行训练。长方体检测器可以实时运行并采用使用消费级相机捕获的杂乱场景的RGB图像作为输入来执行长方体检测。可穿戴显示设备(例如，参考图10描述的可穿戴显示***1000)可以实现长方体检测器并使用关于检测到的长方体的信息来生成或更新指示可穿戴显示设备的用户周围环境的世界地图。

长方体是可以参数化的几何对象，并且长方体检测器(例如，深度长方体检测器)可以确定场景中的长方体的参数。检测长方体的一种方法是检测边并尝试将长方体的模型拟合到这些边。因此，稳健的边选择可能是***的有用方面。然而，当在长方体表面上存在误导性纹理时，例如，如果边和角被遮挡或者场景包含显著的背景杂乱物体，则这变得具有挑战性。将给定的线归类为是否属于具有纯粹局部特征的给定长方体可能具有挑战性。长方体检测器可以学习使用数据驱动的方法在图像中检测长方体。长方体检测器可以向场景中的盒状对象分配单个标签(例如，“长方体”)，即使标签分布在许多类别上，如房屋、洗衣机、投票箱、桌子、汽车、电视机等。长方体检测器可以包括能够成功地学习帮助实施它的***(例如，参考图10描述的可穿戴显示***1000)识别不同场景中的长方体的特征的CNN。

在一些实施例中，长方体检测器可以实现深度学习模型，其共同执行长方体检测和关键点定位。例如，长方体检测器可以包括深度神经网络，其共同执行长方体检测和关键点定位。长方体检测器可以超过通过其它方法执行的检测精度和定位精度。在一些实现方式中，长方体检测器可以首先检测关注对象，并且然后关于其顶点的位置进行粗略或初始预测。长方体可以利用粗略或初始预测作为注意机制，通过仅查看具有作为立方体的高概率的区域来执行顶点的细化。在一些实施例中，长方体检测器可以实现迭代特征池化机制以提高精度。长方体检测器可以组合与长方体相关的损耗，和/或实现替代参数化以提高精度。

示例长方体网络架构和损失函数

图2描绘了长方体检测器的示例架构。长方体检测器200可包括以下组件中的一个或多个：卷积层204(在此也称为CNN塔)、区域生成网络(RPN)208、至少一个池化层212，或者一个或多个全连接层216(例如，区域CNN(R-CNN)回归器(或分类器))。池化层212和全连接层216可以实现迭代特征池化，其细化长方体关键点位置。R-CNN可以是Faster R-CNN。

长方体检测器200可以实现深度长方体检测管线。深度长方体检测管线的第一动作可以在可能存在长方体的图像202a中确定关注区域(RoI)220a1、220b。可以训练区域生成网络(RPN)200以输出如图像202b中所示的这种RoI 220a1、220b。然后，可以使用一个或多个池化层212从卷积特征图228(例如，来自牛津大学的视觉几何组的VGG-M中的第五卷积特征图conv5)池化具有与每个RoI 220a1、220b对应的特征的区域224a。这些池化特征可以穿过两个全连接层216。在一些实现方式中，不是仅产生2D边界框，而是长方体检测器200可以从RoI 220a1、220b的中心输出顶点的归一化偏移。长方体检测器200可以通过执行迭代特征池化来细化预测。图2中的虚线示出了与图像202b中的RoI 220a1以及图像202c中的细化RoI 220a2对应的卷积特征图228的区域224a、224b，可以从该区域224a、224b中池化特征。两个全连接层216可以处理与细化RoI220a2对应的卷积特征图228的区域224b，以确定图像202d中的进一步细化RoI和/或长方体232的表示。

CNN塔204可以是ConvNets的预训练的完全卷积部分，诸如VGG和ResNets。卷积特征图228指的是CNN塔204的最后一层的输出。例如，卷积特征图228可以是第五卷积层的输出，诸如来自牛津大学的视觉几何组的VGG16中的conv5，大小为m×n×512。

RPN 208可以是完全卷积网络，其将卷积特征图228中的每个单元映射到K个多尺度锚框、边界框偏移和对象(objectness)分数上的分布。RPN可以具有两个相关联的损失函数：对象的对数损失函数和用于边界框回归的平滑L1损失函数。例如，RPN 208可以使用512个3×3滤波器，然后使用用于对象的18个1×1滤波器，并且使用用于边界框偏移的36个1×1滤波器。

RoI池化层212可以使用例如最大池化来将任何有效关注区域220a1、220a2、220b内的特征转换为小的固定大小的特征图(或卷积特征图228的子图)。例如，对于大小为m×n×512的conv5，池化层212可以产生大小为7×7×512的输出，与输入区域的纵横比和比例无关。在一些实施例中，可以实现空间金字塔匹配。

然后可以将全连接层216(例如，R-CNN回归器)应用于每个固定大小的特征向量，输出长方体分数、边界框偏移(四个数字)和八个长方体关键点位置(16个数字)。边界框回归值(Δx，Δy，Δw，Δh)可用于拟合紧紧围绕对象的初始对象推荐。关键点位置可以被编码为相对RoI中心的偏移，并且可以通过推荐宽度/高度来归一化，如图3中所示。图3示出了顶点的RoI归一化坐标，其表示为距图像300中的RoI 304的中心的偏移，并且由区域的宽度w和高度h归一化，其中(x_v,y_v)是关键点308，并且(x_c,y_c)是RoI的中心312。每个关键点的示例地面实况目标在等式[1]和[2]中示出：

参考图2，R-CNN可以包括两个全连接层216(例如，每个具有4096个神经元)并且可以具有三个相关联的损失函数：用于长方体的对数损失函数和用于边界框和顶点回归两者的平滑L1损失函数。

当联合观看时，RoI池化层212和R-CNN层充当细化机制，在给定特征图的情况下将输入框映射到改进的框。长方体检测器200可以多次(例如，2、3、4或更多次)应用网络的最后部分，在此称为迭代特征池化。

RPN 208中使用的损失函数可以包括L_anchor-cls，两个类别(例如，长方体与非长方体)上的对数损失，以及L_anchor-reg，对于每个锚框的边界框回归值的平滑L1损失。R-CNN的损失函数可以包括L_ROI-cls，两个类别(例如，长方体与非长方体)上的对数损失，L_ROI-reg，用于RoI的边界框回归值的平滑L1损失，以及L_ROI-corner，RoI的预测关键点位置上的平滑L1损失。最后一项可以称为角或顶点回归损失。完全损失函数可以是上述损失的加权和，并且可以如等式[3]中所示编写。损失权重λ_i在不同的实现方式中可以是不同的，诸如0.1、0.5、1、2、5、10或更多。

L＝λ₁L_anchor-cls+λ₂L_anchor-reg+λ₃L_ROI-cls+λ₄L_ROI-reg+λ₅L_ROI-corner 等式[3]

示例性能

为了确定其性能，使用Caffe实现长方体检测器200的实施例，并且在Faster R-CNN的实现方式之上构建。为了确定性能，使用已经在ImageNet上针对图像分类任务预训练的VGG-M或VGG16网络。VGG-M是具有7层的较小模型，而VGG16包含16层。使用学习速率为0.001的随机梯度下降(SGD)对所有模型进行50K迭代微调，在30K迭代后减少因子10。使用的附加参数包括0.9的动量，0.0005的权重衰减和0.5的损失。而不是逐阶段训练。长方体检测器200的组件以所有损失权重的值为1(例如，等式[3]中的λ_i＝1)联合优化。

数据。SUN图元数据集(覆盖各种环境场景、地点和内部对象的注释图像的综合集合；可从_{https://groups.csail.mit.edu/vision/SUN/}获得)用于训练深度长方体检测器200。该数据集由3516个图像组成，并且是具有多个杂乱物体的室内场景、仅包含单个长方体的互联网图像以及看起来像长方体的建筑物的室外图像的混合。长方体边界框和长方体关键点二者都具有地面实况注释。该数据集包括785个图像中的1269个注释长方体。其余图像是否定的，例如，它们不包含任何长方体。分割数据集以创建3000个图像及其水平翻转版本的训练集和具有516个测试图像的测试集。

对长方体检测器200评估两个任务：长方体边界框检测和长方体关键点定位。对于检测，如果联合交叉(IoU)重叠大于0.5.2，则边界框是正确的。通过具有平均的平均精度(AP)以及报告的整个精度召回曲线的置信度(例如，网络的分类器softmax输出)对检测进行分类。对于关键点定位，使用正确关键点概率(PCK)和关键点平均精度(APK)度量来确定长方体检测器的性能。PCK和APK在人体姿势估计文献中用于测量预测人体部位(如头部、手腕等)位置的***的性能。当所有地面实况框都作为***的输入给出时，PCK测量正确的注释实例的分数。如果预测关键点与注释的归一化距离小于阈值(α)，则认为该关键点是正确的。另一方面，APK考虑了检测置信度和关键点定位二者。使用为0.1的归一化距离α，这意味着如果预测关键点位于等式[4]中所示的关键点的地面实况注释的多个像素内，则认为该关键点是正确的。归一化距离α在不同的实现方式中可以是不同的，诸如0.01、0.2、0.3、0.5、0.9或更多。

1.1*max(高度，宽度) 等式[4]

关于在SUN图元测试集上报告的这些度量以及在图4A-4G中示出的单眼图像400a-400y、404a-404e中的长方体检测和顶点定位的样本，参见图7A-7F。例如，图4A示出了单眼图像400a，其具有四个长方体的示例表示108a-108d，每个长方体表示为八个顶点。作为另一个示例，图4A示出了另一个单眼图像400b，其具有长方体的示例表示108a，该长方体具有表示由四个边(如实线所示)连接的长方体的一个面的四个顶点，以及表示由其它四个边(如虚线所示)连接的长方体的另一个面的四个顶点。长方体的表示108a的这两个面上的八个顶点通过四个边连接(如虚线所示)。

图7A-7F是示出示例深度长方体检测器评估度量的图。APK：关键点的平均精度，PCK：正确关键点的概率：距离GT角的归一化距离，关键点顺序：前上左，后上左，前下左，前上右，后下左，前下右，后上右，后下右。B：边界框损失，C：角损失，以及I：迭代。图4A-4F示出了说明使用VGG16作为CNN塔和迭代特征池化的示例长方体检测和关键点位置的图像。长方体检测器200能够在消费级RGB图像中定位长方体的顶点。长方体检测器200能够处理如盒子(完全由长方体建模)的对象以及如水槽(仅是近似长方体)的对象。图4G示出了说明如下面进一步描述的可以减少或消除的不正确的长方体检测和关键点定位的示例图像404a-404e。

在一个实现方式中，长方体检测器2实现用于边界框检测的75.47的mAP，其明显优于具有24.0的mAP的基于HOG的***。

多任务学习。训练各自执行不同多个任务的多个网络。训练仅在长方体周围输出边界框的基础网络。该基础网络使用包围长方体的矩形执行一般对象检测。基础网络输出框的类别和边界框回归值。接下来，训练具有关于角的位置的附加监督的不同网络。该网络未输出边界框回归坐标。然后，训练输出边界框回归值和顶点坐标二者的网络(例如，长方体检测器200)。对于每个附加任务，将对应的术语添加到损失函数。从测试开始，添加更多任务(边界框检测、关键点定位或边界框检测和关键点定位两者)都会影响长方体检测器的性能(参见表1)。

表1.多任务学习结果。仅使用边界框损失训练网络，然后使用长方体角损失。

附加损失函数	AP	APK	PCK
				边界框损失	66.33	-	-
角损失	58.39	28.68	27.64
				边界框+角损失	67.11	34.62	29.38

迭代特征池化。在R-CNN中，最终输出是针对每个区域推荐的分类分数和边界框回归值。边界框回归允许移动区域推荐并对其进行缩放，使得最终边界框仅对对象进行定位。这意味着池化特征以进行该预测的初始区域并不完全正确。在一些实施例中，长方体检测器200返回并池化来自细化边界框的特征。这可以在网络本身中实现，意味着长方体检测器200以完全相同的方式进行训练和测试的同时执行迭代边界框回归。对回归器的全连接层216的输入是固定大小的特征图，卷积特征图228的子图，其包括来自conv5层的不同区域推荐的池化特征。R-CNN输出可用于关于输入对象推荐的边界框回归以产生新推荐。然后，可以从这些新推荐中池化特征，并再次穿过回归器的全连接层216。在一些实施例中，长方体检测器200是“任意时间预测***”，其中对于不受等待时间限制的应用，可以不止一次地执行边界框回归。性能结果(参见表2)示出迭代特征池化可以显著地改进边界框检测和顶点定位二者(参见图5A-5C)。当特征被迭代地池化两次或更多次(例如，2、3、4、5、6或更多次)时，性能上没有显著变化。在一些实现方式中，使用两次迭代。图5A-5C示出了示例图像500a1-500l1、500a2-500l2，其示出了采用经由迭代特征池的关键点细化的改进的性能(例如，相比图像500a1、500a2中的长方体的表示108b1、108b2以及这些图像504中的书架504的形状)。通过使用预测的边界框从conv5重新池化特征来细化长方体检测区域。

表2.迭代特征池化的结果。迭代特征池化将盒子检测AP提高了4％以上，PCK提高了7％以上。

方法	AP	APK	PCK
				角损失	58.39	28.68	27.64
角损失+迭代	62.89	33.98	35.56
				BB+角损失	67.11	34.62	29.38
BB+角损失+迭代	71.72	37.61	36.53

网络深度。测试了两种基础模型VGG16和VGG-M。虽然VGG16具有16层的非常深的架构，但VGG-M是具有7层的较小模型。表3示出了测试结果。有趣的是，对于该数据集和任务，通过较浅网络的两次迭代胜过通过更深网络的一次迭代。与具有迭代的较浅网络运行快两倍的事实相结合，长方体检测器200可以有利地包括具有少于10层(例如，5、7或9层)的较浅CNN塔。在一些实施例中，长方体检测器200可包括更深的CNN塔(例如，12、15、20或更多层)。测试的四个模型各自具有高于基于HOG的***的AP(24.0)的平均精度(AP)。

表3.VGG-M(7层)对比VGG16(16层)基础网络。I：执行迭代特征池化。较深的长方体检测器优于胜过的长方体检测器。

方法	AP	APK	PCK	大小	速度
						VGG-M	67.11	34.62	29	334MB	14fps
VGG-M+I	71.72	37.61	36	334MB	10fps
						VGG16	70.50	33.65	35	522MB	5fps
VGG16+I	75.47	41.21	38	522MB	4fps

训练集大小的影响。测量了增加训练数据大小的影响。创建三个不同大小的数据集1K、2K和3K图像并用于训练公共网络(VGG-M+迭代)。结果(参见表4)示出当使用较大训练集大小时显著提高的性能。

表4.性能与训练图像数量。深度长方体检测可以受益于更多的训练图像。

图像数量	AP	APK	PCK
				1000	40.47	20.83	26.60
2000	52.17	27.51	29.31
				3000	71.72	37.61	26.53

存储器和运行时间复杂性。长方体检测器200能够在Titan Z GPU上以交互速率运行，而基于HOG的方法将花费几分钟来处理单个图像。***的实时性质可能是Faster R-CNN被用作回归器的结果。在一些实施例中，长方体检测器200可以实施单个显示多框检测器(SSD)以进一步改善其速度性能。表3示出了模型大小，其可以关于移动设备(例如，参考图10描述的可穿戴显示***1000)减少。

示例关键点参数化

长方体检测器200的实施例可以直接输出长方体的顶点。许多凸长方体具有八个顶点、六个面和十二个边(并非所有这些顶点、面和边都可以在图像中可见)。然而，某些视点可能具有固有的模糊性，这可能导致图4G中所示的不适当的长方体识别。例如，图4G中的立方体的哪个面应该标记为前？由于长方体检测器200检测器可能需要处理这种配置，因此探索替代的长方体参数化。如果认为世界原点与相机中心坐标一致，则可以用12个数字表示长方体的参数化。以下参数化可能是最小的；在其它参数化中，可以使用附加或不同的参数。

(X，Y，Z)-3D中长方体中心的坐标

(L，W，H)-长方体的尺寸

(θ，ψ，φ)-长方体的3个旋转角度(例如，欧拉角)

(f，c_x，c_y)-固有相机参数(例如，焦距和光学中心的坐标)

对于许多现代相机，可以假设相机中没有歪斜和相等的焦距(在正交方向中)。长方体的过度参数化(例如，长方体的十六个参数的参数化)可以允许长方体检测器200产生不表示长方体的输出(参见例如图4G中的一些示例)。测试了长方体的几种不同的重新参数化以更好地利用几何约束。通常，测试结果示出，网络能够学习在图像中具有更多视觉证据的任务的特征，并预测可以适当缩放以用于稳定优化的参数。在处理3D几何和深度学习时，适当的参数化是有利的。甚至图像到图像的变换，诸如像单应性(例如，投影空间的同构)也可以受益于重新参数化(例如，四点参数化)。这些技术可以减少或消除图像中长方体的不正确识别。

六角参数化。另一种参数化，其中检测器仅预测了八个长方体顶点的六个坐标。使用长方体中可能存在平行边的关系来推断剩余两个坐标的位置。例如，3D中平行的边在图像中的消失点处相遇。在长方体600的顶部基面上可以存在两对平行线，并且在长方体的底面上可以存在两对平行线。在长方体600的顶面上的一对平行线604a、604b和在长方体的底面上的一对平行线606a、606b应该在相同的消失点608a处相遇，如图6中所示。在长方体600的顶面上的一对平行线604c、604d和在长方体的底面上的一对平行线606c、606d应该在相同的消失点608b处相遇。因此，可以推断剩余的两个点612a、612b的位置。在一些实现方式中，这允许长方体检测器200参数化12个数字的输出。图6示意性地示出了示例长方体消失点608a、608b。通过外推立方体的边产生的消失点608a、608b形成消失线616并且可用于减少参数的数量。可以从参数化中排除前上左(FTL)关键点612a和后下右(BBR)关键点612b，并使用估计的消失点(VP)技术推断。

将八角参数化与六角参数化进行比较。训练时未使用两个顶点的地面实况数据。每个后面和前面的一个顶点被丢弃(那些检测率(PCK)最差的顶点)。训练网络以预测剩余六个角的位置。使用这六个角来推断两个下降顶点的位置。长方体检测器200首先确定与预测的六个点对应的消失点。该重新参数化可能会导致性能下降(见表5)。该劣化可能是由于丢弃了与图像中存在的两个推断角相对应的视觉证据。此外，由于遮挡或任何其它原因的一个顶点的预测的任何误差将直接传播到推断角。然而，留给长方体检测器200，它学习了多个模型来检测长方体。长方体检测器200的网络可以自由地使用所有视觉证据来定位长方体的角。长方体检测器200能够进行纯几何推理，因为在许多情况下，由于自闭塞，背面上的角在图像中不具有视觉证据。

表5.八角与六角参数化。八角参数化使用所有长方体的角，而在六角参数化中，BBR和FTL角被丢弃(参见图6)并从消失点推断。这示出了示例网络如何能够进行几何推理，并且过度参数化可以增加***的稳健性。BBR：后下右和FTL：前上左。

消失点参数化：另一种重新参数化使用两个消失点的位置和六条线的斜率，这将形成长方体的边(参见图6)。请注意，这些消失点对应于特定的长方体，并且可能与整个图像的消失点不同。在该示例中，这六条线的交点将给出长方体的顶点。然而，消失点的位置很多位于关注区域之外，并且在关注区域或整个图像本身中具有很少或混淆的视觉证据。也可能难以使目标归一化以直接预测消失点。六条线的斜率可以在-∞和+∞之间变化。不是直接预测斜率，而是可以将斜率回归到sin(tan^-1(θ))的值。可以存在一组超参数(例如，损失权重、学习速率、求解器等)，其中可以训练该网络的实施例。

训练长方体检测器的示例过程

图8是训练长方体检测器的示例过程800的流程图。过程800在框804处开始，其中接收多个训练图像，每个训练图像包括至少一个长方体。一些训练图像可以各自包括一个或多个长方体。过程800可以包括执行长方体特定的(例如，长方体特定的)数据增强策略以改善训练的长方体检测器的性能。在框808处，接收卷积神经网络。可以训练卷积神经网络用于目标检测。例如，卷积神经网络可以是VGG16或VGG-M。在一些实现方式中，卷积神经网络可以是深度神经网络。

在框812处，生成长方体检测器。长方体检测器可包括CNN塔。CNN塔可以包括在框808处接收的卷积神经网络的多个卷积层和非卷积层。例如，CNN塔可以包括所接收的卷积神经网络的一些或所有卷积层。非卷积层可包括归一化层、亮度归一化层、批量归一化层、整流线性层、上采样层、级联层、池化层、软化层或其任何组合。CNN塔可以从输入图像(诸如单眼图像)生成卷积特征图。

长方体检测器可以包括区域生成网络(RPN)，诸如CNN或DNN。区域生成网络可以连接到CNN塔的层。区域生成网络可以使用卷积特征图确定包括图像中的长方体的关注区域(RoI)。例如，关注区域可以表示为在长方体图像位置处包围长方体的二维(2D)边界框。长方体可包括长方体、圆柱体、球体或其任何组合。RPN可以与至少两个损失函数相关联，诸如在训练期间的对数损失函数和平滑L1损失函数。

长方体检测器可包括池化层和至少一个回归层。池化层可以连接到CNN塔的层。池化层可以使用长方体图像位置确定与包括长方体的关注区域对应的卷积特征图的子图。池化层和区域生成网络可以连接到CNN塔的同一层。

长方体检测器可以包括两个回归层，诸如区域CNN(R-CNN)或Fast R-CNN的两个全连接层。作为另一个示例，回归层未完全连接。在训练期间，回归层可以与至少三个损失函数相关联。例如，至少三个损失函数包括对数损失函数和平滑L1损失函数。

可以训练长方体检测器。在框816处，长方体检测器可以确定包括在框804处接收的训练图像中的长方体的图像位置处的关注区域。在一些实施例中，可以确定图像中的长方体的表示。为了确定长方体图像位置处的RoI和长方体的表示，长方体检测器可以使用CNN塔的卷积层和非卷积层来生成训练图像的卷积特征图。基于卷积特征图，区域生成网络可以确定包括在训练图像中的初始图像位置处的长方体的RoI。基于训练图像中长方体的初始图像位置，长方体检测器的池化层可以确定与包括初始图像位置处的长方体的RoI对应的卷积特征图的子图。至少一个回归层可以确定长方体图像位置处的RoI和长方体的表示。初始长方体图像位置或长方体图像位置可以表示为二维(2D)边界框。在一些实施方式中，方法800可以包括使用池化层、至少一个回归层、以及与包括长方体的RoI对应的卷积特征图的子图，迭代地确定在长方体图像位置处的RoI和长方体的表示。

在不同的实现方式中，长方体的表示可以是不同的。该表示可以包括长方体的参数化表示。例如，长方体的参数化表示可以包括图像中的长方体(例如，长方体)的多个关键点的位置，诸如图像中的长方体的六个或八个顶点。作为另一个示例，参数化表示可以包括长方体的多个关键点与图像中心的归一化偏移。作为另一示例，参数化表示包括N个元组，诸如6个元组。作为示例，长方体的参数化表示包括消失点参数化。

在框820处，可确定参考图像位置与所确定的图像位置之间的第一差异以及长方体的参考表示与所确定的长方体的表示之间的第二差异。长方体的参考表示可以包括每个关键点的地面实况目标，如上面的等式[1]和[2]中所示。参考图像位置可以包括由地面实况目标表示的边界框。

在框824处，可以基于第一差异和第二差异来更新长方体检测器的权重。差异可以表示为等式[3]中所示的损失函数(或其分量)。可以基于所确定的差异来更新长方体检测器的一些或所有权重。例如，可以基于差异来更新区域生成网络的权重和至少一个回归层的权重。作为另一示例，可以在不基于差异更新第一CNN的权重的情况下更新RPN的权重和至少一个回归层的权重。作为另一示例，可以基于差异来更新CNN塔的权重、区域生成网络的权重以及至少一个回归层的权重。过程800可以可选地包括从更大的数据集和合成数据、网络优化和正则化技术训练长方体检测器以改进泛化。

使用长方体检测器进行长方体检测和关键点定位的示例过程

图9是使用长方体检测器进行长方体检测和关键点定位的示例过程900的流程图。过程900在框904处开始，其中***(例如，参考图10描述的可穿戴显示***1000)接收包括可能的长方体的输入图像。图像可包括一个或多个长方体。图像可以包括彩色图像(例如，RGB或RGB-D)，并且图像可以是单眼的。图像可以是视频的帧，并且可以使用参考图10描述的可穿戴显示***1000的面向外成像***1044来获得。

在框908处，可穿戴显示***1000可以访问长方体检测器(诸如由图8中所示的过程800训练的长方体检测器)。长方体检测器可包括CNN塔，该CNN塔包括多个卷积层和非卷积层。长方体检测器可以包括连接到CNN塔的区域生成网络。长方体检测器可包括池化层和至少一个回归层。池化层可以连接到CNN塔。

在框912处，可穿戴显示***1000可以使用CNN塔的多个卷积层和非卷积层以及图像来生成卷积特征图(例如，图2中的卷积特征图)。在框916处，可穿戴显示***1000可以使用区域生成网络确定包括图像的长方体图像位置处的长方体的至少一个RoI(例如，图2中的关注区域220a1、220a2、220b)。长方体图像位置可以表示为二维(2D)边界框。在框920处，可穿戴显示***1000可以使用池化层(例如，图2中的池化层212)和长方体图像位置来确定与包括长方体的关注区域对应的卷积特征图的子图。例如，可以从卷积特征图228的区域224a确定子图，可以在图2中从该区域224a池化特征。在框924处，可穿戴显示***1000可以使用回归层(例如，R-CNN回归器)和子图，确定在细化长方体图像位置处的细化RoI和长方体的表示。细化长方体图像位置可以表示为二维(2D)边界框。

在一些实施例中，方法900包括迭代特征池化。例如，可穿戴显示***1000可以使用细化长方体图像位置来确定与包括长方体的细化关注区域对应的卷积特征图的细化子图。例如，可以从卷积特征图228的区域224b确定子图，可以在图2中从该区域224b池化特征。可穿戴显示***1000可以使用池化层、至少一个回归层、以及与细化RoI对应的卷积特征图的细化子图，来确定在进一步细化长方体图像位置处的进一步细化RoI和进一步定义的长方体的表示。

可穿戴显示***1000可以基于细化长方体图像位置处的细化关注区域和长方体的表示来与***的用户交互。例如，长方体可以对应于固定盒子，并且可穿戴显示***1000可以基于长方体的细化图像位置和长方体的表示来生成与固定盒子相关的角色动画。作为另一个示例，长方体可以对应于手持长方体。可穿戴显示***1000可以使用长方体的表示来确定长方体的姿势，并且基于长方体的姿势与***的用户交互。作为另一个示例，长方体可以对应于CNN无法识别的罕见对象。可穿戴显示***1000可以向用户提供检测到CNN无法识别的罕见对象的通知。作为示例，长方体对应于人造结构(例如，建筑物)。可穿戴显示***1000可以基于细化长方体图像位置处的细化RoI和长方体的表示，在无人驾驶飞行期间来辅助***的用户。作为另一个示例，长方体可以是对应于标记的长方体。可穿戴显示***1000可以基于长方体的姿势执行同时定位和映射(SLAM)。

示例应用

检测图像中的盒状对象并提取如姿势的3D信息可以帮助整体场景理解。通过首先检测场景中的盒子(例如，通过将场景中的对象减少到盒子，估计场景中的支撑表面并估计场景布局来提取房间中的自由空间)，可以解决许多高级语义问题。

在此公开的长方体检测器通常可以为增强现实(AR)、人机交互(HCI)、自动车辆、无人机或机器人开辟一种或多种可能性。例如，长方体检测器可以如下使用。

对于增强现实，长方体顶点定位之后是6自由度(6-dof)姿势估计，这允许内容创建者使用由固定盒子定义的以长方体为中心的坐标系来驱动角色动画。因为固定长方体所占据的空间体积是基于长方体顶点位置之后6自由度姿势估计而得知的，所以动画角色可以跳到盒子上，隐藏在它后面，并且甚至可以开始在盒子的一个面上绘图。因此，内容创建者可以使用长方体检测器来构建长方体周围的动态世界。

对于人机交互，用户可以使用围绕它们的四四方方的对象与场景交互。内容创建者可以创建游戏或用户环境，其中世界由长方体构成。作为另一个示例，手持长方体可以用作轻量级游戏控制器。一种***，诸如参考图10描述的可穿戴显示***1000，可以包括随时间推移捕获手持立方体的图像的相机。并且***可以使用捕获的图像估计立方体的姿势，有效地跟踪3D空间中的立方体。在一些实施例中，长方体可以用作改善AR***中的交互的方式(例如，使用长方体的桌面AR演示)。

对于自主车辆，3D长方体检测允许车辆推理可能在监督训练集中丢失的罕见对象的空间范围。通过以类不可知的方式推理对象的姿势，自主车辆可以是更安全的驾驶员。

对于无人机、人造结构，诸如建筑物、房屋或小汽车，可以用长方体很好地近似在无人驾驶飞行期间辅助导航。对于一般的机器人，检测图像中的盒状对象并提取如姿势的3D信息有助于整体场景理解。例如，在场景中放置少量长方体(而不是Aruco标记)可以使姿势跟踪对于同时定位和映射(SLAM)应用更加稳健。

附加实施例

在一些实施例中，长方体检测器不依赖于自下而上的图像处理并且在实时图像上令人满意地工作。可以使用3D模型的大型训练数据库和用于2D到3D对齐的某种学习来训练长方体检测器。在一些实施方式中，长方体检测器可以实施基于几何的方法、可变形部件模型、基于直方图取向梯度(HOG)的模型(例如，HOG分类器)。长方体检测器可以检测不同视图中的长方体顶点，并基于HOG分类器的分数、2D顶点位移、边对齐分数和3D形状分数确定最终的长方体配置，该分数考虑了预测顶点与3D立方体的接近程度。长方体检测器可以共同优化图像中发现的视觉证据(角和边)，同时对偏离实际3D长方体太远的预测惩罚。

不受理论的限制，长方体检测器可以归功于其性能卷积神经网络。CNN可以优于用于图像分类任务的现有方法。为了在图像中定位长方体，图像被分解成区域，并且例如实时地对这些区域进行分类。长方体检测器可以在单个步骤中执行检测。例如，在参考图10描述的可穿戴显示***1000上运行的长方体检测器可以每秒处理50-60帧，从而执行实时长方体检测和关键点定位。由长方体检测器实施的迭代关键点细化可以基于多区域CNN和内外网络的迭代边界框回归的(网络级联的)迭代误差反馈方法。可替代地或另外地，由长方体检测器实施的迭代关键点细化可以基于递归神经网络。

示例NN层

诸如深度神经网络(DNN)的神经网络(NN)的层可以将线性或非线性变换应用于其输入以生成其输出。深度神经网络层可以是归一化层、卷积层、softsign层、整流线性层、级联层、池化层、递归层、类初始层或其任何组合。归一化层可以归一化其输入的亮度，以通过例如L2归一化来生成其输出。例如，归一化层可以一次相对于彼此归一化多个图像的亮度，以生成多个归一化图像作为其输出。用于归一化亮度的方法的非限制性示例包括局部对比度归一化(LCN)或局部响应归一化(LRN)。局部对比度归一化可以通过在每个像素的基础上归一化图像的局部区域来非线性地归一化图像的对比度，以具有零的均值和一的方差(或者其它值的均值和方差)。局部响应归一化可以使局部输入区域上的图像归一化，以具有零均值和一的方差(或其它值的均值和方差)。归一化层可以加速训练过程。

卷积层可以应用一组内核，其卷积其输入以生成其输出。softsign层可以将softsign函数应用于其输入。softsign函数(softsign(x))可以是例如(x/(1+|x|))。softsign层可能会忽略每个元素异常值的影响。整流的线性层可以是整流的线性层单元(ReLU)或参数化的整流线性层单元(PReLU)。ReLU层可以将ReLU函数应用于其输入以生成其输出。ReLU函数ReLU(x)可以是例如max(0，x)。PReLU层可以将PReLU函数应用于其输入以生成其输出。例如，如果x≥0，则PReLU函数PReLU(x)可以是x，并且如果x<0，则可以是ax，其中a是正数。级联层可以级联其输入以生成其输出。例如，级联层可以级联四个5×5图像以生成一个20×20图像。池化层可以应用池化函数，该函数对其输入进行向下采样以生成其输出。例如，池化层可以将20×20图像向下采样为10×10图像。池化函数的非限制性示例包括最大池化、平均池化或最小池化。

在时间点t，递归层可以计算隐藏状态s(t)，并且递归连接可以在时间t将隐藏状态s(t)提供给递归层作为后续时间点t+1的输入。递归层可以基于时间t的隐藏状态s(t)在时间t+1计算其输出。例如，递归层可以在时间t将softsign函数应用于隐藏状态s(t)以计算其在时间t+1的输出。在时间t+1的递归层的隐藏状态具有在时间t的递归层的隐藏状态s(t)作为其输入。递归层可以通过将例如ReLU函数应用于其输入来计算隐藏状态s(t+1)。类起始层可包括归一化层、卷积层、softsign层、整流线性层(诸如ReLU层和PReLU层)、级联层、池化层或其任何组合中的一个或多个。

在不同的实现方式中，NN中的层数可以不同。例如，DNN中的层数可以是50、100、200或更多。深度神经网络层的输入类型在不同的实现方式中可以是不同的。例如，层可以接收多个层的输出作为其输入。层的输入可以包括五个层的输出。作为另一个示例，层的输入可以包括NN的1％的层。层的输出可以是多个层的输入。例如，层的输出可以用作五个层的输入。作为另一个示例，层的输出可以用作NN的1％的层的输入。

层的输入大小或输出大小可以非常大。层的输入大小或输出大小可以是n×m，其中n表示输入或输出的宽度，并且m表示输入或输出的高度。例如，n或m可以是11、21、31或更多。在不同的实现方式中，层的输入或输出的通道大小可以是不同的。例如，层的输入或输出的通道大小可以是4、16、32、64、128或更多。在不同的实现方式中，层的内核大小可以不同。例如，内核大小可以是n×m，其中n表示内核的宽度，并且m表示内核的高度。例如，n或m可以是5、7、9或更多。在不同的实现方式中，层的步幅大小可以不同。例如，深度神经网络层的步幅大小可以是3、5、7或更多。

在一些实施例中，NN可以指代一起计算NN的输出的多个NN。可以针对不同的任务训练多个NN中的不同NN。处理器(例如，参考图10描述的本地数据处理模块1024的处理器)可以计算多个NN的NN的输出以确定NN的输出。例如，多个NN中的NN的输出可以包括似然分数。处理器可以基于多个NN中的不同NN的输出的似然分数来确定包括多个NN的NN的输出。

示例可穿戴显示***

在一些实施例中，用户设备可以是或可以包括在可穿戴显示设备中，该可穿戴显示设备可以有利地提供更沉浸式虚拟现实(VR)、增强现实(AR)或混合现实(MR)体验，其中数字再现图像或其部分以它们看起来是或可能被认为是真实的方式呈现给佩戴者。

不受理论的限制，相信人眼通常可以解释有限数量的深度平面以提供深度感知。因此，通过向眼睛提供与这些有限数量的深度平面中的每一个深度平面对应的图像的不同呈现，可以实现高度可信的感知深度模拟。例如，包含波导堆叠的显示器可以被配置为佩戴定位在用户或观看者的眼睛前方。通过使用多个波导将来自图像注入设备(例如，经由一根或多根光纤管送图像信息的多路复用显示器的离散显示器或输出端)的光以对应于与特定波导相关联的深度平面的特定角度(和发散量)引导到观看者的眼睛，可以利用波导堆叠来向眼睛/大脑提供三维感知。

在一些实施例中，可以利用两个波导堆叠，一个用于观看者的每只眼睛，以向每只眼睛提供不同的图像。作为一个示例，增强现实场景可以使得AR技术的佩戴者看到以人、树、背景中的建筑物和具体平台为特征的真实世界公园式设置。除了这些项目之外，AR技术的佩戴者还可以感知到他“看到”站在现实世界平台上的机器人雕像，以及似乎是大黄蜂的拟人化的飞过的类似卡通的头像角色，即使机器人雕像和大黄蜂在真实世界中不存在。(多个)波导堆叠可用于生成与输入图像对应的光场，并且在一些实现方式中，可穿戴显示器包括可穿戴光场显示器。用于提供光场图像的可穿戴显示设备和波导叠层的示例在美国专利公开No.2015/0016777中描述，其全部内容通过引用整体结合于此。

图10示出了可穿戴显示***1000的示例，其可用于向显示***佩戴者或观看者1004呈现VR、AR或MR体验。可穿戴显示***1000可被编程为执行在此描述的任何应用或实施例(例如，执行CNN，重新排序输入激活图或内核的值，眼睛图像分割或眼睛跟踪)。显示***1000包括显示器1008，以及支持该显示器1008的功能的各种机械和电子模块和***。显示器1008可以耦接到框架1012，该框架1012可由显示***佩戴者或观看者1004佩戴，并且被配置为将显示器1008定位在佩戴者1004的眼睛前方。显示器1008可以是光场显示器。在一些实施例中，扬声器1016耦接到框架1012并且在一些实施例中邻近用户的耳道定位，另一个扬声器(未示出)邻近用户的另一耳道定位以提供立体声/可成形声音控制。显示***1000可包括面向外成像***1044(例如，一个或多个相机)，其可获得佩戴者1004周围的环境的图像(例如，静止图像或视频)。由面向外成像***1044获得的图像可以通过深度长方体检测器的实施例来分析，以检测和定位佩戴者1004周围的环境中的长方体。

显示器1008诸如通过有线引线或无线连接可操作地耦接1020到本地数据处理模块1024，该本地数据处理模块1024可以以各种配置安装，诸如固定地附接到框架1012，固定地附接到用户佩戴的头盔或帽子，嵌入耳机中，或以其它方式可拆卸地附接到用户1004(例如，以背包式配置，以带耦接式配置)。

本地处理和数据模块1024可以包括硬件处理器，以及非暂态数字存储器，诸如非易失性存储器，例如闪存，两者都可以用于辅助数据的处理、高速缓存和存储。数据包括如下数据：(a)从传感器捕获(其可以例如可操作地耦接到框架1012或以其它方式附接到佩戴者1004)，诸如图像捕获设备(诸如相机)、麦克风、惯性测量单元、加速度计、指南针、GPS单元、无线设备和/或陀螺仪；和/或(b)使用远程处理模块1028和/或远程数据存储库1032获取和/或处理，可能用于在这种处理或取得之后通过显示器1008。本地处理和数据模块1024可以诸如经由有线或无线通信链路由通信链路1036、1040可操作地耦接到远程处理模块1028和远程数据存储库1032，使得这些远程模块1028、1032可操作地彼此耦接，并可用作本地处理和数据模块1024的资源。(多个)图像捕获设备可用于捕获在眼睛图像分割或眼睛跟踪过程中使用的眼睛图像。

在一些实施例中，远程处理模块1028可以包括一个或多个处理器，该处理器被配置为分析和处理数据和/或图像信息，诸如由图像捕获设备捕获的视频信息。视频数据可以本地存储在本地处理和数据模块1024中和/或远程数据存储库1032中。在一些实施例中，远程数据存储库1032可以包括数字数据存储设施，其可以通过互联网或“云”资源配置中的其它网络配置可用。在一些实施例中，存储所有数据并且在本地处理和数据模块1024中执行所有计算，允许从远程模块完全自主使用。

在一些实施方式中，本地处理和数据模块1024和/或远程处理模块1028被编程以执行重新排序在此公开的输入激活图或内核、眼睛图像分割或眼睛跟踪的值的实施例。例如，本地处理和数据模块1024和/或远程处理模块1028可以被编程为执行参考图9描述的过程900的实施例。本地处理和数据模块1024和/或远程处理模块1028可以被编程为执行在此公开的长方体检测和关键点定位。图像捕获设备可以捕获用于特定应用(一般例如，增强现实(AR)、人机交互(HCI)、自主车辆、无人机或机器人)的视频。可以通过处理模块1024、1028中的一个或二者使用CNN来分析视频。在一些情况下，将输入激活图或内核、眼睛图像分割或眼睛跟踪的重新排序值中的至少一些卸载到远程处理模块(例如，在“云”中)可以提高计算的效率或速度。CNN的参数(例如，权重、偏置项、用于池化层的子采样因子、不同层中的内核的数量和大小、特征图的数量等)可以存储在数据模块1024和/或1032中。

长方体检测和关键点定位的结果(例如，长方体检测器200的输出)可以由处理模块1024、1028中的一个或二者使用，以用于附加操作或处理。例如，可穿戴显示***1000的处理模块1024、1028可以被编程为基于长方体检测器200的输出执行在此描述的附加应用(通常诸如增强现实、人机交互(HCI)、自主车辆、无人机或机器人中的应用)。

附加方面

在第1方面，公开了一种用于长方体检测和关键点定位的***。该***包括：非暂态存储器，其被配置为存储：可执行指令，用于长方体检测的图像，以及长方体检测器，该长方体检测器包括：用于从图像生成卷积特征图的第一卷积神经网络(CNN)的多个卷积层和非卷积层，包括用于使用卷积特征图确定包括在图像的长方体图像位置处的长方体的至少一个关注区域(RoI)的第二CNN的区域生成网络(RPN)，以及用于使用卷积特征图和包括长方体的RoI，确定在细化长方体图像位置处的细化RoI和长方体的表示的池化层和至少一个回归层；与非暂态存储器通信的硬件处理器，该硬件处理器由可执行指令编程以：接收图像；使用第一CNN的多个卷积层和非卷积层和图像生成卷积特征图；使用RPN确定包括在图像的长方体图像位置处的长方体的至少一个RoI；使用池化层和长方体图像位置确定与包括长方体的RoI对应的卷积特征图的子图；以及使用至少一个回归层和与包括长方体的RoI对应的卷积特征图的子图来确定细化长方体图像位置处的细化RoI和长方体的表示。

在第2方面，根据方面1所述的***，其中，硬件处理器进一步被编程为：使用细化长方体图像位置确定与包括长方体的细化RoI对应的卷积特征图的细化子图；使用池化层、至少一个回归层、以及与包括长方体的细化RoI对应的卷积特征图的细化子图，确定在进一步细化的长方体图像位置处的进一步细化RoI以及进一步定义的长方体的表示。

在第3方面，根据方面1-2中任一方面所述的***，其中，长方体图像位置表示为二维(2D)边界框。

在第4方面，根据方面1-3中任一方面所述的***，其中，细化长方体图像位置表示为二维(2D)边界框。

在第5方面，根据方面1-4中任一方面所述的***，其中，第一CNN的非卷积层包括归一化层、亮度归一化层、批量归一化层、整流线性层、上采样层、级联层、池化层、softsign层或其任何组合。

在第6方面，根据方面1-5中任一方面所述的***，其中，至少一个回归层包括两个或更多个层。

在第7方面，根据方面6所述的***，其中，两个或更多个层包括全连接层、非全连接层或其任何组合。

在第8方面，根据方面1-7中任一方面所述的***，其中，至少一个回归层在训练期间与至少三个损失函数相关联。

在第9方面，根据方面8所述的***，其中，至少三个损失函数包括对数损失函数和平滑L1损失函数。

在第10方面，根据方面1-9中任一方面所述的***，其中，RPN包括深度神经网络(DNN)。

在第11方面，根据方面1-10中任一方面所述的***，其中，RPN在训练期间与至少两个损失函数相关联。

在第12方面，根据方面11所述的***，其中，至少两个损失函数包括对数损失函数和平滑L1损失函数。

在第13方面，根据方面1-12中任一方面所述的***，其中，长方体的表示包括长方体的参数化表示。

在第14方面，根据方面13所述的***，其中，长方体的参数化表示包括图像中的长方体的多个关键点的位置。

在第15方面，根据方面14所述的***，其中，多个关键点包括图像中的长方体的八个顶点。

在第16方面，根据方面13所述的***，其中，参数化表示包括长方体的多个关键点距图像的中心的归一化偏移。

在第17方面，根据方面13所述的***，其中，参数化表示包括N个元组。

在第18方面，根据方面13所述的***，其中，长方体的参数化表示包括12个参数。

在第19方面，根据方面13所述的***，其中，长方体的参数化表示包括消失点参数化。

在第20方面，根据方面1-19中任一方面所述的***，其中，硬件处理器进一步被编程为：基于在细化长方体图像位置处的细化RoI和长方体的表示与***的用户交互。

在第21方面，根据方面20所述的***，其中，长方体对应于固定盒，并且其中，为了与***的用户交互，硬件处理器进一步被编程为：基于长方体的细化图像位置和长方体的表示生成与固定盒相关的角色动画。

在第22方面，根据方面20所述的***，其中，长方体对应于手持长方体，并且其中，为了与***的用户交互，硬件处理器进一步被编程为：使用长方体的表示确定长方体的姿势；并基于长方体的姿势与***的用户交互。

在第23方面，根据方面20所述的***，其中，长方体对应于第三CNN不能识别的罕见对象，并且其中，为了与***的用户交互，硬件处理器进一步被编程为：向用户提供检测到第三CNN无法识别的罕见对象的通知。

在第24方面，根据方面1-23中任一方面所述的***，其中，长方体对应于人造结构，并且其中，硬件处理器进一步被编程为：基于在细化长方体图像位置处的细化RoI和长方体的表示，在无人驾驶飞行期间辅助***的用户。

在第25方面，根据方面1-24中任一方面所述的***，其中，长方体对应于标记，并且其中，硬件处理器进一步被编程为：基于在细化长方体图像位置处的细化RoI和长方体的表示来执行同时定位和映射(SLAM)。

在第26方面，公开了一种可穿戴显示***。可穿戴显示器包括：面向外成像***，其被配置为获得用于长方体检测的图像；以及方面1-25中任一方面的用于长方体检测和关键点定位的***。

在第27方面，公开了一种用于训练长方体检测器的***。该***包括：非暂态存储器，其被配置为存储可执行指令；以及硬件处理器，其与非暂态存储器通信，该硬件处理器由可执行指令编程为：接收多个训练图像，每个训练图像包括至少一个长方体；生成长方体检测器，其中长方体检测器包括：第一卷积神经网络(CNN)的多个卷积层和非卷积层，连接到多个卷积层和非卷积层中的第一层的区域生成网络(RPN)，以及池化层和至少一个回归层，该池化层和至少一个回归层连接到多个卷积层和非卷积层中的第二层；以及训练长方体检测器，其中为了训练长方体检测器，硬件处理器被配置为：使用长方体检测器确定在长方体图像位置处的RoI和多个训练图像的训练图像中的长方体的表示；确定参考长方体图像位置和长方体图像位置之间的第一差异，以及长方体的参考表示与长方体的确定表示之间的第二差异；以及基于第一差值和第二差值更新长方体检测器的权重。

在第28方面，根据方面27所述的***，其中，长方体包括长方体、圆柱体、球体或其任何组合。

在第29方面，根据方面27-28中任一方面所述的***，其中，多个卷积层和非卷积层中的第一层以及多个卷积层和非卷积层中的第二层是相同的。

在第30方面，根据方面27-29中任一方面所述的***，其中，为了确定在长方体图像位置处的RoI和长方体的表示，硬件处理器进一步被编程为：使用多个卷积层和非卷积层生成用于多个训练图像中的至少一个训练图像的卷积特征图；使用RPN确定包括训练图像中的初始长方体图像位置处的长方体的至少一个RoI；使用初始长方体图像位置确定与包括长方体的至少一个RoI对应的卷积特征图的子图；以及使用池化层、至少一个回归层、以及与包括长方体的至少一个RoI对应的卷积特征图的子图来确定在长方体图像位置处的RoI和长方体的表示。

在第31方面，根据方面27-30中任一方面所述的***，其中，初始长方体图像位置表示为二维(2D)边界框。

在第32方面，根据方面27-31中任一方面所述的***，其中，为了确定在长方体图像位置处的RoI和长方体的表示，硬件处理器进一步被编程为：使用池化层、至少一个回归层、以及与包括长方体的RoI对应的卷积特征图的子图，来迭代地确定在长方体图像位置处的RoI和长方体的表示。

在第33方面，根据方面27-32中任一方面所述的***，其中，初始长方体图像位置表示为二维(2D)边界框。

在第34方面，根据方面27-33中任一方面所述的***，其中，为了更新长方体检测器的权重，基于硬件的处理器被编程为：更新RPN的权重和至少一个回归层的权重。

在第35方面，根据方面27-33中任一方面所述的***，其中，为了更新长方体检测器的权重，基于硬件的处理器被编程为：更新RPN的权重和至少一个回归层的权重，而不更新第一CNN的权重。

在第36方面，根据方面27-33中任一方面所述的***，其中，为了更新长方体检测器的权重，基于硬件的处理器被编程为：更新第一CNN的权重、RPN的权重，以及至少一个回归层的权重。

在第37方面，根据方面27-36中任一方面所述的***，其中，为了生成长方体检测器，基于硬件的处理器被编程为：接收第一CNN。

在第38方面，根据方面27-37中任一方面所述的***，其中，至少一个回归层包括两个或更多个层。

在第39方面，根据方面38所述的***，其中，两个或更多个层包括全连接层、非全连接层或其任何组合。

在第40方面，根据方面27-38中任一方面所述的***，其中，至少一个回归层在长方体检测器的训练期间与至少三个损失函数相关联。

在第41方面，根据方面40所述的***，其中，至少三个损失函数包括对数损失函数和平滑L1损失函数。

在第42方面，根据方面27-41中任一方面所述的***，其中，RPN包括深度神经网络(DNN)。

在第43方面，根据方面27-42中任一方面所述的***，其中，RPN在长方体检测器的训练期间与至少两个损失函数相关联。

在第44方面，根据方面43所述的***，其中，至少两个损失函数包括对数损失函数和平滑L1损失函数。

在第45方面，根据方面27-44中任一方面所述的***，其中，长方体的表示包括长方体的参数化表示。

在第46方面，根据方面45所述的***，其中，参数化表示包括N个元组。

在第47方面，公开了一种可穿戴显示***。可穿戴显示***包括：面向外成像***，其被配置为获得可穿戴显示***的佩戴者的环境的图像；非暂态存储器，其被配置为存储图像；以及与非暂态存储器通信的硬件处理器，该处理器被编程为：访问环境的图像；分析图像以检测图像中的长方体，其中为了分析图像，处理器被编程为：利用卷积神经网络(CNN)的层来生成包括特征的卷积特征图；利用区域生成网络(RPN)将卷积特征图映射到关注区域(RoI)；RoI中的池功能生成第一池化特征；通过回归器传递第一池化特征，以生成第一边界框估计和第一长方体顶点估计；基于第一边界框估计生成第二池化特征；并通过回归器传递第二池化特征，以生成第二边界框估计和第二长方体顶点估计。

在第48方面，根据方面47所述的可佩戴显示***，其中，图像包括单眼彩色图像。

在第49方面，根据方面47或方面48所述的可穿戴显示***，其中，RPN包括将卷积特征图映射到RoI的CNN。

在第50方面，根据方面47至49中任一方面所述的可穿戴显示***，其中，第一边界框估计或第二边界框估计包括距边界框的中心的偏移。

在第51方面，公开了一种用于检测图像中的长方体的***。该***包括：非暂态存储器，其被配置为存储区域的图像；与非暂态存储器通信的硬件处理器，该处理器被编程为：评估卷积神经网络以生成特征图；分析特征图以获得关注区域(RoI)；确定RoI包含长方体；分析特征图的RoI中的第一池化特征，以生成用于长方体顶点的第一估计；至少部分地基于长方体的顶点的第一估计来生成改进的RoI；分析特征图的改进的RoI中的第二池化特征，以生成长方体顶点的第二估计；并输出长方体顶点的第二估计。

在第52方面，根据方面51所述的***，其中，为了分析特征图以获得关注区域(RoI)，处理器被编程为评估区域生成网络(RPN)。

在第53方面，根据方面51或52所述的***，其中，用于长方体的顶点的第一估计包括距RoI的中心的偏移，或者用于长方体的顶点的第二估计包括距改进的RoI的中心的偏移。

在第54方面，公开了一种用于长方体检测和关键点定位的方法。该方法受硬件处理器的控制，并包括：接收图像；使用长方体检测器的第一卷积神经网络(CNN)的多个卷积层和非卷积层和图像生成卷积特征图；使用包括长方体检测器的第二CNN的区域生成网络(RPN)确定包括在图像的长方体图像位置处的长方体的至少一个RoI；使用长方体检测器的池化层和长方体图像位置确定与包括长方体的RoI对应的卷积特征图的子图；以及使用长方体检测器的至少一个回归层和与包括长方体的RoI对应的卷积特征图的子图确定在细化长方体图像位置处的细化RoI和长方体的表示。

在第55方面，根据方面54所述的方法，进一步包括：使用细化长方体图像位置，确定与包括长方体的细化RoI对应的卷积特征图的细化子图；使用池化层、至少一个回归层、以及与包括长方体的细化RoI对应的卷积特征图的细化子图来确定在进一步细化长方体图像位置处的进一步细化RoI以及进一步定义的长方体的表示。

在第56方面，根据方面54-55中任一方面所述的方法，其中，长方体图像位置表示为二维(2D)边界框。

在第57方面，根据方面54-56中任一方面所述的方法，其中，细化长方体图像位置表示为二维(2D)边界框。

在第58方面，根据方面54-57中任一方面所述的方法，其中，第一CNN的非卷积层包括归一化层、亮度归一化层、批量归一化层、整流线性层、上采样层、级联层、池化层、softsign层或其任何组合。

在第59方面，根据方面54-58中任一方面所述的方法，其中，至少一个回归层包括两个或更多个层。

在第60方面，根据方面59所述的方法，其中，两个或更多个层包括全连接层、非全连接层或其任何组合。

在第61方面，根据方面54-60中任一方面所述的方法，其中，RPN包括深度神经网络(DNN)。

在第62方面，根据方面54-61中任一方面所述的方法，其中，长方体的表示包括长方体的参数化表示。

在第63方面，根据方面62所述的方法，其中，长方体的参数化表示包括图像中长方体的多个关键点的位置。

在第64方面，根据方面63所述的方法，其中，多个关键点包括图像中的长方体的八个顶点。

在第65方面，根据方面62所述的方法，其中，参数化表示包括长方体的多个关键点距图像的中心的归一化偏移。

在第66方面，根据方面62所述的方法，其中，参数化表示包括N个元组。

在第67方面，根据方面62所述的方法，其中，长方体的参数化表示包括12个参数。

在第68方面，根据方面62所述的方法，其中，长方体的参数化表示包括消失点参数化。

在第69方面，根据方面54-58中任一方面所述的方法，进一步包括：基于在细化长方体图像位置处的细化RoI和长方体的表示与用户交互。

在第70方面，根据方面69所述的方法，其中，长方体对应于固定盒，并且与用户交互包括：基于长方体的细化图像位置和长方体的表示生成相对于固定盒的角色动画。

在第71方面，根据方面69所述的方法，其中，长方体对应于手持长方体，并且其中，与用户交互包括：使用长方体的表示确定长方体的姿势；以及基于长方体的姿势与用户交互。

在第72方面，根据方面69所述的方法，其中，长方体对应于第三CNN不可识别的罕见对象，并且其中，与用户交互包括：向用户提供检测到第三CNN不可识别的罕见对象的通知。

在第73方面，根据方面54-72中任一方面所述的方法，进一步包括：基于在细化长方体图像位置处的细化RoI和长方体的表示，在无人驾驶飞行期间帮助***的用户，其中，长方体对应于人造结构。

在第74方面，根据方面54-73中任一方面所述的方法，进一步包括：基于在细化长方体图像位置处的细化RoI和长方体的表示来执行同时定位和映射(SLAM)，其中，长方体对应于标记。

在第75方面，根据方面54-74中任一方面所述的方法，进一步包括：接收多个训练图像，每个训练图像包括至少一个训练长方体；生成长方体检测器以及训练长方体检测器包括：使用长方体检测器确定在训练长方体图像位置处的训练RoI和多个训练图像的训练图像中的训练长方体的表示；确定参考长方体图像位置和训练长方体图像位置之间的第一差异，以及训练长方体的参考表示与训练长方体的确定表示之间的第二差异；以及基于第一差异和第二差异更新长方体检测器的权重。

在第76方面，根据方面75所述的方法，其中，确定在训练长方体图像位置处的训练RoI和训练长方体的表示包括：使用多个卷积层和非卷积层生成训练多个训练图像中的至少一个训练图像的训练卷积特征图；使用RPN确定包括在训练图像中的初始训练长方体图像位置处的训练长方体的至少一个训练RoI；使用初始训练长方体图像位置确定与包括长方体的至少一个RoI对应的卷积特征图的子图；以及使用池化层、至少一个回归层、以及与包括训练长方体的至少一个训练RoI对应的训练卷积特征图的子图来确定在训练长方体图像位置处的训练RoI和训练长方体的表示。

在第77方面，根据方面76所述的方法，其中，初始训练长方体图像位置表示为二维(2D)边界框。

在第78方面，根据方面75所述的方法，其中，确定在训练长方体图像位置处的训练RoI和训练长方体的表示包括：使用池化层、至少一个回归层、以及与包括训练长方体的训练RoI对应的训练卷积特征图的子图来迭代地确定在训练长方体图像位置处的RoI和训练长方体的表示。

在第79方面，根据方面78所述的方法，其中，初始训练长方体图像位置表示为二维(2D)边界框。

在第80方面，根据方面75-79中任一方面所述的方法，其中，更新长方体检测器的权重包括：更新RPN的权重和至少一个回归层的权重。

在第81方面，根据方面75-79中任一方面所述的方法，其中，更新长方体检测器的权重包括：更新RPN的权重和至少一个回归层的权重而不更新第一CNN的权重。

在第82方面，根据方面75-79中任一方面所述的方法，其中，更新长方体检测器的权重包括：更新第一CNN的权重、RPN的权重和至少一个回归层的权重。

在第83方面，根据方面54-82中任一方面所述的方法，其中，生成长方体检测器包括：接收第一CNN。

在第84方面，根据方面75-83中任一方面所述的方法，其中，在长方体检测器的训练期间，至少一个回归层与至少三个损失函数相关联。

在第85方面，根据方面84所述的方法，其中，至少三个损失函数包括对数损失函数和平滑L1损失函数。

在第86方面，根据方面75-85中任一方面所述的方法，其中，在长方体检测器的训练期间，RPN与至少两个损失函数相关联。

在第87方面，根据方面86所述的方法，其中，至少两个损失函数包括对数损失函数和平滑L1损失函数。

在第88方面，公开了一种方法。该方法受硬件处理器的控制，并包括：访问环境的图像；分析图像以检测图像中的长方体，包括：利用卷积神经网络(CNN)的层来生成包括特征的卷积特征图；利用区域生成网络(RPN)将卷积特征图映射到关注区域(RoI)；在RoI中池化特征以生成第一池化特征；通过回归器传递第一池化特征以生成第一边界框估计和第一长方体顶点估计；基于第一边界框估计生成第二池化特征；并且通过回归器传递第二池化特征以生成第二边界框估计和第二长方体顶点估计。

在第89方面，根据方面88所述的方法，其中，图像包括单眼彩色图像。

在第90方面，根据方面88或方面89所述的方法，其中，RPN包括将卷积特征图映射到RoI的CNN。

在第91方面，根据方面88至89中任一方面所述的方法，其中，第一边界框估计或第二边界框估计包括距边界框的中心的偏移。

在第92方面，公开了一种用于检测图像中的长方体的方法。该方法受硬件处理器的控制，并包括：评估卷积神经网络以生成特征图；分析特征图以获得关注区域(RoI)；确定RoI包含长方体；分析特征图的RoI中的第一池化特征以生成长方体顶点的第一估计；至少部分地基于长方体的顶点的第一估计来生成改进的RoI；分析特征图的改进RoI中的第二池化特征以生成长方体顶点的第二估计；以及输出长方体顶点的第二估计。

在第93方面，根据方面92所述的方法，其中，分析特征图以获得关注区域(RoI)包括评估区域生成网络(RPN)。

在第94方面，根据方面92或93所述的方法，其中，长方体的顶点的第一估计包括距RoI的中心的偏移，或者长方体的顶点的第二估计包括距改善的RoI的中心的偏移。

结论

在此描述和/或附图中描绘的过程、方法和算法中的每一个可以在由一个或多个物理计算***、硬件计算机处理器、专用电路和/或配置为执行专用和特定计算机指令的电子硬件执行的代码模块中体现，并且完全或部分地由代码模块自动化。例如，计算***可以包括用特定计算机指令或专用计算机、专用电路等编程的通用计算机(例如服务器)。代码模块可以被编译并链接到可执行程序中，安装在动态链接库中，或者可以用解释的编程语言编写。在一些实施方式中，特定操作和方法可以由特定于给定功能的电路执行。

此外，本公开的功能的某些实现方式在数学上、计算上或技术上足够复杂，以使得专用硬件或一个或多个物理计算设备(利用适当的专用可执行指令)可能有必要例如由于所涉及的计算的量或复杂性而执行功能或者基本上实时地提供结果。例如，视频可以包括许多帧，每个帧具有数百万个像素，并且需要专门编程的计算机硬件来处理视频数据以在商业上合理的时间量内提供所需的图像处理任务或应用。

代码模块或任何类型的数据可以存储在任何类型的非暂态计算机可读介质上，诸如包括硬盘驱动器、固态存储器、随机存取存储器(RAM)、只读存储器(ROM)、光盘、易失性或非易失性存储设备，与它们相同或类似物的组合等的物理计算机存储设备。方法和模块(或数据)还可以作为生成的数据信号(例如，作为载波或其它模拟或数字传播信号的一部分)在各种计算机可读传输介质(包括基于无线的和有线的/基于电缆的介质)上发送，并且可以采用多种形式(例如，作为单个或多路复用模拟信号的一部分，或者作为多个离散数字分组或帧)。所公开的过程或过程步骤的结果可以持久地或以其它方式存储在任何类型的非暂态有形计算机存储设备中，或者可以经由计算机可读传输介质传送。

在此描述和/或附图中描绘的流程图中的任何过程、框、状态、步骤或功能应当理解为可能表示代码模块、代码段或代码部分，其包括用于实施特定功能(例如，逻辑或算术)或过程中的步骤的一个或多个可执行指令。各种过程、块、状态、步骤或功能可以与在此提供的说明性示例组合、重新排列、添加、删除、修改或以其它方式改变。在一些实施例中，附加或不同的计算***或代码模块可以执行在此描述的一些或全部功能。在此描述的方法和过程也不限于任何特定序列，并且与其相关的块、步骤或状态可以以适当的其它顺序执行，例如，以串行、并行或以一些其它方式。可以向所公开的示例实施例添加任务或事件或从中删除任务或事件。此外，在此描述的实现方式中的各种***组件的分离是出于说明性目的，并且不应被理解为在所有实现方式中都需要这种分离。应当理解，所描述的程序部件、方法和***通常可以一起集成在单个计算机产品中或打包成多个计算机产品。许多实现方式变化都是可能的。

过程、方法和***可以在网络(或分布式)计算环境中实现。网络环境包括企业范围的计算机网络、内联网、局域网(LAN)、广域网(WAN)、个人局域网(PAN)、云计算网络、众包计算网络、互联网和万维网。网络可以是有线或无线网络或任何其它类型的通信网络。

本公开的***和方法各自具有若干创新方面，其中没有一个单独地对在此公开的期望属性负责或要求。在此所述的各种特征和过程可以彼此独立地使用，或者可以以各种方式组合。所有可能的组合和子组合都旨在落入本公开的范围内。对本领域技术人员来说，对本公开中描述的实现方式的各种修改是显而易见的，并且在不脱离本公开的精神或范围的情况下，在此定义的一般原理可以应用于其它实现方式。因此，权利要求不旨在限于在此所示的实现方式，而是与符合在此公开的本公开、原理和新颖特征的最宽范围相一致。

在单独实现方式的上下文中在本说明书中描述的某些特征也可以在单个实现方式中组合实施。相反，在单个实现方式的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实现方式中实现。此外，尽管上面的特征可以描述为以某些组合起作用并且甚至最初如此要求保护，但是在一些情况下可以从组合中排除来自所要求保护的组合的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变体。对于每个和所有实施例，需要单个特征或特征组并非必需或必不可少。

除非另有说明，或者在所使用的上下文中以其它方式理解，否则在此使用的条件语言，诸如“能够”、“可以”、“可能”、“可”、“例如”等通常旨在传达某些实施例包括某些特征、元件和/或步骤，而其它实施例不包括某些特征、元件和/或步骤。因此，这种条件语言通常不旨在暗示一个或多个实施例以任何方式需要特征、元素和/或步骤，或者一个或多个实施例必须包括用于决定是否在任何特定实施例中包括或将要执行这些特征、元件和/或步骤(无论是否有作者输入或提示)的逻辑。术语“包含”、“包括”、“具有”等是同义的并且以开放式方式包含使用，并且不排除附加元件、特征、动作、操作等。此外，术语“或”在其包含意义上(而不是在其独有意义上)使用，因此当使用时，例如，为了连接元素列表，术语“或”表示列表中的一个、一些或全部元素。另外，除非另有说明，否则本申请和所附权利要求中使用的冠词“一”、“一个”和“该”应理解为表示“一个或多个”或“至少一个”。

如在此所使用的，指代项目列表中的“至少一个”的短语是指那些项目的任何组合，包括单个成员。例如，“A、B或C中的至少一个”旨在涵盖：A、B、C、A和B、A和C、B和C，以及A、B和C。除非另外特别说明，否则诸如短语“X、Y和Z中的至少一个”的联合语言以其它方式通过上下文理解为通常用于传达项目、术语等可以是X、Y或Z中的至少一个。因此，这种联合语言通常不旨在暗示某些实施例需要X中的至少一个、Y中的至少一个和Z中的至少一个各自存在。

类似地，虽然可以以特定顺序在附图中描绘操作，但应认识到，不需要以所示的特定顺序或按顺序执行这些操作，或者执行所有示出的操作，以实现期望的结果。此外，附图可以以流程图的形式示意性地描绘一个或多个示例过程。然而，未示出的其它操作可以包含在示意性示出的示例方法和过程中。例如，可以在任何所示操作之前、之后、同时或之间执行一个或多个附加操作。另外，可以在其它实施方式中重新排列或重新排序操作。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施方式中的各种***组件的分离不应被理解为在所有实现方式中都需要这种分离，并且应当理解，所描述的程序组件和***通常可以在单个软件产品中集成在一起或者被打包到多种软件产品。另外，其它实现方式在以下权利要求的范围内。在一些情况下，权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。

Claims

1.一种用于长方体检测和关键点定位的***，包括：

非暂态存储器，其被配置为存储：

可执行指令，

用于长方体检测的图像，以及

长方体检测器，其包括：

第一卷积神经网络(CNN)的多个卷积层和非卷积层，用于从所述图像生成卷积特征图，

区域生成网络(RPN)，其包括用于使用所述卷积特征图确定包括在所述图像的长方体图像位置处的长方体的至少一个关注区域(RoI)的第二CNN，以及

池化层和至少一个回归层，用于使用所述卷积特征图和包括所述长方体的所述RoI来确定在细化长方体图像位置处的细化RoI和所述长方体的表示；

与所述非暂态存储器通信的硬件处理器，所述硬件处理器由所述可执行指令编程为：

接收所述图像；

使用所述第一CNN的所述多个卷积层和所述非卷积层以及所述图像生成所述卷积特征图；

使用所述RPN确定包括在所述图像的所述长方体图像位置处的所述长方体的所述至少一个RoI；

使用所述池化层和所述长方体图像位置确定与包括所述长方体的所述RoI对应的所述卷积特征图的子图；以及

使用所述至少一个回归层和与包括所述长方体的所述RoI对应的所述卷积特征图的所述子图来确定在所述细化长方体图像位置处的所述细化RoI和所述长方体的所述表示。

2.根据权利要求1所述的***，其中，所述硬件处理器进一步被编程为：

使用所述细化长方体图像位置确定与包括所述长方体的所述细化RoI对应的所述卷积特征图的细化子图；

使用所述池化层、所述至少一个回归层、以及与包括所述长方体的所述细化RoI对应的所述卷积特征图的所述细化子图来确定在进一步细化长方体图像位置处的进一步细化RoI以及进一步定义的所述长方体的表示。

3.根据权利要求1所述的***，其中，所述长方体图像位置表示为二维(2D)边界框。

4.根据权利要求1所述的***，其中，所述细化长方体图像位置表示为二维(2D)边界框。

5.根据权利要求1所述的***，其中，所述至少一个回归层包括两个或更多个层。

6.根据权利要求5所述的***，其中，所述两个或更多个层包括全连接层、非全连接层或其任何组合。

7.根据权利要求1所述的***，其中，RPN包括深度神经网络(DNN)。

8.根据权利要求1所述的***，其中，所述长方体的所述表示包括所述长方体的参数化表示。

9.根据权利要求8所述的***，其中，所述长方体的所述参数化表示包括所述图像中的所述长方体的多个关键点的位置。

10.根据权利要求9所述的***，其中，所述多个关键点包括所述图像中的所述长方体的八个顶点。

11.根据权利要求9所述的***，其中，所述参数化表示包括所述长方体的所述多个关键点距所述图像的中心的归一化偏移。

12.根据权利要求8所述的***，其中，所述长方体的所述参数化表示包括12个参数。

13.根据权利要求8所述的***，其中，所述长方体的所述参数化表示包括消失点参数化。

14.根据权利要求1所述的***，其中，所述硬件处理器进一步被编程为：

基于在所述细化长方体图像位置处的所述细化RoI和所述长方体的所述表示与所述***的用户交互。

15.根据权利要求14所述的***，

其中，所述长方体对应于固定盒，以及

其中，为了与所述***的所述用户交互，所述硬件处理器进一步被编程为：

基于所述长方体的所述细化图像位置和所述长方体的所述表示生成与所述固定盒相关的角色动画。

16.根据权利要求14所述的***，

其中，所述长方体对应于手持长方体，以及

使用所述长方体的所述表示确定所述长方体的姿势；以及

基于所述长方体的所述姿势与所述***的所述用户交互。

17.根据权利要求14所述的***，

其中，所述长方体对应于第三CNN无法识别的罕见对象，以及

向所述用户提供检测到所述第三CNN无法识别的所述罕见对象的通知。

18.根据权利要求1所述的***，

其中，所述长方体对应于人造结构，以及

其中，所述硬件处理器进一步被编程为：

基于在所述细化长方体图像位置处的所述细化RoI和所述长方体的所述表示在无人驾驶飞行期间辅助所述***的用户。

19.根据权利要求1所述的***，

其中，所述长方体对应于标记，以及

其中，所述硬件处理器进一步被编程为：

基于在所述细化长方体图像位置处的所述细化RoI和所述长方体的所述表示来执行同时定位和映射(SLAM)。

20.一种用于长方体检测和关键点定位的方法，包括：

在硬件处理器的控制下：

接收图像；

使用长方体检测器的第一卷积神经网络(CNN)的多个卷积层和非卷积层以及所述图像来生成卷积特征图；

使用包括所述长方体检测器的第二CNN的区域生成网络(RPN)确定包括在所述图像的长方体图像位置处的长方体的至少一个RoI；

使用所述长方体检测器的池化层和所述长方体图像位置来确定与包括所述长方体的所述RoI对应的所述卷积特征图的子图；以及

使用所述长方体检测器的至少一个回归层和与包括所述长方体的所述RoI对应的所述卷积特征图的所述子图来确定在细化长方体图像位置处的细化RoI和所述长方体的表示。

21.根据权利要求20所述的方法，进一步包括：

使用所述池化层、所述至少一个回归层、以及与包括所述长方体的所述细化RoI对应的所述卷积特征图的所述细化子图来确定在进一步的细化长方体图像位置处的进一步细化RoI以及进一步定义的所述长方体的表示。

22.根据权利要求20所述的方法，其中，所述长方体图像位置表示为二维(2D)边界框，并且其中，所述细化长方体图像位置表示为二维(2D)边界框。

23.根据权利要求20所述的方法，其中，所述第一CNN的所述非卷积层包括归一化层、亮度归一化层、批量归一化层、整流线性层、上采样层、级联层、池化层、softsign层或其任何组合。

24.根据权利要求20所述的方法，其中，所述至少一个回归层包括两个或更多个层，并且其中，所述两个或更多个层包括全连接层、非全连接层或其任何组合。

25.根据权利要求20所述的方法，其中，所述长方体的所述表示包括所述长方体的参数化表示，所述长方体的参数化表示包括所述图像中的所述长方体的多个关键点的位置。