CN110377148B

CN110377148B - 计算机可读介质、训练对象检测算法的方法及训练设备

Info

Publication number: CN110377148B
Application number: CN201910283634.5A
Authority: CN
Inventors: M·T·艾哈迈德; D·慕克吉; 王洁
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2018-04-12
Filing date: 2019-04-10
Publication date: 2023-05-12
Anticipated expiration: 2039-04-10
Also published as: US10878285B2; CN110377148A; US20190318201A1

Abstract

计算机可读介质、训练对象检测算法的方法及训练设备。一种非暂时性计算机可读介质包含使一个或多个处理器执行方法的指令。所述方法包括：(A)在一个或多个存储器中接收与对象相对应的3D模型；以及(B)设置用于检测真实场景中的所述对象的姿态的深度传感器的深度传感器特性数据集。所述方法还包括：(C)基于所述3D模型和所述深度传感器特性数据集，为所述3D模型周围的至少一个视图生成所述3D模型的模糊2.5D表示数据，以基于2.5D表示数据生成用于训练对象检测算法的训练数据，以及(D)将所述训练数据存储在一个或多个存储器中。

Description

计算机可读介质、训练对象检测算法的方法及训练设备

技术领域

本公开总体上涉及训练对象检测算法的领域，并且更具体地涉及用于对象检测算法的基于形状的训练的方法和***。

背景技术

增强现实(AR)随着计算机技术的进步已变得日益常见。AR的一般定义是捕获真实世界场景并且使用软件来添加人造(虚拟)元素。这可增强用户对真实世界的感知或者向用户提供娱乐。

对象跟踪被用在许多AR实现中。在对象跟踪中，真实世界对象被人造对象(诸如计算机图形增强或信息泡(如由用户所感知的))“跟随”。换句话说，如果真实世界对象移动或者用户的视图相对于真实世界对象移动，则人造对象将相对于真实世界对象保持在相同位置并且/或者将基于真实世界对象的移动和/或新位置来确定人造对象的内容。位置跟踪也被用于许多AR实现中。在位置跟踪中，不管用户的移动如何，虚拟对象都将停留在场景中的一个位置。

用于实现AR的一个平台是智能电话。在相同装置上存在摄像头、显示装置和处理器允许软件容易地将人造元素添加到由摄像头捕获的实况场景。此外，这些装置上的运动传感器和***(例如加速度计和GPS)的存在由软件利用来更好地实现AR。

尽管智能电话提供了用于实现AR的简单且方便的平台，然而它们不为用户提供非常身临其境的体验。这是因为用户的眼睛在空间上与智能电话分离，并且不是用他们自己的眼睛感知环境，他们正在观看如由摄像头捕获的场景。

发明内容

为了改进AR体验，透明头戴式显示器(HMD)可实现AR。这些***通常是具有放置在眼睛前方的棱镜的眼镜。用户通过眼镜直接地观看场景。棱镜允许人造图像被叠加在如由用户所感知的场景上。同时，HMD使用摄像头来从场景收集数据。

3D姿态估计是具有许多应用(包括AR、VR和机器人的领域)的重要技术。

***通常利用初始化方法来首先开始跟踪并且在跟踪丢失的情况下重新开始跟踪。这可能要求在没有先前历史的情况下根据图像估计对象的姿态，一种有时被称为对象检测和姿态估计(ODPE)的技术。

对象检测算法通常被训练来使用用将被用于AR***的摄像头所捕获的对象的图像来识别特定对象。在至少一些已知的***中，训练过程的初始阶段是费时的并且被人工执行。在这种人工训练中，训练者定位对象，使用AR***的摄像头来从许多不同的视角捕获对象的许多图像，并且将图像上传到训练计算机。使用训练计算机，训练者将对象的三维(3D)模型与每个捕获的图像中的对象的图像对齐。

此外，在一些已知***中，用于训练的对象的图像可能无法准确地反映对象将如何出现在AR***的传感器上。此不准确性可能增加检测对象的失败，增加尝试检测对象所花费的时间量或计算能力，和/或增加对象的错误检测次数。

本公开的一些方面的优点是为了解决上述的问题的至少一部分，并且本公开的各方面可作为以下方面被实现。

本公开的一个方面是一种非暂时性计算机可读介质，其包含使一个或多个处理器执行方法的指令。所述方法包括：(A)在一个或多个存储器中接收与对象相对应的3D模型；以及(B)设置用于检测真实场景中的所述对象的姿态的深度传感器的深度传感器特性数据集。所述方法还包括：(C)基于所述3D模型和所述深度传感器特性数据集，为所述3D模型周围的至少一个视图生成所述3D模型的模糊2.5D表示数据，以基于所述2.5D表示数据生成用于训练对象检测算法的训练数据；以及(D)将所述训练数据存储在一个或多个存储器中。

本公开的另一方面是一种方法，所述方法包括：(A)在一个或多个存储器中接收与对象相对应的3D模型；以及(B)设置用于检测真实场景中的所述对象的姿态的深度传感器的深度传感器特性数据集。所述方法还包括：(C)基于所述3D模型和所述深度传感器特性数据集，为所述3D模型周围的至少一个视图生成所述3D模型的模糊2.5D表示数据，以基于所述2.5D表示数据生成用于训练对象检测算法的训练数据；以及(D)将所述训练数据存储在一个或多个存储器中。

本公开的另一个方面是一种训练设备，所述训练设备包括一个或多个存储器，以及在通信上联接到所述一个或多个存储器的处理器。所述处理器通过存储在所述一个或多个存储器中的指令被配置为执行包括以下步骤的方法：(A)在所述一个或多个存储器中接收与对象相对应的3D模型；以及(B)设置用于检测真实场景中的所述对象的姿态的深度传感器的深度传感器特性数据集。所述方法还包括：(C)基于所述3D模型和所述深度传感器特性数据集，为所述3D模型周围的至少一个视图生成所述3D模型的模糊2.5D表示数据，以基于所述2.5D表示数据生成用于训练对象检测算法的训练数据；以及(D)将所述训练数据存储在所述一个或多个存储器中。

附图说明

将参考附图描述本公开，其中，同样的附图标记引用同样的元件。

图1是例示了示例HMD的示意配置的图。

图2是例示了图1中所示的HMD的功能配置的框图。

图3是例示了用于执行本公开的方法的计算机的功能配置的框图。

图4是根据本公开的示例方法的流程图。

图5是用于与本公开的一些示例方法一起使用的图形用户界面(GUI)的输入窗口。

图6是与图5所示的GUI输入窗口相关联的预览窗口。

图7A和图7B是根据本公开的另一示例方法的流程图。

图8A、图8B、图8C、图8D、图8E和图8F是使用图7A和图7B所示的方法所创建的模糊2.5D图像。

具体实施方式

本公开总体上涉及训练对象检测算法，并且更具体地涉及用于对象检测算法的基于形状的训练的方法和***。

在一些实施方式中，训练后的对象检测算法由对象检测装置(诸如AR装置)使用。一些示例***包括AR装置和/或与AR装置接口连接。在又一些实施方式中，本文描述的用于训练对象检测算法的方法由AR装置本身执行。

AR装置可以是例如HMD。将参考图1和图2描述适于与本文描述的方法和***一起使用的示例HMD。

图1是HMD 100的示意配置。HMD 100是头戴式显示装置(头戴式显示器)。HMD 100是光学透射型。也就是说，HMD 100可使用户感测虚拟图像，并且同时，使用户直接地在视觉上识别外部场景。

HMD 100包括可穿戴在用户的头部上的穿戴带90、显示图像的显示部20以及控制显示部20的控制部10。显示部20使用户在显示部20被穿戴在用户的头部上的状态下感测虚拟图像。使用户感测虚拟图像的显示部20也被称为“显示AR”。由用户感测到的虚拟图像也被称为AR图像。

穿戴带90包括由树脂制成的穿戴基部91、由联接到穿戴基部91的布料制成的带92、摄像头60、深度传感器63和IMU(惯性测量单元)71。穿戴基部91具有沿着人的前额的额区的形状而弯曲的形状。带92围绕用户的头部佩戴。

摄像头60用作成像部。摄像头60能够对外部场景进行成像并且设置在穿戴基部91的中心部分中。换句话说，摄像头60在穿戴带90被戴在用户的头部上的状态下被设置在与用户的前额的中心相对应的位置。因此，摄像头60对外部场景进行成像，该外部场景是沿用户的视线方向在外部的真实场景，并且获取捕获的图像，该捕获的图像是在用户将穿戴带90戴在头部上的状态下由摄像头60捕获的图像。

摄像头60包括相对于穿戴基部91旋转的摄像头基部61以及其相对位置相对于摄像头基部61固定的透镜部62。摄像头基部61被设置为能够在穿戴带90被戴在用户的头部上时沿着箭头CS1旋转，箭头CS1表示包括在包括用户的中心轴线的平面中的轴线的预定范围。因此，可在箭头CS1的范围内改变作为摄像头60的光轴的透镜部62的光轴的方向。透镜部62对根据以光轴为中心的变焦而改变的范围进行成像。

深度传感器63是检测真实世界表面距深度传感器63的距离的传感器。深度传感器的输出可以用于构建在深度传感器的视图范围内的表面的2.5D表示。2.5D表示(在本文中有时也称为2.5D图像或2.5D表示数据)与3D表示类似，因为与二维摄像头图像不同，它包括三个维度上的信息，但是它仅包括在深度传感器63的视图范围内的表面的第三维度上的深度信息。因此，与3D CAD模型不同，由深度传感器63检测到的对象的后表面不可见并且未被包括在2.5D表示的数据中。尽管在图1中被例示为单个组件，然而深度传感器63可以包括多个组件和/或多个传感器。深度传感器63可以是例如立体视觉传感器、主动三角测量传感器、基于激光的深度传感器、飞行时间(TOF)范围传感器，或用于感测其视图内的距离表面的任何其它合适的传感器。虽然示例实施方式包括摄像头60和深度传感器63，但是其它实施方式可以包括仅深度传感器63或仅摄像头60。

IMU 71是检测加速度的惯性传感器。IMU 71除了检测加速度之外还可检测角速度和地磁。IMU 71被结合在穿戴基部91中。因此，IMU 71检测穿戴带90和摄像头基部61的加速度、角速度和地磁。

IMU 71与穿戴基部91的相对位置是固定的。因此，摄像头60可相对于IMU 71移动。此外，显示部20与穿戴基部91的相对位置是固定的。因此，摄像头60与显示部20的相对位置是可动的。在一些其它实施方式中，摄像头60和IMU 71可以被设置在显示部20中，使得它们相对于显示部20固定。通过已经通过校准获得的摄像头60、IMU 70和显示部20之间的旋转和平移矩阵所表示的空间关系被存储在控制部10中的存储器区域或装置中。

显示部20联接到穿戴带90的穿戴基部91。显示部20是眼镜类型的。显示部20包括右保持部21、右显示驱动部22、左保持部23、左显示驱动部24、右光学图像显示部26和左光学图像显示部28。在一些实施方式中，穿戴带90的组件(诸如摄像头60、深度传感器63和IMU71)被集成在显示部20中。

当用户穿戴显示部20时，右光学图像显示部26和左光学图像显示部28位于用户的右眼和左眼前面。当用户穿戴显示部20时，右光学图像显示部26的一个端部和左光学图像显示部28的一个端部在与用户的前额的中间相对应的位置彼此连接。

右保持部21具有在从作为右光学图像显示部26的另一端的端部ER沿大致水平方向延伸并且在中途斜向上倾斜的形状。右保持部21在穿戴基部91的右侧连接端部ER和联接部93。

类似地，左保持部23具有从作为左光学图像显示部28的另一端的端部EL沿大致水平方向上延伸并且在中途斜向上倾斜的形状。左保持部23在穿戴基部91左侧连接端部EL和联接部(图中未示出)。

右保持部21和左保持部23通过左联接部93和右联接部93联接到穿戴基部91以将右光学图像显示部26和左光学图像显示部28定位在用户的眼睛前面。注意的是，联接部93联接右保持部21和左保持部23以能够旋转并能够被固定在任何旋转位置。结果，显示部20被设置为能够相对于穿戴基部91旋转。

右保持部21是被设置为当用户穿戴显示部20时从作为右光学图像显示部26的另一端的端部ER延伸到与用户的颞区相对应的位置的构件。

类似地，左保持部23是被设置为当用户穿戴显示部20时从作为左光学图像显示部28的另一端的端部EL延伸到与用户的颞区相对应的位置的构件。当用户穿戴显示部20时，右显示驱动部22和左显示驱动部24被设置在与用户的头部相对的一侧。

显示驱动部22和24包括在下面说明的液晶显示器241和242(在下文中也称为“LCD241和242”)以及投射光学***251和252。在下面详细地说明显示驱动部22和24的配置。

光学图像显示部26和28包括在下面说明的导光板261和262以及调光板。导光板261和262由透光树脂材料等形成并且将从显示驱动部22和24输出的图像光引导到用户的眼睛。

调光板是薄板状光学元件并且被设置为覆盖显示部20在用户的眼睛侧的相反侧的前侧。通过调整调光板的光透射率，能够调整进入用户的眼睛的外部光量并且调整虚拟图像的可见性。

显示部20还包括用于将显示部20连接到控制部10的连接部40。连接部40包括连接到控制部10的主体线缆48、右线缆42、左线缆44和联接构件46。

右线缆42和左线缆44是从主体线缆48分支的两条线缆。显示部20和控制部10经由连接部40执行各种信号的传输。作为右线缆42、左线缆44和主体线缆48，例如，可采用例如金属电缆或光纤。

控制部10是用于控制HMD 100的装置。控制部10包括操作部135，该操作部135包括静电触控板和可被按压的多个按钮。操作部135被设置在控制部10的表面上。

图2是在功能性上示出了HMD 100的配置的框图。如图2所示，控制部10包括ROM121、RAM 122、电源130、操作部135、CPU 140(在本文中有时也称为处理器140)、接口180以及发送部51(Tx 51)和发送部52(Tx 52)。

电源130向HMD 100的各部分供应电力。各种计算机程序被存储在ROM 121中。CPU140在RAM 122中开发或者加载存储在ROM 121中的计算机程序以执行这些计算机程序。计算机程序包括用于实现在下面说明的跟踪处理和AR显示处理的计算机程序。

CPU 140在RAM 122中开发存储在ROM 121中的计算机程序以用作操作***150(OS150)、显示控制部190、声音处理部170、图像处理部160和处理部167。

显示控制部190生成用于控制右显示驱动部22和左显示驱动部24的控制信号。显示控制部190分别通过右显示驱动部22和左显示驱动部24来控制图像光的生成和发射。

显示控制部190分别经由发送部51和52向右LCD控制部211和左LCD控制部212发送控制信号。显示控制部190分别向右背光控制部201和左背光控制部202发送控制信号。

图像处理部160获取包括在内容中的图像信号并且经由发送部51和52将所获取的图像信号发送到显示部20的接收部53和54。声音处理部170获取包括在内容中的声音信号，放大所获取的声音信号，并且将该声音信号供应给右耳机32中的扬声器(图中未示出)和连接到联接构件46的左耳机34中的扬声器(图中未示出)

处理部167与时间相关联地从摄像头60获取捕获的2D图像。在示例实施方式中，处理部167还与时间相关联地从深度传感器63获取捕获的2.5D图像。在其它实施方式中，处理部167接收仅来自摄像头60的2D图像或仅来自深度传感器63的2.5D图像。此实施方式中的时间可以基于标准时间或者可以不基于标准时间。处理部167根据例如变换矩阵来计算对象(真实对象)的姿态。对象的姿态意指对象与摄像头60和/或深度传感器63之间的空间关系(旋转和平移关系)。处理部167使用计算出的空间关系和由IMU 71检测到的加速度等的检测值来计算用于将固定到摄像头60的坐标系转换为固定到IMU 71的坐标系的变换矩阵。处理部167的功能被用于在下面说明的跟踪处理和AR显示处理。

接口180是用于将作为内容的供应源的各种外部装置OA连接到控制部10的输入/输出接口。外部装置OA的示例包括在其中存储有AR场景的存储装置、个人计算机(Pc)、蜂窝电话终端和游戏终端。作为接口180，例如，可使用USB接口、微USB接口和用于存储卡的接口。

显示部20包括右显示驱动部22、左显示驱动部24、用作右光学图像显示部26的右导光板261以及用作左光学图像显示部28的左导光板262。右导光板261和左导光板262是透射来自真实场景的光的光学透视元件。

右显示驱动部22包括接收部53(Rx53)、右背光控制部201和右背光221、右LCD控制部211和右LCD 241以及右投射光学***251。右背光控制部201和右背光221用作光源。

右LCD控制部211和右LCD 241用作显示元件。上述的显示元件和光学透视元件允许用户在视觉上将由显示元件显示的AR图像感知为被叠加在真实场景上。注意的是，在其它实施方式中，代替以上说明的配置，右显示驱动部22可以包括诸如有机EL显示元件的自发光显示元件或者可以包括在视网膜上扫描来自激光二极管的光束的扫描型显示元件。这同样适用于左显示驱动部24。

接收部53用作用于控制部10与显示部20之间的串行传输的接收器。右背光控制部201基于输入控制信号驱动右背光221。右背光221是诸如LED或电致发光(EL)元件的发光体。右LCD控制部211基于从图像处理部160和显示控制部190发送的控制信号来驱动右LCD241。右LCD 241是其上多个像素以矩阵形状排列的透射型液晶面板。

右投射光学***251由准直透镜配置，该准直透镜将从右LCD 241发射的图像光转换成平行状态的光束。用作右光学图像显示部26的右导光板261将从右投射光学***251输出的图像光引导到用户的右眼RE，同时沿着预定光路反射图像光。注意的是，左显示驱动部24具有与右显示驱动部22的配置相同的配置并且对应于用户的左眼LE。因此，省略对左显示驱动部24的说明。

应用了作为实施方式公开的技术的装置可以是除HMD以外的成像装置。例如，该装置可以是不具有显示图像的功能的成像装置。

图3是例示了在执行本文描述的方法的本实施方式中作为信息处理装置的计算机300的功能配置的框图。计算机300包括CPU 301、显示单元302、电源303、操作单元304、存储单元305、ROM、RAM、AR接口309和网络适配器310。电源303向计算机300的每个单元供应电力。操作单元304是用于从用户接收操作的用户界面(GUI)。操作单元304包括键盘、鼠标和触摸板等及其驱动器软件。

存储单元305存储各种数据项和计算机程序，并且包括硬盘驱动器、固态驱动器等。存储单元305包括3D模型存储部307和模板存储部308。3D模型存储部307存储通过使用计算机辅助设计(CAD)或其它3D重建方法所创建的目标对象的三维模型。训练数据存储部308存储像本文所描述的那样创建的训练数据(未示出)。存储单元305还存储由CPU 301执行的指令(未示出)。指令使CPU 301执行本文描述的方法。AR接口309是用于通信连接到AR装置的接口。AR接口可以是适于为计算机300与AR装置之间的通信建立数据连接的任何有线或无线接口。AR接口可以是例如Wi-Fi收发器、USB端口、

收发器、串行通信端口、专有通信端口等。网络适配器310被配置为允许CPU 301连接到一个或多个网络以经由无线网络与其它计算机(诸如服务器计算机)进行通信，使得例如计算机300从另一计算机接收计算机程序，所述计算机程序使计算机300执行在本文描述的实施方式中描述的功能。在一些实施方式中，AR装置接口309和网络适配器310是适于执行网络适配器310和AR装置接口309二者的任务的单个适配器。

CPU 301从ROM和/或存储单元305读取各种程序(在本文中有时也称为指令)并且在RAM中开发程序，以执行各种程序。合适的指令被存储在存储单元305和/或ROM中并且由CPU 301执行以使计算机300作为训练计算机来工作以训练如本文所描述的对象检测算法。在一些实施方式中，具有适当编程的计算机300是用于使用合成图像来训练对象检测算法的***。在其它实施方式中，HMD 100是用于使用合成图像来训练对象检测算法的***。在又一些实施方式中，用于使用合成图像来训练对象检测算法的***包括计算机300和HMD100。

本文描述的实施方式涉及用于使用合成图像而不是真实世界对象的实际图像来训练对象检测算法的方法和***。如本文所使用的，合成图像通常指2D图像，该2D图像并非是使用摄像头来捕获3D场景的表示所创建的。如本文所使用的，合成图像还可以指代不是使用深度传感器来捕获3D场景的表示所创建的2.5D图像。更具体地，关于训练对象检测算法以检测由摄像头捕获的图像帧中的真实世界3D对象的表示，合成图像是2D图像和/或2.5D图像，该2D图像并非是通过摄像头捕获真实世界3D对象的表示所创建的，该2.5D图像不是通过深度传感器捕获真实世界3D对象的表示所创建的。可以通过捕获计算机中的对象的3D模型(例如，对象的3D CAD模型)的2D图像或3.5D来生成合成图像。对于2D图像，可以通过绘制(无论是通过手还是使用计算机)对象的2D图像等来生成合成图像。应该注意的是，对于2D图像，合成图像包括合成图像的图像。例如，在一个实施方式中，合成图像的照片或扫描本身可以是合成图像。相反地，在一个实施方式下出于本公开的目的，实际图像的图像(诸如真实世界3D图像的照片或照片的扫描)可以不是合成图像。

图4是使用2D合成图像来训练对象检测算法的示例方法400的流程图。方法400可以由计算机300执行来与HMD 100一起使用来训练对象检测算法，并且将参照计算机300和HMD 100来描述该方法400。在其它实施方式中，方法400可以由不同的计算机(包括例如控制部10)来执行，可以用于训练用于不同的AR装置的对象检测算法，可以被用来和/或可以用于训练用于基于图像帧执行对象检测的任何其它装置的对象检测算法。为了方便由计算机执行，方法400被实现为可由一个或多个处理器执行并存储在非暂时性计算机可读介质中的指令。

最初，在S402中，CPU301接收对存储在一个或多个存储器(例如ROM或存储单元305)中的3D模型的选择。3D模型可以对应于对象检测算法将被训练以在2D图像帧中检测的真实世界对象。在示例实施方式中，从用户接收选择，诸如通过经由计算机300的GUI进行的用户选择。

注意的是，3D模型在本文中被讨论为用于在方法400中生成合成图像。然而，在一些实施方式中，可能不需要3D模型，相反，可以在步骤S402中使用除3D模型以外的电子数据(例如，2D模型、一个或多个2D或3D合成图像等)。因此，为了便于描述，使用3D模型来描述方法400的步骤(以及本公开的其它部分)。然而，本公开不限于在步骤S402下并在引用3D模型的任何地方使用3D模型，应该理解的是，一些实施方式可以涉及使用除3D模型以外的电子数据。

在S404中设置用于检测真实场景中的对象的姿态的摄像头(诸如摄像头60)的摄像头参数集。由相同真实场景的不同摄像头所捕获的图像将通常至少在某种程度上基于每个摄像头的特定构造和组件而不同。摄像头参数集至少部分地定义了其关联的摄像头将如何捕获图像。在示例实施方式中，摄像头参数集可以包括要由摄像头捕获的图像的分辨率和摄像头固有特性(或“摄像头固有属性(intrinsics)”)，诸如X和Y方向焦距(分别为fx和fy)和摄像头主点坐标(cx和cy)。其它实施方式可以针对摄像头参数集使用附加或替代参数。在一些实施方式中，摄像头参数集由用户设置，诸如通过经由计算机300的图形用户接口(“GUI”)(如稍后关于图5讨论的)的用户选择。

在一些实施方式中，摄像头参数集由计算机300设置而不由用户选择。在一些实施方式中，默认摄像头参数集由计算机300设置。当将在检测真实场景中的对象的姿态时使用的摄像头是未知的或者其参数是未知的时可以使用默认摄像头参数集。默认摄像头集可以包括用于理想摄像头、流行摄像头、为其选择摄像头参数集的最后摄像头的参数或任何其它合适的摄像头参数集。此外，一些实施方式提供设置摄像头参数集的上述方法中的一种或多种的组合。

根据各种实施方式，可通过许多不同的方式(包括通过计算机从预先存储在数据库上的多个模型中检索预先存储的模型、计算机从连接的AR装置接收摄像头参数和/或通过用户直接地输入(和/或修改)到GUI中)来设置摄像头参数集(S404)。然而，本申请不应该限于这些特定实施方式。然而，在下面在本文中描述上述实施方式。

首先，在一些实施方式中，设置摄像头参数集(S404)通过接收识别包括摄像头的已知AR装置的信息来执行(S406)。识别AR装置的信息是从用户输入接收的，例如通过经由计算机的GUI从已知AR装置的列表中选择AR装置。在其它实施方式中，用户可以输入识别AR装置的信息，诸如通过键入模型名称、型号、序列号等。

CPU 301至少部分地基于识别AR装置的信息来获取摄像头的摄像头参数集(S408)。可以从存储在一个或多个存储器(诸如存储单元305或本地或远程数据库)中的多个摄像头参数集中获取摄像头参数集。每个摄像头参数集在一个或多个存储器中与多个不同的AR装置中的至少一个AR装置相关联。因为多个不同的AR装置可以包括相同的摄像头，所以单个摄像头参数集可以与多个AR装置相关联。

在一些实施方式中，在S404中设置摄像头参数包括当AR装置变得可由一个或多个处理器访问时通过数据连接来从包括摄像头的AR装置获取摄像头参数集(S410)。例如，当HMD 100连接(有线地或以无线方式)到计算机300的AR装置接口309时，CPU 301可以从HMD100中检索摄像头参数集(例如存储在ROM 121中)。在其它实施方式中，计算机300可以通过确定摄像头参数集来从AR装置获取摄像头参数集。例如，计算机300可以使HMD 100中的摄像头60捕获例如校准片的一个或多个图像帧并且计算机300可以分析所得到的图像帧以确定摄像头参数集。在又一些实施方式中，计算机300可以从AR装置中检索AR装置和/或AR装置中的摄像头的标识并且基于所检索到的标识从一个或多个存储器中检索适当的摄像头参数集。如以上所提及的，可以组合各种技术。例如，在一些实施方式中，如果AR装置对计算机而言是可用的(例如，它连接到AR装置接口309)，则从摄像头获取摄像头参数集，并且如果AR装置对于计算机而言是不可用的，则执行S406和S408的设置。

一旦摄像头参数集被设置，CPU 301就通过在视图范围内渲染3D模型来基于摄像头参数集生成至少一个2D合成图像(S414)。视图范围是摄像头60围绕静止对象的潜在位置的范围，对于该静止对象将合成图像。在示例实施方式中，视图范围包括方位角分量和仰角分量。视图范围还可以包括距离分量，该距离分量设置视图范围中的潜在位置距对象的3D模型的距离。视图范围通常定义具有等于距离分量的长度的半径的球体的表面上的区域。针对其生成合成图像的视图范围内的各视点表示对象的不同姿态。

在一些实施方式中，CPU 301在生成至少一个2D合成图像之前接收对表示视图范围的数据的选择(S412)。例如，可以经由GUI(诸如稍后针对图5示出和讨论的GUI)从用户选择接收选择。在一些实施方式中，GUI包括对象的预览视图和用户选择的视图范围的图形表示。在一些实施方式中，视图范围是用户选择的对象的单个姿态。在其它实施方式中，视图范围是预定(例如，默认)视图范围。在另一些实施方式中，除非用户提供视图范围的不同选择(或预定视图范围的修改)，否则CPU 301利用预定视图范围。在一些实施方式中，在一个或多个方位角或仰角中，预定视图范围围绕物体小于360度。将在下面参考图5和图6更详细地说明该视图范围。

CPU 301从视图范围内的位置生成表示3D模型的视图的3D模型的至少一个2D合成图像。要生成的2D合成图像的数量可以是固定的、可变的或用户可选择的。只要生成了至少一个2D合成图像，就可以生成任何合适数量的图像。如果生成了单个2D合成图像，则对于视图范围内的中心点生成图像。如果生成了一个以上的图像，则在整个视图范围中相对均匀地生成图像。在一些实施方式中，如果视图的数量是固定的或者由用户设置，则计算机300确定在视图范围内使每个图像分离多远以在视图范围内实现图像的某种分布，诸如均匀分布(例如，使得每个图像是距离每个相邻图像的视图相同距离的视图)。在其它实施方式中，计算机300基于视图范围的大小和用于图像的固定间隔生成可变数量的图像。例如，计算机可以从视图范围内的方位角和仰角的每一度、每五度、每十度、每二十度的视点生成图像。以上间隔是示例并且可以使用任何其它合适的间隔，包括小于完整的度的间隔。对于方位角和仰角来说图像之间的间隔不必是相同的。

计算机300基于在S404中设置的摄像头参数集来生成至少一个2D合成图像。摄像头参数集针对图像的视点更改3D对象的渲染，以复制从相同视点拍摄的真实世界对象的真实图像。在此实施方式中，生成合成图像的过程使用刚体变换矩阵和透视投射变换矩阵，该刚体变换矩阵用于将在3D模型坐标系中表示的3D点的3D坐标值变换为在虚摄像头坐标系中表示的3D坐标值，该透视投射变换矩阵用于将经变换的3D坐标值投射到合成图像的虚拟平面上的2D坐标值。刚体变换矩阵对应于视点或者简称视图，并且通过表示围绕彼此正交的三条轴线的旋转的旋转矩阵以及表示沿三条轴线的平移的平移矢量来表示。透视投射变换矩阵包括摄像头参数，并且被适当地调整为使得虚拟平面对应于摄像头(诸如摄像头60)的成像表面。3D模型可以是CAD模型。对于每个视图，计算机300将3D模型上的3D点变换并投射到虚拟平面上的2D点，使得通过对3D点应用刚体变换和透视投射变换来生成合成图像。

在S416中，计算机300使用至少一个2D合成图像来生成训练数据以训练对象检测算法。可以使用适于与真实图像一起使用的任何技术来生成基于合成图像的训练数据。在一些实施方式中，生成训练数据包括使用2D合成图像来生成外观模板和/或形状模板(S418)。外观模板包括诸如颜色、表面图像或文本、拐角等的一个或多个特征。外观模板可以包括例如2D合成图像中的对象的特征的位置的坐标值及其表征、在3D模型上对应于那些2D位置的位置的坐标以及针对其生成2D图像的姿态中的3D模型。形状模板在两个维度上描述对象的形状而没有被包括在外观模板中的表面特征。形状模板可以包括例如包括在表示2D合成图像中的对象的外部的轮廓线(在下文中，也简称为“轮廓”)中的点(2D轮廓点)的坐标值，在3D模型上对应于2D轮廓点的点，以及针对其生成2D图像的姿态中的3D模型。在一些实施方式中，为针对视图范围生成的每个合成图像创建单独的形状模板和外观模板。在其它实施方式中，可以在单个模板中存储多个图像的数据。

所生成的训练数据被存储在一个或多个存储器中(S419)。在一些实施方式中，训练数据被存储在计算机的训练***存储器305中。在一些实施方式中，当HMD 100通过AR装置接口309在通信上联接到计算机300时，训练数据由计算机300存储在HMD 100的存储器(诸如ROM 121)中。在其它实施方式中，训练数据被存储在计算机的训练***存储器305和HMD 100中。

在训练数据被存储在HMD 100中之后，HMD 100可以工作来基于训练数据来检测对象。在一些实施方式中，HMD试图通过使用HMD的对象检测算法来试图找到模板与图像之间的匹配来在由摄像头60捕获的真实场景的图像帧中检测对象。

在一些实施方式中，为多个摄像头和/或AR装置生成训练数据，用于检测真实场景中的对象的姿态。在一些此类实施方式中，在S404中设置摄像头参数集包括为多个摄像头设置多个摄像头参数集，S414包括至少基于多个摄像头参数集生成多个2D合成图像，并且S416包括使用多个2D合成图像来生成训练数据以训练用于具有多个摄像头的多个AR装置的对象检测算法。在其它实施方式中，步骤S404、S414和S416(可选地包括S406、S408、S410、S412和S418中的一个或多个)被简单地重复多次，每次针对不同的摄像头。

如以上所提及的，在一些实施方式中，执行方法400的计算机包括用于向用户提供信息并从用户接收选择的GUI。图5和图6是可以被用作实现方法400的***的一部分的GUI的图像。例如，GUI可以由计算机300显示在显示单元302上并且响应于经由操作单元304的用户输入。图5是用于从用户接收输入的GUI 500，并且图6是显示对象的3D模型602以帮助视图范围的选择和/或预览的预览窗口600。虽然将参考方法400描述图5和图6中所示的GUI，但是应该理解的是，可以在不使用图5和图6的GUI的情况下执行方法400，并且图5和图6中所示的GUI可以用于利用除方法400以外的方法来执行训练。

首先转到图5，GUI 500包括用于实现方法400的S402的模型加载按钮502和所选模型显示栏504。在示例实施方式中，当用户选择模型加载按钮502时，另一窗口被打开以允许用户浏览到要选择用于训练的3D模型所位于的位置(在计算机300上，数据库或其它存储位置(无论是本地的还是远程的))。如果已选择了模型，则所选模型显示栏504显示所选模型的位置。在一些实施方式中，用户可以通过将位置直接地键入到所选模型显示栏504中来选择模型。此外，在一些实施方式中，用户可以通过任何其它合适的技术(包括通过将模型拖放到GUI 500中)来选择模型。

可以在S404中通过在AR装置选择栏506中选择要针对其训练对象检测算法的AR装置来设置摄像头参数集。在图5的例示性实施方式中，AR装置选择栏506是“下拉菜单”或“落下菜单”。当用户选择栏506时，已知AR装置的列表被下拉以供由用户选择。在一些实施方式中，可以通过由计算机300检测来选择AR装置(例如像S410中所描述的那样)。基于所检测/选择的AR装置，计算机300检索用于包括在AR装置中的摄像头的摄像头参数集。用于包括在栏506中的AR装置中的摄像头的分辨率和摄像头固有参数显示在分辨率栏508和固有属性栏510中。分辨率和摄像头固有参数共同地形成本实施方式中的摄像头参数集。

在一些实施方式中，用户可以直接地手动地将摄像头参数输入到固有属性栏510和/或分辨率栏508中，而不必通过指定许多已经存在的合成图像来完成步骤S402。另外，可以允许用户修改由计算机输入到固有属性栏510和/或分辨率栏508中的摄像头参数。此外，在一些实施方式中，用户可以使输入/修改的摄像头参数集与特定AR装置或摄像头相关联并且存储新的摄像头参数集以供将来使用。

GUI 500的设置部512允许用户设置和/或查看用于生成对象602的合成图像并且训练对象检测算法的设置。设置部包括方位角设置部514、仰角设置部516、摄像头距离部518、模型旋转部520、单个视图选择器524、照明选择器526、内部渲染选择器528和特征级别选择器522。

将附加地参考图6描述设置部512。模型旋转部520允许用户在三个维度上选择对象的模型602的旋转。在示例实施方式中，模型的默认旋转是如存储在模型文件中的模型602的旋转。模型602根据显示在模型旋转部520中的模型旋转被显示在预览窗口600中。为了改变模型的旋转，用户可以在模型旋转部520中以数字方式输入旋转或者在预览窗口600中使模型602旋转，诸如通过选择并拖动模型以使它旋转(使用鼠标、用户在触摸屏上的手指等)。摄像头距离部518允许用户设置从模型到将要合成图像的摄像头的距离。在一些实施方式中，还可以通过使用鼠标上的滚轮来放大/缩小或者通过任何其它合适的控制来修改摄像头距离。

模型602被显示在根据旋转选择和摄像头距离选择而定向的预览窗口600中，并且它被网格604部分地围绕。网格604在模型602周围定义球体的一部分，其中模型602位于球体的中心处。在一些实施方式中，网格604在模型602周围定义完整的球体。网格604是视觉辅助，以帮助使用于为合成图像创建的视图范围可视化。网格包括仰角线608和方位角线。对于特定仰角，每条方位角线在方位角方向606上追踪三百六十度。类似地，对于给定方位角，每条仰角线在仰角方向608上追踪高达360度。在所例示的示例中，网格604不是完整球体并且仰角线追踪不到完整的三百六十度。方位角线和仰角线定义网格部610。网格部610包括所选网格部612和未选网格部614。所选网格部612形成视图范围616。视图范围616是生成合成图像的摄像头位置或定向的范围。用户可以通过在预览窗口中选择网格部610或者通过在窗口500的方位角设置部514、仰角设置部516中以数字方式输入视图范围来选择视图范围。如果用户以数字方式输入视图范围，则将在预览窗口600中选择适当的网格部610。相反地，如果用户在预览窗口600中选择(或者未选择)网格部610，则将相应地更新输入窗口500中的数字表示。

在一些实施方式中，预设视图范围616。在一些实施方式中，默认/预设视图范围可以是固定的(即，不是用户可改变的)。在其它实施方式中，默认/预设视图范围可由用户改变。在示例实施方式中，默认视图范围616被设置有六十度的方位角和四十五度的仰角的范围。

返回到图5，单个视图选择器524允许用户选择合成模型602的单个视图。如果未选择单个视图选择器524，则基于所选择的视图范围生成模型602的多个视图。照明选择器526允许用户选择在生成合成图像时是否应该模拟照明。内部渲染选择器528允许用户选择在生成合成图像时是否应该使用内部渲染。

特征级别选择器522用于指示模型602是丰富特征对象还是少特征对象，这方便训练对象检测算法。例如，模型602包括具有可以被用于对象检测和跟踪的不同颜色、对比度、形状等的表面特征618。因此，在特征级别选择器522中选择丰富特征并且将训练对象检测算法以通过例如创建一个或多个外观模板来检测此类特征。如果模型602不包括表面特征618，或者如果用户不想使用此类特征，则将在特征级别选择器522中选择少特征并且将训练对象检测算法以在不使用表面特征的情况下检测对象，诸如通过使用形状模板。

当用户准备好训练检测算法时，用户选择训练按钮532。作为响应，计算机300根据用户选择的设置(或默认值)来生成合成图像，生成训练数据以基于合成图像训练对象检测算法，并且存储训练数据。所存储的训练数据准备好由AR装置使用来检测和跟踪对象，并且用户可继续针对不同的对象训练算法或者训练算法以使用不同的AR装置来检测相同的对象。

图7A和图7B是使用2D合成图像来训练对象检测算法的示例方法700的流程图。方法700可以由计算机300执行来与HMD 100一起使用来训练对象检测算法并且将参考计算机300和HMD 100来描述。在其它实施方式中，方法700可以由不同的计算机(包括例如控制部10)来执行，可以用于训练用于不同的AR装置的对象检测算法，可以被用来并且/或者可以用于训练用于基于图像帧执行对象检测的任何其它装置的对象检测算法。为了方便由计算机执行，可以将方法700实现为可由一个或多个处理器执行并存储在非暂时性计算机可读介质中的指令。

最初，在S702中，CPU 301接收对存储在一个或多个存储器(诸如ROM或存储单元305)中的3D模型的选择。3D模型可以对应于对象检测算法将被训练以在2D图像帧中检测的真实世界对象。在示例实施方式中，从用户接收选择，诸如通过经由计算机300的GUI进行的用户选择。

在S704中设置用于检测在真实场景中的对象的姿态的深度传感器(诸如深度传感器63)的深度传感器特性数据集。由相同真实场景的不同的深度传感器所捕获的图像通常将基于每个传感器的特定构造和组件、特定类型的传感器的特性和深度传感器的输出中的噪声的特性而至少在某种程度上不同。深度传感器特性数据集至少部分地定义其关联的深度传感器将如何捕获图像。

包括在深度传感器特性数据集中的特定元素根据被建模的深度传感器的特定类型而变化。立体视觉型深度传感器使用两个摄像头来从不同的角度捕获图像以从两个图像之间的差异中恢复深度信息(与人眼如何执行相似)。作为深度传感器特性数据集的立体视觉模型的特性包括摄像头校准误差、透镜失真和兴趣点检测误差中的一种或多种。摄像头校准误差可包括与摄像头在场景中的位置有关的外部参数R和t，和/或以上参考图4所讨论的固有参数。透镜失真是通过在摄像头中使用的透镜的特性所引起的捕获图像的失真，并且可包括例如桶形失真、鱼眼失真和透视失真。兴趣点检测误差是由建立由两个摄像头捕获的图像之间的兴趣点的对应的问题引起的误差。在用于深度传感器特性数据集的立体视觉模型中，提供了重复以上类型的误差中的一种或多种的变换。

每种其它类型的深度传感器具有它自己的噪声特性集，可以在深度传感器特性数据集中对所述噪声特性集进行建模以重复将存在于由特定类型的深度传感器捕获的图像中的误差/噪声。对于借助于旋转镜通过狭缝光或准直光的受控照射被投射到场景上的主动三角测量***，部分遮挡导致缺失深度测量结果。基于激光的深度传感器由于其3D缩小视野而难以避免碰撞并且包括移动部分。

TOF传感器使用各种深度测量原理(在一些实施方式中可以分别对其中的每一个进行建模)，但是包括一些常见的噪声特性。TOF传感器噪声特性包括例如深度失真(测量噪声或轴向噪声)、积分时间误差、像素误差(像素位置噪声)、振幅模糊(像素位置噪声)、温度误差。深度失真是由于无法按理论计划发射红外光而引起的并且导致取决于每个像素的测量深度的偏移。积分时间误差是因为不同的积分时间(即使对于单个场景)导致整个场景的不同的深度值而引起的。像素误差由信号相关期间的电容器充电时间延迟引起的并且产生与传感器阵列中的像素的位置有关的误差，其可以被表示为固定模式噪声表。因为TOF传感器中的深度准确度与当使用TOF传感器时的入射光量高度有关，所以发生振幅模糊。反射振幅越大，深度准确度越大。图像的边界常常将具有低反射振幅，从而在那些区域中产生不太准确的深度测量结果。因为内部摄像头温度影响TOF传感器中的深度处理的准确度，所以发生温度误差。附加地，TOF传感器经受场景特定噪声。由于在每个传感器的像素处捕获的多个光反射的干扰，发生多个光接收，也称为横向噪声。它取决于低横向传感器分辨率和场景中的对象的几何形状。特别地，这些误差是由表面边缘和凹陷引起的。由摄像头透镜与其传感器之间的多次反射所引起的光散射是TOF传感器中的附加噪声源。最后，由于场景中的对象或TOF传感器在用于采样的积分时间期间的物理运动，可发生运动模糊。

尽管在上面讨论了各种类型的深度传感器的噪声特性的许多示例，然而应该理解的是，可以将用于对深度传感器的性能进行建模的任何适合的特性包括在深度传感器特性数据集中。此外，虽然示例性实施方式在深度传感器特性数据集中包括一种类型的深度传感器的模型，但是该模型可以是深度传感器的特定模型、深度传感器中使用的特定芯片或透镜等。

在一些实施方式中，深度传感器特性数据集由计算机300设置而不由用户选择。在一些实施方式中，默认深度传感器特性数据集由计算机300设置。当将用于检测真实场景中的对象的姿态的深度传感器是未知的或者其参数是未知的时，可以使用默认深度传感器特性数据集。默认摄像头集可以包括针对所有深度传感器共有的噪声、最流行的深度传感器共有的噪声、针对其选择了深度传感器特性数据集的最后深度传感器的噪声模型或任何其它合适的深度传感器特性数据集的参数。此外，一些实施方式提供设置摄像头参数集的上述方法中的一种或多种的组合。

根据各种实施方式，可以许多不同的方式设置(S704)深度传感器特性数据集，所述方式包括通过计算机从预先存储在数据库上的多个模型中检索预先存储的模型、通过计算机从连接的AR装置接收深度传感器特性数据集和/或通过用户直接地输入(并且/或者修改)到GUI中。然而，本申请不应该限于这些特定实施方案。然而，在下面在本文中描述以上实施方式。

首先，在一些实施方式中，通过接收识别包括深度传感器的已知对象检测装置(例如，AR装置)的信息(S706)来执行设置深度传感器特性数据集(S704)。识别对象检测装置的信息是从用户输入接收的，诸如通过经由计算机的GUI从已知对象检测装置的列表中选择对象检测装置。在其它实施方式中，用户可以输入识别对象检测装置的信息，诸如通过键入模型名称、型号、序列号等。

CPU 301至少部分地基于识别对象检测装置的信息来获取深度传感器的深度传感器特性数据集(S708)。可以从存储在一个或多个存储器(诸如存储单元305或本地或远程数据库)中的多个深度传感器特性数据集中获取深度传感器特性数据集。每个深度传感器特性数据集在一个或多个存储器中与多个不同的对象检测装置中的至少一个对象检测装置相关联。因为多个不同的对象检测装置可以包括相同的深度传感器，所以单个深度传感器特性数据集可以与多个对象检测装置相关联。

在一些实施方式中，在S704中设置深度传感器特性数据集包括当对象检测装置变得可由一个或多个处理器访问时，通过数据连接来从包括深度传感器的对象检测装置获取深度传感器特性数据集(S710)。例如，当HMD 100(有线地或以无线方式)连接到计算机300的AR接口309时，CPU 301可以从HMD 100中检索深度传感器特性数据集(例如存储在ROM121中)。在其它实施方式中，计算机300可以通过确定深度传感器特性数据集来从对象检测装置获取深度传感器特性数据集。例如，计算机300可以使HMD 100中的深度传感器63捕获例如校准对象的一个或多个图像帧并且计算机300可以分析获得的图像帧以确定深度传感器特性数据集。在另一些实施方式中，计算机300可以从对象检测装置中检索对象检测装置和/或对象检测装置中的深度传感器的标识并且基于所检索到的标识从一个或多个存储器中检索适当的深度传感器特性数据集。如以上所提及的，可以组合各种技术。例如，在一些实施方式中，如果对象检测装置对计算机而言是可用的(例如，它连接到对象检测装置接口309)，则从摄像头获取深度传感器特性数据集，而如果对象检测装置对于计算机而言是不可用的，则执行S706和S708的设置。

一旦设置了深度传感器特性数据集，CPU 301就基于3D模型和深度传感器特性数据集为3D模型周围的至少一个视图生成(S711)3D模型的模糊2.5D表示数据。模糊2.5D表示数据是2.5D中的3D模型对象的深度数据(即，3D模型的当从特定视图看时的遮挡部分未被包括并且将不包括深度数据)，但是使用深度传感器特性数据集来模糊。模糊2.5D表示数据包括原始3D模型没有但是当在真实世界中使用所选择的深度传感器来获取关于通过3D模型所表示的真实世界对象的深度数据时很可能产生的误差、遗漏和噪声。结果是更接近地表示当在真实世界中使用深度传感器时实际深度传感器将产生的图像的2.5D表示数据。图8A、图8B、图8C、图8D、图8E和图8F示出了以这种方式生成的3d模型602(示出在图6中)的若干模糊2.5D图像(由2.5D表示数据组成)。

可以使用用于生成(S711)模糊2.5D表示数据的各种技术。在一些实施方式中，基于深度传感器特性数据集使3D模型本身模糊(S712)。深度传感器特性数据集针对视点更改3D对象的渲染以复制使用所选择的深度传感器从相同视点捕获的真实世界对象的真实深度传感器数据。接下来，针对模糊3D模型周围的至少一个视图提取(S714)模糊3D模型的2.5D表示数据以生成模糊2.5D表示数据。在其它实施方式中，针对(非模糊的)3D模型周围的至少一个视图提取(S716)3D模型的2.5D表示数据。此提取的2.5D表示数据可以被称为干净或非模糊2.5D表示数据。然后在S718中，基于深度传感器特性数据集使所提取的2.5D表示数据模糊以生成模糊2.5D表示数据。深度传感器特性数据集针对视点更改干净2.5D表示数据，以复制使用所选择的深度传感器从相同视点捕获的真实世界对象的真实深度传感器数据。注意的是，模糊包括根据传感器特性使3D模型或2.5D表示数据降级。经降级的3D模型或2.5D表示数据反映降级因素，诸如感测噪声、属于深度传感器63的折射和反射表面、真实对象和/或真实对象存在的环境。

在一些实施方式中，针对3D模型周围的视图范围内的多个视图生成3D模型的模糊2.5D表示数据。视图范围是深度传感器63在将合成图像的固定对象周围的潜在位置的范围。在示例实施方式中，视图范围包括方位角分量和仰角分量。视图范围还可以包括距离分量，该距离分量设置视图范围中的潜在位置距对象的3D模型的距离。视图范围一般地定义具有等于距离分量的长度的半径的球体的表面上的区域。生成合成图像的视图范围内的每个视点表示对象的不同的姿态。

在一些实施方式中，CPU 301在生成模糊2.5D表示数据之前接收对表示视图范围的数据的选择。例如，可以例如经由GUI(诸如以上关于图5所示出和讨论的GUI)从用户选择接收选择。在一些实施方式中，GUI包括对象的预览视图和用户选择的视图范围的图形表示。在一些实施方式中，视图范围是由用户选择的对象的单个姿态。在其它实施方式中，视图范围是预定(例如，默认)视图范围。在另一些实施方式中，除非用户提供视图范围的不同选择(或预定视图范围的修改)，否则CPU 301利用预定视图范围。在一些实施方式中，预定视图范围在对象周围在方位角或仰角中的一个或多个上小于360度。

CPU 301从视图范围内的位置生成表示3D模型的视图的3D模型的模糊2.5D表示数据。要从其生成2.5D表示数据的视图的数量可以是固定的、可变的或用户可选择的。可以使用任何适合数量的视图，只要3D模型周围的至少一个视图用于生成模糊2.5D表示数据即可。如果选择了单个视图，则针对视图范围内的中心点生成模糊2.5D表示数据。如果选择了多于一个视图，则在整个视图范围内相对均匀地针对视图生成模糊2.5D表示数据。在一些实施方式中，如果视图的数量是固定的或者由用户设置，则计算机300确定在视图范围内使每个视图分离多远以在视图范围内实现某种分布，诸如均匀分布(例如，使得每个视图与生成模糊2.5D表示数据所针对的下一个视图距离相同)。在其它实施方式中，计算机300基于视图范围的大小和固定间隔为可变数量的视图生成模糊2.5D表示数据。例如，计算机可以从视图范围内的方位角和仰角的每一度、每五度、每十度、每二十度的视点生成模糊2.5D表示数据。以上间隔是示例并且可以使用任何其它合适的间隔，包括小于完整的度的间隔。间隔对方位角和仰角来说不必相同。

模糊2.5D表示数据用于生成训练数据来训练对象检测算法。可以使用适于与真实深度传感器数据、干净(非模糊)合成深度传感器表示数据等一起使用的任何技术来生成训练数据。在S720中，训练数据被存储在一个或多个存储器上。所生成的训练数据被存储在一个或多个存储器中(S719)。在一些实施方式中，训练数据被存储在计算机的训练***存储器305中。在一些实施方式中，当HMD 100通过AR装置接口309在通信上联接到计算机300时，训练数据由计算机300存储在HMD 100的存储器(诸如ROM 121)中。在其它实施方式中，训练数据被存储在计算机的训练***存储器305和HMD 100中。

在一些实施方式中，生成训练数据包括识别3D模型的模糊2.5D表示数据的至少一个边缘(S722)。在S724中，生成训练数据包括识别3D模型的模糊2.5D表示数据的至少一个表面特征。所识别的至少一个边缘和至少一个表面特征被作为训练数据的至少一部分存储(S726)在一个或多个存储器中。

在训练数据被存储在HMD 100中之后，HMD 100可以工作来基于训练数据检测对象。在一些实施方式中，HMD试图通过使用HMD的对象检测算法来试图找到训练数据与由深度传感器63捕获的2.5D表示数据之间的匹配来在由深度传感器63捕获的2.5D表示数据中检测对象。在其它实施方式中，HMD试图在由摄像头60捕获的真实场景的图像帧中检测对象并且使用从模糊2.5D表示数据导出的训练数据来确认和/或细化检测和/或姿态估计。在另一些实施方式中，使用2D模板、由摄像头60捕获的图像、从模糊2.5D表示数据导出的训练数据和由深度传感器63捕获的2.5D表示数据的组合来执行对象检测。

如以上所提及的，在一些实施方式中，执行方法700的计算机包括用于向用户提供信息并且从用户接收选择的GUI。图5和图6中所示的GUI是可以被用作实现方法700的***的一部分的GUI的图像。例如，GUI可以由计算机300显示在显示单元302上并且响应于经由操作单元304的用户输入。虽然参考方法400描述了图5和图6所示的GUI，但是应该理解的是，也可以在合适的修改情况下使用图5和图6的GUI来执行方法700。

本文描述的各种实施方式提供用于使用合成图像来自动训练对象检测算法的***。实施方式减少了训练算法的用户参与量，消除了使用要训练以检测对象的每个特定AR装置来捕获实际对象的多个图像所需的时间和努力，并且消除了具有对象的实际副本和要训练的AR装置的需要。类似地，本文的一些实施方式提供用于通过自动地生成基于将被用于对象检测的特定类型的噪声传感器而模糊的2.5D表示数据来利用深度传感器自动训练用于基于形状的检测的对象检测算法。这同样地减少了使用要用于对象检测的每个深度传感器来手动地捕获多个图像所需的时间和努力并且通过生成作为将由深度传感器在真实世界中获取的传感器数据的更准确表示的训练数据来提高***准确度。

一些实施方式提供包含程序指令的非暂时性存储介质(例如，ROM 121、RAM 122、识别目标存储部139等)，所述程序指令当由计算机处理器(例如，CPU 140、处理器167、CPU301)执行时，执行本文描述的方法。

尽管已经参考本文的实施方案描述了本发明，然而那些实施方案不限制本发明的范围。对那些实施方式或不同的实施方式的修改可以落入本发明的范围内。

Claims

1.一种包含指令的非暂时性计算机可读介质，所述指令当由一个或多个处理器执行时，使处理器执行包括以下步骤的方法：

(A)在一个或多个存储器中接收与对象相对应的3D模型；

(B)设置用于检测真实场景中的所述对象的姿态的深度传感器的深度传感器特性数据集；

(C)基于所述3D模型和所述深度传感器特性数据集，为所述3D模型周围的至少一个视图生成所述3D模型的模糊2.5D表示数据，以基于所述模糊2.5D表示数据生成用于训练对象检测算法的训练数据，所述模糊2.5D表示数据是使用所述深度传感器特性数据集对2.5D中的所述3D模型的深度数据进行模糊得到的；以及

(D)将所述训练数据存储在一个或多个存储器中。

2.根据权利要求1所述的非暂时性计算机可读介质，其中，生成所述3D模型的模糊2.5D表示数据的步骤(C)包括：

基于所述深度传感器特性数据集使所述3D模型模糊；以及

为所述3D模型周围的至少一个视图提取所述模糊3D模型的2.5D表示数据，以生成所述模糊2.5D表示数据。

3.根据权利要求1所述的非暂时性计算机可读介质，其中，生成所述3D模型的模糊2.5D表示数据的步骤(C)包括：

为所述3D模型周围的至少一个视图提取所述3D模型的2.5D表示数据；

基于所述深度传感器特性数据集使所提取的所述3D模型的2.5D表示数据模糊，以生成所述模糊2.5D表示数据。

4.根据权利要求1所述的非暂时性计算机可读介质，其中，所述方法还包括：

识别所述3D模型的所述模糊2.5D表示数据的至少一个边缘和/或至少一个表面特征；

存储所识别的至少一个边缘和/或至少一个表面特征作为所述训练数据的至少一部分。

5.根据权利要求1所述的非暂时性计算机可读介质，其中，设置深度传感器特性数据集的步骤(B)包括：

接收识别具有所述深度传感器的对象检测装置的信息；

至少部分地基于识别所述对象检测装置的所述信息，从存储在一个或多个存储器中的多个深度传感器特性数据集中获取所述深度传感器特性数据集，其中，所述多个深度传感器特性数据集中的每个深度传感器特性数据集在所述一个或多个存储器中与多个不同的对象检测装置中的至少一个对象检测装置相关联。

6.根据权利要求1所述的非暂时性计算机可读介质，其中，设置深度传感器特性数据集的步骤(B)包括：

当具有所述深度传感器的对象检测装置变得能够由所述一个或多个处理器通过数据连接访问时，通过所述数据连接来从该对象检测装置获取所述深度传感器特性数据集。

7.根据权利要求1所述的非暂时性计算机可读介质，其中，生成所述3D模型的模糊2.5D表示数据的步骤(C)包括：

基于所述3D模型和所述深度传感器特性数据集，为分布在所述3D模型周围的360度方位角和/或仰角的范围内的视图生成所述3D模型的模糊2.5D表示数据。

8.一种用于训练对象检测算法的方法，所述方法包括：

(A)在一个或多个存储器中接收与对象相对应的3D模型；

(D)将所述训练数据存储在一个或多个存储器中。

9.根据权利要求8所述的方法，其中，生成所述3D模型的模糊2.5D表示数据的步骤(C)包括：

基于所述深度传感器特性数据集使所述3D模型模糊；以及

10.根据权利要求8所述的方法，其中，生成所述3D模型的模糊2.5D表示数据的步骤(C)包括：

11.根据权利要求8所述的方法，其中，所述方法还包括：

识别所述3D模型的所述模糊2.5D表示数据的至少一个边缘；

识别所述3D模型的所述模糊2.5D表示数据的至少一个表面特征；以及

存储所识别的至少一个边缘和至少一个表面特征作为所述训练数据的至少一部分。

12.根据权利要求8所述的方法，其中，设置深度传感器特性数据集的步骤(B)包括：

接收识别具有所述深度传感器的对象检测装置的信息，

13.根据权利要求8所述的方法，其中，设置深度传感器特性数据集的步骤(B)包括：

当具有所述深度传感器的对象检测装置变得能够由一个或多个处理器通过数据连接访问时，通过所述数据连接来从该对象检测装置获取所述深度传感器特性数据集。

14.根据权利要求8所述的方法，其中，生成所述3D模型的模糊2.5D表示数据的步骤(C)包括：

基于所述3D模型和所述深度传感器特性数据集为分布在所述3D模型周围的360度方位角和/或仰角的范围内的视图生成所述3D模型的模糊2.5D表示数据。

15.一种训练设备，所述训练设备包括：

一个或多个存储器；以及

处理器，所述处理器在通信上联接到所述一个或多个存储器，所述处理器通过存储在所述一个或多个存储器中的指令被配置为执行包括以下步骤的方法：

(A)在所述一个或多个存储器中接收与对象相对应的3D模型；

(D)将所述训练数据存储在所述一个或多个存储器中。

16.根据权利要求15所述的训练设备，其中，生成所述3D模型的模糊2.5D表示数据的步骤(C)包括：

基于所述深度传感器特性数据集使所述3D模型模糊；以及

17.根据权利要求15所述的训练设备，其中，生成所述3D模型的模糊2.5D表示数据的步骤(C)包括：

18.根据权利要求15所述的训练设备，其中，所述方法还包括：

识别所述3D模型的所述模糊2.5D表示数据的至少一个边缘；

19.根据权利要求15所述的训练设备，其中，设置深度传感器特性数据集的步骤(B)包括：

接收识别具有所述深度传感器的对象检测装置的信息，

20.根据权利要求15所述的训练设备，其中，设置深度传感器特性数据集的步骤(B)包括：