CN108449945A

CN108449945A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN108449945A
Application number: CN201680055412.2A
Authority: CN
Inventors: 贝野彰彦; 鹤见辰吾; 江岛公志; 加藤嵩明; 福地正树; 柏谷辰起; 本间俊; 本间俊一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-09-30
Filing date: 2016-09-16
Publication date: 2018-08-24
Anticipated expiration: 2036-09-16
Also published as: CN108449945B; EP3358294A4; WO2017057054A1; EP3358294A1; JP6872128B2; US10803600B2; JPWO2017057054A1; US20180286056A1

Abstract

本公开涉及能够连续地估计自身位置的信息处理设备、信息处理方法和程序。该信息处理设备被提供有：主成像单元，其由安装在移动体上的立体相机配置并且通过以规定的帧速率捕获视频来输出立体主图像对的时序；多个辅助成像单元，其被安装在移动体上使得具有与主成像单元的成像方向不同的成像方向，并且以规定的帧速率捕获视频；以及最终姿势确定单元，其基于由主成像单元捕获的立体主图像对和由辅助成像单元捕获的辅助图像来估计移动体的姿势。本公开可以应用于例如用于安装在车辆上的自定位传感器。

Description

信息处理设备、信息处理方法和程序

技术领域

本公开涉及信息处理设备、信息处理方法和程序，并且更特别地涉及安装在诸如汽车的移动体上适于估计自身位置的信息处理设备、信息处理方法和程序。

背景技术

SLAM(同时定位和地图创建)被称为安装在诸如汽车的移动体上以估计移动体的自身位置的技术。

通过使用立体相机等基于SLAM的自身位置估计技术由以下处理构成。具体而言，初始执行的是用于基于从具有特征的纹理区域中检测到的和从由立体相机捕获的作为产生视差的图像的立体图像对中检测到的特征点来执行深度估计的处理，即，用于估计特征点的3D坐标的处理。随后执行的是用于在多个帧中跟踪获得的特征点的处理，即，用于特征点的2D坐标跟踪处理。最后执行的是用于估计最适合地表达特征点的估计3D坐标和跟踪的特征点的2D坐标的组合的姿势(自身位置和方向)(即，6DOF(自由度6)自身位置)的处理(例如，参见PTL1)。

[引文列表]

[专利文献]

[PTL 1]

JP 2008-304268A

发明内容

[技术问题]

基于SLAM的自身位置估计技术由上述处理构成，因此，在由立体相机捕获的大部分图像被不包括纹理的墙壁或地板占据的情况下、在周围环境(例如，其它汽车和行人)移动的情况下、或者在特征点的3D坐标的空间分布偏移的情况下，自身位置估计通常难以执行。

特别地，在将基于SLAM的自身位置估计技术应用于室外使用的诸如汽车的移动体的情况下，可能出现产生难以执行自身位置估计的情况的以下问题。

更具体而言，例如，在缺乏具有特征的近处物体时将远处建筑物检测为纹理的情况下，检测到的纹理不随时间而改变。在图像中周围环境移动的情况下，难以对自身移动状态和周围环境移动状态做出区分。在自身(汽车)高速移动状态下，已从图像中消失的特征点难以被跟踪。

考虑到上述情况而开发的本公开能够执行自身位置的连续估计。

[问题的解决方案]

根据本公开的方面的信息处理设备包括：主成像单元，其包括安装在移动体上的立体相机，并且以预定帧速率捕获运动图像以输出作为时序图像的立体主图像对；一个或多个副成像单元，每个副成像单元被安装在移动体上使得具有与主成像单元的成像方向不同的成像方向，并且以预定帧速率捕获运动图像；以及最终姿势确定单元，其基于由主成像单元捕获的立体主图像对以及由每个副成像单元捕获的副图像来估计移动体的姿势。

每个副成像单元可以包括立体相机，并且以预定帧速率捕获运动图像以输出作为时序图像的立体副图像对。最终姿势确定单元可以包括：主估计单元，其基于由主成像单元捕获的作为时序图像的立体主图像对来估计移动体的姿势；副估计单元，其基于由每个副成像单元捕获的作为时序图像的立体副图像对来估计移动体的姿势；以及整合单元，其将由主估计单元估计的姿势和由副估计单元估计的姿势进行整合以确定最终姿势。

主估计单元可以估计从立体主图像对中检测到的特征点的3D坐标、通过在立体主图像对中的一个立体主图像的多个帧中跟踪特征点来估计移动体的姿势、以及将估计的姿势和姿势的可靠性输出到整合单元。副估计单元可以估计从立体副图像对中检测到的特征点的3D坐标、通过在立体副图像对中的一个立体副图像的多个帧中跟踪特征点来估计移动体的姿势、以及将估计的姿势和姿势的可靠性输出到整合单元。整合单元可以基于可靠性对由主估计单元估计的姿势和由副估计单元估计的姿势进行整合以确定最终姿势。

可靠性可以包括以下中的至少任意一个：对于估计姿势有效的特征点的数量、特征点的3D空间分布、估计的姿势和最近获得的最终姿势之间的差异以及在估计中执行的优化操作的残差。

每个副成像单元可以包括广角相机、鱼眼相机或全向相机，并且以预定帧速率捕获运动图像以输出作为时序图像的副图像。最终姿势确定单元可以包括：3D估计单元，其估计从由主成像单元捕获的立体主图像对检测到的特征点的3D坐标；2D跟踪单元，其在副图像的多个帧中跟踪特征点并且将跟踪结果转换成立体主图像对中的2D坐标；以及姿势估计单元，其基于由3D估计单元估计的特征点的3D坐标和由2D跟踪单元转换的特征点在立体主图像对中的2D坐标来估计最终姿势。

3D估计单元可以估计从由主成像单元捕获的立体主图像对中检测到的特征点的3D坐标，并且估计特征点在副图像中的2D坐标。2D跟踪单元可以基于由3D估计单元估计的特征点在副图像中的2D坐标来在副图像的多个帧中跟踪特征点，并且将跟踪结果转换成立体主图像对中的2D坐标。

多个副成像单元可以基于由3D估计单元估计的特征点在副图像中的2D坐标的估计结果被选择性地切换用于执行成像。

根据本公开的方面的信息处理方法是由信息处理设备执行的方法。由信息处理设备执行的方法包括：最终姿势确定步骤，其基于由主成像单元捕获的立体主图像对以及基于由一个或多个副成像单元捕获的副图像来估计移动体的姿势，主成像单元包括安装在移动体上的立体相机，并且以预定帧速率捕获运动图像以输出作为时序图像的立体主图像对，每个副成像单元被安装在移动体上使得具有与主成像单元的成像方向不同的成像方向，并且以预定帧速率捕获运动图像。

根据本公开的方面的程序是用于控制信息处理设备的程序。在该程序的控制下，信息处理设备的计算机执行处理，包括：最终姿势确定步骤，其基于由主成像单元捕获的立体主图像对以及基于由一个或多个副成像单元捕获的副图像来估计移动体的姿势，主成像单元包括安装在移动体上的立体相机，并且以预定帧速率捕获运动图像以输出作为时序图像的立体主图像对，每个副成像单元被安装在移动体上使得具有与主成像单元的成像方向不同的成像方向，并且以预定帧速率捕获运动图像。

根据本公开的方面，基于由主成像单元捕获的立体主图像对以及基于由一个或多个副成像单元捕获的副图像来估计移动体的姿势，主成像单元包括安装在移动体上的立体相机，并且以预定帧速率捕获运动图像以输出作为时序图像的立体主图像对，每个副成像单元被安装在移动体上使得具有与主成像单元的成像方向不同的成像方向，并且以预定帧速率捕获运动图像。

[发明的有益效果]

根据本公开的方面，可实现对自身位置的连续估计。

附图说明

图1是图示应用本公开的信息处理设备的第一构造示例的框图。

图2是图示在图1中所示的在汽车中的第一至第四成像单元的布置示例的图。

图3是图示由信息处理设备的第一构造示例执行的最终姿势确定处理的流程图。

图4是图示应用本公开的信息处理设备的第二构造示例的框图。

图5是图示在图4所示的在汽车中的第一至第三成像单元的布置示例的图。

图6是图示包括代替第一至第三成像单元布置的全向相机的示例的图。

图7是图示包括代替第一至第三成像单元布置的视野朝下相机的示例的图。

图8是图示由信息处理设备的第二构造示例执行的最终姿势确定处理的流程图。

图9是图示应用本公开并安装在头戴式显示器上的信息处理设备的概念图。

图10是图示应用本公开并安装在自主清洁机器人上的信息处理设备的概念图。

图11是图示应用本公开并安装在无人机(自主无人飞行器)上的信息处理设备的概念图。

图12是图示应用本公开并被应用于3D模型、任意视点视频等的创建的信息处理设备的概念图。

图13是图示通用计算机的构造示例的框图。

具体实施方式

下文参考附图详细描述用于执行本公开的最佳模式(下文称为实施例)。在以下描述中，假定根据本公开的实施例的信息处理设备在安装在用于室外使用的汽车上时使用。

<应用本公开的信息处理设备的第一构造示例>

图1图示了应用本公开的信息处理设备的第一构造示例。

第一构造示例由第一至第四成像单元11-1至11-4、SLAM处理单元12-1至12-4以及整合单元13构成。

第一成像单元11-1由以预定帧速率捕获运动图像并且将如此捕获的一对立体图像作为产生视差差异的图像供应给SLAM处理单元12-1的高分辨率立体相机构成。第二至第四成像单元11-2至11-4中的每一个具有与第一成像单元11-1的构造类似的构造。注意的是，能够测量单个相机和物体之间的距离(3D坐标)的偏振传感器或主动式***传感器(例如，ToF传感器和SL传感器)可以代替立体相机使用。

图2图示了汽车中的第一至第四成像单元11-1至11-4的布置示例。图中的部分A是侧视图，而图中的部分B是俯视图。

第一至第四成像单元11-1至11-4被布置为使得具有在彼此不同的方向上的成像范围。根据图中所示的示例，第一成像单元11-1被布置在汽车的前侧以获得前方成像范围。第二成像单元11-2被布置在汽车的右侧以获得右边成像范围。第三成像单元11-3被布置在汽车的左侧以获得左边成像范围。第四成像单元11-4被布置在汽车的后侧以获得后方成像范围。

注意的是，第一至第四成像单元11-1至11-4的布置不限于在图2的布置示例中定义的位置，而是可以是其它位置，只要汽车周围的图像可以被多个高分辨率立体相机捕获即可。此外，虽然未绘出，但是第二至第四成像单元11-2至11-4中的任何一个可以被布置在汽车的下部以获得与道路表面对应的成像范围。

现在返回到图1。SLAM处理单元12-1对产生视差差异并且以预定帧速率从第一成像单元11-1顺序供应的一对立体图像的目标执行SLAM处理，并将如此获得的姿势和姿势的可靠性输出到整合单元13。在这个上下文中，姿势是6DOF自身位置。假定可靠性包括以下中的至少一个：有效特征点的数量、特征点的三维空间部分、与最近获得的最终姿势的差异以及在估计中执行的优化操作的残差。

类似于SLAM处理单元12-1，SLAM处理单元12-2至12-4中的每一个对产生视差差异并且以预定帧速率从先前阶段顺序供应的一对立体图像的目标执行SLAM处理，并将如此获得的姿势和姿势的可靠性输出到整合单元13。

注意的是，由SLAM处理单元12-1至12-4执行的SLAM处理的一部分或全部可以由，例如，云中的服务器来执行。

整合单元13基于每个姿势的可靠性将从SLAM处理单元12-1至12-4输入的姿势整合以确定最终姿势。更具体而言，整合单元13基于每个姿势的可靠性来计算从SLAM处理单元12-1至12-4输入的姿势的加权平均、选择具有最高可靠性的姿势、或者基于每个姿势的可靠性使用卡尔曼(Kalman)滤波器将从SLAM处理单元12-1至12-4输入的姿势整合以确定最终姿势。

<信息处理设备的第一构造示例的最终姿势确定处理>

接下来，图3图示了由信息处理设备的第一构造示例执行的最终姿势确定处理的流程图。

第一至第四成像单元11-1至11-4与对应的SLAM处理单元12-1至12-4的组合中的每一个在下文中被称为立体相机***。此外，在不需要区分第一至第四成像单元11-1至11-4的情况下，第一至第四成像单元11-1至11-4中的每一个被称为成像单元11。类似地，在不需要区分第一至第四SLAM处理单元12-1至12-4的情况下，SLAM处理单元12-1至12-4中的每一个被称为SLAM处理单元12。

在步骤S1中，每个立体相机***的成像单元11开始以预定帧速率捕获运动图像，并且将如此捕获的一对立体图像作为产生视差差异的图像供应给SLAM处理单元12作为处理目标。

在步骤S2中，每个立体相机***的SLAM处理单元12对产生视差差异并且以预定帧速率从成像单元11的先前阶段顺序供应的一对立体图像的目标执行SLAM处理。在步骤S3中，SLAM处理单元12将如此获得的姿势和姿势的可靠性输出到整合单元13。

在步骤S4中，整合单元13基于每个姿势的可靠性将从相应立体相机***的SLAM处理单元12输入的姿势整合以确定最终姿势。更具体而言，可以采用上述三种类型的整合方法中的任何一种。

根据本文描述的最终姿势确定处理，所有立体相机***估计自身位置，并且将如此获得的估计结果进行整合。因此，即使在其中一个立体相机***不能执行自身位置估计或产生错误的情况下，也可实现最终姿势的连续估计。

注意的是，提供的立体相机***的数量不限于四个，而可以是等于或大于二的任何数量。不用说，随着提供的立体相机***的数量的增加，最终姿势的准确度增加。

<应用本公开的信息处理设备的第二构造示例>

图4图示了应用本公开的信息处理设备的第二构造示例。

第二构造示例大致由3D估计单元21、2D跟踪单元27和姿势估计单元31构成。

3D估计单元21包括立体成像单元22、特征点检测单元23、深度估计单元24、坐标转换单元25和保持单元26。

立体成像单元22由捕获汽车前方的图像的高分辨率立体相机构成。立体成像单元22以预定帧速率捕获运动图像，并且将如此捕获的一对立体图像作为产生视差差异的图像供应给特征点检测单元23。

特征点检测单元23从由立体成像单元22供应的该对立体图像中的每个图像中检测具有特征的纹理区域、从纹理区域中检测一个或多个特征点、并且将指示检测结果的2D特征点组@cam0输出到深度估计单元24。

深度估计单元24执行用于对该对立体图像中的特征点进行深度估计的处理，即，用于估计特征点的3D坐标的处理，并且将指示处理结果的3D特征点组@cam0输出到坐标转换单元25和保持单元26。

坐标转换单元25基于从深度估计单元24获得的3D特征点组@cam0估计在由第一成像单元28-1(下面描述)捕获的第一图像中已从该对立体图像检测到的特征点的2D坐标，并且将如此获得的估计的2D特征点组@cam[1]输出到保持单元26。此外，坐标转换单元25基于从深度估计单元24获得的3D特征点组@cam0估计在由第二成像单元28-2(下面描述)捕获的第二图像中已从该对立体图像中检测到的特征点的2D坐标，并且将如此获得的估计的2D特征点组@cam[2]输出到保持单元26。此外，坐标转换单元25基于从深度估计单元24获得的3D特征点组@cam0估计在由第三成像单元28-3(下面描述)捕获的第三图像中已从该对立体图像检测到的特征点的2D坐标，并且将如此获得的估计的2D特征点组@cam[3]输出到保持单元26。

保持单元26保持从深度估计单元24输入的3D特征点组@cam0以及从坐标转换单元25输入的估计的2D特征点组@cam[i](i＝1,2,3)。

2D跟踪单元27包括第一至第三成像单元28-1至28-3、跟踪单元29-1至29-3以及坐标转换单元30-1至30-3。

第一成像单元28-1由具有宽成像范围的相机(诸如广角相机和鱼眼相机)构成。第一成像单元28-1以预定帧速率捕获运动图像，并且将如此获得的第一图像供应给跟踪特征点检测单元23-1。类似地，第二成像单元28-2将第二图像供应给跟踪特征点检测单元23-2，而第三成像单元28-3将第三图像供应给跟踪特征点检测单元23-3。如上所述，第一至第三成像单元28-1到28-3中的每一个不是由需要基于视差校准的立体相机构成，而是由单个广角相机等构成。在这种情况下，与包括立体相机的结构相比，可实现更多的成本减少以及用于校准的劳动力和时间的减少。

注意的是，构成立体成像单元22的高分辨率立体相机的方向和变焦率可以被控制在从由第一至第三成像单元28-1至28-3捕获的第一至第三图像中选择的有效纹理范围内。

图5图示了汽车中的第一至第三成像单元28-1至28-3的布置示例。

如图所示，例如，第一成像单元28-1被附连到获得与汽车的左侧对应的成像范围的位置。例如，第二成像单元28-2被附连到获得与汽车的右侧对应的成像范围的位置。例如，第三成像单元28-3被附连到获得与汽车的后侧对应的成像范围的位置。

注意的是，可以在选择性地切换第一至第三成像单元28-1至28-3的同时执行成像，而不是由所有第一至第三成像单元28-1至28-3在某个时间执行同时成像。更具体而言，可以进行选择使得从该对立体图像检测到的特征点的空间分布(特别是在深度方向上的分布)不产生偏差、捕获不包括移动的周围环境的图像、或者捕获包括有效纹理作为特征点的图像。以这些方式进行的选择可以实现省电。

此外，如图6所示，代替第一至第三成像单元28-1至28-3，可以在汽车的车顶等上布置具有在汽车周围360度成像范围的全向相机28。可替代地，如图7所示，代替第一至第三成像单元28-1至28-3，可以在汽车的底部等上布置具有与道路表面对应的成像范围的视野朝下相机28。

现在返回到图4。跟踪单元29-1从保持单元26获得估计的2D特征点组@cam[1]、基于获得的估计的2D特征点组@cam[1]跟踪从第一成像单元28-1获得的第一图像中从该对立体图像中检测到的特征点、并且将如此获得的2D特征点组@cam[1]输出到坐标转换单元30-1。注意的是，包括在从该对立体图像中检测到的特征点中并且不存在于第一图像中的特征点从2D特征点组@cam[1]中被删除。类似地，跟踪单元29-2将2D特征点组@cam[2]输出到坐标转换单元30-2，而跟踪单元29-3将2D特征点组@cam[3]输出到坐标转换单元30-3。

坐标转换单元30-1基于从跟踪单元29-1输入的2D特征点组@cam[1]将在第一图像中跟踪的特征点的2D坐标转换成该对立体图像中的2D坐标，并且将如此获得的2D特征点组@cam0-1输出到姿势估计单元31。类似地，坐标转换单元30-2将D特征点组@cam0-2输出到姿势估计单元31，而坐标转换单元30-3将D特征点组@cam0-3输出到姿势估计单元31。

姿势估计单元31从保持单元26获得3D特征点组@cam0，并且基于获得的3D特征点组@cam0和2D特征点组@cam0-1至2D特征点组@cam0-3估计最适合地表达3D坐标和2D坐标的组合的最终姿势(6DOF)。

<信息处理设备的第二构造示例的最终姿势确定处理>

接下来，图8图示了由信息处理设备的第二构造示例执行的最终姿势确定处理的流程图。

假定立体成像单元22已经开始以预定帧速率捕获运动图像，并且将如此获得的一对立体图像输出到后续阶段。

在步骤S11中，3D估计单元21的特征点检测单元23从该对立体图像中的每个图像检测具有特征的纹理区域、从纹理区域中检测一个或多个特征点、并且将指示检测结果的2D特征点组@cam0输出到深度估计单元24。在步骤S12中，深度估计单元24估计该对立体图像中的特征点的3D坐标，并且将指示估计的结果的3D特征点组@cam0输出到坐标转换单元25和保持单元26。

在步骤S13中，坐标转换单元25基于3D特征点组@cam0估计在第一至第三图像中的每个图像中已从该对立体图像中检测到的特征点的2D坐标，并且将如此获得的估计的2D特征点组@cam[i](i＝1,2,3)输出到保持单元26。

之后，2D跟踪单元27的第一至第三成像单元28-1至28-3被选择性地切换，以开始由所选择的成像单元捕获运动图像。

在步骤S14中，跟踪单元29-i(i＝1,2,3)从保持单元26获得估计的2D特征点组@cam[i]，并且基于获得的估计的2D特征点组@cam[i]跟踪在从先前阶段获得的第i个图像中从该对立体图像中检测到的特征点，以获得2D特征点组@cam[i]。在随后的步骤S15中，跟踪单元29-i从2D特征点组@cam[i]中删除没有在第i个图像中跟踪到的特征点的记录，并且将结果得到的2D特征点组@cam[i]输出到坐标转换单元30-i。

在步骤S16中，坐标转换单元30-i(i＝1,2,3)基于从跟踪单元29-i输入的2D特征点组@cam[i]将在第i个图像中跟踪到的特征点的2D坐标转换成该对立体图像中的2D坐标，并且将如此获得的2D特征点组@cam0-i输出到姿势估计单元31。

在步骤S17中，姿势估计单元31从保持单元26获得3D特征点组@cam0，并且基于获得的3D特征点组@cam0和2D特征点组@cam0-1至2D特征点组@cam0-3估计最适合地表达3D坐标和2D坐标的组合的最终姿势(6DOF)。

根据本文描述的信息处理设备的第二构造示例执行的最终姿势确定处理，第一至第三成像单元28-1至28-3被选择性地切换，更具体而言，选择成像单元28-1至28-3中的一个，使得可以实现从一对立体图像中检测到的特征点的连续跟踪、不产生特征点的空间分布的偏差、并且可以检测到不受周围环境影响的特征点。因此，可实现对最终姿势的连续估计。

<应用本公开的信息处理设备的应用示例>

虽然本文描述的实施例中已经呈现了对车载设备的应用，但是信息处理设备的第一构造示例和第二构造示例可以应用于除车载设备之外的其它目的。

图9是图示安装在头戴式显示器(HMD)上的信息处理设备的第二构造示例的概念图。

该图中所示的HMD实现对用户的头部的位置和姿态的连续估计，从而呈现用于视频再现和AR或VR应用的与用户的状态对应的视频。

图10是图示安装在自主清洁机器人上的信息处理设备的第二构造示例的概念图。图11是图示安装在无人机(自主无人飞行器)上的信息处理设备的第二构造示例的概念图。

图10中所示的自主清洁机器人和图11中所示的无人机实现对自身姿势的连续且稳定的估计，从而提高移动或飞行的稳定性。

虽然没有绘出，但是信息处理设备可以被小型化并且附连到需要保护的野生动物等上以连续地估计动物等的位置。因此，如此配置的信息处理设备有助于动物等的行为分析。

图12是图示应用于3D模型或任意视点视频的创建的信息处理设备的第二构造示例的概念图。如图所示，可以将各个成像单元布置在不可移动物体(在该图的示例中为建筑物)周围以估计各个成像单元的位置和姿态。因此，通过使用由各个成像单元捕获的图像可实现3D模型或任意视点视频的创建。

虽然已经如上描述了信息处理设备的第一构造示例和第二构造示例，但是由第一构造示例和第二构造示例执行的一系列处理可以由或者软件或者硬件执行。在由软件执行一系列处理的情况下，构成该软件的程序安装在计算机中。在这种上下文中，计算机的示例包括在专用硬件中结合的计算机和其中安装了各种程序以执行各种功能的通用个人计算机。

图13是图示在程序的控制下执行上述一系列处理的计算机的硬件的构造示例的框图。

包括在该图中所示的计算机100中的CPU(中央处理单元)101、ROM(只读存储器)102和RAM(随机存取存储器)103经由总线104彼此连接。

输入/输出接口105还连接到总线104。输入单元106、输出单元107、存储单元108、通信单元109和驱动器110连接到输入/输出接口105。

输入单元106由键盘、鼠标、麦克风等构成。输出单元107由显示器、扬声器等构成。存储单元108由硬盘、非易失性存储器等构成。通信单元109由网络接口等构成。驱动器110驱动可移除介质111，诸如磁盘、光盘、磁光盘和半导体存储器。

根据如上配置的计算机100，存储在存储单元108中的程序经由输入/输出接口105和总线104被加载到RAM 103，并且由CPU 101执行以执行例如上述的一系列处理。

注意的是，由计算机100执行的程序可以是在其控制之下以本说明书中描述的次序执行时序处理的程序，或者可以是在其控制之下并行或者在必要的时刻(诸如调用的情况下)执行处理的程序。

注意的是，根据本公开的实施例不限于本文描述的具体实施例，而是可以在不偏离本公开的主题的范围的情况下以各种方式进行修改。

本公开还可以具有以下构造。

(1)

一种信息处理设备，包括：

主成像单元，其包括安装在移动体上的立体相机，并且以预定帧速率捕获运动图像，以输出作为时序图像的立体主图像对；

一个或多个副成像单元，每个副成像单元被安装在移动体上使得具有与主成像单元的成像方向不同的成像方向，并且以预定帧速率捕获运动图像；以及

最终姿势确定单元，其基于由主成像单元捕获的立体主图像对以及由每个副成像单元捕获的副图像来估计移动体的姿势。

(2)

根据上述(1)所述的信息处理设备，其中，

每个副成像单元包括立体相机，并且以预定帧速率捕获运动图像以输出作为时序图像的立体副图像对，以及

最终姿势确定单元包括

主估计单元，其基于由主成像单元捕获的作为时序图像的立体主图像对来估计移动体的姿势，

副估计单元，其基于由每个副成像单元捕获的作为时序图像的立体副图像对来估计移动体的姿势；以及

整合单元，其将由主估计单元估计的姿势和由副估计单元估计的姿势进行整合以确定最终姿势。

(3)

根据上述(2)所述的信息处理设备，其中主估计单元估计从立体主图像对中检测到的特征点的3D坐标、通过在立体主图像对中的一个立体主图像的多个帧中跟踪特征点来估计移动体的姿势、以及将估计的姿势和姿势的可靠性输出到整合单元，

副估计单元估计从立体副图像对中检测到的特征点的3D坐标、通过在立体副图像对中的一个立体副图像的多个帧中跟踪特征点来估计移动体的姿势、以及将估计的姿势和姿势的可靠性输出到整合单元，以及

整合单元基于可靠性对由主估计单元估计的姿势和由副估计单元估计的姿势进行整合以确定最终姿势。

(4)

根据上述(3)所述的信息处理设备，其中可靠性包括以下中的至少任意一个：对于估计姿势有效的特征点的数量、特征点的3D空间分布、估计的姿势和最近获得的最终姿势之间的差异以及在估计中执行的优化操作的残差。

(5)

根据上述(1)所述的信息处理设备，其中每个副成像单元包括广角相机、鱼眼相机或全向相机，并且以预定帧速率捕获运动图像以输出作为时序图像的副图像，以及

最终姿势确定单元包括

3D估计单元，其估计从由主成像单元捕获的立体主图像对检测到的特征点的3D坐标，

2D跟踪单元，其在副图像的多个帧中跟踪特征点并且将跟踪结果转换成立体主图像对中的2D坐标；以及

姿势估计单元，其基于由3D估计单元估计的特征点的3D坐标和由2D跟踪单元转换的特征点在立体主图像对中的2D坐标来估计最终姿势。

(6)

根据上述(5)所述的信息处理设备，其中3D估计单元估计从由主成像单元捕获的立体主图像对中检测到的特征点的3D坐标，并且估计特征点在副图像中的2D坐标，以及

2D跟踪单元基于由3D估计单元估计的特征点在副图像中的2D坐标来在副图像的多个帧中跟踪特征点，并且将跟踪结果转换成立体主图像对中的2D坐标。

(7)

根据上述(5)或(6)所述的信息处理设备，其中所述多个副成像单元基于由3D估计单元估计的特征点在副图像中的2D坐标的估计结果被选择性地切换用于执行成像。

(8)

一种用于信息处理设备的信息处理方法，该方法由信息处理设备执行并且包括：

最终姿势确定步骤，其基于由主成像单元捕获的立体主图像对以及基于由一个或多个副成像单元捕获的副图像来估计移动体的姿势，主成像单元包括安装在移动体上的立体相机，并且以预定帧速率捕获运动图像以输出作为时序图像的立体主图像对，每个副成像单元被安装在移动体上使得具有与主成像单元的成像方向不同的成像方向，并且以预定帧速率捕获运动图像。

(9)

一种用于控制信息处理设备的程序，在该程序的控制下，信息处理设备的计算机执行处理，包括：

[标号列表]

11-1 第一成像单元

11-2 第二成像单元

11-3 第三成像单元

11-4 第四成像单元

12-1至12-4 SLAM处理单元

13 整合单元

21 3D估计单元

22 立体成像装置

23 特征点检测单元

24 深度估计单元

25 坐标转换单元

26 保持单元

27 2D跟踪单元

28-1 第一成像单元

28-2 第二成像单元

28-3 第三成像单元

29-1至29-3 跟踪单元

30-1至30-3 坐标转换单元

31 姿势估计单元

100 计算机

101 CPU

Claims

1.一种信息处理设备，包括：

2.如权利要求1所述的信息处理设备，其中，

最终姿势确定单元包括

3.如权利要求2所述的信息处理设备，其中，

主估计单元估计从立体主图像对中检测到的特征点的3D坐标、通过在立体主图像对中的一个立体主图像的多个帧中跟踪特征点来估计移动体的姿势、以及将估计的姿势和姿势的可靠性输出到整合单元，

4.如权利要求3所述的信息处理设备，其中所述可靠性包括以下中的至少任意一个：对于估计姿势有效的特征点的数量、特征点的3D空间分布、估计的姿势和最近获得的最终姿势之间的差异以及在估计中执行的优化操作的残差。

5.如权利要求1所述的信息处理设备，其中，

每个副成像单元包括广角相机、鱼眼相机或全向相机，并且以预定帧速率捕获运动图像以输出作为时序图像的副图像，以及

最终姿势确定单元包括

3D估计单元，其估计从由主成像单元捕获的立体主图像对中检测到的特征点的3D坐标，

6.如权利要求5所述的信息处理设备，其中，

3D估计单元估计从由主成像单元捕获的立体主图像对中检测到的特征点的3D坐标，并且估计特征点在副图像中的2D坐标，以及

7.如权利要求6所述的信息处理设备，其中所述多个副成像单元基于由3D估计单元估计的特征点在副图像中的2D坐标的估计结果被选择性地切换用于执行成像。

8.一种用于信息处理设备的信息处理方法，所述方法由所述信息处理设备执行并且包括：

9.一种用于控制信息处理设备的程序，在所述程序的控制下，所述信息处理设备的计算机执行包括以下步骤的处理：