CN107079141B

CN107079141B - 用于三维视频的图像拼接

Info

Publication number: CN107079141B
Application number: CN201580051378.7A
Authority: CN
Inventors: 赛义德·萨迪; 塞尔吉奥·普尔迪赛斯-冈扎勒兹; 拉胡尔·布德海拉亚; 李东禹; 艾莎·穆达赛尔·赫瓦贾; 普拉纳夫·米斯特里
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-09-22
Filing date: 2015-09-22
Publication date: 2019-10-08
Anticipated expiration: 2035-09-22
Also published as: KR101885779B1; US20160088282A1; KR20170052674A; EP3198866A4; KR20170052675A; WO2016048013A1; EP3198862B1; WO2016048014A1; EP3198866A1; US10257494B2; CN107079141A; EP3198866B1; KR20170052676A; EP3198863A1; KR101885780B1; EP3198865A4; EP3198862A4; CN106797459A; CN105659592A; KR101885778B1

Abstract

在实施方式中，方法包括从多个相机接收多个图像，其中，多个相机包括具有第一定向的第一相机和具有第二定向的第二相机，多个图像包括来自第一相机的第一图像和来自第二相机的第二图像。所述方法还包括检测第一图像和第二图像内的多个特征点。所述方法还包括确定位于第一图像与第二图像之间的重叠区域内的一个或多个相应特征点对，其中，相应特征点对包括来自第一图像和第二图像中的每个图像的特征点中的相应特征点。所述方法还包括基于每个相应特征点对之间所计算的偏差，空间上调整第一图像或第二图像。

Description

用于三维视频的图像拼接

技术领域

本公开大致涉及三维成像。

背景技术

人类大脑基于眼睛之间的图像的差异来感知三维(3-D)图像。利用从稍微不同的角度获取的相同场景的两个图像，以高度精确性对物体进行三角测量是可能的。每只眼睛观察到由左眼和右眼看到的物体的稍微不同的角度。3-D成像的使用允许观看者沉浸在另一环境中，并且在某些情况下，允许观看者从不同的视角观看诸如体育赛事或演唱会的事件。

一些图像捕获***基于立体2-D图像的捕获。作为示例，可通过利用一对空间上隔开的平行相机捕获的2-D图像来构建3-D图像。作为另一示例，当捕获到立体图的瞬间时，单个相机可物理地移动以创建空间偏移。在很多情况下，图像捕获***局限于在限定的角度内捕获3-D图像。

3-D显示器常常通过向观看者的左眼和右眼分别呈现两个偏移图像来为2-D图像提供深度感。这些2-D图像随后在大脑中结合以提供3-D深度感。显示“偏移的”2-D图像以提供深度感的其他示例性方法包括在观看者的眼睛上使用上色相反的过滤器(例如，红色和青色)、不同的偏振或透镜的遮光。

发明内容

一种方法，包括：从多个相机接收多个图像，其中，所述多个相机包括具有第一定向(orientation)的第一相机和具有第二定向的第二相机，其中，所述多个图像包括来自所述第一相机的第一图像和来自所述第二相机的第二图像；检测所述第一图像和所述第二图像内的多个特征点；确定位于所述第一图像与所述第二图像之间的重叠区域内的一个或多个相应特征点对，其中，所述相应特征点对包括来自所述第一图像和所述第二图像中的每个的所述特征点中的相应的一个；基于每个相应特征点对之间所计算的偏差，空间上调整所述第一图像或所述第二图像；以及基于所述空间调整，将所述第一图像和所述第二图像结合为合并图像。

附图说明

图1示出示例性3-D成像***架构。

图2示出相机的示例性立体相机对。

图3示出相机***的示例性相机配置的部分平面图。

图4示出示例性相机***的平面图。

图5示出由相机***的相机捕获的图像的示例性集合。

图6示出示例性相机***的侧视图。

图7示出由相机***的相机捕获的重叠图像的示例性集合。

图8示出用于拼接离散图像的示例性方法。

图9和图10示出用于拼接离散图像的其他示例性方法。

图11示出示例性的图像分割。

图12示出示例性的图像特征点匹配。

图13示出示例性的顶部图像和示例性的主拼接图像。

图14示出处理后的来自图13的示例性顶部图像。

图15和图16示出用于拼接离散图像的示例性方法。

图17示出包括多种视频数据成分(component)的内容容器。

图18示出配置为将内容容器作为复合流进行广播的内容服务器。

图19示出涉及非捆绑流的直接传输的示例性传输方案。

图20至图22分别示出用于视频流的传输的示例性调解方案。

图23示出切片的流集合。

图24示出用于视频流的传输的示例***互方案。

图25示出用于传输3-D 360°视频的示例性方法。

图26示出基于利用摄影测量法的混合拼接的示例性重构过程。

图27示出用于重构3-D 360°视频的示例性方法。

图28示出用于重构3-D 360°视频的另一示例性方法。

图29示出在对图像应用变形操作之前和之后的单目图像的示例性集合。

图30至图31示出示例性360°立体3-D环境。

图32示出用于与3-D视频交互的示例性方法。

图33示出示例性头戴式客户端计算设备的框图。

图34示出戴着示例性头戴式客户端计算设备站在房间中的用户。

图35示出由用户戴着头戴式客户端计算设备观察到的示例性场景。

图36示出具有示例性通知的图35的示例性场景。

图37示出图35的场景上叠加有人的示例性场景。

图38示出图35的场景上叠加有狗的示例性场景。

图39示出分割为两个示例性视图的示例性显示器。

图40示出图35的场景上叠加有桌子的示例性场景。

图41示出图35的场景上叠加有弯曲的箭头的示例性场景。

图42示出具有示例性示意图的图35的示例性场景。

图43示出具有示例性鸟瞰图的图35的示例性场景。

图44示出示例性计算机***。

实现本发明的最佳实施方式

方法包括：从多个相机接收多个图像，其中，多个相机包括具有第一定向的第一相机和具有第二定向的第二相机，多个图像包括来自第一相机的第一图像和来自第二相机的第二图像；检测第一图像和第二图像内的多个特征点；确定位于第一图像与第二图像之间的重叠区域内的一个或多个相应特征点对，其中，相应特征点对包括来自第一图像和第二图像中的每个图像的特征点中的相应特征点；基于每个相应特征点对之间所计算的偏差，空间上调整第一图像或第二图像；以及基于空间调整，将第一图像和第二图像结合为合并图像。

第一图像与第二图像之间的重叠区域与第一相机和第二相机的相应的视场中的重叠部(overlap)成比例。

检测第一图像和第二图像内的多个特征点包括：

基于局部对比度梯度，检测第一图像和第二图像的一个或多个特征；以及

提取检测的特征的一个或多个特征点。

提取一个或多个特征点包括：利用尺度不变性特征转换(SIFT，scale-invariantfeature transform)、加速鲁棒特征(SURF，speeded up robust features)或ORB(oriented FAST and Rotated BRIEF)特征检测算法。

确定所述一个或多个相应特征点对包括：

将第一图像和第二图像分割为呈预定栅格的预定数量的区域；

比较位于沿第一图像的边缘的每个区域内的特征点与沿第二图像的相反边缘的对应区域；以及

基于边缘的每个区域内的特征点的图案，识别相应特征点对。

沿边缘的每个区域内的比较在每个特征点周围的预定区域上执行，其中预定区域基于重叠区域的像素数量。

所述方法还包括：确定预定区域中的差异的平方和是否小于预定阈值。

所述方法还包括：从第三相机接收第三图像，其中，第三图像在与第一图像和第二图像相同的时间周期期间被捕获，多个相机还包括具有第一定向的第三相机，以及第二相机位于第一相机与第三相机之间。

所述方法还包括：

检测第三图像内的多个特征点；

确定位于第一图像与第三图像之间的重叠区域内的一个或多个相应特征点对，其中，第一图像和第三图像的相应特征点对包括来自第一图像和第三图像中的每个图像的特征点中的相应特征点；以及

确定位于第二图像与第三图像之间的重叠区域内的一个或多个相应特征点对，其中，第二图像和第三图像的相应特征点对包括来自第二图像和第三图像中的每个图像的特征点中的相应特征点。

第一相机和第三相机包括立体相机对。

所述方法还包括：从第三相机接收第三图像，其中，多个相机还包括定向为与第一相机和第二相机所限定的平面大致正交的第三相机。

所述方法还包括：

确定位于合并图像与第三图像之间的重叠区域内的一个或多个相应特征点对，其中，相应特征点对包括来自合并图像和第三图像中的每个图像的特征点中的相应特征点；以及

围绕第三图像的中心应用径向扭曲，使得第三图像的中心固定。

计算所述偏差包括：计算与每个相应特征点对之间的空间偏移的绝对值成比例的成本函数。

计算所述偏差包括：计算与每个相应特征点对之间的沿一个或多个旋转轴的旋转偏移成比例的成本函数。

第二定向不同于第一定向，以及每个图像在相同的时间段期间被捕获。

结合第一图像和第二图像包括：

检测重叠区域中的边缘；以及

在边缘上应用梯度。

空间上调整第一图像或第二图像包括旋转或平移第一图像或第二图像。

一个或多个非暂时性计算机可读存储介质，包括指令，所述指令在被执行时可操作为：

从多个相机接收多个图像，其中，多个相机包括具有第一定向的第一相机和具有第二定向的第二相机，多个图像包括来自第一相机的第一图像和来自第二相机的第二图像；

检测第一图像和第二图像内的多个特征点；

确定位于第一图像与第二图像之间的重叠区域内的一个或多个相应特征点对，其中，相应特征点对包括来自第一图像和第二图像中的每个图像的特征点中的相应特征点；

基于每个相应特征点对之间所计算的偏差，空间上调整第一图像或第二图像；以及

基于空间调整，将第一图像和第二图像结合为合并图像。

第一图像与第二图像之间的重叠区域与第一相机和第二相机的相应视场中的重叠部成比例。

检测第一图像和第二图像内的多个特征点包括：

提取检测的特征的一个或多个特征点。

确定位于第一图像与第二图像之间的重叠区域内的一个或多个相应特征点对包括：

比较位于沿第一图像的边缘的每个区域内的特征点与沿第二图像的相反边缘的对应区域；以及基于边缘的每个区域内的特征点的图案，识别相应特征点对。

所述指令在被执行时还可操作为：从第三相机接收第三图像，其中，第三图像在与第一图像和第二图像相同的时间周期期间被捕获，多个相机还包括具有第一定向的第三相机，以及第二相机位于第一相机与第三相机之间。

所述指令在被执行时还可操作为：

检测位于第三图像内的多个特征点；

确定位于第三图像内以及第一图像与第三图像之间的重叠区域内的一个或多个相应特征点对，其中，第一图像和第三图像的相应特征点对包括来自第一图像和第三图像中的每个图像的特征点中的相应特征点；以及

每个相应特征点对之间所计算的偏差包括与每个相应特征点对之间的空间偏移的绝对值成比例的成本函数。

一种设备包括：

一个或多个非暂时性计算机可读存储介质，包括指令；以及

一个或多个处理器，联接至存储介质并且配置为执行指令以：从多个相机接收多个图像，其中，多个相机包括具有第一定向的第一相机和具有第二定向的第二相机，多个图像包括来自第一相机的第一图像和来自第二相机的第二图像；检测第一图像和第二图像内的多个特征点；确定位于第一图像与第二图像之间的重叠区域内的一个或多个相应特征点对，其中，相应特征点对包括来自第一图像和第二图像中的每个图像的特征点中的相应特征点；基于每个相应特征点对之间所计算的偏差，空间上调整第一图像或第二图像；以及基于空间调整，将第一图像和第二图像结合为合并图像。

检测第一图像和第二图像内的多个特征点包括：基于局部对比度梯度，检测第一图像和第二图像的一个或多个特征；以及提取检测的特征的一个或多个特征点。

将第一图像和第二图像分割为呈预定栅格的预定数量的区域；比较位于沿第一图像的边缘的每个区域内的特征点与沿第二图像的相反边缘的对应区域内的特征点；以及基于边缘的每个区域内的特征点的图案，识别相应特征点对。

处理器进一步配置为执行指令以从第三相机接收第三图像，其中，第三图像在与第一图像和第二图像相同的时间周期期间被捕获，多个相机还包括具有第一定向的第三相机，第二相机位于第一相机与第三相机之间。

处理器进一步配置为执行指令以：

检测第三图像内的多个特征点；

具体实施方式

捕获并重构3-D视频的能力在充分地利用游戏***、电视机或移动设备的3-D性能中起到显著的作用。通过接近地模型化人类视觉感知的各个方面，经由个人自身的眼睛可能几乎无法从自然视图中辨别生成的3-D视频，由此创建自然的3-D观赏体验。

图1示出示例性3-D成像***架构。在具体实施方式中，用于捕获、编码并渲染360°3-D视频的***架构100可包括相机***110、前端处理器120、拼接服务器130、内容服务器140和客户端150(也称为客户端***150、客户端设备150)。尽管本公开描述并示出由特定***构成的特定3-D成像***，但是本公开可设想到由任何适当的***构成的任何适当的3-D成像***。

相机***110可包括配置为数字化所捕获的图像的若干对相机112。例如但不限于，所捕获的图像可对应于实时捕获并处理的360°3-D视频。相机***110的相机112可连接至(例如，通过通用串行总线(USB))前端处理器120。前端处理器120可通过同步来自各相机112的图像的开始和停止来提供相机112的初始控制。前端处理器120也可确定或设定相机参数，诸如快门速度或曝光时间。前端处理器120可对从相机***110传入的视频进行归一化、校正变形、压缩或编码。在具体实施方式中，前端处理器120的数量可基于相机***110的相机112的数量和传入的图像的尺寸(例如，帧频或帧尺寸)。来自前端处理器120的图像数据可传输至(例如，通过传输控制协议(TCP)网络)拼接服务器130，所述拼接服务器130对由相机***110捕获的离散图像执行拼接。

如下所描述，拼接服务器130可将来自各相机的离散数据拼接在一起，以生成3-D视频的完整帧。在具体实施方式中，拼接服务器130可计算离散数据的图像对齐并且可将完整帧分割为垂直条。拼接服务器130可以不同的尺寸和码率(bit-rate)重新压缩条，以进行可变码率控制。当不需要实时性能时，可使用单个拼接服务器130，或者当高分辨率、高帧频和3-D视频的实时性能被消耗时，可使用多达数十个甚至数百个拼接服务器130。3-D视频的帧可存储或传输至内容服务器140。

内容服务器140可对客户端***150充当内容分发网络的作用，并且可与客户端***150通信以将请求的3-D视频的适当部分串流到观看者。内容服务器140可以帧为单位将请求的3-D视频传输至客户端***150。在具体实施方式中，内容服务器140的数量可与接收3-D视频的客户端***150的数量成比例。

客户端***150可充当供用户观看通过内容服务器140传输的3-D视频的设备。此外，从客户端***150至内容服务器140的输入可修改传输至客户端***150的3-D视频的部分。作为示例，3-D视频可基于来自客户端***150的、指示用户的观看角度改变的数据进行调整。在具体实施方式中，客户端***150可请求与两侧添加有附加帧的直观视图对应的帧。在具体实施方式中，客户端***150可为观看者请求低分辨率、完整帧图像并重新构建3-D视频。

图2示出相机112的示例性立体相机对200。在具体实施方式中，立体相机对200可包括分别被称为左相机L和右相机R的两个相机112。左相机L和右相机R可分别捕获与人的左眼和右眼对应的图像，并且由左相机L和右相机R捕获的视频图像可作为3-D图像回放给观看者。在具体实施方式中，立体相机对200可被称为对、立体相机的对、相机对或立体相机对。如下所描述，相机***110可利用数字相机(“相机”)112的若干相机对200捕获3-D图像，其中相机***110可使用集成数字相机或通向一个或多个外部数字相机的接口。在具体实施方式中，数字相机可指以数字格式捕获或存储图像或视频的设备。在这里，术语“相机”可指数字相机，并且术语“视频”可指数字视频或以数字格式记录或存储的视频。

在具体实施方式中，相机112可包括配置为捕获单独的照片图像或作为视频的一系列图像的图像传感器。例如但不限于，相机112可包括电荷耦合设备(CCD)图像传感器或互补型金属氧化物半导体(CMOS)有源像素图像传感器。在具体实施方式中，相机112的图像传感器可具有大约16：9、4：3、3：2的纵横比(例如，传感器的宽度对高度的比例)或任何适当的纵横比。在具体实施方式中，相机112的图像传感器的宽度可大于图像传感器的高度。在具体实施方式中，图像传感器的宽度和高度可以以沿图像传感器的两个轴的若干像素表示，并且图像传感器的宽度可表示图像传感器的较长尺寸。例如但不限于，图像传感器可具有500至8000像素之间宽度或高度。作为另一示例而非限制，具有1920像素的宽度和1080像素的高度的图像传感器可被称为具有16：9的纵横比的图像传感器。在具体实施方式中，相机112可包括镜头或镜头组件以将传入的光收集并聚焦在图像传感器的聚焦区域上。例如但不限于，相机112可包括鱼眼镜头、超广角镜头、广角镜头或常规镜头以将光聚焦在图像传感器上。尽管本公开描述并示出具有特定图像传感器和特定镜头的特定相机，但是本公开可设想到具有任何适当的图像传感器和任何适当的镜头的任何适当相机。

在具体实施方式中，相机112可具有视场角(FOV)，所述视场角(FOV)至少部分地取决于相机112的镜头组件的位置、焦距或放大倍数以及相机112的图像传感器的位置或尺寸。在具体实施方式中，相机112的FOV可指通过相机112可见的具体场景的水平、垂直或对角范围。相机112的FOV内的物体可被相机112的图像传感器捕获，并且FOV外的物体可能不会出现在图像传感器上。在具体实施方式中，FOV可被称为视角(AOV)，并且FOV或AOV可指通过相机112捕获或成像的具体场景的角度范围。例如但不限于，相机112可具有处于30°和200°之间的FOV。作为另一示例而非限制，具有100°FOV的相机112可表明相机112可捕获位于相机112所指向的方向或定向114的±50°内的物体的图像。

在具体实施方式中，相机112可具有两个特定的FOV，诸如水平视场(FOV_H)和垂直视场(FOV_V)，其中两个FOV定向为彼此大致正交。例如但不限于，相机112可具有处于30°和100°之间的范围内的FOV_H和处于90°和200°之间的范围内的FOV_V。在图2的示例中，相机112具有大约80°的FOV_H。在具体实施方式中，相机112可具有宽于其FOV_H的FOV_V。例如但不限于，相机112可具有大约45°的FOV_H和大约150°的FOV_V。在具体实施方式中，具有两个不相等的FOV的相机112可至少部分地由于相机112包括具有矩形形状的图像传感器(例如，相机112可包括具有16：9的纵横比的图像传感器)。在具体实施方式中，相机112可定位成使其FOV_V与相机112的图像传感器的宽度对齐或对应，并使其FOV_H与图像传感器的高度对齐。例如但不限于，图像传感器可具有这样的高度和宽度，其中宽度表示两个图像传感器尺寸中的较长的一个；并且相机112可定位成使得其图像传感器的宽度轴对应于FOV_V。尽管本公开描述并示出具有特定视场的特定相机，但是本公开可设想到具有任何适当的视场的任何适当相机。

在具体实施方式中，相机112可具有表示相机112所指向的角度或方向的定向114。在具体实施方式中，定向114可由沿着相机112的FOV的中心的线或射线表示。在具体实施方式中，相机112的定向线114可大致沿着相机112的纵轴、大致与相机的镜头组件或图像传感器的表面正交或大致与轴115正交进行指向，其中轴115表示立体相机对200的相机L和相机R之间的线。在图2的示例中，定向114-L和定向114-R各自大致与轴115正交，并且定向114-L和定向114-R各自大约沿着相机112的FOV_H的相应中心进行指向。在具体实施方式中，立体相机对200中的每个相机112可相对于彼此具有特定的定向114。在具体实施方式中，立体相机对200的左相机和右相机112可各自指向大致相同的方向，并且左相机和右相机的定向114可大致平行(例如，定向114之间的角度可约为0°)。在图2的示例中，左相机定向114-L大致平行于右相机定向114-R，这表明相机L和相机R指向大致相同的方向。具有平行定向114的左相机和右相机112可代表指向相同方向的相机，并且相机L和相机R可被称为具有相同的定向。在具体实施方式中，具有相同定向的左相机L和右相机R可分别表示在±0.1°、±0.5°、±1°、±2°、±3°范围内或在任何适当的角度值内彼此平行的定向114-L和定向114-R。在具体实施方式中，立体相机对200的定向可由平行的左相机和右相机112的定向114表示。例如但不限于，当第一相机对中的每个相机相对于第二相机对中的相机定向在30°度时，第一立体相机对200可被称为相对于第二立体相机对200具有30°度定向。

在具体实施方式中，左相机L和右相机R可具有定向114-L和定向114-R，并且在两者之间具有特定的非零角度。例如但不限于，立体相机对200中的两个相机可定向成稍微靠近彼此或远离彼此，其中两者之间具有约0.5°、1°、2°或任何适当的角度值。在具体实施方式中，立体相机对200的定向可由定向114-L和定向114-R表示。尽管本公开描述并示出具有特定定向的特定相机，但是本公开可设想到具有任何适当的定向的任何适当相机。

在具体实施方式中，一个相机对(例如，L和R)中的相机112之间的相机间间距(ICS)可表示两个相机彼此相隔的距离。在具体实施方式中，立体相机对200可具有ICS处于6cm和11cm之间的相机112，其中ICS可在两个相机112的两个对应的点或特征之间测量出。例如但不限于，ICS可对应于两个相机112的中间点之间的距离、两个相机112的纵轴之间的距离或两个相机112的定向线114之间的距离。在具体实施方式中，立体相机对200的相机L和R可沿着轴115相隔ICS的距离，其中轴115表示连接相机L和R的线，并且相机定向114-L和114-R大致与轴115正交。在图2的示例中，ICS是在相机L和R之间沿着分隔轴115测量的距离。在具体实施方式中，ICS可对应于人眼的瞳孔之间的大致或平均的距离或人眼的瞳孔间距(IPD)。例如但不限于，ICS可在6cm与7cm之间，其中6.5cm对应于人类的大致的平均IPD值。在具体实施方式中，立体相机对200可具有大于平均IPD值的ICS值(例如，ICS可为7cm至11cm)，并且向观看者回放时，该较高的ICS值可提供看起来具有增强的3-D特性的场景。尽管本公开描述并示出具有特定相机间间距的特定相机对，但是本公开可设想到具有任何适当相机间间距的任何适当相机。

图3示出相机***110的示例性相机配置的部分平面图。在图3的示例中，相机***110包括由L1和R1构成的第一相机对200、由L2和R2构成的第二相机对200和由Ln和Rn构成的第n相机对200。在具体实施方式中，相机***110还可包括另外的相机对，诸如相机对L3-R3(相机L3未在图3中示出)或相机对Ln1-Rn1(相机Rn1未在图3中示出)。尽管本公开描述并示出具有特定数量的相机对的特定相机***，但是本公开可设想到具有任何适当的数量的相机对的任何适当相机***。

在具体实施方式中，相机***110的相机112可沿着直线、曲线、椭圆(或椭圆的一部分)、圆(圆的一部分)布置，或者沿着任何其他适当的形状或任何适当的形状的一部分布置。具有沿着圆布置的相机112的相机***110可配置为记录360°全景视角的图像。在图3的示例中，相机112沿着如由图3中的圆形虚线表示的圆的一部分布置。图3所示的相机***110可记录半圆的图像，并且提供约180°角度的视野。在具体实施方式中，相机***110的相机112可各自位于相同的平面中。例如但不限于，相机***110的每个相机112可位于水平平面中，并且每个相机112可使其FOV_H定向为沿着水平平面，并且可使其FOV_V定向为与水平面正交。在图3的示例中，相机112各自位于相同的平面中，并且每个相机112的FOV_H也定向在上述平面中。在具体实施方式中，相机***110的相机112可各自定向在相同的平面中，并且各相机的定向114也可位于该相同的平面中。在图3的示例中，相机112各自位于相同的平面中，并且相机定向(例如，114-L1、114-L2、114-R1和1140-R2)也位于相同的平面中，使得每个相机指向位于上述平面中的方向。在具体实施方式中，相机112定位成使得相机112的图像传感器的高度维度定向为沿着水平面，使得图像传感器的高度与FOV_H对齐并对应。另外，相机112可定位成使得相机112的图像传感器的宽度维度定向为与水平面正交，使得图像传感器的宽度对应于FOV_V。在具体实施方式中，相机112可捕获具有使得图像的纵向范围大于图像的水平范围的纵横比的图像。

在具体实施方式中，相机***110可包括相机112的若干相机对200，其中相机对200是彼此交错的。在具体实施方式中，交错的相机对200可指如下的相机配置，即，第一相机对的一个相机位于相邻的第二相机对的相机之间。另外，第二相机对的一个相机也可位于第一相机对的相机之间。在具体实施方式中，相邻的或毗邻的相机对200可指彼此邻接的相机对200或者布置成一个相机对200的相机位于另一相机对200的两个相机之间的相机对200。在具体实施方式中，交错的相机对200可指具有这样的第一相机对和第二相机对的相机配置：其中，第二相机对通过第一相机对的至少一个相机彼此分隔开。另外，第一相机对也可通过第二相机对的至少一个相机彼此分隔开。在图3的示例中，相机对L2-R2与相机对L1-R1相交错；反之，相机对L1-R1与相机对L2-R2相交错。相机对L1-R1和L2-R2相交错，使得相机R2位于相机L1和R1之间且相机L1位于相机L2和R2之间。类似地，相机对L1-R1和Ln-Rn也彼此相交错。相机对L1-R1和Ln-Rn相交错，使得相机L1和R1至少通过相机Ln分隔开且相机Ln-Rn至少通过相机R1分隔开。在图3的示例中，相机对L1-R1与两个毗邻的相机对(相机对L2-R2和相机对Ln-Rn)相交错。

在具体实施方式中，相机***110可包括相机112的第一相机对200，其中第一相机对的相机通过相机112的第二相机对200的至少一个相机112彼此分隔开。在图3的示例中，相机对L1-R1的相机L1和R1通过相机对L2-R2的相机R2彼此分隔开。另外，第一相机对可具有与第二相机对的定向114不同的定向114。在图3的示例中，相机对L1-R1的定向(可由定向114-L1或114-R1表示)不同于相机对L2-R2的定向(可由定向114-L2或114-R2表示)。在具体实施方式中，相机***110也可包括第三相机对(例如，图3中的Ln-Rn)，并且第一相机对的相机(例如，L1-R1)也可通过第三相机对(例如，Ln-Rn)的相机(例如，相机Ln)彼此分隔开。另外，第三相机对可具有与第一相机对和第二相机对的定向114不同的定向114。尽管本公开描述并示出具有以特定配置布置的特定相机的特定相机***，但是本公开可设想到具有以任何适当配置布置的任何适当相机的任何适当相机***。

在具体实施方式中，相机***110可包括多重交错的相机对200，其中每个相机对200具有特定的定向114。在具体实施方式中，每个相机对200的相机112可均匀地布置，使得每个相机对200相对于一个或多个相邻相机对200定向在角度Θ处。在具体实施方式中，角度Θ可对应于相邻相机112对200之间的定向114的角度间隔或差异。在图3的示例中，相机L1和R1如由它们各自的大致平行的定向114-L1和114-R1所表示的指向相同的方向。类似地，相机L2和R2分别如由它们各自大致平行的定向114-L2和114-R2(不同于相机对L1-R1的定向)所表示的指向一方向。在具体实施方式中，对于相机***110的每个相机对200，相邻相机对200之间的角度Θ可大致相同，使得相机对200布置成它们各自的定向114之间具有一致的差异。例如但不限于，相机***110的相邻相机对200可各自定向在约26°、30°、36°、45°、60°、90°的角度，或相对于彼此定向在任何适当的角度。在图3的示例中，相机对L2-R2相对于相机对L1-R1定向在角度Θ≈30°。在具体实施方式中，对于具有沿着圆布置的n个均匀隔开的相机对200(其中，n为正整数)的相机***110，每个相邻相机对之间的角度Θ可表示为Θ≈360°/n。例如但不限于，对于具有以均匀地隔开的圆形配置分布的n＝12对相机的相机***110，每个相邻相机对之间的角度Θ为约360°/12＝30°。作为另一示例而不限制，对于具有以均匀地隔开的圆形配置分布的n＝8对相机的相机***110，每个相邻相机对之间的角度Θ为约360°/8＝45°。

在具体实施方式中，第一和第二相机对200可相交错，使得第二相机对的右相机112与第一相机对的左相机112相邻，并且第二相机对的右相机112的FOV_H的中心与第一相机对的左相机112的FOV_H的中心相交叉。在图3的示例中，第一相机对L1-R1与第二相机对L2-R2相交错，使得右相机R2与左相机L1相邻，并且相机R2的FOV_H的中心(如由定向114-R2表示)与相机L1的FOV_H的中心(如由定向114-L1表示)相交叉。在具体实施方式中，第一和第三相机对200可相交错，使得第三相机对的左相机112与第一相机对的右相机112相邻，并且第三相机对的左相机112的FOV_H的中心与第一相机对的右相机112的FOV_H的中心相交叉。在图3的示例中，第一相机对L1-R1与第n相机对Ln-Rn相交错，使得左相机Ln与右相机R1相邻，并且相机Ln的FOV_H的中心(如由定向114-Ln表示)与相机R1的FOV_H的中心(如由定向114-R1表示)相交叉。尽管本公开描述并示出以特定方式相交错的特定相机对，但是本公开可设想到以任何适当方式相交错的任何适当相机对。

在具体实施方式中，对于相机***110的一个或多个相机对200，相邻相机对200之间的角度Θ可以不相同，使得相机对200可具有不均匀的角度间隔。例如但不限于，相机***110中的相机对200的角度间隔或分布可至少部分地基于每个相机112的FOV_H而改变。例如，相机***110的具有窄FOV_H的某些相机对200可具有30°的角度间隔，而具有宽FOV_H的其他相机对200具有50°的角度间隔。尽管本公开描述并示出包括具有特定角度间隔的特定相机对的特定相机***，但是本公开可设想到包括具有任何适当的角度间隔的任何适当相机对的任何适当相机***。

在具体实施方式中，一组左相机(例如，对应于人的左眼的相机L1、L2等)或一组右相机(例如，对应于人的右眼的相机R1、R2、R3等)的每个FOV_H可与群组中的相邻相机具有角度重叠部116。在图3的示例中，角度重叠部116表示由相邻相机R1和R2捕获的图像之间的共享部分或重叠部。在图3中，相机R2和R3、相机Rn和R1、相机L1和L2以及相机Ln和Ln-1也可共享类似的角度重叠部。在具体实施方式中，具有角度重叠部116的相邻相机112可在其水平FOV具有10％与30％之间的重叠部。例如但不限于，具有以10-30％重叠的水平FOV的相邻相机可分别捕获以10％与30％之间重叠的图像。作为另一示例而不限制，分别具有FOV_H≈50°和约10°的角度重叠部116的相邻相机可称为具有约20％(＝10°/50°)的角度重叠部或图像重叠部。在具体实施方式中，且如下所描述，角度重叠部116可用于识别图像特征以及创建无缝地呈现如由相机***110捕获的整个视野的拼接图像。尽管本公开描述并示出具有特定角度重叠部的特定相机，但是本公开可设想到具有任何适当的角度重叠部的任何适当相机。

图4示出示例性相机***110的平面图。如以下所描述，相机***110可包括配置为以360度以及立体3-D格式捕获图像并记录或串流实时视频的相机112的立体相机对200的空间布置。在具体实施方式中，相机***110可包括构成n个相机对200的2n个相机112，其中n为正整数。在具体实施方式中，相机***110可包括n＝1,2,3,4,6,8,10,12,14,16个或任何适当数量的相机对200。例如但不限于，相机***110可包括构成n＝4个相机对200的8个相机112，或者相机***110可包括构成n＝8个相机对200的16个相机112。在图4的示例中，n等于12，并且相机***110包括构成12个相机对200(例如，相机对L1-R1至相机对L12-R12)的24个相机112。如上所述，相机***110的相机对200可均匀地布置，使得相邻相机对200相对于彼此定向在Θ≈360°/n的角度。在图4的示例中，n等于12，并且如从相机***110的中心画至相机对200的射线R之间的30°的角度所呈现的，相机对200相对于彼此定向在约30°(＝360°/12)。

在具体实施方式中，相机***110的相机112可配置为使得相邻的左相机的水平FOV重叠，类似地，相邻的右相机的水平FOV重叠。在图4的示例中，相邻的左相机(例如，相机L1和L2、相机L2和L3等)中的每一对可就其水平FOV具有10％与30％之间的重叠部。类似地，每对相邻的右相机(例如，相机R1和R2、相机R2和R3等)中的每一对可就其水平FOV具有10％与30％之间的重叠部。在具体实施方式中，每一组左相机(例如，图4中的相机L1-L12)可定向为捕获覆盖围绕相机***110的完整的360°视角的对应的一组左图像。类似地，每一组右相机(例如，图4中的相机R1-R12)可定向为捕获覆盖围绕相机***110的完整的360°视角的对应的一组右图像。

在具体实施方式中，相机***110的相机112可布置成大致的圆形配置，在该配置中，相机112位于相机机身118的外缘或圆周处或附近。在具体实施方式中，相机机身118可代表保持、包含或围护相机***110的相机112的机械结构、围护结构或壳体，以及作为相机***110的一部分的其他设备，诸如，一个或多个电源或处理器。在图4的示例中，相机***110的24个相机112在相机机身118的外缘附近布置成具有圆形形状的圆形配置。在具体实施方式中，相机***110的每个相机对200可对齐，以使其定向114从共同的中心点117远离或径向向外地指向。在图4的示例中，中心点117代表相机***110的机身118的中心，并且如由射线R所表示，每个相机对的定向从中心点117径向向外指向。在具体实施方式中，相机***110的相机机身118可具有约为10cm、15cm、20cm、25cm、30cm或任何适当的大小的尺寸、宽度或直径119。在图4的示例中，相机机身118可具有直径119为约20cm的外缘。在具体实施方式中，相机***110可具有与转动的人体头部的尺寸相当的尺寸。例如但不限于，相机机身118可具有约20cm的直径，并且相机对200可定位成与人转动其头部时的人眼的位置对应。尽管本公开描述并示出具有特定尺寸、宽度或直径的特定相机***，但是本公开可设想到具有任何适当的尺寸、宽度或直径的任何适当相机***。

在具体实施方式中，相机***110的两个或两个以上的相机112可被称为彼此相邻。在具体实施方式中，彼此相邻的两个相机112可指彼此紧挨着或相邻且其间不具有其他相机的两个相机。在图4的示例中，相机L1和R3彼此相邻，相机L2和R3彼此相邻。在图4中，相机R1与相机L11和相机L12相邻。在具体实施方式中，相邻相机可被识别为在特定一组相机内，而不认为是属于该群组的其他相机。例如但不限于，即使存在位于两个相机附近或位于它们之间的右相机，一组左相机内的两个相机可被识别为彼此相邻。在图4中，对于所述一组左相机(相机L1至L12)，相机L1与相机L2和L12相邻；以及对于所述一组右相机(相机R1至R12)，相机R1和R2相邻。

图5示出由相机***110的相机112捕获的图像(I-1至I-8)的示例性集合。例如但不限于，图像I-1至I-8可分别对应于由相机***110的左相机L-1至L-8捕获的图像。图像I-1至I-8可表示利用与图3或图4所示的相机***相似的相机***110捕获的图像。在具体实施方式中，相机***110的一组左相机或一组右相机112捕获的一组图像可在相邻的图像之间具有重叠区域210，其中，重叠区域210表示对应于大致相同的场景的相邻的图像的部分或区域。在图5的示例中，重叠区域210_5-6表示相邻的图像I-5与I-6之间的重叠部，并且重叠区域210_5-6中的捕获的场景包括云朵的右边部分和桥的一部分。类似地，重叠区域210_6-7表示相邻的图像I-6与I-7之间的重叠部，并且重叠区域210_6-7中的捕获的图像包括桥塔。

在具体实施方式中，重叠区域210可对应于相邻相机112的水平FOV的重叠部。在具体实施方式中，相机***110的左相机或右相机112捕获的相邻图像可具有10％与30％之间的重叠部。在具体实施方式中，重叠的量或百分比对应于重叠区域210的高度、宽度或面积与对应图像的高度、宽度或面积的比例。在图5的示例中，图像I-5与I-6之间的重叠量等于重叠区域210_5-6的宽度204除以图像I-5或I-6的宽度206。在具体实施方式中，重叠区域210的尺寸或图像的尺寸可以以距离来表示(例如，以mm或cm为单位)或以像素数来表示。在图5的示例中，如果重叠区域宽度204为162像素且图像宽度206为1,080像素，则图像I-5与I-6之间的重叠部为15％(＝162/1080)。尽管本公开描述并示出具有特定重叠区域或重叠量的特定图像，但是本公开可设想到具有任何适当的重叠区域或重叠量的任何适当的图像。

在具体实施方式中，相机112可定位成捕获具有这样的纵横比的图像，所述纵横比使得图像的垂直幅度207大于图像的水平幅度206。例如但不限于，相机112可捕获具有1,920像素的垂直幅度207和1,080像素的水平幅度206的图像。在图5的示例中，图像I-6具有大于水平幅度206的垂直幅度207。

在具体实施方式中，相邻图像或相邻的图像可指共享共同的重叠区域210且定位成彼此相邻图像。在图5的示例中，图像I-2和I-3相邻，并且图像I-6与图像I-5和I-7相邻。在具体实施方式中，相邻图像可对应于由相应的相邻相机捕获的图像。在图5的示例中，图像I-1至I-8可分别对应于由左相机L1至L8捕获的图像，诸如，图4的左相机L1至L8。图像I-1和I-2为相邻图像，并且这些图像可分别由相邻的左相机L1和L2捕获。

图6示出示例性相机***110的侧视图。在具体实施方式中，相机***110可包括一个或多个顶部相机112T，顶部相机112T在由沿着相机***110的周边布置的侧部相机112捕获的不同的圆柱面形侧视图上方创建“盖(cap)”。在具体实施方式中，侧部相机112可指布置成平面配置并且其相应定向114位于相同的平面中的相机112，例如，图3或图4所示的相机112。在具体实施方式中，顶部相机112T可提供可与来自侧部相机112的图像结合的仰视图，使得在观看3-D视频时用户能够向上观看(也能够看向其左侧或右侧，或者在FOV_V的向下的幅度内向下观看)。在具体实施方式中，相机***110可包括指向上方的一个或多个顶部相机112T以及指向下方的一个或多个底部相机(图6中未示出)。例如但不限于，来自侧部相机112的图像可与来自顶部相机112T和底部相机的图像结合，使得用户能够在观看3-D视频时向任何方向观看(例如，左、右、上或下)。在具体实施方式中，相机***110可包括两个或两个以上的顶部相机112T(例如，可构成立体相机对的左顶部相机和右顶部相机)，并且来自顶部相机112T的图像可结合以增强用户在观看3-D视频且向上看时的3-D感知。尽管本公开描述并示出具有特定顶部相机或底部相机的特定相机***，但是本公开可设想到具有任何适当的顶部相机或底部相机的任何适当相机***。

在具体实施方式中，顶部相机112T可具有与一个或多个侧部相机112的垂直视场FOV_V重叠的视场FOV_T。例如但不限于，来自顶部相机112T的图像的外缘部分可与来自相机112的图像的上部重叠10-30％。在图6的示例中，角度重叠部116表示顶部相机112T的FOV_T与侧部相机112的FOV_V之间的重叠部。在具体实施方式中，顶部相机112T可具有相对高的FOV_T。例如但不限于，顶部相机112T可包括鱼眼镜头，并且顶部相机112T的FOV_T可处于140°至185°的范围内。在具体实施方式中，相机***110可包括一组侧部相机112并且可不包括顶部相机112T。例如但不限于，相机***110可包括FOV_V处于140°至185°的范围内的侧部相机112，并且侧部相机112可配置为在不使用顶部相机的情况下捕获所有或大部分360°全景。在具体实施方式中且如图6所示，相机***110可包括一组侧部相机112以及一个顶部相机112T。在具体实施方式中，相对于不具有顶部相机的相机***110，具有顶部相机112T的相机***110可允许侧部相机112具有降低的FOV_V。例如但不限于，相机***110可包括FOV_V处于100°至160°范围内的侧部相机112，其中FOV_V与顶部相机112T的FOV_T重叠。

在具体实施方式中，顶部相机112T可位于相机***110的顶表面附近，或者如图6所示，顶部相机112T可相对于相机***110的顶表面凹陷或缩进。例如但不限于，顶部相机112T可位于凹陷的位置中，该位置可提供与侧部相机112的大的重叠量。在具体实施方式中，相机***110的侧部相机112各自可具有位于相机***110的水平面中的定向114，并且顶部相机112T的定向114T可与定向114大致正交。在图6的示例中，侧部相机112水平地定向，且顶部相机112T具有垂直的定向114T。尽管本公开描述并示出包括具有特定布置、定向或视场的特定边缘相机和特定顶部相机的特定相机***，但是本公开可设想到包括具有任何适当的布置、定向或视场的任何适当的边缘相机和任何适当的顶部相机的任何适当相机***。

图7示出由相机***110的相机112捕获的重叠图像的示例性集合。在具体实施方式中，具有n个相机对200和一个顶部相机112T的相机***110可为视频的每一帧捕获2n+1个图像。图7所示的图像可利用与图6所示的相机***相似的相机***110的2n个侧部相机112和顶部相机112T来捕获。在具体实施方式中，n个左相机112和n个右相机112可如上所述布置成对且相交错，使得左相机图像I-L1至I-Ln重叠，并且右相机图像I-R1至I-Rn重叠。在图7的示例中，重叠区域210L表示相邻的左相机的图像的重叠部分，并且重叠区域210R表示相邻的右相机的图像的重叠部分。例如但不限于，相邻的左相机2和3可分别捕获图像I-L2和I-L3，其具有对应的重叠区域210L_2-3。在图7的示例中，图像I-Top表示由顶部相机112T捕获的图像，并且重叠区域210T表示图像I-Top的、与来自侧部相机112的图像的上部重叠的外缘部分。在具体实施方式中，重叠区域210T可利用来自一个或多个侧部相机112的图像来拼接顶部图像I-Top。

在具体实施方式中，左相机和右相机112可布置成使得每个左相机重叠区域210L捕获在对应的右相机112的单个图像内，并且每个右相机重叠区域210R捕获在对应的左相机112的单个图像内。在图7的示例中，图像I-L1和I-L2的重叠区域210L_1-2对应于图像I-R1，使得左相机L1和L2之间的重叠部被右相机R1捕获。类似地，图像I-R2和I-R3的重叠区域210R_2-3对应于图像I-L3，使得相机R2和R3之间的重叠部包含在相机L3的视场内。在具体实施方式中，以及如以下所描述，两个图像之间的重叠区域210可用于识别图像特征以及创建拼接图像。另外，如由另一相机捕获的重叠区域210也可在拼接过程中使用。在图7的示例中，图像I-R1和I-R2可至少基于位于两个图像的重叠区域210R_1-2中的特征而拼接在一起。另外，由于图像I-L2捕获相同的重叠区域，所以图像I-L2也可在拼接过程中使用或用于验证应用至图像I-R1和I-R2的拼接过程的准确性。虽然本公开描述并示出配置为捕获具有特定重叠区域的特定图像的特定相机***，但是本公开可设想到配置为捕获具有任何适当重叠区域的任何适当图像的任何适当相机***。

在具体实施方式中，相机***110可包括用于获取与图像中的对象有关的深度信息的一个或多个深度传感器。例如但不限于，一个或多个深度传感器可位于相机***110的相机112之间或附近。在具体实施方式中，深度传感器可用于确定与位于相机112的FOV内的对象有关的深度或距离信息。例如但不限于，深度传感器可用于确定处于相机112的FOV内的人定位成与相机***110相隔约1.5米，而背景中的对象定位成与相机***110相隔约4米。在具体实施方式中，深度信息可基于三角测量技术确定。例如但不限于，可利用三角测量来分析由两个或两个以上的相应的相机112捕获的两个或两个以上的图像，以确定图像中的对象相距相机***110的距离。在具体实施方式中，相机***110可包括基于结构光扫描技术进行操作的深度传感器。例如但不限于，结构光3-D扫描仪可照射具有投射的光图案(例如，来自诸如激光或发光二极管的红外线光源的一片光或平行光带)的场景；以及从投射的光图案反射或散射的图像可被捕获(例如，通过作为深度传感器的一部分的相机)并且可被用于确定场景中的对象的距离。在具体实施方式中，相机***110可包括基于飞行时间技术操作的深度传感器，其中在飞行时间技术中，到对象的距离由往返于对象的光脉冲所需的时间确定。虽然本公开描述了以特定方式操作的特定深度传感器，但是本公开可设想到以任何适当方式操作的任何适当的深度传感器。

在具体实施方式中，深度传感器可提供与位于相机***110附近(例如，位于相机***110的0.1至10米范围内)的对象有关的深度信息，并且深度信息可用于加强拼接过程。如以下所描述，拼接过程可利用来自相邻相机的重叠图像之间的对应关系来计算场景的几何结构。通过使用深度传感器，可确定一个或多个相机112的FOV内的对象的相对深度或距离，而不是假定单个整体的深度。在具体实施方式中，深度传感器信息可允许图像的近的部分与远的部分分开进行拼接。例如但不限于，使近的对象和远的对象分开进行拼接之后进行结合场景的分割可通过考虑相机***110与图像中的对象之间的距离来提供改善的拼接结果。在具体实施方式中，深度传感器可能够对位于相机***110附近的对象的图像的部分进行拉伸、压缩或扭曲，其结果为，拼接图像中的对象具有改善的渲染。例如但不限于，当对象靠近相机***110时(例如，人在相机***110的0.5米范围内经过)，可能因对象的距离而导致拼接图像的变形量降低。在具体实施方式中，深度传感器可提供从视图中排除位于相机***110的阈值距离内的对象的能力。例如但不限于，确定为非常靠近相机***110的对象(例如，位于相机***110的0.1m内的人手)可在图像处理期间被移除，使得对象不遮挡场景的视图。

在具体实施方式中，相机***110可包括一个或多个红外(IR)相机，其中，IR相机可指对IR光(例如，具有约0.8μm与14μm之间的波长的光)敏感的相机。在具体实施方式中，IR相机可对热辐射敏感或可提供在可视相机(例如，相机112)可能具有降低的敏感度的光线暗的情况下(例如，昏暗的房间或夜晚的户外)对场景进行成像的能力。例如但不限于，除了相机112(可优化为可视光感测)以外，相机***110也可包括一个或多个IR相机，以及来自相机112和IR相机的信息或图像可结合以提升在光线暗的情况下的图像捕获或渲染。作为另一示例而不限制，相机***110可包括布置成捕获相机***110周围的360°全景中的图像的一组IR相机。作为又一示例而不限制，相机***110的相机112可配置为对可视光和红外光具有敏感度。尽管本公开描述并示出具有特定可视或红外相机的特定相机***，但是本公开可设想到具有任何适当的可视或红外相机的任何适当相机***。

在具体实施方式中，相机***110可包括配置为相比于相机112具有更宽的FOV或者对具有不同视图的场景进行成像的一个或多个辅助相机。例如但不限于，相机***110可包括如上所述的一组相机112，并且相机***还可包括具有比相机112的FOV更宽的FOV的一个或多个鱼眼相机或立体相机。在具体实施方式中，具有更宽FOV的辅助相机可允许从相机112捕获的图像即使在观看统一的颜色或纹理(例如，墙)时也能够成功地被拼接。在具体实施方式中，相机112可配置为具有高分辨率(可导致相对窄的FOV)，并且具有更宽FOV的辅助相机可提供允许来自相机112的高分辨率图像成功地对齐并拼接在一起的宽视场参考。

在具体实施方式中，相机112可捕获大于或约等于180度的垂直视场。例如但不限于，相机***110可包括具有约185°的FOV_V的相机112。在具体实施方式中，相机***110可包括具有大于或等于180°的FOV_V的一组相机112，并且由于全景覆盖可由相机112提供，所以相机***110可以不包括顶部相机112T。

在具体实施方式中，相机***110可包括一个或多个鱼眼相机，其中鱼眼相机可指具有宽FOV(例如，大于或等于180度的FOV)的相机。例如但不限于，相机***110可包括位于相机机身118的中心附近的2个、3个或4个鱼眼相机。作为另一示例而不限制，相机***110可包括一对或多对鱼眼相机(例如，配置为两对鱼眼相机的四个鱼眼相机)。一对鱼眼相机可配置为不捕获3-D图像，并且可包括相隔ICS距离(对应于IPD)的两个鱼眼相机。在具体实施方式中，具有鱼眼相机的相机***110可配置为模拟3-D立体观测(例如，深度或3-D结构的感知)，并且可与位于图像球形范围内的一个或多个虚拟相机对应。

在具体实施方式中，相机***110可包括具有相对高的FOV_V和低的FOV_H的相机112。例如但不限于，相机112可具有提供垂直视场宽于水平视场的镜头(例如，像散镜头(astigmatic lens))。作为另一示例而不限制，相机112可具有约180°的FOV_V和约30°的FOV_H。在具体实施方式中，相对窄的水平FOV可提供在水平方向上具有相对低的变形的捕获的图像。在具体实施方式中，与相对宽的FOV_V有关的竖直方向中的变形可至少部分地基于镜头校准信息通过捕获后的处理来逆转。在具体实施方式中，去除竖直方向中的变形可能是比去除水平和垂直两个方向中的变形更有效的过程。例如但不限于，由于图像变形主要沿着一个轴(例如，竖直轴)，所以具有相对低的FOV_H的相机112可在变形移除方面可提供改进。

在具体实施方式中，相机***110可包括两个或两个以上的适当FOV相机112的集合。例如但不限于，相机112可具有30至90度的垂直和水平FOV。在具体实施方式中，相机***110可包括布置成行的两个或两个以上的相机112集合(例如，一组或一圈相机112位于另一组的上方)。每组相机112可配置为捕获一圈图像，每一圈在水平方向上覆盖360度全景并在竖直方向上覆盖适度的FOV(例如，60度)。例如但不限于，相机***110可包括三组相机112，每个相机具有与相邻组重叠约15度的约65度的FOV_V。每一组相机112可捕获具有高分辨率和相对低的变形的图像，并且来自每个圈的图像可结合而生成覆盖全景的高分辨率、低变形的图像。

在具体实施方式中，相机***110可包括多个相机112，其中相机112可以不结合为立体相机对。例如但不限于，相机***110可包括以重叠的水平FOV布置的12个相机，使得相机捕获360度全景。在具体实施方式中，相机112可对齐使得其定向114从共同的中心点117(例如，相机***110的机身118的中心)远离或径向向外指向。在具体实施方式中，相机112可以不捕获3-D图像，并且3-D效果可在图像捕获之后在拼接或重构过程期间产生。例如但不限于，捕获后处理可应用至图像以模拟立体观测。

在具体实施方式中，校准过程可应用至相机112或相机***110。例如但不限于，相机112、相机对200或相机***110可具有由制作公差产生的位置或对齐误差，并且校准过程可用于校正或补偿这些误差并允许改善的图像拼接。在具体实施方式中，校准过程可用于确定相机112或相机对200具有位置或定向误差或偏移，并且捕获的图像中的对应的误差或偏移可在图像捕获或捕获后处理过程期间被校正。例如但不限于，相机对200可制作为具有6.5mm的ICS，并且通过校准过程，它可确定相机对200具有7.0mm的ICS。相机对200的ICS与目标ICS之间的0.5mm的差异可在图像捕获或通过捕获后校正过程期间被校正(例如，对应于0.5mm的偏移可应用至由相机112之一捕获的图像)。作为另一示例而不限制，相机对200可制作为在相邻相机对200之间具有均匀的30°角度间隔，并且通过校准过程，它可确定相机对200相对于相邻相机对200具有29°角度间隔。相机对200之间的1°的角度误差可在图像被捕获时或在捕获后校正过程期间被校正(例如，对应于1°旋转的偏移可应用至由一个或多个相机112捕获的图像)。

在具体实施方式中，在制造相机***110之后，在使用相机***110之前可以周期性的间隔(例如，每月每多个月)或以任何适当的时间或时间间隔将校准过程应用至相机***110。例如但不限于，相机***110可在捕获场景之前应用校准过程，这可以确保相机112的位置和定向在图像捕获过程中是已知的，以确保拼接过程成功。作为另一示例而不限制，可将校准过程应用至相机***110以校正可能由温度变化、相机***110的老化或机械冲击导致的相机的误对准(例如，假如相机***110在传输过程中掉落)。在具体实施方式中，一旦执行校准过程，有关相机112或相机对200的校准的数据可存储至相机***110的非易失性存储器中。虽然本公开描述了以特定方式及特定次数执行的特定校准过程，但是本公开可设想到以任何适当方式和任何适当的次数执行的任何适当的校准过程。

在具体实施方式中，相机***110的相机112可利用投射的光进行校准。在具体实施方式中，可利用将光学校准图案投射至相邻的表面上的广角投影仪、灯前罩或激光扫描仪或反射器来实现投射光校准。例如但不限于，激光束可被衍射光栅或机动镜反射以生成投射至相邻的表面上的校准图案。投射的激光图案通过相机112成像以确定相机校准参数。在具体实施方式中，用于生成并投射校准图案的光学组件(例如，激光、镜或光栅)可机械设计为在不使用时缩进相机***机身118中或缩至其下方。在具体实施方式中，光学校准组件可配置为旋转以在不同的方向上投射校准图案，使得相机***110的不同相机112可被校准。在具体实施方式中，相机***110可放置于控制室或球面内，以提供改善的校准准确度。虽然本公开描述了特定的投射光校准***，但是本公开可设想到任何适当的透射光校准***。

在具体实施方式中，可利用物理或机械过程或结构来校准相机***110的相机112。例如但不限于，诸如扇形或伞状设备的机械校准结构可存在于相机112之间或相机***机身118下方或内部。在校准期间，这些物理校准器可机械地布置在相对于相机***100已知的位置处。物理校准器可通过相机112成像，并且捕获的图像可与已知的几何结构进行比较以确定校准参数。在具体实施方式中，机械校准设备可以是与相机***110分开的物理设备。例如但不限于，外部校准设备可具有从球形外部机身向内延伸的内部辐条以允许相机***110保持在对于校准设备已知的精确的位置处。作为另一示例而不限制，外部校准设备可包括允许相机***110相对于校准设备精确地定位的光学传感器。在具体实施方式中，校准设备的内表面可具有由相机112成像的校准标记，并且相机112或相机对200的校准参数可基于捕获的校准标记的图像来确定。在具体实施方式中，相机***110可包括将校准图案投射至校准设备的内表面上的光学组件。虽然本公开描述了特定的物理校准***，但是本公开可设想到任何适当的物理校准***。

在具体实施方式中，相机***110可包括集成为相机***110的一部分的一个或多个处理器，或者相机***110可联接至位于相机***110外部的一个或多个处理器。例如但不限于，相机***110可包括位于相机***110的机身118内部的一个或多个前端处理器120。作为另一示例而不限制，相机112可通过USB连接至一个或多个前端前端处理器机器120的集合。在具体实施方式中，前端处理器120可实现相机112的内部控制、相机变形校正、图像的裁剪、视频的编码、图像数据的压缩或视频的传输。例如但不限于，相机***110可包括连接至相机112的独立的前端处理器120，该前端处理器120实现初始图像调整、相机参数控制或相机数据的初始编码以为传输减低视频载荷。在具体实施方式中，与相机***110相关的前端处理器的数量可至少部分地取决于相机***110中的相机112的数量以及由相机112捕获的视频的尺寸或帧速率。例如但不限于，每个相机112可连接至一个或多个专用处理器120。尽管本公开描述并示出以特定方式联接至特定处理器的特定相机***，但是本公开可设想到以任何适当方式联接至任何适当的处理器的任何适当相机***。

在具体实施方式中，可通过一个或多个处理器120来对相机参数(例如，亮度、对比度、增益、曝光、白平衡、饱和、聚焦或光圈设置)进行校准、控制或匹配。在具体实施方式中，由于每个相机112可不同地看见场景，所以对于每个相机112的白平衡设置可独立于其他相机而设置或控制。例如但不限于，定位成挨着窗口的相机112可看见蓝色的场景，而相邻相机112可看见红色的室内照明，并且两个相机可具有不同的白平衡设置。在具体实施方式中，可全局地控制一个或多个相机参数以确保相邻相机(例如，相邻的左相机112或相邻的右相机112)的设置不会偏离太远。例如但不限于，相机112的曝光或增益的设置可至少部分地基于一个或多个相邻相机112的设置。作为另一示例而不限制，如果曝光或增益设置被调整，则处理器120可保证对于同一眼睛的相邻相机(例如，相邻的左相机112或相邻的右相机112)的设置不会偏离太远，以最小化图像显带或不可接受的拼接性能。在具体实施方式中，相机112的聚焦设置可保持为无穷大以最小化可由相机聚焦的改变导致的拼接误差。在具体实施方式中，相机112可设置为具有减小的光圈，以提供可能导致拼接误差降低的更大的景深(depth of field)。虽然本公开描述了以特定的方式控制的特定的相机参数，但是本公开可设想到以任何适当方式控制的任何适当相机参数。

在具体实施方式中，针对每个相机110编码过程可涉及一个前端处理器120，或者单个处理器120(具有单个内核或多个处理器内核)可被多个相机110共享。前端处理器120可使用加速器、专用集成电路(ASIC)或子处理器以处理捕获、修改、压缩、存储或传输视频数据的任务中的一部分。每个处理器120可运行通用操作***，或者可以是以与中央控制处理器完全或接近锁步(lockstep)的方式操作的ASIC本身。在具体实施方式中，中央控制处理器可起到与前端图像捕获处理器120通信的分配器或中央控制点的作用。在具体实施方式中，中央处理器可实现为单个大型ASIC的一部分，其具有连接并控制每个相机112的复制的资源。在这种情况下，相同代码或基于硬件的算法的多个线程或副本可运行为并行进行捕获过程。在具体实施方式中，前端处理器120可使用处理器本地存储***或者可立即将数据串流至一个或多个共享的存储资源。在具体实施方式中，可使用分散存储，并且可将处理器本地存储器用作拼接***的缓冲器以实现***负载分布。

在具体实施方式中，前端处理器120可使用总线或网络以进行数据的传输。数据传输可使用任何适当的数据传输格式。在具体实施方式中，可使用保证接收或者另外地向接收者告知包丢失的传输方法。在具体实施方式中，发送组件可重新传输损坏的包，或者可允许接收者将表明发生包损坏的标志***存储的数据流中。在具体实施方式中，拼接***则可根据需要补偿这种损坏的或丢失的包。

在具体实施方式中，相机112可相对于目标位置或定向114具有某些镜头变形和某些偏差。在具体实施方式中，这些效应的校正可以是静态的，并且可利用前端中的查找表对其进行预校准和校正。例如但不限于，可将全景校准、晕光校正、镜头变形校正、白平衡校正、曝光校正和匹配或视角调整直接应用至图像。以这种方式，可在产生任何压缩引起的颜色或特征移位之前对图像进行操作，这可以减少可视的校正伪像(artifact)的出现。另外，可应用颜色校正以强化边缘锐度、整体曝光或白平衡。在具体实施方式中，为了降低图像的压缩尺寸，可将降噪应用至场景。在具体实施方式中，前端处理器120可在应用一个或多个图像校正或强化步骤之后对图像进行下采样。例如但不限于，可对输出图像进行下采样，而不使用处理器密集型子采样过程。在具体实施方式中，可以以比在随后的拼接中使用的分辨率更高的分辨率捕获图像，并且该高分辨率图像的捕获可能有助于减轻可能与校正或增强步骤有关的混叠或伪像。

在具体实施方式中，一个或多个拼接服务器130可接收经相机***110的一个或多个前端处理器120编码的图像。如上所述，图像可对应于由相机***110实时捕获的360°3-D视频。在图1的示例中，利用TCP通过以太网将图像从前端处理器120发送至拼接服务器130。在具体实施方式中，可以任何适当顺序从前端处理器120接收图像，或者以任何适当顺序存储图像。例如但不限于，在被传输至一个或多个拼接服务器130之前，可以与图像的空间顺序对应的顺序排列图像(例如，如图7中所示的图像I-L1至I-Ln)。在具体实施方式中，当不需要实时性能时，例如当处理用于稍后传输或观看的图像时，拼接***可包括单个拼接服务器130(或者两个或两个以上的拼接服务器130)。在具体实施方式中，当需要实时性能时(例如，当拼接用于实时传输或观看的高分辨率、高帧速率的视频时)，拼接***可包括数十至数百个拼接服务器130。尽管本公开描述并示出包括特定数量的拼接服务器的特定拼接***，但是本公开可设想到包括任何适当的数量的拼接服务器的任何适当的拼接***。

在具体实施方式中，一个或多个拼接服务器130可从一个或多个前端处理器120接收一组离散图像，并且拼接服务器130可将离散图像“拼接”在一起并生成用于传输或显示的单个3-D帧。例如但不限于，拼接服务器130可从左相机***110的相机112接收一组左图像，并且拼接服务器130可对图像进行拼接或结合以实时地生成3-D图像的左帧。类似地，拼接服务器130拼接来自右相机112的一组右图像以实时地生成3-D图像的右帧，并且左帧和右帧一起可表示单个实时3-D帧。在具体实施方式中，拼接过程可通过扭曲、变形或对齐多个离散图像来创建基本无缝的图像，以确保重叠图像的对应点匹配。例如但不限于，拼接过程可使用来自相邻相机的离散图像之间的对应关系来计算由拼接的图像捕获的场景的几何结构。作为另一示例而不限制，拼接过程可扭曲、变形或对齐离散图像，使得一组重叠图像的对应点匹配且重叠图像的多余部分被丢弃。然后，拼接过程可将一批对齐的图像混合成合并的无缝图像。在具体实施方式中，为减少眼疲劳，可对对应于人的左眼和右眼的图像进行操控以确保两只眼睛看见场景的对应部分。

在具体实施方式中，一个或多个拼接服务器130可对由相机112捕获的视频执行拼接过程。例如但不限于，单个拼接服务器130(或并行操作的多个拼接服务器130)可对由相机112捕获的一系列图像执行拼接。在多相机***中，例如，在图4的示例中示出的相机***110中，可在拼接过程期间对捕获的图像执行时间码对齐。在具体实施方式中，可以锁步方式捕获或拼接视频的一系列图像，以保持图像之间的时间一致性。例如但不限于，前端处理器120可存储由每个相机112捕获的每个图像上的时间码或时间戳(例如，绝对本地时间或相对时间计数器的值)。例如，分别由相机L1至L12捕获的图像IL-1至IL-12可各自包括与图像被捕获的时间对应的时间戳。在具体实施方式中，由相机112捕获的图像可包括与该图像被捕获的时间对应的时间戳，并且对于三维视频的每一帧，拼接服务器130可将在特定时间范围内捕获的图像拼接在一起。例如，拼接服务器130可要求待拼接在一起的图像具有允诺处于10ms、20ms、30ms内或处于任何适当的时间间隔内的时间戳。作为另一示例，拼接服务器130可要求待拼接在一起的图像具有相同地处于特定量的帧周期内的时间戳，其中，帧周期为帧速率的倒数。例如，视频可具有对应于40ms的帧周期的25帧每秒(FPS)的帧速率，并且拼接服务器130可要求待拼接在一起的图像具有相同地处于一个帧周期内(例如，40ms内)、二分之一帧周期内(例如，20ms内)或处于任何适当分量的帧周期内的时间戳。在具体实施方式中，如果检测到一组图像的时间戳中的间隙或误差或图像帧具有损坏的标志，则拼接服务器130可丢弃整组图像，并且可重新使用先前拼接的图像。例如但不限于，如果一组图像的一个或多个图像具有比平均时间戳或目标时间戳多出一个以上的帧周期的时间戳，则可丢弃该组图像，可重新使用先前拼接的图像来代替丢弃的图像。

在具体实施方式中，相机***110可在相机112之间包括独立的快门。例如但不限于，可测量并存储发送捕获图像的指令(例如，从控制器发送至前端处理器120或相机112的指令)所需的时间。作为另一示例而不限制，每个前端处理器可接收指令，以在已基于针对特定前端处理器的延迟而调整的未来时间处开始捕获图像，由此确保每个图像流在相同的时间开始。在具体实施方式中，拼接服务器130可确定初始帧的时间，并且后续的帧时间差异可由该初始时间点来计算，其中初始帧的时间被认为是“时间零点”。

在具体实施方式中，拼接服务器130可确定正在被拼接在一起的离散图像(例如，图像I-L1至I-Ln)的竖直对齐和水平对齐。在具体实施方式中，来自多个相机的图像可进行比较，使得所有的左图像与其他的左图像(例如，I-L1至I-Ln)进行比较且所有的右图像与其他的右图像(例如，I-R1至I-Rn)进行比较。在图5的示例中，图像I-6可与相邻图像I-5和I-7进行比较。另外，左图像与右图像(例如，I-L1和I-R1)进行比较，以确保它们相对于彼此准确地对齐。例如但不限于，图像I-L1至I-L12可对应于分别由图4的示例中所示的相机***110的左相机L1至L12捕获的图像。如上所述，对应于每只眼睛的相机(例如，L6)的FOV与其相邻者(例如，L5和L7)具有重叠部，使得对图像空间对齐导致相邻图像(例如，I-6和I-7)之间产生重叠区域210。如下所述，相邻图像的重叠区域210可用于识别用于创建拼接图像200的图像特征。在具体实施方式中，由于相机***的几何结构是已知的，因此可以假定执行某些拼接参数的计算。

图8示出用于拼接离散图像的示例性方法。方法300可在步骤310开始：从若干相机112接收若干图像。在具体实施方式中，相机可包括具有第一定向114的第一相机112和具有第二定向114的第二相机112。在具体实施方式中，图像可包括来自第一相机112的第一图像和来自第二相机112的第二图像。在步骤320中，检测第一图像和第二图像内的若干特征点。在步骤330中，确定位于第一图像和第二图像之间的重叠区域内的一个或多个相应特征点对。在具体实施方式中，上述一个或多个相应特征点对包括来自第一图像和第二图像中的每个图像的特征点中的相应特征点。在步骤340中，基于每个相应特征点对之间所计算的偏差，在空间上调整第一图像或第二图像。在步骤350中，基于空间调整将第一图像和第二图像结合为合并或拼接的图像。在适当的情况下，具体的实施方式可重复图8的方法中的一个或多个步骤。尽管本公开将图8的方法的特定步骤描述并示出为以特定顺序发生，但是本公开可设想到图8的方法的以任何适当顺序发生的任何适当步骤。此外，尽管本公开描述并示出包括图8的方法的特定步骤的、用于拼接离散图像的示例性方法，但是本公开可设想到包括任何适当步骤的用于拼接离散图像的任何适当方法，在适当的情况下，所述步骤可包括图8的方法的所有或某些步骤或者不包括其中任一步骤。另外，尽管本公开描述并示出实现图8的方法的特定步骤的特定部件、设备或***，但是本公开可设想到实现图8的方法的任何适当步骤的任何适当的部件、设备或***的任何适当组合。

图9和图10分别示出用于拼接离散图像的示例性方法400和450。在具体实施方式中，如图9或图10分别示出的用于拼接图像的方法，诸如方法400和450，可提供保留3-D感知并自动执行的、用于拼接图像的过程(例如，需要极少人工干预或不需要人工干预的过程)。尽管本公开描述并示出以特定顺序执行特定步骤以拼接图像的特定流程，但是本公开可设想到以适当顺序执行任何适当步骤的任何适当的流程。

在具体实施方式中，可在拼接之前对从相机***110的前端处理器120接收的图像进行调整大小。以下描述的在确定多个相应特征点对时降低图像分辨率的图像可加速拼接过程。另外，如以下描述，分辨率的降低可提高在光线暗的条件下对噪音的回弹性(resilience)，以及针对特征检测提高对小规模纹理的整体敏感度。例如但不限于，2-8兆像素(MP)图像可调整大小为对于实时3-D拼接过程较易于管理的低分辨率。作为另一示例而不限制，由相机112捕获的8MP图像可调整大小为2MP，并且经调整大小的2-MP图像可用作拼接过程的输入。在具体实施方式中，经调整大小的图像可限制为具有最小尺寸(例如，1MP、2MP或任何适当的最小尺寸)。例如但不限于，4MP和2MP图像均可调整大小为1MP。在具体实施方式中，对接收的图像调整大小可降低图像中可通过使用局部对比度增强影响特征检测的噪音。例如但不限于，如Lanczos核(Lanczos kernel)的尺度核(scaling kernel)可用于最小化可能导致特征检测中的误差的核构件(kernel artifact)。在具体实施方式中，可从相比于原始图像调整大小为低分辨率的图像确定拼接参数。例如但不限于，在利用一组经调整大小的图像(例如，2MP图像)确定拼接参数之后，可利用确定的拼接参数将由相机112捕获的一组原始的高分辨率图像(例如，8MP图像)拼接在一起。

在具体实施方式中，可对从相机***110接收的图像进行去扭曲(dewarping)以将图像拼接在矩形平面上。例如但不限于，可对接收的图像进行超采样以减少可能阻碍以下描述的特征检测的伪像的量。在具体实施方式中，去扭曲过程可与缩放(scaling)过程结合，这样可减少对于超采样的需求。例如但不限于，接收的图像可经历结合的去扭曲和缩放过程，并且去扭曲和缩放的结合可减少图像中的伪像。可替换地，对接收的图像去扭曲可用作作为位置函数的全局变换，并且对接收的图像的像素数据的访问可经过变换和超采样以生成适当的值。在具体实施方式中，图像的去扭曲变换可通过方程(1)来估计：

其中，x为沿着投射的3-D空间的纬度(latitude)的位置，y为沿着投射的3-D空间的经度(longitude)的位置，a..e为相机去扭曲参数，scale′为图像的缩放因子，translate′为水平或垂直空间平移参数，并且x′和y′分别为去扭曲变换后的纬度和经度位置。在具体实施方式中，可基于相机***的一个或多个相机的特性利用估计的缩放因子执行去扭曲过程。在具体实施方式中，可对一组或多组初始图像组合执行去扭曲过程，并且可利用去扭曲过程的抽象化将简化版的去扭曲过程应用至随后的图像。例如但不限于，对点和图像的访问可抽象化，以提供更快的去扭曲过程。

在步骤305中，如图10的示例中所示，可检测接收的图像中的构成场景的特征。在具体实施方式中，可在图像I-6的灰度版上执行特征检测和匹配，并且可在单独的操作中或通过查找表(LUT)对图像I-6应用特定的对比度。在具体实施方式中，可利用局部对比度增强对图像I-6全局地执行特征检测。局部对比度增强提升“局部”对比度，而同时防止“全局”对比度的增加，由此保护大规模阴影/高亮细节。例如但不限于，局部对比度梯度可表示与特征对应的边缘、角落或“模糊点(blob)”。可利用特征检测算法检测图像I-6的特征，诸如尺度不变量特征算法(SIFT)、加速鲁棒特征(SURF)或ORB(oriented FAST and RotatedBRIEF)，其中FAST代表“来自加速的分段测试”并且BRIEF代表“二进制鲁棒独立的基本特征”。在具体实施方式中，特征检测过程可检测一个或多个特征点214。例如但不限于，可通过取得多重高斯平滑操作来检测特征点214。另外，可针对每个搜索区域212存储特征点214的位置(例如，栅格内或搜索区域212内)和每个特征点214的对比度值。

图11示出图像的示例性分割。在具体实施方式中，接收的图像(例如，图像I-7至I-5)可分割为若干个搜索区域212。例如但不限于，如图7的示例中所示，图像I-7至I-5可对应于与特定眼睛对应的图像(例如，所有左图像或右图像)。在具体实施方式中，如图11的示例中所示，接收的图像(例如，I-7至I-5)可分割为布置成4x6矩形栅格的24个搜索区域。如上所述，来自与特定眼睛对应的相邻相机的(例如，所有左相机)的图像(例如，I-7至I-5)具有与相应的相机的FOV之间的角度重叠部116成比例的重叠区域210_6-7和210_5-6。在具体实施方式中，图像(例如，I-7至I-5)的重叠区域210_6-7和210_5-6可对应于接收的图像(例如，I-7至I-5)的右边缘和左边缘。在具体实施方式中，特征点检测或匹配可限制于相邻图像的重叠区域。在图11的示例中，对于相邻图像I-6和I-7，特征点检测可仅应用在重叠区域210_6-7中。可以不考虑重叠区域210外部的区域，这可保证位于重叠区域外部的无关或不必要的点不会影响拼接过程。

图12示出示例性的图像特征点匹配。在步骤310中，如图10的示例中所示，可在重叠区域210_6-7的搜索区域上局部地执行特征点匹配，以最小化拼接图像220上的无关点影响。例如但不限于，可对检测的特征点214A-B执行特征点计算，以将图像I-6的特征点214A匹配至图像I-7的相应特征点214B。可通过局部地比较重叠区域210_6-7的搜索区域中的每个检测的特征点214A-B附近的区域来检测所述对相应特征点214A-B。在具体实施方式中，相应的图像I-7和I-6中的特征点214A-B的相应的对比度设置可应用为特征点214A-B的匹配的一部分。例如但不限于，图像I-7和I-6之间的对比度差异可作为对比度曲线的偏移补偿。在具体实施方式中，该对比度曲线的偏移可利用附加的比特(例如，利用符号化16比特或8比特值)来计算，以将其考虑在内。偏移的差异可导致最佳匹配具有提前已知的均匀差异。

在具体实施方式中，用于匹配特征点214的区域的大小可根据图像的尺寸来设定。在具体实施方式中，相机***110的几何结构可以是已知的，并且基于已知的相机***几何结构，相邻图像I-6和I-7的搜索区域和重叠区域210_6-7的像素的大致数量可以是提前已知的。例如但不限于，由于相机***110的相机112的位置和定向相对于彼此是固定的，因此相邻的左相机(例如，相机L1和L2)或相邻的右相机(例如，相机R11和R12)之间的重叠部可以是已知的，类似地，相邻的左相机或右相机(例如，相机L1和R1)之间的重叠部也可以是已知的。在具体实施方式中，可利用最近邻搜索算法执行相应特征点对的确定。例如但不限于，最近邻搜索算法可识别图像I-7的重叠区域210_6-7的每个搜索区域内的特征点214B，所述特征点214B与图像I-6的重叠区域210_6-7的每个搜索区域内的特征点214A的对应图案匹配。在具体实施方式中，最近邻算法可使用每个特征点214A-B周围的搜索半径来确定相应特征点214A-B的对。例如但不限于，搜索区域可具有32像素、64像素的半径或任何适当的半径，或者搜索区域可具有32像素×32像素、64像素×64像素的尺寸或任何适当的尺寸。在具体实施方式中，在最终单应性(homography)计算之前，可使用二次精细化步骤来重新对齐相应特征点对。

在具体实施方式中，特征匹配过程可使用估计的参数，并且可在重叠区域或搜索区域内应用某些搜索以优化位置。在具体实施方式中，随着特征搜索从图像(例如，图像I-6或I-7)的中心移动至边缘，搜索半径可增加。例如但不限于，由于与实际参数和估计的参数(例如实际FOV对估计FOV)之间的差异有关的误差增加，搜索半径可能增加。在具体实施方式中，附加的特征点可以以少于相应特征点对214A-B的预定数量(例如3对)的数量添加至区域212。例如但不限于，如果特征搜索在特定区域212中呈现少于3个的特征点，则来自备份特征点集合的备份特征点可添加至一组特征。在具体实施方式中，备份、替代或附加的特征点可基于相机***110的特性、每个相机112的特性、校准数据或它们的任意组合，并且附加的特征点可在数据结构中指出或被标记。

在具体实施方式中，相机参数或图像(例如，I-6和I-7)可试探地优化以减少最终优化中的自由变量的数量，以生成拼接图像220。例如但不限于，试探优化可用于优化或精细化一个或多个相机相关参数(例如，FOV、定向114或竖直或水平相机中心的位置)。特征匹配过程可使用至少部分地基于已知的相机几何结构(例如，相机***110的相机112的位置或定向)或校准过程估计的相机参数。例如，已知相机112的正常位置和定向可允许对相机FOV、角度重叠部116、相机定向114或相机位置(例如，相机中心的竖直和水平位置)进行估计。在具体实施方式中，估计的相机参数可反复地优化或通过对多个非线性值使用组数字方式(group numeric approach)来优化。在具体实施方式中，对于每个图像(例如，I-6和I-7)，相应特征点对214A-B的位置可彼此进行比较并且基于相应特征点对214A-B的位置中的偏移对相应相机参数进行调整。例如但不限于，可响应于检测到特征点214A-B之间的平均的径向偏移而调整FOV参数或定向参数。作为另一示例而不限制，可响应于分别检测到特征点214A-B之间的平均的竖直或水平偏移来调整(平移)竖直或水平相机位置参数。

如图10的示例中所示，在步骤315中，可利用基于匹配的相应特征点对的单应性矩阵，来确定图像I-6和I-7之间的相机位移(例如，相机旋转或平移)的估计。在具体实施方式中，对图像I-6和I-7的调整可基于由单应性矩阵确定的估计相机位移而进行。可利用单应性矩阵来计算用于调整和对齐图像I-6和I-7以形成合并的拼接图像220的拼接参数。例如但不限于，可初始地对图像I-6和I-7计算单应性矩阵，并且可基于计算的单应性矩阵对后续图像进行调整。

可对图像I-7和I-6进行调整以恰当地将图像I-7和I-6结合为拼接图像220。在具体实施方式中，可进行调整以满足一个或多个优化标准。例如但不限于，优化标准可以是相应特征点对214A-B的竖直或水平偏移应为最小化。作为另一示例，优化标准可以是在观看者将看见重影之前，相应特征点对214A-B的水平偏移应小于最大水平偏移。作为又一示例，优化标准可以是相应特征点对214A-B的竖直偏移应小于最大竖直偏移。

在具体实施方式中，可在假定一个或多个初始条件的情况下执行对图像I-6和I-7的调整。例如但不限于，初始条件可假定第一相机对(例如，图4中的相机对L1-R1)具有限定相机***110的主射线(或偏转(yaw))的定向114。作为另一示例，初始条件可假定相对于y轴的其余的相机对(相对于第一相机对)的定向114为Yi＝(i–1)×360°/n，其中y轴与相机***的平面正交，i＝2…n，且n为相机***的相机对的数量。例如但不限于，对于具有n＝8个相机对的相机***110，相机对200相对于彼此定向在45度。作为又一示例，初始条件可假定相机***110的相机112与x轴和z轴平行(例如，分别为零滚转(roll)和俯仰(pitch))。

在具体实施方式中，对图像I-6和I-7的调整可通过最小化一个或多个优化成本来确定。例如但不限于，相应特征点对214A-B之间的距离可表示基本的总优化成本(cost)。作为另一示例，沿着轴的旋转调整可具有与加权旋转位移(例如，与每个轴、偏转、俯仰和滚转有关的kx(X′–X0)²，其中kx为加权系数)成比例的成本。另外，每个轴可具有特定加权系数，例如，对于偏转轴的kY、对于俯仰轴的kP和对于滚转轴的kR。在具体实施方式中，针对每个轴，图像I-6和I-7的FOV或平移调整可具有kx|X′–X0|的线性成本。每个轴可具有特定的加权系数，例如对于FOV调整的kFOV、对于x轴平移的kCX和对于y轴平移的kCY。在具体实施方式中，优化成本可被函数化，以使得优化成本函数可修改为处理角落问题。

在具体实施方式中，可通过利用试探优化、初始条件、优化成本或其任意组合执行全局优化，来将图像(例如，I-6和I-7)拼接在一起。例如，可利用诸如蒙特卡洛、梯度下降、高斯-牛顿的稀疏版本或其他适当的非线性优化求解来全局地优化这些因子。在具体实施方式中，参数的***可通过由(2)表示的方程的***来全局地优化：

其中x’和y’为来自去扭曲操作的坐标；如上所述，单应性矩阵由相应特征点对来计算；YPR为分别沿着偏转轴、俯仰轴和滚转轴的旋转调整；scale为图像的缩放；translate为平移调整；以及x”、y”和z”为经优化的坐标。

由方程(2)描述的方程组可能收敛失败。如图10的示例中所示，在步骤325中，多于40％的特征点来自备份源(例如，校准)的图像收敛失败可表明特定图像太白、太近或缺乏特征。在这种情况下，可根据上述的初始条件调整特定图像。在具体实施方式中，由方程(2)描述的方程组可能因具有太多空间偏移的替代特征点而失败。在这种情况下，替代的特征点可使自身的优化成本减半并再次执行全局优化。例如但不限于，优化的减少和全局优化的执行可执行预定次数(例如，4次循环)。另外，如果方程(2)持续收敛失败，则特征点的贡献可设定为零。

在具体实施方式中，除了来自具有重叠部的、与特定眼睛对应的相邻相机的图像以外，来自与另一眼睛对应的相邻相机的图像也可与与两个图像都具有重叠部。例如但不限于，来自相机L1和L2的图像可具有重叠区域，并且相邻相机(例如，相机R1、R2或R3)也可捕获包括相同的重叠区域的图像。如图7的示例中所示，图像I-L1和I-L2具有重叠区域210L_1-2，并且图像I-R1也与上述两个图像重叠。在具体实施方式中，可检测来自相邻相机(例如，相机R1)的图像(例如，图像I-R1)的特征，并且可在相邻图像(例如，图像I-L1和I-L2)的重叠区域(例如，重叠区域210L_1-2)与来自相邻相机的图像之间确定相应特征点对。另外，可基于所检测的相邻相机的重叠区域的相应特征点对和来自相邻相机的图像的重叠部分来计算单应性矩阵。在具体实施方式中，与相邻相机(例如，相机L1和L2)对应的单应性矩阵的结果可与对应于相邻相机(例如，相机R1)的单应性矩阵进行比较。此外，确定与左眼视图对应的拼接图像和与右眼视图对应的拼接图像之间的对应关系可用于拼接图像的立体相机对之间的垂直偏移。

在具体实施方式中，如上所述，一旦计算出拼接参数或进行调整，即可检查拼接参数的准确性。在具体实施方式中，可利用由相机***110捕获的已知场景执行校准。已知场景的相应特征点对的检测可为拼接图像提供可用作图像调整的基础的一组特征点。一旦拼接服务器检测到重叠区域内的相应特征点对，便可在每个检测的特征点周围区域中执行误差计算(例如，差异的平方和)。如果误差计算超过预定阈值，则可将检测到的相应特征点对标记为可疑。如果相应特征点对的数量降至预定阈值对的数量以下，则可对离散图像的拼接进行标记。在具体实施方式中，被标记的相应特征点对可由校准数据的特征点替换，由此迫使单应性计算认为图像位于校准的定向上。

在计算单应性矩阵之后，可检查其准确性。如图10的示例中所示，在步骤335中，可检查连续单应性矩阵的偏转旋转之间的差异。如果差异处于基于校准数据的期望差异的±2-3°范围内，则可认为图像调整是准确的。例如但不限于，可计算每个相机相隔30°的12-相机***的单应性矩阵。如果偏转旋转差异处于期望值的预定范围内(例如，27°与33°之间)，则计算出的单应性矩阵可认为是可接受的。在具体实施方式中，来自相机的图像用于计算单应性矩阵。如果计算出的单应性矩阵或相机位置处于期望位置和角度的±2度范围内，则可认为拼接是良好的。如图10的示例中所示，在步骤345中，如果对于某些图像拼接失败，则检测到的相应特征点对可由来自校准数据的替代特征点来替换，并重新尝试拼接过程。如由图10的示例所示，在步骤355中，如果对于若干图像的拼接过程的失败超过预定阈值数量，则可拒绝整个拼接并且可使用来自上一次成功拼接的帧的单应性矩阵。在初始帧发生拼接失败的情况下，可替代地使用基于校准数据计算的单应性矩阵。

图13示出示例性顶部图像I-Top和拼接图像220。顶部图像I-Top可由顶部相机112T捕获，并且拼接图像220可来自将左图像或右图像(图像I-R1至I-Rn)拼接或结合在一起的拼接过程。在图13的示例中，拼接图像220包括拼接在一起以形成拼接图像220的图像I-1、I-2和I-3。在具体实施方式中，在来自相机112的图像拼接在一起以形成拼接图像220之后，来自顶部相机112T的顶部图像I-Top可拼接或添加至拼接图像220的上部210U。类似地，在具体实施方式中，来自底部相机的图像可拼接或添加至拼接图像220的底部。在具体实施方式中，向拼接图像220添加顶部图像或底部图像可提供添加的视图，以调整可能不覆盖±90°垂直FOV的拼接图像220。例如但不限于，在图7的示例中所示的左图像I-L1至I-Ln可拼接在一起以形成具有与相机112的FOV_V对应的垂直幅度的拼接图像220。例如，拼接图像220可呈现相机***110周围的360°水平全景视图，并且全景视图可相对于相机***110的水平面覆盖±70°垂直范围(对应于FOV_V＝140°)。在形成拼接图像220之后，顶部图像I-Top可拼接至拼接图像220的顶部，由此形成具有约-70°至约+90°范围的垂直幅度的360°全景视图的图像。另外，也可将底部图像拼接至拼接图像220的底部，由此形成在所有方向上(例如，覆盖在约-90°至约+90°范围内垂直延伸的完整的360°水平视图，其中-90°表示看向正下方，并且+90°表示看向正上方)延伸的图像。尽管本公开描述并示出具有特定的水平幅度和垂直幅度的特定的拼接图像，但是本公开可设想到具有任何适当的水平幅度和垂直幅度的任何适当拼接图像。

在具体实施方式中，顶部图像I-Top的多个部分可与拼接图像220的多个部分重叠或对应。另外，顶部图像I-Top的特定部分可与基于相机110的相机112的已知配置和顶部相机112T的已知配置的特定图像(例如，图像I-1、I-2、I-3等)有关。例如但不限于，通过两个相邻的拼接线217邻接的顶部图像I-Top的每个区域(例如，阴影区域219)可对应于拼接图像220的特定图像。在图13的示例中，图像I-Top的阴影区域219可对应于由相机***110的特定相机112捕获的图像I-2。构成拼接图像220的图像与顶部图像I-Top的多个部分之间的对应关系可基于相机112的配置或定向114以及顶部相机112T的配置。在具体实施方式中，图像I-Top中的拼接线217可对应于拼接图像220的接缝(seam)217M，其中，接缝217M可表示构成拼接图像220的相邻离散图像之间的边界。作为另一示例而不限制，中心线218可对应于拼接图像220的离散图像的大致中心218M。在具体实施方式中，线217和218可分别表示在顶部图像I-Top为拼接成拼接图像220而被处理或优化之前接缝217M和中心218M的估计位置。

在具体实施方式中，拼接图像220的上部210U可表示拼接图像220的、与顶部图像I-Top的***环形区域210T重叠的区域。例如，拼接图像220可与相对于水平定向114覆盖例如±70°的FOV_V对应，并且顶部图像I-Top可对应于从竖直方向(例如，+90°维度)延伸至+60°的纬度的图像。图像I-Top的***实体黑色圆可对应于+60°的纬度，且图像I-Top的较小虚线圆210E可对应于+70°的纬度。重叠区域210U和210T可对应于图像I-Top与拼接图像220之间的10°重叠(例如，从纬度+60°至纬度+70°)。在具体实施方式中，将顶部图像I-Top拼接成拼接图像220的算法可包括：如上所述，搜索特征从而确定位于重叠区域210U和210T中的相应特征点对；以及如以下所述，利用那些相应特征点对将图像I-Top’拼接为拼接图像220。尽管本公开描述并示出具有彼此对应或重叠的特定部分的特定顶部图像和拼接图像，但是本公开可设想到具有彼此对应或重叠的任何适当部分的任何适当的顶部图像和拼接图像。

图14示出在处理之后图13中的示例性顶部图像。在具体实施方式中，在被添加至拼接图像220之前，可对顶部图像I-Top的较小虚线圆210E进行处理、转换或优化以形成经处理的图像I-Top′，然后该图像I-Top′被拼接并添加为拼接图像220。在具体实施方式中，应用至顶部图像I-Top的较小虚线圆210E的处理步骤可包括：旋转或移动线217或218或者扭曲顶部图像I-Top的较小虚线圆210E，使得经处理的图像I-Top′与拼接图像220匹配或混合。在具体实施方式中，单个经处理的图像I-Top′可与对应于左右视图或眼睛的相应的拼接图像220一同使用。例如但不限于，顶部图像I-Top的重叠区域210T可在转换处理之前被剪除。在具体实施方式中，经处理的图像I-Top′可添加至表示左眼视图的拼接图像以及表示右眼视图的拼接图像。在具体实施方式中，顶部图像I-Top的较小虚线圆210E可经历两个处理过程以分别基于与左眼视图和右眼视图对应的拼接图像生成分开的经处理的左侧顶部图像和经处理的右侧顶部图像。例如但不限于，经处理的左侧顶部图像可添加至表示左眼视图的拼接图像，并且经处理的右侧顶部图像可添加至表示右眼视图的拼接图像。

在具体实施方式中，处理顶部图像I-Top的较小虚线圆210E以生成经处理的图像I-Top′可包括：如上所述，检测重叠区域210T和210U中的相应特征点对。例如但不限于，可检测到位于拼接线217与图像I-Top的外缘相交处附近的特征。检测的特征的一个或多个特征点可匹配至来自拼接图像220的相应特征点，并且基于相应特征点对之间的匹配，可计算图像I-Top的较小虚线圆210E相对于拼接图像220的偏移。在具体实施方式中，在未检测到任何相应特征点对的情况下，可基于相机几何结构确定特征点，或者可使用相机校准来确定对顶部图像I-Top的较小虚线圆210E执行的处理。

在具体实施方式中，可确定顶部图像I-Top的中心周围的径向扭曲，使得顶部图像I-Top的中心位置中心保持固定。另外，基于确定的径向扭曲，拼接线217可旋转至拼接图像216的接缝217M结束的交叉位置，并且中心线218可旋转为匹配在拼接离散图像以生成拼接图像220期间执行的任何偏转调整。例如但不限于，如果构成拼接图像220的离散图像(例如，图像I-1、I-2或I-3)之一经历+2°的偏转调整，则可将+2°的旋转应用至对应的中心线218。

在具体实施方式中，可拉出或拉进顶部图像I-Top的较小虚线圆210E的外缘的一个或多个部分以匹配拼接图像220。例如但不限于，可拉出或拉进拼接线217或中心线218与图像I-Top的较小虚线圆210E的外缘交叉的位置，以匹配拼接图像220的对应区域。例如但不限于，根据情况，可通过分别适当地增加或减小拼接线217或中心线218的长度来拉出或拉进图像I-Top的较小虚线圆210E的外缘。在具体实施方式中，经处理的图像I-Top′可单独地储存为盖(cap)图像，或者可将经处理的图像I-Top′合并为拼接图像220。例如但不限于，可将极点至直线转换应用至经处理的图像I-Top′，然后如以下所述，可将经处理的图像I-Top′混合为拼接图像220。

在具体实施方式中，离散图像拼接在一起以形成拼接图像220的接缝217M可利用梯度混合进行“混合(blend)”。例如但不限于，照度或亮度可具有沿着靠近接缝217M的方向的梯度。例如，亮度可随着从任一横向方向朝着接缝217M移动而降低。拼接图像220与经处理的图像I-Top’的外缘的相交处可以类似的方式混合。例如但不限于，拼接图像220与经处理的图像I-Top’之间的相交处的亮度可具有与拼接图像220的尺寸成比例的梯度，使得混合在高纬度处平滑。

离散图像的混合可发生在围绕接缝217M的重叠区域内。另外，混合可沿着非线性路径发生以降低来自混合路径的视觉不连续性。在具体实施方式中，混合算法可寻找多个候补混合路径。可在相邻的离散图像周围区域中执行边缘检测算法。如果候补混合路径匹配任一图像的侧边缘，则候补混合路径可在两个方向上跟随侧边缘直到候补混合路径到达拼接图像220的下边缘。如果候补混合路径交叉，则候补路径可继续沿着它们的现有方向。在具体实施方式中，从候补混合路径中选择混合路径可选择到达拼接图像220的下边缘的唯一的候补混合路径，或者如果多个候补混合路径到达下边缘则选择最短候补混合路径。在具体实施方式中，相对于候补混合路径所在的图像的中心凹入最少的候补混合路径开启。对于“被追踪”的部分，掩模梯度应为50％，直接位于追踪线上方且具有较小模糊半径。

在具体实施方式中，为了空间稳定拼接，可使用Voronoi型接缝探测器(finder)。该空间稳定性可确保共享的单应性矩阵和混合数据可重复使用，这样可减小混合边缘的闪烁。可使用Voronoi型接缝探测器进一步为如上所述的特征匹配器精细化搜索区域，由此提升限制在最有可能出现在输出图像中的区域(例如，重叠区域)内的特征点的单应性矩阵的精确度。该数据可实时反馈回前端处理器以忽略可能不会在拼接图像220的拼接中使用的图像数据。

在具体实施方式中，在生成拼接图像220时，捕获的图像中的对象的近场(near-field)深度中的变化可能成为问题。如上所述，可使用深度信息(例如，由深度传感器或利用立体图对对图像中的对象进行三角测量而获取)来基于特征点将对相机的接近度的特征点匹配分隔开。较接近观看者或相机的对象相对于远处的对象具有不同的拼接几何结构。在具体实施方式中，远场(far-field)对象的深度变化对拼接质量的影响可能较小，并因此计算资源可集中在近场深度变化的计算上。在具体实施方式中，拼接服务器130可基于深度数据确定一个或多个图像中的对象是否位于可采取附加的措施以提高拼接质量的区域内。例如但不限于，然后可响应于检测到位于相机112或相机***110的预定阈值距离内的对象，而触发单应性矩阵的计算(或重新计算)。

在具体实施方式中，离散图像可分割为单独地拼接或混合的多个部分，或者可对近场对象进行优化，因为这些对象可能具有比远场对象更多的可见拼接误差。例如但不限于，近场对象可与远场对象分隔开并且单独地进行拼接。在具体实施方式中，可通过利用二进制掩码将近场对象放置于远场对象上方，将分隔开的近场对象与远场对象一同掩盖在拼接图像220上。对于观察近场对象上的相同点的相机而言，近场对象可能看起来非常不同。在具体实施方式中，拼接服务器可选择使用相邻图像之一以拼接重叠区域中的对象。例如但不限于，可使用缝隙探测器(例如，Voronoi型)拼接来自包含有大部分近场对象区域的图像的近场对象。在具体实施方式中，可使用不均匀的扭曲将近场对象的单应性矩阵与远场对象的单应性矩阵结合。基于网格的扭曲，例如，可在近场对象与远场对象之间的边缘处在两个单应性矩阵之间转换以将拼接图像220的前景和背景二者接拼。

当对象从远场移动至近场时，单应性矩阵可能明显地改变。在具体实施方式中，可在与拼接过程不同的计算线程上执行单应性矩阵的计算。例如但不限于，一个计算线程可执行离散图像的拼接，且另一计算线程可分析离散图像的单应性数据并且向共享的储存器提供更新。可通过使用校准数据或利用上一个可用的单应性矩阵来管理其余的情况。在具体实施方式中，可利用图形处理单元(GPU)来加速计算单应性矩阵或拼接过程。例如但不限于，***的中央处理单元(CPU)可用于计算单应性矩阵，并且GPU可用于扭曲并混合离散图像。

在具体实施方式中，可执行专门用于拼接立体视频的一个或多个调整。在具体实施方式中，来自拼接图像220的与左眼视图和右眼视图对应的相应特征点对可投射在3-D球面投影空间上。在具体实施方式中，左眼视图与右眼视图的起始点之间可能存在差异。该差异可通过第一相机位置用作起始位置且第一相机具有零偏转的初始条件来校正。其余的相机可基于这些初始条件进行调整。

在具体实施方式中，可利用共享的单应性矩阵执行对应于左眼视图和右眼视图的拼接图像220。对调整进行计算以生成与左眼视图对应的拼接图像220的拼接过程可与对调整进行计算以生成与右眼视图对应的拼接图像220的拼接过程进行通信，以确保整体的单应性和图像调整在左眼视图和右眼视图之间一致。另外，左眼视图与右眼视图之间的图像参数或曝光校正应在合理的范围内一致。在具体实施方式中，立体视频可具有在左眼视图和右眼视图之间时间同步的帧。

在具体实施方式中，生成用于视频的拼接图像220可使用预见性(look-ahead)的方法。例如但不限于，对于当前的帧，可计算当前帧和某些预定数量的未来的后续帧的拼接调整(例如，单应性矩阵)。在具体实施方式中，响应于检测到出现在未来帧中的一对相应特征点中的实质性的改变(例如，对象从远场至近场的移动)，计算一整组拼接参数。另外，可设置改变标记，该标记使得拼接参数被内插(例如，正弦宽松)为新计算的拼接参数，使得拼接平滑地切换以处理场景中的变化。预定数量的后续帧的确定应结合计算新的拼接调整所需的时间来进行。

图15和图16分别示出用于拼接离散图像的示例性方法500和550。如图15的示例中所示，在具体实施方式中，用于拼接实时360°3-D视频的方法500将独立帧的拼接分配在多个拼接服务器上。可以拼接服务器为单位进行单应性矩阵管理，或者多个拼接服务器可利用中央单应***器共享单应性矩阵。在具体实施方式中，中央单应***器可向独立的服务器节点分配任务以计算单应性矩阵或拼接图像。用于完成拼接图像的服务器的数量可与期望的帧速率或拼接服务器的吞吐量成比例。例如但不限于，对于具有1帧每秒(FPS)吞吐量的拼接服务器，可使用30个拼接服务器以产生30FPS的拼接视频。

如图16的示例中所示，在具体实施方式中，用于拼接实时360°3-D视频的另一方法550将视频分段的拼接(例如，视频块或多重帧)分配至多个拼接服务器。多个拼接服务器可并发地处理视频的拼接，其中每个拼接服务器生成与接收的视频分段对应的拼接的视频分段。收集服务器或视频组合器可从拼接服务器接收各个视频分段，并且将它们合并以生成拼接视频。

在具体实施方式中，可手动地拼接离散图像以生成拼接图像或视频。可忽略特征提取和相应特征点对的确定，并提供手动选择的相应特征点对。从这一点来说，可如上所描述地执行拼接过程其余步骤。

360°立体3-D视频的传输可能在内容服务器140与显示视频的客户端设备150之间要求高带宽网络连接。例如但不限于，360°立体3-D视频可使用多达标准视频的数据带宽的5倍的带宽。编解码器是可用于有效地对与360°立体3-D视频对应的数字数据流进行编码的计算机程序。在具体实施方式中，编解码器可基于对先前帧的参考按照时间顺序对360°立体视频流的后续帧进行编码。例如但不限于，编解码器将初始视频帧用作正常编码的主要图像。确定下一时序型图像与主要图像之间的差异或“增量(delta)”，并通过编解码器对它进行编码以捕获时序型偏移。如上所述，与左眼视图和右眼视图对应的图像的立体图对相对于彼此具有空间偏移。在具体实施方式中，编解码器可以与时序型编码类似的方式附加地将立体视频的图像空间编码为主要或次要图像对。例如但不限于，用于时序型编码的主要图像可对应于自一只眼睛的视图，并且被用作用于空间编码的主要图像。在具体实施方式中，可将另一只眼睛的对应图像编码为相对于主要图像的“增量”或B-图像。例如但不限于，确定对应于一只眼睛的原始帧与对应于该眼睛的图像之间的“增量”，并通过编解码器对其进行编码以捕获空间偏移。在具体实施方式中，编码可将左眼视图和右眼视图的空间编码与当前图像和后续图像的时序型编码相结合。在具体实施方式中，在图像处理期间，左图像与右图像之间的相似度或差异的搜索可使用由拼接***计算的点偏移的知识。

在具体实施方式中，由于大部分的空间信息将是相同的或相似的，所以编解码器可用于通过将左眼视图和右眼视图结合成单个图像来压缩最终的视频输出，从而捕获帧之间的空间冗余。另外，由于大部分的时序型数据将是相同的或相似的，所以编解码器可用于通过将左眼视图和右眼视图的单个图像与左眼视图和右眼视图的后续单个图像结合来压缩最终的视频输出，从而捕获帧之间的时序型冗余。因此，在具体实施方式中，编解码器可包括描述以下的信息：均对应于相同的时序型时间点的左眼图像至右眼图像的增量(或反之亦然)、第一时间点处的左眼图像至第二时间点处的左眼图像的增量、第一时间点处的左眼图像至第二时间点处的右眼图像的增量、或它们的任何适当组合。编解码器可用作图像对应于任何适当的一个或多个时间的参考。本公开可设想到，对于任何给定的相机对，编解码器可使用左图像或右图像。在具体实施方式中，编解码器可通过确定一个或多个共享变换块来压缩最终视频，使得潜在的块数据的“字典”可用于实现压缩和动作补偿。变换块或潜在的字典可在左视频与右视频之间共享，从而允许具有两个流的视频共享潜在的压缩数据。在具体实施方式中，变换块可用作用于压缩最终视频的线性块变换(例如，离散余弦变换(DCT))的输入。在具体实施方式中，编解码器可保持四个独立的动作补偿流：(1)对于主要眼的动作补偿；(2)主要眼的动作改变；(3)对于次要眼的偏移(以及偏移的改变)；以及(4)次要眼的动作改变。

在具体实施方式中，拼接***可将离散图像一起拼接成立体3-D360°视频并且将立体3-D 360°视频存储为高数据视频帧。对于高速、高分辨率视频回放或低延迟的场景，优选地，客户端设备150利用其GPU或CPU实现拼接操作。在这种情况下，内容服务器140可为客户端设备150存储参数或掩模以适当地拼接所接收的图像，并且客户端设备150可基于参数和掩模实现变形、合成或混合步骤。掩模可以低分辨率存储为二进制图像，并且二进制图像可利用参数通过内插被缩放至适当的分辨率，并且接收的图像拼接在一起以重新生成场景。在具体实施方式中，可能不会从帧到帧产生掩模，并且可仅在检测到改变时存储掩模。还可以采取结合的方法，在所述方法中，低分辨率版本的帧充分地被合成并被保存以用作背景，而高分辨率图像可以其原始的状态被取得，然后在客户端设备150上被变形并合成。

图17示出包括各种视频数据成分的内容容器142。在具体实施方式中，合成流可指包括并入单个内容容器142(或容器流)中的视频数据的成分的视频流。在具体实施方式中，视频数据可存储为单个容器(内容容器142)，其中多个流或子流在容器142内部交错。在具体实施方式中，内容容器142可包括多个子流，例如，视频子流(例如，具有多重分辨率的合成视频、单个视频流、操纵相机流或顶部/底部盖视频数据)、音频子流(例如，具有或不具有空间重构数据的音频、立体音频或单声道音频)、重构子流(例如，掩模数据、变形数据、校正数据或投影参数)或它们的任意组合。在图17的示例中，内容容器142包括视频子流1至N、音频子流1至M和重构信息1至R。在具体实施方式中，合成流的一个或多个音频子流可与一个或多个视频子流时间同步。另外，音频空间重构数据可包括用于由一个或多个音频子流空间上重构360°音频(“环绕音效”)的数据。在具体实施方式中，360°立体3-D视频的视频流可以是包括整个图像数据的视频流，或者可以是用于相机***的每个相机的视频流。在具体实施方式中，客户端设备150可以作为单独的流接收参数和掩模，并且根据需要取得特定图像帧。尽管本公开描述并示出具有特定成分或子流的特定合成流，但是本公开可设想到具有任何适当的成分或子流的任何适当的合成流。

图18示出配置为将内容容器142广播为合成流的示例性内容服务器140。在具体实施方式中，具有内容容器142的合成流可通过内容服务器140串流(可能以速度有限的方式)至客户端设备150，并且客户端设备150可解封装并理解流。例如但不限于，图18中所示的方法可应用至广播直播流，在广播直播流中，合成流(例如，接收自拼接服务器130)可在几乎或完全不经受由内容服务器140施加的附加过程的情况下通过内容服务器140直接被广播。作为另一示例而不限制，图18中所示的示例性传输方法可应用至具有最低水平的内部冗余的合成流。在具体实施方式中，内容服务器140可以是超文本传送协议(HTTP)服务器，并且内容服务器140可配置为向客户端设备150传输内容容器142。在具体实施方式中，可以以较高数据率传递合成流的初始部分以填充客户端设备150的缓存，然后，可以以较低数据率传递合成流的其余部分。在具体实施方式中，拼接服务器130可输出多个合成流，每个合成流具有如由视频参数(例如，分辨率、帧速率或压缩参数)确定的不同的比特率。例如但不限于，内容服务器140或客户端设备150可基于可用的或所请求的带宽选择适当的流

图19示出包括未捆绑的流的直接传输的示例性传输方案。在具体实施方式中，内容服务器140可以以单独的流的形式传输视频数据，而不是单个合成流。例如但不限于，客户端设备150可分开请求资源(例如，视频流2、音频流2和重构信息2)，然后，客户端设备150分开接收这些资源并根据需要使用它们。在具体实施方式中，可包括描述符文件或流(例如，具有多种流的元数据或位置)以便于访问。

图20示出用于视频流的传输的示例性调解方案。在具体实施方式中，内容服务器140可解码并理解包括在合成流中的数据(例如，原始内容容器142)。在具体实施方式中，客户端设备150可传输对特定合成流的请求。例如但不限于，对视频流的请求可包括用于包括或省去视频流的一个或多个成分或子流的指令或用于选择具有特定比特率的成分或子流的指令。例如，成分或子流可对应于包括若干视图的视频流的特定视图。内容服务器140可响应于接收来自客户端设备150的请求而访问分流以提取成分流的成分。在具体实施方式中，内容服务器140可将与由客户端设备150请求的成分或子流对应的所请求的成分或子流组合为自定义流。在图20的示例中，自定义流(“发送至客户端的内容容器”)包括视频流i、视频流j、音频流m和重构信息q。然后，内容服务器140将自定义流传输至客户端设备150。例如但不限于，不具有扬声器或不具有声卡的客户端设备可包括用于从由内容服务器140传输的自定义流排除任何音频相关信息的指令。作为另一示例而不限制，具有高清显示器的客户端设备150可请求高清视频流。

图21示出用于视频流的传输的另一示例性调解方案。如上所述，内容服务器140可解码和理解包括在合成流中的数据。另外，客户端设备150可向内容服务器140传输对特定视频馈入的请求，所述请求可包括可包括用于供内容服务器对一个或多个成分或子流执行变换的指令。例如但不限于，源自客户端设备150的请求可包括用于通过对合成流的一个或多个成分或子流进行转码或调整尺寸来自定义流的指令。例如，包括在自定义流中的一个或多个视频子流可以以如上所述按时间顺序和在空间上被编码，或者编码为符合任何适当的编码格式(例如，运动图像专家组(MPEG-4))。作为另一示例，来自移动设备的请求可包括用于将视频流调整尺寸为适合于移动设备的屏幕尺寸和连接的带宽的分辨率的指令。

图22示出用于视频流的传输的另一示例性调解方案。在具体实施方式中，内容服务器140可将合成流的成分和子流存储为单独的流，使得在从客户端设备150接收到请求时不需要内容服务器来提取合成流的成分。如上所述，客户端设备150可向内容服务器140传输包括用于选择合成流的一个或多个成分或子流的指令的请求。内容服务器140可检索所请求的成分或子流并将请求的成分或子流传输至客户端设备150。在具体实施方式中，来自客户端设备150的请求可包括用于对合成流的一个或多个成分或子流执行变换的指令。如上所述，变换可包括对一个或多个成分或子流进行转码或调整尺寸。例如但不限于，来自客户端设备150的指令可指挥内容服务器140将一个或多个音频流转码为环绕音效格式(例如，空间音频编码(SAC))。

图23示出切片流集合144。在图23的示例中，切片流集合144包括与顶部切片S-Top和底部切片S-Bottom对应的两个流。切片流集合144还包括与呈现由相机***110的相机112提供的360度视图的切片S-1至S-N对应的N个流。在本文中，术语切片可指帧的空间上不同的区域，该区域可与相同帧中的其他区域分开地进行编码。另外，在本文中，术语切片流可指被划分为多个独立的视频流的拼接或未拼接视频流，所述多个独立的视频流构成视频帧的垂直和/或水平切片，其中每个视频流可单独地进行解码。在具体实施方式中，切片流集合144可附加地包括诸如音频或控制信息的来自合成流的数据。

图24示出用于视频流传输的示例***互方案。在具体实施方式中，内容服务器140可将合成流划分为可单独地被访问或被串流的切片。在具体实施方式中，内容服务器140可基于来自客户端设备150的输入以交互方式提供对切片流的访问。例如但不限于，切片流可以是实时360°3-D视频，并且来自客户端设备150的输入可描述用户对于内容服务器140的定向。内容服务器140可动态地提供与用户正在观看的区域对应的帧。例如但不限于，内容服务器140可选择与用户的定向对应的视频流的一个或多个帧并且将选择的帧传输至客户端设备150。在具体实施方式中，内容服务器140可传输在客户端设备150上显示时用作背景场景的低分辨率、完全拼接的视频流。当在从内容服务器140接收全解析度视频流时可能存在延迟时，可为用户显示一段时间的背景场景。渲染在客户端设备150上的视频的细节层次(LoD)可随着从内容服务器140接收到全解析度视频流而提高。

除了定向数据以外，客户端设备150可传输指令以选择切片流的一个或多个成分或帧。在具体实施方式中，指令还可指挥内容服务器140转换切片流的成分或帧中的一个或多个。例如但不限于，内容服务器140可响应于来自客户端设备150的、选择一个或多个成分或帧的指令而访问并服务来自多个流的数据。

在具体实施方式中，客户端设备150可基于推理出用户希望改变视角(perspective)(例如，基于头戴式显示器(HMD)的动作或遥控)在可见区域的每一侧上预见性地请求附加的切片。客户端设备150可基于推理出的视角的改变来传输用于选择一个或多个成分或帧的指令。在观看者视角中，在传输期间的LoD提升是微弱的，但是随着视角在观看的方向中变得更加稳定，LoD可递增地提升(例如，提升的视频分辨率)。在具体实施方式中，随着用户视角改变，来自客户端设备150的指令可逐渐选择更高分辨率的视频切片。

在具体实施方式中，内容服务器140或客户端设备150可使用延迟感测或带宽感测算法来动态地调整视频流的帧速率，以补偿可用带宽中的改变。例如但不限于，背景完全拼接视频的传输速率可下降以恢复带宽。在具体实施方式中，内容服务器140或客户端设备150可根据客户端设备150的性质作出附加的决定。例如但不限于，电视上的浏览(navigation)可比HMD的浏览慢，而HDM的浏览可比可容易地在手中移动的移动电话或平板的浏览慢。在具体实施方式中，内容服务器140可基于客户端设备150的设备配置文件来调整一个或多个传输参数。

交互式串流可使用再编码流或仅关键帧编码流，例如，移动连续图像专家组(M-JPEG)编码。在关键帧和中间帧均存在的情况下，内容服务器140可对所有流进行解码，然后对请求的切片进行再编码。在具体实施方式中，内容服务器140可包括加速器ASIC或加速视频流的再编码/解码/操控的其他能力。例如但不限于，这些能力可实现为具有专用硬件(例如，加速器ASIC)的单独的处理节点，其中内容服务器充当该处理节点的代理。

在具体实施方式中，整个数据流(例如，内容容器142)可传输至一个或多个客户端设备150。例如但不限于，内容服务器140可将内容容器142传输至一个或多个客户端设备150，然后每个客户端设备150可选择或提取内容容器142的一部分(例如，客户端设备150可从内容容器142提取特定的视频子流以显示在客户端设备150上)。客户端设备150可基于客户端设备150的要求或能力确定需要数据流的哪个部分(例如，如果客户端设备150具有显示高清视频的能力，则客户端设备150可从内容容器142提取高清视频流)。在具体实施方式中，数据流的一个或多个部分可被发送至多个客户端设备150。例如但不限于，内容服务器140可将高清视频流传输至具有显示高清视频的能力的一个或多个客户端设备150，并且内容服务器140可将标清视频流传输至具有显示标清视频的能力的一个或多个其他客户端设备150。

图25示出用于传输3-D 360°视频的示例性方法600。该方法可起始于步骤610：接收与三维视频的特定视图对应的请求。在具体实施方式中，3-D视频包括若干视图。在步骤620中，访问对应于视频的数据流。在步骤630中，基于所述请求选择所访问的数据流的一个或多个部分。在具体实施方式中，所选择的的部分中的至少一个对应于所述特定视图。在步骤640中，将所访问的数据流的所选择的部分传输至客户端设备。在适当的情况下，具体的实施方式可重复图25的方法的一个或多个步骤。尽管本公开描述并示出图25的方法的特定步骤如以特定顺序发生，但是本公开可设想到图25的方法的任何适当步骤以任何适当顺序发生。此外，尽管本公开描述并示出包括图25的方法的特定步骤的用于传输3-D 360°视频的示例性方法，但是本公开可设想到包括任何适当步骤的用于传输3-D 360°视频的任何适当方法，在适当的情况下，所述步骤可包括图25的方法的所有或某些步骤，或者不包括其中任一步骤。另外，尽管本公开描述并示出实现图25的方法的特定步骤的特定组件、设备或***，但是本公开可设想到实现图25的方法的任何适当步骤的任何适当组件、设备或***的任何适当组合。

在具体实施方式中，在3-D 360°视频传输至客户端设备150之后，可重构视频使得用户可将由视频呈现的视图观看为3-D场景。例如但不限于，可通过如下方式重构3-D 360°视频，即，正在观看重构视频的用户可感知到自然、逼真的或沉浸式3-D环境，这种环境提供亲临“现场”的感觉，而不是仅仅观看屏幕上的场景的表象。在本文中，术语重构可指将2-D图像或视频转换为拼接或另外处理的并校准的视频流的动作，其可用于以逼真的3-D方式呈现场景。在具体实施方式中，重构可通过诸如HMD或3-D电视的立体视觉***来执行。客户端设备150(例如，HMD或3-D电视)可从内容服务器140接收离散图像或流，并且客户端设备150可通过结合、拼接或处理离散图像或流来执行重构以生成立体3-D 360°视频。在具体实施方式中，重构技术可允许客户端设备150向观看者无缝地呈现3-D场景，同时还为观看者提供以下中的一个或多个：有效的带宽使用、拼接过程的优化、使用先进的网络串流技术的能力，或延迟的优化、计算或其他视觉参数。尽管本公开描述并示出以特定方式执行的特定的重构技术，但是本公开可设想到以任何适当方式执行的任何适当的重构技术。

在具体实施方式中，可将重构技术应用至立体图(例如，利用如上所述的相机***110捕获的图像)。例如但不限于，可通过将拼接图像映射在球面上(例如，利用球面投影映射)来重构立体图。当显示重构的3-D视频时，用户的眼睛或头部可呈现为好似位于球体的中心，其中，用户的头部被允许自由地旋转以观看3-D视频的不同的部分。随着用户的头部旋转，客户端设备150可以无缝的方式显示两个重构图像(例如，左图像和右图像)。在具体实施方式中，客户端设备150可从内容服务器140接收单独的图像、掩模数据和变形参数。客户端设备150可使用GPU或CPU对图像进行变形并应用掩模或其他校正参数来在存储器中创建球形结构。在具体实施方式中，可跳过或忽略球体的未被用户观看的部分，这可降低用于数据传输的带宽。在具体实施方式中，在检索或处理高分辨率视频时，可提供并临时使用低分辨率图像(例如，当用户转动他们的头部以观看视频的不同部分时)。

在具体实施方式中，重构过程可包括摄影测量技术。例如但不限于，摄影测量可基于利用具有重叠FOV的一组相机捕获的非立体图。例如但不限于，一组相机可沿着圆或圆的一部分布置，并且每个相机可定向为沿着起始于圆的共同中心点的辐射线。由布置成圆的一组相机捕获的一组图像可呈现场景的360°视图，并且该集合的每个图像可对应于360°场景的特定角度位置(例如，每个相机可具有不同的定向)。相邻相机可具有类似于如上所述的角度重叠部116的角度重叠部。在具体实施方式中，摄影测量可涉及具有高程度的角度重叠部的相邻相机(例如，例如，大于或等于水平FOV的角度重叠部的50％)，使得场景中的任意点被至少两个相机捕获。在具体实施方式中，摄影测量方法可使用与图像平面相交的其他图像来综合3-D信息。例如但不限于，相同场景的多个视图可用于创建单独的左视图和右视图，并且向观看者提供3-D的场景。来自不同视角的图像可定位在数学上适当的位置以支持与捕获图像的相机的定向或FOV匹配的重构。例如但不限于，一组图像可映射在对应的一组多边形上。一旦图像被定位或对齐，则可以选择重叠图像的适当部分以生成具有3-D外观的立体视图(例如，左视图和右视图)。在具体实施方式中，可在不使用混合、拼接或重复的特征搜索或单应性计算的情况下应用摄影测量技术。

在具体实施方式中，摄影测量技术可提供相对快速或有效的方法以处理图像。例如但不限于，摄影测量技术可用于直接处理来自相机***110的图像，并且提供由相机***110捕获的场景的取景器类型的指示(例如，不需要拼接或其他附加的过程)。为操作而设置相机***110的人可使用利用摄影测量处理的图像以快速地观看由相机***110获取的图像，以防需要移动相机***110或调整其操作参数。作为另一示例而不限制，如果拼接过程变得暂时不可用或无法实行，则可将摄影测量技术应用为备份以处理来自相机***110的图像或将图像平面置于适当的焦距处。虽然本公开描述了包括特定过程的特定摄影测量技术，但是本公开可设想到包括任何适当的过程的任何适当的摄影测量技术。

图26示出基于利用摄影测量的混合拼接的示例性重构过程。在具体实施方式中，重构过程可包括利用摄影测量的混合拼接，其中摄影测量技术与拼接过程结合以生成一组3-D图像。正如上文所描述的摄影测量技术，利用摄影测量的混合拼接可能不需要立体图捕获。在具体实施方式中，可利用具有重叠的FOV的一组相机捕获一组重叠图像650，然后可将捕获的图像650拼接在一起(例如，利用如上所述的拼接过程)以形成合成图像655。在具体实施方式中，如上所述的拼接过程可用于将捕获的图像650结合在一起，但是对于利用摄影测量的混合拼接，捕获的图像650可能不会被充分地拼接(例如，可对图像进行拼接但是不进行混合或合成)。在具体实施方式中，在执行拼接过程以生成合成图像655之后，计算完整的一组单应性。例如但不限于，如上所述，可计算与相邻图像对的相应特征点对相关的单应性矩阵。在具体实施方式中，在计算单应性之后，可利用掩模或直接图像分割将捕获的图像650分割为左图像集合和右图像集合。在图26的示例中，捕获的图像650用于生成左图像集合660和右图像集合670。例如但不限于，捕获的图像650中的每个图像可具有与一个相邻图像共享的第一重叠区域210和与另一相邻图像共享的重叠区域210。可通过从捕获的图像650中的每个图像提取第一重叠区域210来形成一组左图像660，并且可通过从捕获的图像650中的每个图像提取第二重叠区域210来形成一组右图像670。然后，利用计算出的单应性将提取的左图像660拼接在一起以生成伪立体左图像665。类似地，利用计算出的单应性将提取的右图像670拼接在一起以生成伪立体右图像675。在具体实施方式中，可对左拼接图像665和右拼接图像675执行充分的混合及合成过程。在具体实施方式中，可由服务器(例如，拼接服务器130)执行利用摄影测量的混合拼接，并且可由内容服务器140将拼接图像665和675传输至客户端设备150。在具体实施方式中，基础视频或图像可与单应性一同传输至(例如，通过内容服务器140)客户端设备150，并且客户端设备150可执行最终的拼接操作。

图27示出用于重构3-D 360°视频的示例性方法700。该方法可起始于步骤710：访问呈现场景的360°视图的若干图像。例如但不限于，可通过一组相机(例如，一组非立体相机)捕获图像，每个相机定向为捕获360°场景的特定部分。在具体实施方式中，每个图像可呈现360°场景的一部分，并且每个图像可包括第一重叠区域和第二重叠区域。第一重叠区域可对应于与第一相邻图像的重叠部，并且第二重叠区域可对应于与第二相邻图像的重叠部。在具体实施方式中，特定图像的重叠区域可包括该特定图像的区域的50％或50％以上。例如但不限于，具有在水平方向上延伸的1000像素的图像可具有包括至少0至500像素的第一重叠区域，并且可具有包括至少500至1000像素的第二重叠区域。在步骤720中，计算一组单应性。在具体实施方式中，可对每个重叠区域计算一组单应性，并且单应性可基于重叠区域中的特征点。例如但不限于，如上所述，可将特征点匹配过程应用至呈现场景的360°视图的图像。在步骤730中，由呈现场景的360°视图的图像创建一组左图像。所述一组左图像可表示场景的第一360°视图。在步骤740中，由呈现场景的360°视图的图像创建一组右图像。所述一组右图像可表示场景的第二360°视图。在具体实施方式中，所述一组左图像和一组右图像的创建可基于摄影测量技术。在步骤750中，将左图像拼接在一起。在具体实施方式中，可利用先前计算的单应性将所述一组左图像拼接在一起以生成拼接的360°左图像。在步骤760中，将右图像拼接在一起，此时方法可结束。在具体实施方式中，可利用先前计算的单应性将所述一组右图像拼接在一起以生成拼接的360°右图像。在适当的情况下，具体的实施方式可重复图27的方法的一个或多个步骤。尽管本公开描述并示出图27的方法的以特定顺序发生的特定步骤，但是本公开可设想到图27的方法的以任何适当顺序发生的任何适当步骤。此外，尽管本公开描述并示出包括图27的方法的特定步骤的用于重构3-D 360°视频的示例性方法，但是本公开可设想到包括任何适当步骤的用于重构3-D 360°视频的任何适当方法，在适当的情况下，所述步骤可包括图27的方法的所有或某些步骤，或者不包括其中任一步骤。另外，尽管本公开描述并示出实现图27的方法的特定步骤的特定组件、设备或***，但是本公开可设想到实现图27的方法的任何适当步骤的任何适当的组件、设备或***的任何适当组合。

图28示出用于重构3-D 360°视频的另一示例性方法900。该方法可起始于步骤710：访问呈现场景的360°视图的若干图像。如上所述，可通过一组相机(例如，一组非立体相机)捕获图像，其中每个图像可呈现360°场景的一部分，并且每个图像可包括第一重叠区域和第二重叠区域。第一重叠区域可对应于与第一相邻图像的重叠部，并且第二重叠区域可对应于与第二相邻图像的重叠部。在步骤950中，可通过如上所述的相机***接收每个相机相对于相邻相机的位置、来自相邻相机的图像之间的重叠量以及图像边界。在步骤955中，可拼接来自相机***的图像以形成单目全景图像。例如但不限于，如上所述，可将特征点匹配过程应用至呈现场景的360°视图的拼接图像。在具体实施方式中，可分割接收的图像以生成左虚拟立体相机(VSC)和右VSC的两个图像边界。可扩大接收的图像的区域使得实现适当的拼接重叠部。在步骤960中，可计算虚拟位置。在步骤965中，基于图像的重叠部的图像分割可限定轴边缘边界。例如但不限于，轴边缘边界可对应于左VSC的右边界和右VSC的左边界。例如但不限于，左VSC的左边缘和右VSC的右边缘通过不同的单目相机之间的拼接线(以橙色示出)限定。在步骤970中，可确定分割图像的非轴向边界。例如但不限于，非轴向边界可对应于左VSC的左边缘和右VSC的右边缘。在具体实施方式中，非轴向边界由不同相机之间的拼接线或缝限定。

在步骤975中，可生成捕获接收的图像的边界的图像掩模。在具体实施方式中，图像掩模限定单目图像的哪个部分属于对应的VSC。接收的单目图像可变形以补偿用于补偿捕获的场景的虚拟3-D空间中的对象的各种位置而必须变形的单目图像。在具体实施方式中，变形的图像的边界可以是相对任意的并且难以限定为简单的线。相反地，这些边界更容易被捕获为掩模(例如，左VSC掩模和右VSC掩模)。在步骤750中，将左图像拼接在一起。在具体实施方式中，可利用先前对左图像计算的VSC掩模将所述一组左图像拼接在一起。在步骤760中，右图像拼接在一起。在具体实施方式中，可利用先前对右图像计算的VSC掩模将所述一组右图像拼接在一起。在步骤980中，左拼接图像和右拼接图像结合以形成3-D 360°视频。在适当的情况下，具体的实施方式可重复图28的方法的一个或多个步骤。尽管本公开描述并示出图28的方法的以特定顺序发生的特定步骤，但是本公开可设想到图28的方法的以任何适当顺序发生的任何适当步骤。此外，尽管本公开描述并示出包括图28的方法的特定步骤的用于重构3-D 360°视频的示例性方法，但是本公开可设想到包括任何适当步骤的用于重构3-D 360°视频的任何适当方法，在适当的情况下，所述步骤可包括图28的方法的所有或某些步骤，或者不包括其中任一步骤。另外，尽管本公开描述并示出实现图28的方法的特定步骤的特定组件、设备或***，但是本公开可设想到实现图28的方法的任何适当步骤的任何适当的组件、设备或***的任何适当组合。

图29示出在对图像应用变形操作之前和之后的单目图像的示例性集合。在图29的示例中，图像765A、765B和765C对应于应用变形操作之前的所捕获的单目图像，并且图像767A、767B和767C对应于应用了变形操作之后的图像。在具体实施方式中，相机***可包括一组单目相机，其中每个相机沿着相机***的半径同轴地对齐。在具体实施方式中，来自单目相机***的一组单目图像可结合以形成看起来如通过一组虚拟立体相机拍摄的拼接图像，其中每个VSC对(例如，一对左VSC和右VSC)对应于单目相机。例如但不限于，可在拼接过程期间对一组单目图像进行转换以生成独立的左眼输出和右眼输出。在具体实施方式中，如上所述，单目图像可基于轴边缘边界和非轴边缘被分割。在具体实施方式中，一组单目图像可变形为补偿场景中的对象的各种3-D位置。例如但不限于，如图29中的变形的图像767A、767B和767C所示，应用变形操作之后的一组图可具有非线性的边界或跨越两个维度变化的边界。在具体实施方式中，图像边界可形成可以限定单目图像的哪个部分属于哪个VSC的掩模。尽管本公开描述并示出以特定方式分割并变形的特定的单目图像，但是本公开可设想到以任何适当方式分割并变形的任何适当的单目图像。

图30至图31示出示例性360°立体3-D环境。在具体实施方式中，用户可通过使用能够支持3-D的客户端设备来体验沉浸式360°立体3-D环境240。如图30的示例中所示，在具体实施方式中，用户被360°立体3-D环境240围绕，并且用户可与360°立体3-D环境240交互。用于观看360°立体视频的示例性客户端设备150A-C可包括头戴式显示器(HMD)、移动设备(例如，电话、平板等)或电视机。如图31的示例中所示，在具体实施方式中，多个用户可通过客户端设备150A-C观看360°立体3-D环境240，并且从它们独特的透视图(perspective)242A-C独立地观看360°立体3-D环境240。例如但不限于，每个用户可通过客户端设备150A-C实时动态地调整它们各自的360°立体3-D环境240的透视图242A-C。另外，选择的透视图242A-C可提供为实时捕获并实时渲染在客户端设备150A-C上的立体3-D视频。

如上所述，客户端设备150A-C可向提供360°立体3-D视频的内容服务器140描述每个用户的定向。在具体实施方式中，客户端设备150A-C可包括可用于旋转或控制透视图242A-C的惯性测量单元(IMU)。另外，客户端设备150A-C可基于惯性测量来确定每个用户的定向，使得360°立体3-D环境240可渲染为与每个用户的左眼和右眼正确地对齐。例如但不限于，IMU可包括陀螺仪、加速度计或其组合。在具体实施方式中，加速度计可用于确定重力矢量并将360°立体3-D环境240对齐至用户的全球垂直轴。作为另一示例，可基于用户对显示器的相对位置来调整显示的透视图242A-C的视差。在具体实施方式中，惯性测量传感器的快速采样可在计算客户端设备150A-C的动作时实现更高的准确度和精确度。在具体实施方式中，对IMU的自动动作计算的使用的控制可进行切换。在具体实施方式中，内容服务器140可基于如上所述的用户的输入以交互的方式提供对360°立体3-D环境240的访问。例如但不限于，透视图242A-C可分别对应于由多个视图或透视图组成的360°立体3-D环境240的具体的视图或透视图。因此，如本文中更充分地描述的，客户端设备可显示全景(如360°)场景的具体视图，并且所述场景可划分为多个视图，每个视图可例如随着用户转动她的头部而被用户看见。本公开可设想到视图可以是连续的，使得视图简单地为对用户显示的内容，并且用户可例如通过转动她的头部来持续地调整显示。在具体实施方式中，内容服务器140可基于用户的定向从高分辨率流中选择帧，并且可将选择的帧传输至客户端设备150A-C。内容服务器140可预测客户端设备150A-C的动作方向，并且基于预测的动作方向传输额外的帧。

在具体实施方式中，客户端设备150A-C可以是具有水平或垂直参考平面以围绕自身的动作中心旋转的智能电话或平板。由于用户可能围绕着他自身的动作中心旋转，而不是设备的中心，因此在这种情况下旋转必须将平移纳入考虑。平移可与动作控制同时被支持以允许用户设置水平或垂直参考平面。替代地，重力矢量感测可用于自动地设置这些平面。在具体实施方式中，用户可手动地为360°立体3-D视频建立垂直平面。例如但不限于，透视图242A-C可通过平移客户端设备150A-C旋转。在具体实施方式中，用户可在电话或平板的触摸屏上执行手势以与360°立体3-D视频交互。例如但不限于，捏的手势可增大渲染在客户端设备150A-C上的透视图242A-C的变焦(zoom)。

在具体实施方式中，***设备可与客户端设备150A-C配对。例如但不限于，***设备可以是遥控设备、移动电话、平板、操纵杆、触摸板、触控笔或可穿戴设备。另外，配对可通过射频(RF)、光传输、蓝牙、WI-FI或有线连接来执行。例如但不限于，来自操纵杆或游戏控制器的输入可用于平移透视图242A-C。在具体实施方式中，***设备可包括位置追踪***(例如，PLAYSTATION MOVE或WII REMOTE)，并且位置或旋转追踪可用于修改透视图242A-C。作为另一示例，触摸板或操纵杆可用于输入上拉可视菜单或实现特定功能的“鼠标手势”。在具体实施方式中，***设备可以是遥控设备，并且透视图242A-C可通过遥控设备的移动基于加速度计或陀螺仪的数据而改变。作为另一示例，可利用遥控设备的双向按钮来影响放大或缩小。作为另一示例，用户可利用遥控设备的方向键来旋转透视图242A-C。在具体实施方式中，***设备可包括特定按钮，所述特定按钮可用于将透视图242A-C返回至已知的安全设定从而允许用户容易地自我定位。如果需要变焦或其他控制，则双向按钮(如频道控制)可映射至这些功能。

在具体实施方式中，***设备可与HMD配对以调整透视图242A-C。例如但不限于，***设备(遥控设备或游戏控制器)可包括物理纹理以引导用户至局部按钮或控制。另外，***设备可包括允许外部相机定位***设备并在透视图242A-C中显示其表象的的标签(主动或被动)。在具体实施方式中，***设备的虚拟表象可能不是准确的表象。例如，某些部分(例如，按钮或开关)可被准确地渲染，而可对***设备进行缩放以为***设备注入附加的功能。作为另一示例，***设备可使用允许***设备在用户触摸按钮时向客户端设备150A-C提供输入的触摸感测。在具体实施方式中，***设备可以是附接至真实对象的一个或多个可附接的传感器粘贴件。例如但不限于，左箭头功能粘贴件可放置于对象(例如，纸巾盒)的左侧上，且右箭头功能粘贴件可放置于对象的右侧上。在对象的每一侧上轻敲可浏览视频内容。

在具体实施方式中，***设备可以是与客户端设备150A-C配对的可穿戴设备。例如但不限于，***设备可以是具有触觉反馈的一个或多个手套。当用户触摸虚拟对象时，手套发送与对象相关联的触觉反馈(例如，纹理、感觉或温度)。在具体实施方式中，***设备可以是智能手表，且智能手表的运动可控制透视图242A-C的空间浏览。动作可由IMU(例如，加速度计或陀螺仪)、地磁传感器或气压表检测。例如，当用户用手指指示时，透视图242A-C可向前移动。作为另一示例，旋转或拨动智能手表可使360°立体3-D视频及时向后或向前移动。作为另一示例，智能手表的运动可使透视图242A-C移动至不同的位置或使360°立体3-D视频推进至下一章节。在具体实施方式中，***设备可以是戴在用户手指上的戒指。例如但不限于，用户可通过戒指的侧面上的旋转元件改变透视图242A-C。作为另一示例，旋转元件可控制360°立体3-D视频的回放速率。在具体实施方式中，戒指可包括用于用户输入的物理按钮或电容传感器。例如但不限于，用户可按压按钮以执行选择操作。作为另一示例，用户可在电容传感器上执行滑动手势以控制透视图242A-C。在具体实施方式中，戒指可利用加速度计、气压表、陀螺仪或地磁传感器来执行运动感测，并且使用具有戒指的手指来控制透视图242A-C的浏览。

在具体实施方式中，智能电话或平板可包括面对用户的相机，并且可通过追踪用户眼睛的运动来提供用户输入。例如但不限于，用户可基于眨眼的量或持续时间来浏览360°立体3-D视频或用户界面(UI)。作为另一示例，可响应于用户将其眼睛指向透视图242A-C的特定部分并保持其眼睛的位置预定时间量来执行特定指令。作为另一示例，UI可基于闭一只眼睁另一只眼的用户来执行特定动作。

在具体实施方式中，可与平板或智能电话结合使用触控笔，以与360°立体3-D视频交互或控制360°立体3-D视频。例如但不限于，触控笔可用于图画、注释或选择360°立体3-D环境240的多个部分。例如，用户可通过利用触控笔尖追踪360°立体3-D视频的对象的轮廓来执行“套索”选项。作为另一示例，当与客户端设备150A-C配对时，触控笔可以是“类似鼠标”的控制器。

在具体实施方式中，客户端设备可提供允许用户与360°立体3-D视频交互的UI。在具体实施方式中，客户端设备150A-C的IMU可使用用户头部的动作来与UI交互(例如，点头或摇头以确认或拒绝动作)。例如但不限于，UI可使用透视图242A-C的侧面来显示菜单项或者激活各种功能。例如，如果透视图242A-C的中心包括主要视频内容，则透视图242A-C的侧面或背面可包括用户可看见以激活的控制。作为另一示例，UI可以水平地组织不同的视频片段。用户可通过水平地旋转头部来浏览(navigate)视频片段。另外，通过向上看或向下看，用户可逐帧地缩放选择的片段。作为另一示例，摆动用户的头部可导致透视图242A-C的倾斜。作为另一示例，UI可基于检测到由用户执行的头部向下的动作来打开动作菜单。

在客户端设备150A-C为HMD的情况下，用户的视觉可能被遮挡且用户可在手或真实环境不可见的情况下与360°立体3-D环境240交互。在具体实施方式中，HMD可包括可用于追踪用户的手的骨骼以生成手的指针或虚拟图像的面向外部的相机。例如但不限于，用户可利用由面向外部的相机捕获的手势互动与UI交互。在具体实施方式中，客户端设备150A-C可包括与头部接触的电极。例如但不限于，一个或多个电极可构建至HMD设备的边缘中以接触用户头部的前侧靠近前额皮质区域。作为示例，UI可包括捕获大脑中的电活动以与360°立体3-D环境240交互的脑机接口(BCI)。另外，客户端设备150A-C可推断用户的情绪或指令并相应地调整内容或透视图242A-C。

在具体实施方式中，客户端设备150A-C可包括深度传感器和图像传感器的组合以捕获用户的四肢(例如，手或脚)在3-D中的移动。例如但不限于，传感器可以是类似KINECT的***的一部分。作为另一示例，客户端设备150A-C可使用面向用户以通过三角测量分割用户的手并确定其3-D位置的相机对。在具体实施方式中，客户端设备150A-C的UI可由捕获到的用户手的移动识别具体的手势。另外，UI可通过捕获到的用户的一只或两只手的移动来提供对一组指针的直接控制。例如但不限于，捕获到的手的移动可允许用户玩游戏、与其他虚拟内容交互或对虚拟风景进行注释。作为另一示例，用户还可利用手势进行诸如暂停或播放360°立体3-D视频，访问诸如倒回、快进或音量的控制，或者转移至不同的虚拟场景或区域。例如，UI可允许用户通过举起他们的手来移动或定格360°立体3-D视频的一部分。在具体实施方式中，360°立体3-D视频的控制可通过由用户“触摸”的UI的虚拟控制(例如，虚拟按钮或滑动器)或者在没有虚拟控制的情况下利用手势来完成。

例如但不限于，UI可基于识别到追踪所显示的虚拟对象的轮廓的手指或手的移动来加亮或选择虚拟项目。例如，UI可提供特殊效果以在透视图242A-C中将选择的对象与其他未选择的对象区分开。作为另一示例，UI可将四个手指的移动识别为对应于虚拟QWERTY键盘或控制器面板上的输入。例如，UI可基于虚拟键盘上的输入在透视图242A-C上提供虚拟便笺。作为另一示例，UI可响应于检测到两个拇指的移动而执行选择或点击操作。另外，用户可通过轻敲虚拟键盘来选择信件，并且相机追踪该动作。作为另一示例，UI可将指示手势联系为将360°立体3-D视频推进至下一记录点的指令。作为另一示例，UI可基于检测到用户的手之间的距离改变而放大或缩小透视图242A-C。作为另一示例，UI可基于捕获到形成望远镜形状的两只手来在透视图242A-C上进行放大。

作为另一示例，UI可响应于与剥离手势对应的、所捕获的手的移动而移除360°立体3-D环境240的一部分以展现电话相机馈入。作为另一示例，UI可基于检测到手滑动手势而打开操作菜单。作为另一示例，UI可通过利用滑动手势将最近的透视图242A-C擦去来显示透明的透视图242A-C。作为另一示例，UI可支持基于由用户伸出的手限定的区域来限定透视图242A-C的待剪裁区域。剪裁的区域可与来自360°立体3-D视频的记录或直播串流的分段进行拼贴。作为另一示例，当用户启动虚拟按钮或执行特定手势时，UI可在串流至相机馈入的内容之间进行切换。在具体实施方式中，UI可根据用户的移动而基于深度传感器和图像传感器数据执行动作。例如但不限于，用户的步伐移动可打开通知，而踢腿动作可去除通知。

在具体实施方式中，相机或深度相机可用于将对象从用户的“真实”环境中拉进视图242A-C中。例如但不限于，用户可位于其起居室中，并且在仍然在看着他们的沙发、咖啡桌和咖啡桌上的饮品的同时，利用HDM虚拟地被送往美丽的海滩。在具体实施方式中，UI可将增强至透视图242A-C中的真实对象用作透视图242A-C的虚拟控制。在具体实施方式中，用户可通过连接至客户端设备150A-C的***设备与透视图242A-C交互。在具体实施方式中，***设备或客户端设备150A-C可包括麦克风以操纵UI或透视图242A-C。例如但不限于，用户可说出诸如“打开我的邮件”的语句，以供UI将内容显示给用户。作为另一示例，用户可说出诸如“这是哪里”的语句，且UI可显示地图并在地图上标出位置。作为另一示例，用户可说出诸如“暂停”或“开始”的语句以操纵360°立体3-D视频的回放。

如上所述，360°立体3-D视频可提供沉浸式体验。例如但不限于，用于360°立体3-D视频的UI可基于用户与虚拟对象的交互而执行动作。例如，用户可投掷虚拟球以标记其在沉浸式环境中的当前位置。作为另一示例，当你接收到消息时，用户的虚拟口袋中存在球，或者在UI上存在虚信件。作为另一示例，UI可提供虚拟针已标记透视图242A-C的不同部分。在具体实施方式中，UI可包括人工智能归档以组织不同的360°立体3-D视频。在具体实施方式中，可基于360°立体3-D视频的数据或元数据增强360°立体3-D环境240以显示信息。例如但不限于，UI可根据正在观看威尼斯的360°立体3-D视频的用户而基于视频的图像分析或位置数据提供威尼斯的历史摘要。作为另一示例，UI可在透视图242A-C的对象上方显示图标。当用户与图标互动时，UI可显示更详细的视图或信息。作为另一示例，UI可允许用户通过声音、打字或键盘提供点评以增强实时360°立体3-D视频。作为另一示例，UI可响应于接收到来电在视图242A-C内部显示电话菜单。

在具体实施方式中，UI可允许用户选择直播串流的或预录制的360°立体3-D视频上的对象、人或空间，并且透视图242A-C可切换至另一透视图242A-C。例如但不限于，UI可呈现所选择的对象、人或空间的更靠近的优化透视图242A-C。在具体实施方式中，UI可提供具体地点或地标的360°立体3-D视频的时间重叠。例如但不限于，UI可允许用户利用来自更早的时间的对象(例如，人或建筑物)的另一360°立体3-D视频来增强360°立体3-D环境240。例如，现今的马丘比丘(Machu Picchu)的360°立体3-D视频可由客户端设备150A-C渲染，并且UI可允许用户利用来自印加时代的人和建筑物的360°立体3-D视频来增强360°立体3-D环境240。在具体实施方式中，UI可以不同的时间或不同的透视图242A-C提供360°立体3-D视频的重叠过度。例如但不限于，360°立体3-D环境240可处于美术馆内。多个用户可在空白的真实墙壁上展示他们的艺术品，并且艺术品可渲染在美术馆的墙壁上。作为另一示例，UI可为用户提供虚拟购物体验，在该体验中，用户可通过访问渲染为360°立体3-D环境240的商店来检查实际情况或商品。

在具体实施方式中，客户端设备150A-C可利用来自如上所述的内容服务器140的音频重构数据来重构与360°3-D视频相关联的音频环境。客户端设备150A-C可具有提供耳机输出的能力或者替代地可使用客户端设备的环绕音效输出的能力(例如，3-D电视上的环绕音频)。例如但不限于，音频可空间地固定在场景上，使得当用户转动他们的头部时，音频具有对应的音调、音量等的改变。作为另一示例，用户可控制音频环境的特定部分。例如，用户可对对其透视图242A-C中的对象(例如，字符)执行特定输入，且与对象相关联的音频被静音或增强。

图32示出用于与3-D视频交互的示例性方法3200。该方法可起始于步骤3210：在头戴式客户端计算设备的显示器上向用户呈现包括与用户的物理环境相隔遥远的真实场景的图像的三维视频。在步骤3220中，在头戴式客户端计算设备的显示器上向用户呈现图形对象。在具体实施方式中，图形对象可包括用户的物理环境的图像3230或虚拟图形对象3240。例如但不限于，用户的物理环境的图像3230可包括用户的物理环境中的对象(例如，人、动物或一件家具)、用户的物理环境的示意图或用户的物理环境的鸟瞰视图。作为另一示例而不限制，虚拟图形对象3240可包括通知、虚拟输入设备、显示多重3-D视频的虚拟表面、3-D视频中与对象对应的信息、由用户创建的内容或与真实场景对应的图像。在替代的实施方式中，可在头戴式客户端计算设备的显示器上向用户呈现用户的物理环境，也可向用户呈现包括远程的真实场景的图像的三维视频。在又一实施方式中，可在头戴式客户端计算设备的显示器上向用户呈现包括远程的真实场景的图像的三维视频与用户的物理环境的任何适当组合。在适当的情况下，具体的实施方式可重复图32中的方法的一个或多个步骤。尽管本公开描述并示出如以特定顺序发生的图32中的方法的特定步骤，但是本公开可设想到以任何适当顺序发生的图32中的方法的任何适当步骤。此外，尽管本公开描述并示出包括图32中的方法的特定步骤的、用于与3-D视频交互的示例性方法，但是本公开可设想到包括任何适当步骤的、用于与3-D视频交互的任何适当方法，其在适当的情况下，所述步骤可包括图32的方法的所有或某些步骤，或者不包括其中任一步骤。另外，尽管本公开描述并示出实现图32的方法的特定步骤的特定组件、设备或***，但是本公开可设想到实现图32的方法的任何适当步骤的任何适当的组件、设备或***的任何适当组合。

图33示出示例性头戴式客户端计算设备150的框图。在具体实施方式中，头戴式客户端计算设备150可被称为客户端***150、客户端设备150或头戴式显示器(HMD)。在具体实施方式中，客户端***150可由用户戴在用户的头部上或头部周围。在具体实施方式中，客户端***150可包括一个或多个显示器。例如但不限于，客户端***150可包括分割为左侧和右侧的单个显示器，其中显示器的左侧和右侧分别用于向穿戴着客户端***150的用户显示3-D场景的左图像和右图像。在图33的示例中，客户端***150包括左显示器782L和右显示器782R，并且两个显示器可用于向用户呈现3-D视频。在具体实施方式中，客户端***150可包括一个或多个相机。例如但不限于，客户端***150可包括从用户的头部朝向外侧或远离的一个或多个相机，相机可用于捕获用户的物理环境的一个或多个图像。在图33的示例中，客户端***150包括左相机784L和右相机784R。两个相机784L和784R可用于捕获用户的物理环境的立体图或视频，并且这些图像或视频可在显示器782L和782R上显示给用户。

在具体实施方式中，客户端***150可包括一个或多个处理器786。例如但不限于，处理器786可对由客户端***150从内容服务器140接收的图像执行拼接操作。在具体实施方式中，客户端***150可包括用于向客户端***150提供电力的电池788(例如，可再充电电池)。在具体实施方式中，客户端***150可包括外部通信模块790，例如利用WI-FI或蓝牙协议无线地通信的模块。例如但不限于，外部通信模块790可与内容服务器140无线地通信，或者可与经互联网连接的计算设备无线地通信，其中所述计算设备与内容服务器140进行通信。在具体实施方式中，客户端***150可包括一个或多个扬声器792。例如但不限于，扬声器792可直接产生用户可听见的可听声音，或者扬声器792可向产生可听声音的耳机提供信号(例如，蓝牙信号)。在具体实施方式中，客户端***150可包括一个或多个麦克风794。例如但不限于，麦克风794可用于接收来自用户的口头命令。作为另一示例而不限制，麦克风794可用于接收或检测来自用户的物理环境的音频信号(例如，正在对用户讲话的人的声音、门铃的声音或用户的狗吠叫的声音)。在具体实施方式中，客户端***150可包括一个或多个惯性测量单元(IMU)796以确定客户端***150的定向或移动。在具体实施方式中，客户端***150可包括一个或多个传感器798。例如但不限于，客户端***150可包括一个或多个深度传感器798以确定或检测用户的物理环境中的对象的位置(例如，以检测朝着用户的人的接近)。尽管本公开描述并示出包括特定组件的特定的头戴式客户端计算设备，但是本公开可设想到包括任何适当的组件的任何适当的头戴式客户端计算设备。

图34示出穿戴着示例性头戴式客户端计算设备150站立在房间中的用户。在具体实施方式中，用户可观看呈现在客户端***150上的3-D视频，其中3-D视频包括距离用户的物理环境遥远的真实场景的图像。在具体实施方式中，用户的物理环境可包括一个或多个对象(例如，家具、墙、梯子、门)、动物、或者位于用户附近的、与用户处于同一房间中的或位于用户的特定距离内(例如，1米、3米、5米、10米内或处于任何适当的距离内)的人。在图34的示例中，用户正站立在房间中观看呈现在客户端***150上的场景，并且用户的物理环境包括家具(例如，桌子910和置物架915)、狗920和另一人925。

图35示出用户穿戴着头戴式客户端计算设备150观看的示例性场景。在具体实施方式中，由用户观看的场景可包括3-D图像或3-D视频。在图35的示例中，在客户端***150上向用户显示的场景包括城堡、树和晴朗的天空。用户可在家中位于其起居室中，与此同时穿戴着客户端***150以观看描述欧洲城堡的旅行视频。

图36示出具有示例性通知930的图35的示例性场景。在具体实施方式中，客户端***150可向用户呈现3-D场景和虚拟图形对象。在具体实施方式中，虚拟图形对象可包括通知930、虚拟输入设备(例如，虚拟键盘、虚拟笔或虚拟控制面板)、显示多重3-D视频的虚拟表面、与3-D视频中的对象对应的信息、由用户创建的内容(例如，文字或图画)或对应于真实场景的图像。例如但不限于，具有有关城堡的历史信息的虚拟图形对象可覆加在城堡的3-D视频上。作为另一示例而不限制，虚拟图形对象可包括叠加在历史遗迹的真实场景(例如，如现今所呈现的城堡的毁损)上的历史遗迹的图像(例如，如可能在几个世纪前所呈现的城堡)。在图36的示例中，客户端***150显示具有覆加在场景上的通知930的城堡的场景。在具体实施方式中，通知930可以任何适当的格式显示，例如，覆加或叠加在场景的一部分或整体上、靠近场景的中心或分开地位于场景的一侧。在具体实施方式中，通知930可以是不透明的，且可遮盖位于通知930后方的场景的一部分，或者通知930可以是半透明，其允许位于通知后侧的场景至少部分地被看见。在具体实施方式中，通知930可包括来自另一用户或应用的消息。例如但不限于，通知930可包括由另一用户发送给用户的电子邮件、语音邮件或文字消息中的一部分、或表明用户已收到邮件、电话呼叫或文字消息的指示。作为另一示例而不限制，通知930可包括来自客户端***150或在客户端***150上运行的应用的消息，例如用户的门铃响动、人925在接近用户、用户的狗920在吠叫、用户的狗920在接近或电池788即将用尽且需要再充电的消息。尽管本公开描述并示出包括以特定格式显示的特定信息的特定通知，但是本公开可设想到包括以任何任何适当的格式显示的任何适当的信息的任何适当的通知。

图37示出具有叠加在场景上的人925的图35的示例性场景。在具体实施方式中，客户端***150可向用户呈现3-D场景和用户的物理环境的图像。例如但不限于，客户端***150可包括图像传感器(例如，一个或多个相机，诸如左相机784L和右相机784R)，并且由图像传感器捕获的用户的物理环境的图像可与3-D视频结合并呈现给用户。在具体实施方式中，客户端***150可接收表明用户的物理环境中发生事件的指示，且基于该事件，客户端***150可向用户呈现用户的物理环境的至少一部分的图像。例如但不限于，事件可包括用户的物理环境的一个方面，例如用户与对象之间的距离、对象的速度或由用户或另一人作出的特定姿势。在图37的示例中，人925正面对着用户且向用户招手，且人925的图像(如由客户端***150的相机捕获的)叠加在城堡的3-D场景上。从由客户端***150的相机捕获的图像中的其余部分提取人925在向用户招手的图像，并且仅将提取的部分呈现给用户。在具体实施方式中，呈现用户的物理环境的图像可允许用户在与他们的物理环境进行交互的或知晓他们的物理环境的同时，继续观看3-D场景。例如但不限于，用户可能不需要为了观看发生在用户的物理环境中的事件而将客户端***150从其头部移除。在图37的示例中，用户可以在仍然穿戴着客户端***150的同时能够与人925交互。

图38示出具有叠加在场景上的狗920的图35的示例性场景。在具体实施方式中，当来自用户的物理环境的对象以特定速度或高于特定速度接近用户，或者当所述对象位于人的特定距离内时，可向用户显示该对象。在具体实施方式中，显示来自用户的物理环境的对象可允许用户避免撞到或绊到对象。在图38中，狗920可以特定速度或高于特定速度接近用户，或者狗可能位于相距人的特定距离内。可由客户端***150的相机捕获狗920的图像，并且可从其环境提取狗的图像并将它叠加在3-D视频上。在具体实施方式中，可在与对象在用户的物理环境中的位置近似对应的位置中向用户显示来自用户的物理环境的对象。在图38中，狗920显示在与狗920在用户的物理环境中的位置对应的位置中。

在具体实施方式中，客户端***150可接收表明用户的物理环境中发生事件的指示，其中事件包括声音。在具体实施方式中，对应于事件的声音可包括一个或多个可听话语。例如但不限于，穿戴着客户端***150的用户可说出由麦克风794接收的口头命令。用户可说出命令“相机”或“显示房间”，且作为响应，客户端***150可显示用户的物理环境的图像。在图37的示例中，人925可向用户说“你好”，且响应于人925的可听问候，客户端***150可显示人925的图像。在具体实施方式中，对应于事件的声音可包括大于阈声幅的声幅。在图38的示例中，狗920可吠叫，并且狗920的声幅可超过阈声幅。响应于检测到来自狗920的吠叫，客户端***150可显示狗920的图像。

图39示出分成两个示例性视图的示例性显示器。在具体实施方式中，在客户端***150上向用户显示的场景可分割成两个或两个以上的视图。在图39的示例中，城堡场景显示在用户视图的左半边上，且用户的物理环境的图像显示在用户视图的右半边上。用户的物理环境的图像可由客户端***150的一个或多个相机捕获。

图40示出具有叠加在场景上的桌子910的图35的示例性场景。在具体实施方式中，当对象位于人的特定距离内时，可向用户显示来自用户的物理环境的对象。例如但不限于，当穿戴客户端***150的用户观看显示在客户端***150上的场景或与该场景互动时，他们可在其物理环境内进行转身或移动。为了防止用户撞到或绊到他们的物理环境中的对象，客户端***150可在用户相邻对象时提醒他们。在图40的示例中，用户可能处于桌子910的阈值距离内，为了使用户知晓该对象，客户端***150可向用户显示桌子910的图像。

图41示出具有弯曲箭头935叠加在场景上的图35的示例性场景。在具体实施方式中，客户端***150可将图形符号(例如，箭头935)叠加在所显示的场景上，以提醒用户位于用户后方或与用户的侧方隔开的对象或事件。在图41的示例中，弯曲箭头935表示用户应知晓位于用户后方及右侧的置物架915，因此他们不会碰到置物架915或被置物架915绊倒。当穿戴客户端***150时，用户可能朝着置物架915移动，并且客户端***150可显示箭头935以向用户指出在用户的后方或侧方存在对象。在具体实施方式中，在向用户显示箭头935之后，如果用户转入箭头935的方向，则客户端***150可显示与箭头935相关联的对象(例如，置物架915)的图像。

图42示出具有示例性示意图940的图35的示例性场景。在具体实施方式中，除了显示3-D图像或视频以外，客户端***150可显示呈现用户的物理环境中的对象的示意图940。例如但不限于，客户端***150的相机可捕获用户的物理环境的图像，以及可由相机图像生成用户的物理环境的示意图940。在具体实施方式中，示意图940可显示处于相距用户特定距离内(例如，1米、3米或任何适当的距离内)的对象。在图42的示例中，示意图940以用户的位置为中心，并且示出用户所处的房间中的对象。在具体实施方式中，当用户穿戴着客户端***150时，用户可使用示意图940保持对用户的物理环境的认识。例如但不限于，用户可能能够基于显示在客户端***150上的示意图940在其物理环境中四处移动。在具体实施方式中，用户可能能够切换或关闭示意图940的显示。

图43示出具有示例性鸟瞰视图945的图35的示例性场景。在具体实施方式中，除了显示3-D图像或视频以外，客户端***150可显示用户的物理环境的鸟瞰视图(例如，从上方呈现用户的物理环境的视图)。例如但不限于，客户端***150的相机可捕获用户的物理环境的图像，并且相机图像的各部分可结合在一起以构成鸟瞰视图945。在图43的示例中，鸟瞰视图是圆形的且以用户的位置为中心。在具体实施方式中，鸟瞰视图945可允许用户在穿戴着客户端***150时保持知晓用户的物理环境。

图44示出示例性计算机***4400。在具体实施方式中，一个或多个计算机***4400执行本文所描述或示出的一个或多个方法中的一个或多个步骤。在具体实施方式中，一个或多个计算机***4400提供如本文中所描述或示出的功能。在具体实施方式中，在一个或多个计算机***4400上运行的软件执行本文所描述或示出的一个或多个方法中的一个或多个步骤，或者提供如本文中所描述或示出的功能。具体的实施方式包括一个或多个计算机***4400的一个或多个部分。在本文中，在适当的情况下，对计算机***的引用可包括计算设备；以及反之，对计算设备的引用可包括计算机***。此外，在适当的情况下，对计算机***的引用可包括一个或多个计算机***。

本公开可设想到任何适当的数量的计算机***4400。本公开可设想到具有任何适当的物理形式的计算机***4400。作为示例而不以限制的方式，计算机***4400可以是嵌入式计算机***、片上***(SOC)、单板计算机***(SBC)(例如，模块上计算机(COM)或模块上***(SOM))、台式计算机***、膝上型或笔记本计算机***、交互式信息亭、大型主机、计算机***网、移动电话、个人数字助手(PDA)、服务器、平板计算机***或这些中两个或两个以上的组合。在适当的情况下，计算机***4400可包括一个或多个计算机***4400；可以是一元化或分布式；可跨越多个位置；可跨越多个机器；可跨越多个数据中心；或者可置于云中，其中云可包括一个或多个网络中的一个或多个云组件。在适当的情况下，一个或多个计算机***4400可在不受实质的空间或时间限制的情况下执行本文所描述或示出的一个或多个方法中的一个或多个步骤。例如但不限于，一个或多个计算机***4400可以实时或以批处理模式执行本文所描述或示出的一个或多个方法中的一个或多个步骤。在适当的情况下，一个或多个计算机***4400可在不同的时间或不同的位置执行本文所描述或示出的一个或多个方法中的一个或多个步骤。

在具体实施方式中，计算机***4400包括处理器4402、存储器(memory)4404、储存器(storage)4406、输入/输出(I/O)接口4408、通信接口4410和总线4412。尽管本公开描述并示出包括呈特定布置的特定数量的特定组件的特定计算机***，但是本公开可设想到包括具有呈任何适当布置的任何适当数量的任何适当组件的任何适当的计算机***。

在具体实施方式中，处理器4402包括用于运行指令(诸如，构成计算机程序的指令)的硬件。例如但不限于，为运行指令，处理器4402可从内部寄存器、内部缓存、存储器4404或储存器4406检索(或取得)指令；可解码并运行指令；然后将一个或多个结果写入内部寄存器、内部缓存、存储器4404或储存器4406。在具体实施方式中，处理器4402可包括用于数据、指令或地址的一个或多个内部缓存。在适当的情况下，本公开可设想到包括任何适当的数量的任何适当的内部缓存的处理器4402。例如但不限于，处理器4402可包括一个或多个指令缓存、一个或多个数据缓存和一个或多个转译后备缓冲器(TLB)。指令缓存中的指令可以是存储器4404或储存器4406中的指令的副本，并且指令缓存可加速处理器4402对那些指令的检索。数据缓存中的数据可以是存储器4404或储存器4406中的供在处理器4402上运行的指令操作的数据的副本；可以是在处理器4402上运行的先前的指令的结果，其中所述结果用于供在处理器4402上运行的后续指令访问或用于写入存储器4404或储存器4406；或者可以是其他适当的数据。数据缓存可加速处理器4402的读或写操作。TLB可为处理器4402加速虚拟地址转换。在具体实施方式中，处理器4402可包括用于数据、指令或地址的一个或多个内部寄存器。在适当的情况下，本公开可设想到包括任何适当的数量的任何适当的内部寄存器的处理器4402。在适当的情况下，处理器4402可包括一个或多个算数逻辑单元(ALU)；可以是多核处理器；或者可包括一个或多个处理器4402。尽管本公开描述并示出特定的处理器，但是本公开可设想到任何适当的处理器。

在具体实施方式中，存储器4404包括用于存储供处理器4402运行的指令或供处理器4402操作的数据的主存储器。例如但不限于，计算机***4400可将指令从储存器4406或其他源(例如，另一计算机***4400)加载至存储器4404。然后，处理器4402可将指令从存储器4404加载至内部寄存器或内部缓存。为执行指令，处理器4402从内部寄存器或内部缓存检索指令并对其进行解码。在执行指令期间或之后，处理器4402可将一个或多个结果(可以是中间结果或最终结果)写入内部寄存器或内部缓存。然后，处理器4402可将那些结果中的一个或多个写入存储器4404。在具体实施方式中，处理器4402仅执行一个或多个内部寄存器或内部缓存或存储器4404(如相对于储存器4406或其他)中的指令，并且仅操作一个或多个内部寄存器或内部缓存或存储器4404(如相对于储存器4406或其他)中的数据。一个或多个存储器总线(每个可包括地址总线和数据总线)可将处理器4402联接至存储器4404。如以下所描述，总线4412可包括一个或多个存储器总线。在具体实施方式中，一个或多个存储器管理单元(MMU)置于处理器4402与存储器4404之间，并且使由处理器4402请求的对存储器4404的访问容易。在具体实施方式中，存储器4404包括随机存取存储器(RAM)。适当的情况下，该RAM可以是易失性存储器，并且适当的情况下，该RAM可以是动态随机存取存储器(DRAM)或静态随机存取存储器(SRAM)。此外，在适当的情况下，该RAM可以是单端口或多端口随机存取存储器。本公开可设想到任何适当的随机存取存储器。在适当的情况下，存储器4404可包括一个或多个存储器4404。尽管本公开描述并示出特定的存储器，但是本公开可设想到任何适当的存储器。

在具体实施方式中，储存器4406包括用于数据或指令的大容量存储器。例如但不限于，储存器4406可包括硬盘驱动器(HDD)、软盘驱动器、闪速存储器、光盘、磁光盘、磁带或通用串行总线(USB)驱动器或其中两个或两个以上的组合。在适当的情况下，储存器4406可包括可移动或不可移动的(或者固定的)媒介。在适当的情况下，储存器4406可以在计算机***4400的内部或外部。在具体实施方式中，储存器4406是非易失性的固态存储器。在具体实施方式中，储存器4406包括只读存储器(ROM)。在适当的情况下，该ROM可以是掩模编程只读存储器、可编程只读存储器(PROM)、可擦可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、电可改写只读存储器(EAROM)或闪速存储器或其中两个或两个以上的组合。本公开可设想到具有任何适当的物理形式的大容量储存器4406。在适当的情况下，储存器4406可包括便于处理器4402与储存器4406之间的通信的一个或多个储存器控制单元。在适当的情况下，储存器4406可包括一个或多个储存器4406。尽管本公开描述并示出特定的存储，但是本公开可设想到任何适当的储存器。

在具体实施方式中，I/O接口4408包括提供用于计算机***4400与一个或多个I/O设备之间的通信的一个或多个接口的硬件、软件或两者。在适当的情况下，计算机***4400可包括这些I/O设备中的一个或多个。这些I/O设备中的一个或多个可使能人与计算机***4400之间的通信。例如但不限于，I/O设备可包括键盘、小键盘、麦克风、显示器、鼠标、打印机、扫描器、扬声器、静态相机、触笔、平板、触屏、轨迹球、摄影机、其他适当的I/O设备或其中两个或两个以上的组合。I/O设备可包括一个或多个传感器。本公开可设想到任何适当的I/O设备和用于它的任何适当的I/O接口4408。在适当的情况下，I/O接口4408可包括使得处理器4402能够驱动这些I/O设备中的一个或多个的一个或多个设备或软件驱动器。在适当的情况下，I/O接口4408可包括一个或多个I/O接口4408。尽管本公开描述并示出特定的I/O接口，但是本公开可设想到任何适当的I/O接口。

在具体实施方式中，通信接口4410包括提供用于计算机***4400与一个或多个其他计算机***4400或一个或多个网络之间的通信(例如，基于包的通信)的一个或多个接口的硬件、软件或两者。例如但不限于，通信接口4410可包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器，或者用于与诸如WI-FI网络的无线网络通信的无线NIC(WNIC)或无线适配器。本公开可设想到任何适当的网络和用于其的任何适当的通信接口4410。例如但不限于，计算机***4400可与专设网络、个人局域网(PAN)、局域网(LAN)、广域网(WAN)、城市区域网(MAN)、体域网(BAN)或互联网的一个或多个部分或其中两个或两个以上的组合通信。这些网络中的一个或多个网络的一个或多个部分可以是有线的或无线的。作为示例，计算机***4400可与无线PAN(WPAN)(例如，蓝牙WPAN)、WI-FI网络、WI-MAX网络、蜂窝式电话网络(例如，全球移动通信***(GSM)网络)或其他适当的无线网络或其中两个或两个以上的组合通信。在适当的情况下，计算机***4400可包括用于这些网络中的任何网络的任何适当的通信接口4410。在适当的情况下，通信接口4410可包括一个或多个通信接口4410。尽管本公开描述并示出特定的通信接口，但是本公开可设想到任何适当的通信接口。

在具体实施方式中，总线4412包括使计算机***4400的组件彼此联接的硬件、软件或两者。例如但不限于，总线4412可包括加速图形端口(AGP)或其他的图形总线、增强型工业标准结构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准结构(ISA)总线、无线带宽互连、低引脚数(LPC)总线、存储器总线、微通道结构(MCA)总线、***组件互连(PCI)总线、PCI快速(PCIe)总线、串行高级技术附件(SATA)总线、视频电子标准协会本地(VLB)总线或其他适当的总线或其中两个或两个以上的组合。在适当的情况下，总线4412可包括一个或多个总线4412。尽管本公开描述并示出特定的总线，但是本公开可设想到任何适当的总线或互连。

在本文中，在适当的情况下，计算机可读非暂时性存储介质或媒介可包括一个或多个基于半导体的或其他的集成电路(IC)(例如，现场可编程门阵列(FPGA)或专用IC(ASIC))、硬盘驱动器(HDD)、混合式硬盘驱动器(HHD)、光盘、光盘驱动器(ODD)、磁光盘、磁光盘驱动器、软盘、软盘驱动器(FDD)、磁带、固态驱动器(SDD)、RAM驱动器、安全数字卡或驱动器、任何其他适当的计算机可读非暂时性存储介质，或其中两个或两个以上的任何适当组合。在适当的情况下，计算机可读非暂时性存储介质可以是易失性的、非易失性的或易失性与非易失性的组合。

在本文中，除非明确地另外指出或由上下文另外指出，否则“或”为包括的而非排除的。因此，在本文中，除非明确地另外指出或由上下文另外指出，否则“A或B”表示“A、B或两者”。此外，除非明确地另外指出或由上下文另外指出，否则“和”同时表示结合的含义和单独的含义。因此，在本文中，除非明确地另外指出或由上下文另外指出，否则“A和B”表示“结合的或单独的A和B”。

本公开的范围涵盖本领域普通技术人员将理解的对本文中的示例性实施方式的所有变型、替代、变型、更换和修改。本公开的范围不限于本文中所描述或示出的示例性实施方式。尽管本公开在本文中将相应实施方式描述或示出为包括特定组件、元件、功能、操作或步骤，但是如本领域技术人员将理解的，这些实施方式中的任何实施方式可包括本文中任意处所描述或示出的任意组件、元件、功能、操作或步骤的任意组合。另外，对于随附的权利要求书中对适用于、布置为、有能力、配置为、能够、可操作为或操作为执行特定功能的装置或***或者装置或***的组件的引用，只要这些装置、***或组件如此适用于、布置为、有能力、配置为、能够、可操作为或操作，则无论所述特定功能是否被激活、开启或解锁，所述引用均涵盖所述装置、***、组件。

Claims

1.一种图像拼接方法，包括：

从多个相机接收多个图像，其中，所述多个相机包括具有第一定向的第一相机和具有不同于所述第一定向的第二定向的第二相机，所述多个图像包括来自所述第一相机的第一图像和来自所述第二相机的第二图像；

检测所述第一图像和所述第二图像内的多个特征点；

确定位于所述第一图像与所述第二图像之间的重叠区域内的一个或多个相应特征点对，其中，所述相应特征点对包括来自所述第一图像和所述第二图像中的每个图像的特征点中的相应特征点；

从具有所述第一定向的第三相机接收第三图像，其中，所述第三图像包括与所述重叠区域对应的区域，以及其中，所述第二相机位于所述第一相机与所述第三相机之间；

基于每个相应特征点对之间所计算的偏差，空间上调整所述第一图像或所述第二图像；以及

基于所述空间调整以及所述第三图像的验证，将所述第一图像和所述第二图像结合为合并图像。

2.如权利要求1所述的方法，其中，所述第一图像与所述第二图像之间的重叠区域与所述第一相机和所述第二相机的相应视场中的重叠部成比例。

3.如权利要求1所述的方法，其中，检测所述第一图像和所述第二图像内的多个特征点包括：

基于局部对比度梯度，检测所述第一图像和所述第二图像的一个或多个特征；以及

提取所检测的特征的一个或多个特征点。

4.如权利要求3所述的方法，其中，提取所检测的特征的一个或多个特征点包括：使用尺度不变性特征转换(SIFT)、加速鲁棒特征(SURF)或ORB特征检测算法。

5.如权利要求1所述的方法，其中，确定所述一个或多个相应特征点对包括：

将所述第一图像和所述第二图像分割为呈预定栅格的预定数量的区域；

比较位于沿所述第一图像的边缘的每个区域内的特征点与沿所述第二图像的相反边缘的对应区域内的特征点；以及

基于所述边缘的每个区域内的特征点的图案，识别所述相应特征点对。

6.如权利要求5所述的方法，其中，沿所述边缘的每个区域内的所述比较在每个特征点周围的预定区域上执行，所述预定区域基于所述重叠区域的像素数量。

7.如权利要求6所述的方法，还包括：确定所述预定区域中的差异的平方和是否小于预定阈值。

8.权利要求1所述的方法，其中，所述第三图像在与所述第一图像和所述第二图像相同的时间周期期间被捕获。

9.如权利要求8所述的方法，还包括：

检测所述第三图像内的多个特征点；

确定位于所述第一图像与所述第三图像之间的重叠区域内的一个或多个相应特征点对，其中，所述第一图像和所述第三图像的相应特征点对包括来自所述第一图像和所述第三图像中的每个图像的所述特征点中的相应特征点；以及

确定位于所述第二图像与所述第三图像之间的重叠区域内的一个或多个相应特征点对，其中，所述第二图像和所述第三图像的相应特征点对包括来自所述第二图像和所述第三图像中的每个图像的特征点中的相应特征点。

10.如权利要求8所述的方法，其中，所述第一相机和所述第三相机包括立体相机对。

11.如权利要求1所述的方法，还包括：从第三相机接收第三图像，其中，所述多个相机还包括定向为与所述第一相机和所述第二相机所限定的平面大致正交的第三相机。

12.如权利要求11所述的方法，还包括：

确定位于所述合并图像与所述第三图像之间的重叠区域内的一个或多个相应特征点对，其中，所述相应特征点对包括来自所述合并图像和所述第三图像中的每个图像的特征点中的相应特征点；以及

围绕所述第三图像的中心应用径向扭曲，使得所述第三图像的中心固定。

13.如权利要求1所述的方法，其中，计算所述偏差包括：计算与每个相应特征点对之间的空间偏移的绝对值成比例的成本函数。

14.如权利要求1所述的方法，其中，计算所述偏差包括：计算与每个相应特征点对之间的沿一个或多个旋转轴的旋转偏移成比例的成本函数。

15.如权利要求1所述的方法，其中，每个图像在相同的时间段期间被捕获。

16.如权利要求1所述的方法，其中，结合所述第一图像和所述第二图像包括：

检测所述重叠区域中的边缘；以及

在所述边缘上应用梯度。

17.一个或多个非暂时性计算机可读存储介质，包括指令，所述指令在被执行时能够操作为：

检测所述第一图像和所述第二图像内的多个特征点；

18.一种图像拼接设备，包括：

一个或多个非暂时性计算机可读存储介质，包括指令；以及

一个或多个处理器，联接至所述存储介质并且配置为执行所述指令以：

检测所述第一图像和所述第二图像内的多个特征点；