CN105453131A

CN105453131A - 图像的自动调整

Info

Publication number: CN105453131A
Application number: CN201380022060.7A
Authority: CN
Inventors: E·谢克特曼; 王珏; 李贤濬; 李承勇
Original assignee: Academy Industry Foundation of POSTECH; Adobe Systems Inc
Current assignee: Academy Industry Foundation of POSTECH; Adobe Inc
Priority date: 2012-04-27
Filing date: 2013-04-26
Publication date: 2016-03-30
Anticipated expiration: 2033-04-26
Also published as: US9098885B2; US20150324985A1; US20150215531A1; WO2013163579A2; US9582855B2; CN105453131B; US9008460B2; DE112013002200T5; GB2516405B; GB201420884D0; GB2516405A; US9519954B2; US20130287318A1; US20130286221A1; WO2013163579A3; US20170069088A1; US9729787B2

Abstract

用于数字图像的自动竖直调整的技术和装置。描述一种自动竖直调整技术，该技术可以提供用于伸直在输入图像中的偏斜特征以提高其感知质量的自动化方式。这一校正可以称为竖直调整。可以在竖直调整中使用基于人类感知的判据集合。描述一种实施优化框架的再投影技术，该技术产生用于基于判据调整的最优单应性并且根据通过优化而产生的新相机参数调整图像。描述一种基于优化的相机校准技术，该技术同时估计消没线和点以及用于图像的相机参数；该校准技术可以例如用来生成向再投影技术输入的相机参数以及消没点和线的估计。

Description

图像的自动调整

有关申请

本申请按照35U.S.C.第119(e)节要求提交于2012年4月27日并且名称为“TechniquesandApparatusforAutomaticAdjustmentofDigitalImages”的第61/639,721号美国临时专利申请的优先权，其公开内容通过完全引用结合于此。

背景技术

拍摄者捕获的图像(无论数字图像或者常规胶卷图像)经常包含透视失真。具体地，人造结构经常在随意拍摄者捕获的照片中表现失真，因为景物布局经常与人类感知的预计冲突。例如，在捕获摩天大楼的图像时，在图像中的建筑物可能歪斜、因此未表现直立。这可以归因于视点被物理地约束，因此从最好视点捕获一个或者多个图像是不可能的。在这些情况下，用户(拍摄者、艺术家等)可能想要应用透视失真校正以改进原有数字或者数字化图像以使它表现如同从更好视点捕获景物一样。然而，这一种失真由于至少透视失真校正涉及到三维(3D)旋转这样的原因而难以手动修复。

发明内容

描述涉及到图像的自动竖直调整的技术。竖直调整技术可以提供用于伸直在输入图像中的偏斜人造特征(或者其它特征、比如相对直立的自然特征、比如树木和视界)以提高其感知质量的自动化方式。这一校正可以称为竖直调整。基于人类感知研究来描述判据集合用于竖直调整。此外，描述如下优化框架，该优化框架产生用于调整的最优单应性。另外，描述一种基于优化的相机校准技术，该技术在与常规技术比较时有利地执行并且使自动竖直调整技术的实现方式对于广泛多种图像可靠地工作。

实现方式可以提供一种用于图像的竖直调整的自动***，该***可以利用用于定量地测量人造结构或者其它图像特征的感知的质量的若干判据。按照判据，再投影技术可以实施如下能量最小化框架，该能量最小化框架计算用于最小化偏斜结构和其它图像特征的感知的失真的最优单应性。此外，可以运用比常规技术更准确和健壮的相机校准技术以同时估计消没线和点以及相机参数并且可以用来生成可以例如向再投影技术输入的相机参数以及消没线和点的估计。

自动竖直调整技术的实现方式可以处置至少一些自然景物以及人造特征的景物。实现方式可以对广泛图像可靠地工作而未涉及到用户交互。

附图说明

图1示出根据至少一些实现方式的图像的竖直调整的各种示例。

图2是根据至少一些实现方式的自动竖直调整的高级流程图。

图3是根据至少一些实现方式的再投影技术的流程图。

图4是根据至少一些实现方式的相机校准技术的流程图。

图5图示Perkin法则。

图6A和图6B图示根据至少一些实现方式的拐角点提取技术的结果。

图7A和图7B图示根据至少一些实现方式的检测弯曲边缘像素。

图8A至图8C图示根据至少一些实现方式的具有大相机旋转的照片的调整。

图9A至图9C图示根据至少一些实现方式的透视失真控制。

图10A至图10D图示根据至少一些实现方式的相机校准技术的过程。

图11A和图11B比较自动竖直调整技术的实现方式的结果与手动生成的结果。

图12比较自动竖直调整技术的实现方式的结果与使用倾斜移位透镜而捕获的图像。

图13A和图13B图示根据至少一些实现方式的调整的图像的裁剪。

图14A至图14C比较自动竖直调整技术的实现方式的结果与常规矫正技术的结果。

图15A和图15B图示自动竖直调整技术的实现方式的结果。

图16A和图16B图示自动竖直调整技术的实现方式的结果。

图17A和图17B图示自动竖直调整技术的实现方式的结果。

图18A和图18B图示自动竖直调整技术的实现方式的结果。

图19A和图19B图示自动竖直调整技术的实现方式的结果。

图20A和图20B图示自动竖直调整技术的实现方式的结果。

图21A和图21B图示自动竖直调整技术的实现方式的结果。

图22A和图22B图示自动竖直调整技术的实现方式的结果。

图22C图示曼哈顿和亚特兰大世界假设的示例。

图23图示根据至少一些实现方式的可以实施自动竖直调整技术的一个或者多个示例模块。

图24图示可以在实现方式中使用的示例计算机***。

具体实施方式

尽管这里通过示例对于若干实现方式和示例附图描述技术，但是本领域技术人员将认识本发明不限于描述的实现方式或者附图。应当理解附图及其见图描述未旨在于使本发明限于公开的具体形式，但是恰好相反，旨在于覆盖落入本发明的精神实质和范围内的所有修改、等效和备选。这里使用的标题仅用于组织目的而无意于用来限制该描述的范围。如贯穿本申请所用，在允许意义(即意味着有可能)而不是强制意义(即意味着必须)上使用字眼“可以”。相似地，字眼“包括”意味着包括但不限于。

概述

大部分消费者照片包含人造结构、比如具有建筑物和街道的市区景物以及具有墙壁和家具的室内景物。然而恰当地拍摄这些结构不是一项容易的任务。业余拍摄者拍摄的照片如在图1的左栏中所示经常由于不恰当相机旋转而包含偏斜建筑物、墙壁和视界。

人类视觉***(这里称为人类感知或者感知)一般预计可能在一些景物中出现的高的人造结构和一些其它特征以及与眼睛水平线平行的视界。与这一***冲突可能造成查看者在注视包含偏斜(未竖直)结构或者其它特征、比如倾斜(未水平)视界时的不适感。

因而描述自动图像调整技术。例如一种自动调整技术可以利用单个单应性以在用于景物的统一深度假设之下校正照片。单应性可以用来描述在图像与景物之间的关系、比如描述图像的视点与景物的关系。因此，单应性在这一示例中可以用来调整图像以增加与人类感知的预计的一致性。

例如，描述一种竖直调整技术的实现方式，这些实现方式提供用于伸直在输入图像中预计相对直立的偏斜或者倾斜人造结构和自然特征、比如树木和视界以提高其感知质量的自动化方式。这一校正可以称为竖直调整。描述在竖直调整期间应用的基于人类感知研究的判据集合。可以用多种方式计算单应性、比如通过使用优化框架，该优化框架被配置为产生用于根据判据调整的最优单应性。

自动调整技术的实现方式也可以用来调整输入图像的透视图以提高其可视质量。在至少一些实现方式中，为了实现这一点，基于感知理论定义判据集合。可以应用优化框架用于测量和根据判据调整透视图。在至少一些实现方式中，可以结合附加约束以避免对特征、比如脸部或者圆圈的透视失真。除了用于调整静止照片的应用之外，实现方式还可以适于调整视频帧，因此图像可以用来指代任一实例。

此外，描述相机校准技术。相机校准技术可以用来描述图像的特性。这些特性然后可以用作为用于如以上那样调整图像的基础。例如相机校准技术可以相互结合、即同时用来估计消没线和点以及相机参数。这些估计然后可以作为以上单应性的部分用来基于以人类感知为基础的判据变换图像以实现可视地合理结果。可以关于以下相机校准章节发现相机校准技术的进一步讨论。

在以下具体描述中，阐述许多具体细节以提供要求保护的主题内容的透彻理解。然而本领域技术人员将理解可以实现要求保护的主题内容而无这些具体细节。在其它实例中，尚未具体描述本领域普通技术人员将已知的技术、装置或者***以免模糊要求保护的主题内容。

在对在具体装置或者专用计算设备或者平台的存储器内存储的二进制数字信号的操作的算法或者符号表示方面呈现本说明书的以下一些部分。在这一具体说明书的上下文中，术语具体装置等包括通用计算机，该通用计算机一旦它被编程为按照来自程序软件的指令执行特定功能。算法描述或者符号表示是数据处理或者有关领域普通技术人员用来向本领域其他技术人员传达他们的工作实质的技术的示例。算法在这里并且一般视为促成所需结果的自一致操作序列或者相似处理。在本文中，算法或者操作涉及到物理数量的物理操控。通常但是并非必需，这样的数量可以采用能够存储、传送、组合、比较或者以别的方式和操控的电或者磁信号的形式。主要出于普遍用法的原因而将这样的信号称为位、数据、值、单元、符号、字符、项、数目、数值等有时是便利的。然而应当理解所有这些或者相似术语将与适当物理数量关联并且仅为便利标记。除非另有具体地陈述，如从以下讨论中清楚的是，认识贯穿本说明书，利用术语、比如“处理”、“计算”、“运算”、“确定”等的讨论指代具体装置、比如专用计算机或者相似专用电子计算设备的动作或者过程。在本说明书的上下文中，专用计算机或者相似专用电子计算设备能够操控或者变换通常在专用计算机或者相似专用电子计算设备存储器、寄存器或者其它信息存储设备、传输设备或者显示设备内表示为物理电子或者磁数量的信号。

实现方式示例

图1示出根据自动竖直调整技术的至少一些实现方式的图像的竖直调整的各种示例。左栏示出原有图像，而右栏示出根据这里描述的竖直调整技术的实现方式生成的所得图像。顶部两个图像(a)示出来自街道水平的市区建筑物景物，第二两个图像(b)示出平面板，接下来两个图像(c)示出室内餐厅景物，接下来两个图像(d)示出航空市区景物，并且最后两个图像(e)示出具有山脉和树木的自然景物。

假设景物相对于它与相机的距离的深度变化小，校正偏斜结构涉及到图像平面的3D旋转。这一校正可以称为竖直调整，因为它用来使人造(或者其它)结构如人类感知预计的那样表现“直立”。已经知道相似校正为可以通过使用常规数字图像处理工具或者在捕获期间使用特殊倾斜移位透镜来手动卷包图像而实现的梯形失真和透视校正。然而这些工具的目标领域通常涉及到建筑物的正面，而竖直调整技术的实现方式未显式地假设在景物中的具体对象类型。此外，人造校正还可以涉及到特殊技能并且在用来处理数十或者数百张照片时变得令人厌烦。

实现方式可以提供一种用于照片的竖直调整的自动***，该***包括但不限于以下各项：

·基于对人类感知的先前研究的若干判据，这些判据用于定量地测量人造结构或者其它图像特征的感知的质量；

·按照判据的能量最小化框架，能量最小化框架计算最优单应性，该最优单应性可以有效地最小化偏斜结构和其它图像特征的感知的失真；以及

·相机校准技术，该相机校准技术同时估计消没线和点以及相机参数并且比常规技术更准确和健壮。

自动竖直调整技术的实现方式可以处置至少一些自然景物以及人造特征的景物(例如，见图1中的最后两个图像(e))。实现方式也可以对广泛图像可靠地工作而无用户交互。

自动调整技术

图2是描绘根据至少一些实现方式的自动调整技术的高级流程图。如在100所示，低级线检测技术可以应用于输入图像(或者在输入图像集合、比如视频序列的帧中的每个图像)以检测在图像中的线和边缘。可以使用多种技术中的任何技术。如在110所示，以至少线段作为输入的相机校准技术可以用来估计消没点和线以及其它相机参数。在文本中随后描述可以在至少一些实现方式中用来同时估计消没点和线以及相机参数的基于优化的健壮相机校准技术。

如在120所示，根据相机参数以及消没点和线执行再投影以有效地执行竖直调整。可以使用再投影模型，该再投影模型意味着使用具有新定向的在可能不同定位放置的另一相机来重新拍摄矫正的景物。在至少一些实现方式中，也可以允许这一新相机在水平和竖直方向上具有不同焦距。描述可以在估计在执行再投影时使用的新相机时使用的能量最小化或者优化框架，该框架计算最优单应性，该最优单应性可以有效地最小化拍那些结构和其它图像特征的感知的失真。如以上描述的那样，单应性描述在相同平面表面的两个图像、比如图像景物的不同透视图之间的关系。因此，单应性在这一示例中可以用来调整在图像中的景物的视点以与人类感知的预计一致。能量最小化框架可以考虑用于基于关于人类感知的观测定量地测量人造结构和其它图像特征的感知的质量的若干判据。

如在130所示，可以可选地裁剪所得调整的图像。可以自动或者手动执行裁剪。图13A和图13B图示根据至少一些实现方式的调整的图像的裁剪。图13A示出根据自动竖直调整技术的实现方式生成的调整的图像，并且图13B示出从图13A的图像截取的裁剪。

图3是根据至少一些实现方式的再投影技术的流程图，该再投影技术用于校正景物的图像、比如数字或者数字化照片，从而调整应当根据人类感知而表现实质上竖直和/或水平的特征。图3的流程图提供根据至少一些实现方式的图2的单元120的细节。如在200所示，可以获得本征相机参数、比如焦距和投影中心(例如，本征参数矩阵“K”)和3D旋转信息(例如，3D旋转矩阵“R”)以及消没点和线(例如，曼哈顿方向“M”)、即景物的主要线结构被对准到在三个维度中的“x”、“y”和“z”方向。例如，可以假设矩形建筑物按照世界的主方向被定向。

相机参数、3D旋转信息和消没点信息可以统称为原有相机信息。在至少一些实现方式中，消没点和线以及相机参数和旋转可以通过如在本文中随后描述的基于优化的健壮相机校准技术来估计，该相机校准技术可以用来同时估计消没点和线以及相机参数和旋转。然而在一些实现方式中，可以用别的方式估计和/或获得消没点和线、相机参数和/或3D旋转。在输入信息给定时，该技术计算单应性，该单应性可以应用于输入图像以有效地最小化在图像中的偏斜或者倾斜人造结构和其它图像特征的感知的方向。

可以在计算单应性时使用人类感知判据，这些人类感知判据定量地测量人造结构或者其它图像特征的感知的质量。在至少一些实现方式中，为了计算单应性，计算可以在再投影图像时使用的新相机信息。在至少一些实现方式中，为了计算新相机信息，可以如在210所示最小化包含基于人类感知判决的能量项的能量函数以估计用于图像的新本征相机参数和新3D旋转。可以根据在单元200获得的原有相机信息初始化能量函数。在标题为判据的章节中描述基于人类感知的判据，这些判据可以作为能量项用来约束优化。在标题为调整优化框架的章节的、标题为能量项的子章节中描述这些判据的数学公式表示。在至少一些实现方式中，可以受制于对透视失真的约束来最小化能量函数。在至少一些实现方式中，可以受制于实施为能量项之一的关于图像失真的约束来最小化能量函数以最小化特征、比如圆圈以及人类体形和脸部的失真。其它能量项可以包括但不限于画面框对准能量项和眼睛水平线对准能项。如在220所示，然后可以根据单应性再投影图像。在至少一些实现方式中，单应性可以由再投影模型(见等式(A2))定义，该再投影模型将原有相机参数和3D旋转(在等式(A2)中的K和R)以及在单元210计算的新相机参数和3D旋转(在等式(A2)中的K₁和R₁)结合到原有图像。在至少一些实现方式中，再投影模型还结合平移(在等式(A2)中的t₁)。

将单应性应用于图像可以在概念上视为使用具有新定向的在可能不同定位放置的另一相机来重新捕获景物。在至少一些实现方式中，也可以允许这一新相机在水平和竖直方向上具有不同焦距。在至少一些实现方式中，可以在最小化能量函数时应用作为能量函数的能量项之一而实施的约束以防止在水平和竖直方向上的焦距变化太多。图3的技术的输出是调整的图像，其中调整图像的将根据人类感知而表现实质上竖直和/或水平的一个或者多个特征以与在人眼预计在查看图像时看见的特征时更一致。对于已经调整的水平特征的示例，见图19A——其中视界在原有图像中略微倾斜——和图19B——其中视界已经被调整为更水平。对于已经调整的竖直特征的示例，见图22A——其中地平线的建筑物由于用来捕获原有图像的透镜的光学特征而倾斜——和图22B——其中建筑物已经被调整为实质上竖直。可以在图1(a)至图1(e)以及图14A至图21B中看见其它示例。

图4是根据至少一些实现方式的相机校准技术的流程图。图4的流程图提供根据至少一些实现方式的图2的单元110的细节。相机校准技术可以相互结合估计用于输入图像的相机参数以及消没点和线。可以向图3的技术输入相机校准技术的输出。然而注意相机校准技术可以用来生成用于其它数字图像处理技术的相机参数和/或消没点信息。

如在300所示，可以获得来自输入图像的线段集合。低级线检测技术可以应用于输入图像(或者在输入图像集合、比如视频序列的帧中的每个图像)以检测在图像中的线和边缘。各种技术中的任何技术可以用来检测线段。如在310所示，可以确定用于校准技术的初始值。如在320所示，可以迭代地优化能量函数以同时估计用于输入图像的相机本征参数矩阵“K”、定向矩阵“R”(例如，可以用来在二维或者三维空间中描述旋转的旋转矩阵)和消没点。相机本征参数矩阵“K”可以描述值、比如焦距、在一个或者多个方向(例如，“x”方向和“y”方向)上的像素大小和主点(例如，可以使用“x”坐标和“y”坐标来定义)。如在330所示，可以确定用于每个消没点的消没线。

在以下章节中，更具体描述图2至图4的各种单元。首先描述可以在至少一些实现方式中使用的用于照片的竖直调整的判据集合。然后描述可以在至少一些实现方式中使用的图像变换的公式表示。然后描述可以在至少一些实现方式中使用的用于根据判据执行竖直调整的能量最小化框架。能量最小化框架假设根据相机校准技术或者其它技术估计的输入相机参数以及消没点和线作为输入。最后描述可以在至少一些实现方式中用来同时估计用于输入图像的相机参数以及消没点和线的相机校准技术的实现方式。

判据

具有良好地结构化的人造对象的景物包括关于人类感知而假设为在世界坐标中水平或者竖直的许多直线。这里描述的基于人类感知观测的判据反映这些特性。这些判据中的一个或者多个判据可以在优化单应性(见等式(A2))时在优化框架中周围约束用来估计在图像的再投影中使用的新相机参数(具有附加3D旋转R₁和平移t₁的新本征参数矩阵K₁)。注意在标题为调整优化框架的章节的、子标题为能量项的子章节中数学地描述在这一章节中描述的判据。

画面框对准

在注视大平面正面或者封闭平面对象、比如油画时，它通常被感知为与查看方向正交，并且假设水平和水平对象分别与世界平行和垂直。在查看相同景物的照片时，人为画面框(即图像的边界)对对象线施加显著对准约束，并且如果对象线方向未与画面框定向，则查看者可能感觉不适。图1(a)和图1(b)示出典型示例。应当注意这样的人为成分随着线方向未对准变得更大而变得更少明显，因为在该情况下，查看者开始从偏斜平面感知3D深度。

眼睛水平线对准

可以定义照片的眼睛水平线为包含2D线，该2D线包含与地面平行的3D线的消没点。在空旷场地或者海洋的景物中，眼睛水平线可以与视界重合。然而即使在视界不可见时，仍然可以定义眼睛水平线为具体消没点的连接线。眼睛水平线对准可以在竖直调整中发挥显著作用、尤其在无将向画面框对准的其它主要对象线时。例如，在图1(d)中，不可见眼睛水平线主要地用来校正相机的不想要旋转。

透视失真

由于人类未通常看见在自然视野(FOV)以外的对象，所以对象可以在对象被描绘为如同它在FOV以外时显得失真。这一失真可能在普通照片中难以被看见，除非它们用宽角度透镜来拍摄。然而如果大旋转被应用于与相机定向的大改变对应的图像平面则这样的失真可能发生。为了防止这发生，至少一些实现方式可以被配置为在竖直调整过程中显式地约束透视失真。

图像失真

在变换被应用于照片时，不能避免图像失真。然而，人类视觉***可以容许矩形对象的失真而它对圆圈、脸部和其它相似对象的失真敏感。可以在竖直调整技术的至少一些实现方式中考虑这一现象以尽可能减少在所得图像中的感知的失真。

用于竖直调整的图像变换的公式表示

实现方式可以假设深度信息不可用于输入图像，因此单应性可以用来变换用于竖直调整的图像。可以在一些实现方式中使用变换、比如内容保留卷包。然而，这样的变换包含更多自由度并且因此涉及到然后利用用户交互或者关于景物几何形状的附加信息来满足的大量可靠约束。因而单应性可以用来实现尤其用于人造结构的可视地合理结果。可以使用以下等式、用单应性矩阵“H”矫正给定的图像：

p′＝Hp＝K(KR)^-1P，(A1)

其中“p”和“p”’分别代表在图像中的定位及其再投影，“K”和“R”分别是相机的本征参数和定向矩阵：

K = (\begin{matrix} f & 0 & v_{0} \\ 0 & f & v_{0} \\ 0 & 0 & 1 \end{matrix}) and R = R_{ψ} R_{θ} R_{φ},

其中“R_ψ，”“R_θ，”和“Rφ”分别是沿着“x”轴、“y”轴和“z”轴具有角度“ψ”、“θ”和“φ”的旋转矩阵。注意“R”可以这里称为定向矩阵“R”。

在一些实例中，图像矫正可以生成可视地令人不悦的结果(例如，见图9B)。在自动竖直调整技术的至少一些实现方式中，为了竖直调整，可以修改等式(A1)以支持用于比简单矫正的结果增强结果的感知质量的灵活控制。在至少一些实现方式中，以下再投影模型可以定义单应性：

p′＝Hp＝K₁{R₁(KR)^-1p+u₁}，(A2)

其中：

K_{1} = (\begin{matrix} f_{1 x} & 0 & u_{1} \\ 0 & f_{1 y} & u_{1} \\ 0 & 0 & 1 \end{matrix}) - - - (A 3)

R₁＝R_ψ1R_θ1R_φ1，

并且

t₁＝{t_1xt_1y0]^T，

与等式(A1)比较，等式(A2)包含具有附加三维旋转“R”和平移“t1”的本征参数矩阵“K1”。这一再投影模型意味着使用具有新定向的在可能不同定位放置的另一相机来重新拍摄矫正的景物。在至少一些实现方式中，也可以允许这一新相机在水平和竖直方向上具有不同焦距。

调整优化框架

在这一章节中，描述用于根据在标题为判据的章节中定义的基于人类感知的判据的、在标题为用于竖直调整的图像变换的公式表示的章节中用公式表示的图像变换(等式(A2))的能量函数。在至少一些实现方式中，可以假设相机参数“K”和“R”已经通过相机校准技术来估计。因此，在等式(A2)中有九个未知数“f_1x”、“f_1y”、“u₁”、“v₁”、“ψ₁”、“θ₁”、“φ₁”、“t_x”和“t_y”。然而“u₁”和“v₁”简单地移位在变换之后的结果图像并且因此可以被设置为“u₁＝u₀”和“v₁＝v₀”。在至少一些实现方式中，目标因此变成关于单应性矩阵“H”的七个参数优化等式(A2)。

虽然其它技术也可以用于相机校准，但是在标题为相机校准技术的章节中呈现可以在至少一些实现方式中使用的用于健壮相机校准的技术。在相机校准技术中，至少一些实现方式可以采用曼哈顿世界假设、即景物的主要线结构被对准到在三个维度中的“x”、“y”和“z”方向。例如可以假设矩形建筑物按照世界的主方向被定向。

在至少一些实现方式中，除了“K”和“R”之外还可以获得曼哈顿方向“M＝[v_xv_yv_z]”，其中“v_x”、“v_y”和“v_z”分别代表与“x”、“y”和“z”方向对应的三个消没点。也可以获得消没线“L_x”、“L_y”和“L_z”的三个射束，这些消没线分别包含在消没点“v_x”、“v_y”和“v_z”相交的二维线。在“L_x”、“L_y”和“L_z”中的消没线分别是与“x”、“y”和“z”平行的三维线的投影。

能量项

画面框对准

对于将与画面框对准的景物的主要线结构，与“x”和“y”方向对应的消没线出于人类感知的目的而应当分别在照片中水平和竖直。即，在“L_x”和“L_y”中的消没线将被单应性“H”变换成水平和竖直线从而使消没点“v_x”和“v_y”分别在“x”方向和“y”方向上放置于无穷。

令“1”为消没线并且“p”和“q”为“1”的两个端点。可以表达变换的线“1”的方向如下：

d = \frac{q^{'} - p^{'}}{| | q^{'} - p^{'} | |},

其中：

p^{'} = \frac{Hp}{e_{z}^{T} Hp} and q^{'} = \frac{Hq}{e_{z}^{T} Hq},

表达式“e_z＝[001]^T可以用来规范化同构坐标。在至少一些实现方式中，可以定义能量项为：

E_{pic} = λ_{v} \underset{i}{Σ} w_{i} {(e_{x}^{T} d_{yt})}^{2} + λ_{h} \underset{j}{Σ} w_{j} {(e_{y}^{T} d_{xt})}^{2}, - - - (A 4)

其中“d_yi”是在“L_y，e_x＝[100]^T”中的消没线“l_yi”的变换的线“l′_yi”的方向，并且是“l′_yi”从竖直方向的偏离。对于在“L_x”中的消没线“l_xj”相似地定义项“d_xi”，并且“e_y＝[010]^T”用来测量水平设备。

在等式(A4)中，用于线“1”的权值“w”是校准的焦距“f”规范化的在变换之前的原有线长度、即：

w＝||q-p||/f.

在至少一些实现方式中，可以使用初始旋转角度来自适应地确定权值“λ_v”和“λ_h”，因为画面框对准约束随着旋转角度变得更大而变得更弱。至少一些实现方式可以使用：

λ_{v} = \exp (- \frac{ψ^{2}}{{2 σ}_{v}^{2}}) and λ_{h} = \exp (- \frac{θ^{2}}{{2 σ}_{h}^{2}}), - - - (A 5)

其中“ψ”和“θ”分别是沿着“x”和“y”轴的校准的旋转角度。“σ_v”和“σ_h”是可用来控制旋转角度的容差的参数。在至少一些实现方式中，可以固定这些控制参数为“σ_v＝π/12”和“σ_h＝π/15”。其它值可以用于控制参数，并且在一些实现方式中，控制参数可以例如经由向用户接口的用户输入而可调整。

视平线对准

可以定义在照片中的视平线对准为连接两个消没点“v_x”和“v_z”的线。令”v′_x”和“v′_z”为变换的消没点：

v_{x}^{'} = \frac{{Hv}_{z}}{e_{Z}^{T} {Hv}_{x}} and v_{z}^{'} = \frac{{Hv}_{z}}{e_{z}^{T} {Hv}_{z}} .

涉及人类感知的目标可以是使视平线水平。在至少一些实现方式中，可以定义能量项为：

E_{eye} = (\underset{i}{Σ} w_{i} + \underset{j}{Σ} w_{j}) {(e_{y}^{T} d_{e})}^{2}, - - - (A 6)

其中

d_e＝(v′_z-v′_x)/||v′_z-v′_x||，

并且“w_i”和“w_j”是在等式(A4)中使用的权值。由于即使在照片包含许多消没线时实行视平线对准，这样的实现方式仍然可以按照线权值之和对“E_eye”进行加权以相对于“E_pic”恰当地缩放“E_eye”。

透视失真

可以如图5中所示使用Perkins法则来测量立方体的透视失真。根据Perkins法则，可以将立方体的顶点划分成两个类别：叉和箭头接合点。对于叉接合点，定义“a₁”、“a₂”和“a₃”大于“π/2”。对于箭头接合点，定义“β₁”和“β₂”二者小于“π/2”，并且定义两个角度之和大于“π/2”。违反以上条件的顶点对于查看者不会被感知为立方体的顶点。

为了应用Perkins法则，至少一些实现方式可以检测位于立方体的顶点上的拐角点。首先，提取如下点，来自两个或者三个不同轴的消没先的起点或者端点在这些点汇合。均值移位算法(或者备选地为某种其它技术)然后可以应用于这些点以去除重复或者附近点。在至少一些实现方式中，也可以去除具有太小拐角角度的拐角点。图6A和图6B图示根据至少一些实现方式的这一拐角点提取技术的结果。标记提取的点为点阵。

提取的拐角点可以用来在Perkins法则之下测量透视失真。对于每个拐角点，绘制将拐角点连接到三个消没点的三个线。然后测量在三个线之间的角度以了解是否违反Perkins法则：

v_{c_{i}}, \min (α_{i_{1}}, α_{i_{2}}, α_{i_{3}}) > \frac{π}{2} - - - (A 7)

其中“c_i”代表拐角点。至少一些实现方式仅考虑叉接合点，因为可以通过交换边缘的方向将箭头接合点变换成叉接合点。

图像失真

在至少一些实现方式中，可以检测在输入图像中的圆圈和其它特征以准确地测量图像失真。然而准确地检测这些特征可能有困难。因此，至少一些实现方式可以代之以使用如以下描述的近似。

首先，可以例如使用Canny检测器来检测低级图像边缘。然后可以去除可以在直线附近的边缘像素。假设剩余边缘像素来自可以从一些特征始发的曲线(见图7A和图7B)，可以例如使用以下雅可比测量来测量这些像素的失真：

E_{reg} = λ_{r} \underset{i}{Σ} {\det (J (\frac{{Hp}_{i}}{e_{i}^{T} {Hp}_{i}})) - 1}^{2},

其中“p_i是剩余边缘像素，“J(·)”是雅可比矩阵，并且“det(·)”是行列式。可以离散地计算像素“p”的雅可比矩阵。例如，令“q”和“r”是“p”的两个邻居像素，从而“p＝(x，y)^T”、“q＝(x+1，y)^T”和“r＝(x，y+1)^T”，。然后近似“p”在单应性“H”的雅可比矩阵为：

J (p) = [\begin{matrix} {(\frac{Hq}{e_{z}^{T} Hq} - \frac{Hp}{e_{z}^{T} Hp})}^{T} \\ {(\frac{Hr}{e_{z}^{T} Hr} - \frac{Hp}{e_{z}^{T} Hp})}^{T} \end{matrix}]

这一能量在非硬性变换应用于像素从而引起特征的失真时增加。对于“λ_r”，至少一些实现方式可以使用小值(例如，10^-4)。图7A示出示例原有图像，并且图7B示出可以在其中检测到一些特征——比如人类头部和字母——的检测到的弯曲边缘像素的示例。

焦距差值

在至少一些实现方式中，可以使用用于单应性的再投影模型，该再投影模型允许沿着“x”和“y”轴的不同焦距以求更自然结果。然而，出于人类感知的目的，两个焦距不会相差太多。为了实行这一性质，可以定义以下能量：

E_facal＝λ_f(f_1x-f_1y)²，

在至少一些实现方式中：

λ_f＝(4/f)²，

能量函数最小化

在至少一些实现方式中，可以为了竖直调整而最小化的能量函数通过组合以上能量项中的每个能量项而变成：

\underset{H}{\arg \min} E_{pic} + E_{eye} + E_{reg} + E_{facal} - - - (A 8)

以上表达式受制于涉及Perkins法则的以上等式十六。因而有待优化的九个未知数：“K₁”、“R₁”和“t₁”，这些未知数包括如以上定义的“f_1x”、“f_1y”、“u₁”、“v₁”、“ψ₁”、“θ₁”、“t_x”和“t_y”。然而“u₁”和“v₁”简单地移位在变换之后的所得图像，因此“u₁＝u₀”和“v₁＝v₀”。因此，可以相对于七个参数优化以上等式三。为了初始化变量，至少一些实现方式可以使用下式：

f_1x＝f_1y＝f，ψ₁＝0，θ₁＝0，φ₁＝-φ，andtx＝ty＝0，

其中f和φ是可以例如通过相机校准而获得的值。

注意这一能量函数非线性并且在闭合形式中不可求解。在至少一些实现方式中，例如使用Matlab中的“fmincon”或者相似函数的数值技术可以用来最小化能量函数。虽然未确保全局最优，但是这一方式在实践中工作良好。注意其它实现方式可以使用其它技术以最小化能量函数。

单应性优化参数

在至少一些实现方式中可以调整以上描述的用于单应性优化的参数以满足用户的意图。例如可以不推荐放宽视平线约束，因为实行这一判据以获得可视地更好结果。然而用户可能希望通过操控“σ_v”和“σ_h3”来控制画面框对准的效果以避免太激进调整。因此，至少一些实现方式可以提供例如经由用户接口的技术，用户可以经由该用户接口调整一个或者多个单应性优化参数。

竖直调整标准的效果

图8A至图8C图示根据至少一些实现方式的具有大相机旋转的照片的调整。图8A示出原有图像，图8B示出如常规地矫正的图像，并且图8C示出这里描述的技术的实现方式的应用结果。画面框对准可能是大平面对象、比如建筑物和布告板的正面的照片所希望的。然而其效果可能随着相机的旋转角度增加而削弱，否则它可能造成不希望的失真(例如，见图8B)。注意如果画面框对准以其它判据为主，则调整结果变成与简单图像矫正相似。至少一些实现方式可以用自适应权值方案(等式(A5))以及透视和图像失真判据自动处置这一问题从而生成如图8C中所示更好结果。

图9A至图9C图示根据至少一些实现方式的透视失真控制。图9A示出原有图像。图9B示出在无透视失真约束时通过调整图9A的图像而生成的所得图像。图9C示出根据至少一些实现方式的在无透视失真约束时通过调整图9A的图像而生成的所得图像。视平线对准可以随着画面框对准的效果变得更弱而变得越来越合乎需要(见图1(d))，但是应用这一判据可以帮助获得更好结果。透视失真控制防止可能使在图像中的对象表现失真的太强调整(例如，见图9B和图9C)。在至少一些实现方式中，可以允许在“x”和“y”方向上的焦距用等式(A3)略微地偏离从而产生小纵横比改变以易化透视失真。

相机校准技术

在这一章节中，描述用于相机校准的多种不同基于优化的技术，这些技术可以在自动竖直调整技术的至少一些实现方式中用来估计在等式(2)中的矩阵“K”和“R”。因而，描述一种这样的技术的第一示例，然后是另一示例。

第一相机校准示例

在至少一些常规校准技术中，首先使用从输入照片检测到的消没线和消没点来确定曼哈顿方向“M”，然后从“M”直接获得“K”和“R”。然而在确定“M”时，用于“x”轴、“y”轴和“z”轴的对应消没点可能不明显，因为可能有许多可能有定位误差的消没点。然后，在这样的实例中向“K”和“R”立即传播“M”的不准确性。

对照而言，这里描述的相机校准技术的实现方式可以例如使用最大后验(MAP)方式来相互结合(即“同时”)估计“K”、“R”和“M”，该MP方式可以产生与这些常规技术比较具有增加的可靠性的结果。

尽管描述相机校准技术为在自动竖直调整技术的至少一些实现方式中用来估计用于输入图像的相机参数以及消没点和线，但是注意该技术可以在除了这里描述的技术之外的其它数字图像处理技术中用来估计用于输入图像的相机参数和/或消没点和线。

线段检测

线段是在校准技术的实现方式中的基本原语。从输入图像可以例如使用多比例方式的技术来提取线段“L”的集合。对于每个线段“l_i”，可以存储其两个端点“p_i”和“q_i”。

校准公式表示

在至少一些实现方式中，可以表达曼哈顿方向“M”、本征矩阵“K”和定向矩阵“R”相对于线段L的联合概率如下：

p(K，R，M|L)∝p(L|K，R，M)p(K，R，M)

＝p(L|M)p(M|K，R)p(K)p(R)，(A9)

而假设“K”和“R”相互独立并且也独立于“L”。通过取对数概率，等式(A9)可以被改写成能量函数为：

E_K，R，M|L＝E_K+E_R+E_M|K，R+E_L|M.(A10)

先验E _K

为了定义用于“K”的先验，至少一些实现方式可以假设投影中心“c_p＝(u₀，v₀)”是图像中心“c₁＝(c_x，c_y)”并且焦距“f”是图像宽度“W”。然后可以定义“E_K”为：

E_{K} = λ_{f} {(\frac{\max (IV, f)}{\min (IV, f)} - 1)}^{2} + λ_{c} {| | c_{p} - c_{j} | |}^{2}

至少一些实现方式可以设置“λ_f为0.04”和“λ_c为(10/W)2”。然而，可以在如以下进一步描述的其它实现方式中使用其它值。

先验E _r

对于“R”的先验，至少一些实现方式可以假设相机的定向对于世界的主轴对准，这在多数情况下是合理假设。在至少一些实现方式中：

E_R＝λ_ψψ²+λ_θθ²+λ_φφ²，

在至少一些实现方式中，三个旋转角度未被同等地加权。具体地，可以发现用于φ(z轴旋转)的先验应当更强以实行视平线对准。因此，至少一些实现方式可以使用：

[λ_ψ，，λ_θ，λ_φ]＝[4/π，3/π，6/π]².

后验E _M|K，R

在至少一些实现方式中，如果“K”和“R”已知，则可以估计“M”为：

M＝[v_xv_yv_z]＝(KR)I₃，

其中“I₃＝[e_xe_ye_z]”是单位矩阵。在至少一些实现方式中，使用这一性质，可以用公式表示能量函数如下：

E_{M | K, R} = λ_{M} \underset{i &Element; {x, y, z}}{Σ} {[\cos^{- 1} {e_{i}^{T} \frac{{(KR)}^{- 1} v_{i}}{| | {(KR)}^{- 1} v_{i} | |}}]}^{2} .

这一能量函数覆盖曼哈顿方向的正交性和用于顶点的先验。在至少一些实现方式中，可以设置“λ_M”为“(24/π)²”。然而，可以在一些实现方式中使用用于“λ_M”的其它值。

后验E_L|M

这一项测量检测到的线段与估计的消没点的相符性。在至少一些实现方式中，可能希望如下消没点，对于这些消没点，更多线段可以是消没线的部分。在至少一些实现方式中，能量函数是：

E_{L | M} = λ_{L} \underset{i}{Σ} \min {d (v_{x}, l_{i}), d (v_{y}, l_{i}), d (v_{y}, l_{i})},

其中“d(·)”是在消没点与线之间的距离。至少一些实现方式可以使用以下距离定义：

d (v, l) = \min (\frac{| r^{T} p |}{\sqrt{r_{1}^{2} + r_{2}^{2}}}, δ), - - - (A 11)

其中“p”和“q”是“1”的两个端点并且：

r = (\frac{p + q}{2}) \times v = {[\begin{matrix} r_{1} & r_{2} & r_{3} \end{matrix}]}^{T} .

“δ”是给定的最大误差值。在至少一些实现方式中，“δ”可以是1.75。在至少一些实现方式中，“λ_L”可以被设置成0.02。然而，注意其它值可以在一些实现方式中用于“δ”和/或“λ_L”。

处理遗漏消没点

在估计“M”时，可能在一些情况下未发现所有三个消没点。在至少一些实现方式中，为了健壮性，能量项“E_M|K，R”和“E_L|M”可以能够处置这一情况。在至少一些实现方式中，对于“E_M|K，R”，能量可以对于遗漏消没点被设置成零，其中假设该点位于使用“K”和“R”而估计的定位。在至少一些实现方式中，对于“E_L|M，d(v_miss，l_i)对于l_i为δ”。

K、R和M的迭代优化

有了以上定义的能量项，直接优化等式(A10)可能有困难，因为它高度地非线性。因此，至少一些实现方式可以使用迭代技术以发现近似求解。

在至少一些实现方式中，在迭代技术中，该技术可以交替地优化“K”、“R”和“M”。在至少一些实现方式中，通过固定“M”，可以按照下式用K”和“R”优化等式(A10)：

\underset{K, R}{\arg \min} E_{K} + E_{R} + E_{M | K, R} - - - (A 12)

相似地，在至少一些实现方式中，可以通过求解下式来实现“M”的优化：

\underset{M}{\arg \min} E_{M | K, R} + E_{L | M} . - - - (A 13)

为了在给定“M”时优化“K”和“R”，至少一些实现方式可以使用Matlab中的“fminsearch”或者相似函数或者某种其它优化技术。然而“M”的优化即使“K”和“R”固定仍然可能有困难，因为“E_L|M”如在等式(A11)中定义的那样将距离截短成“δ”。为了求解等式(13)，至少一些实现方式可以使用离散近似。

在至少一些实现方式中，从线段“L”可以假设大的消没点集合“V＝[v₁，v₂，…，v_n]”，其中计算每个元素为两个随机选择的线的交点。优化“M”因此变成从“V”选择消没点以最小化在等式(A13)中的能量。对于M＝[v_xv_yv_z]的每个元素，发现“V”中的使能量最小化而保持其它两个元素的消没点。

在至少一些实现方式中，可以用以下方式从“V”选择“与所有线最接近”的小子集“V_c＝{V_c1，V_c2，…，V_ck}”：

\underset{{v_{c_{i}}, . . ., v_{c_{k}}}}{\arg \min} \underset{i}{Σ} \min {d (v_{c_{i}}, l_{i}), . . ., d (v_{c_{h}}, l_{i})},

其中在至少一些实现方式中“k＝9”。在至少一些实现方式中，可以向“V_c”中添加代表遗漏消没点的特殊消没点“v_miss”，因为“V_c”可以不含景物的曼哈顿方向中的每个曼哈顿方向。对于在“V_c”中的消没点的每个三元组，至少一些实现方式可以使用等式(A12)和(A13)来优化“K”、“R”和“M”、然后评估等式(AIO)。最后，具有最小能量的“K”、“R”和“M”可以用作校准结果。

在至少一些实现方式中，虽然初始“V_c”可以不含曼哈顿方向中的每个曼哈顿方向，所以可以在迭代优化过程中优化等式(A13)之时从“V”检测遗漏方向。然而优化用于在“V_c”中的可能三元组中的每个三元组优化的“K”、“R”和“M”可能计算成本高。因此，至少一些实现方式可以使用如以下进一步具体描述的用于加速的一个或者多个及早终止策略。

对消没线进行分组

在校准过程之后，至少一些实现方式可以确定用于在“M”中的每个消没点的消没线。可以通过下式从“L”获得三个消没线集合“L_x”、“L_y”和“L_z”：

L₁＝{1∈L|d(v_i，l)＜δ}，i∈{x，y，z}，

其中“d(·)”是在等式(A11)中定义的距离函数。在图10A至图10D中示出用估计的消没线的相机校准结果的示例。

相机校准参数

在至少一些实现方式中，可以固定用于相机校准的参数的值。然而在其它实现方式中，可以指定值。可以例如用实验确定用于这些参数的值。“δ”与在线段定位中的噪声的容差。如果设置“δ”太小或者太大，则算法可能未发现最优消没点，因为线段可能被更少准确地分组。“δ”也与“λ_L”有关，因为能量函数“E_L|M”与截短成“δ”的在线与消没点之间的距离有关。一般而言，“λ_L”随着“δ”增加而减少，否则校准结果可能在过量数量上依赖于“E_L|M”。

减少“φ”、“n”和“k_c”可以加速计算而代价为更少准确的估计。此外，将更大值用于这些参数可能未改进估计结果。与许多其它相机校准技术相似，校准技术的实现方式被随机化并且偶然地可能获得不希望的结果。然而，有了关于“K”和“R”的先验以及“K”、“R”和“M”的同时优化，可以在多数情况下实现稳定结果。至少一些实现方式可以提供例如经由用户接口的技术，用户可以经由该用户接口调整一个或者多个相机校准参数。

相机校准初始化

下文概括相机校准技术并且描述用于该技术的初始化细节。目标是估计相机本征参数矩阵“K”和定向“R”以及从单个图像的曼哈顿方向“MR”。在至少一些实现方式中，这可以通过最小化以下能量函数来完成：

E_K，R，M|L＝E_K+E_R+E_M|K，R+E_L|M.(B1)

(注意也示出这一能量函数为等式(A10))。至少一些实现方式可以使用交替优化方案以优化“K”、“R”和“M”。在一些实现方式中，固定“M”以用以下等式更新“K”和“R”：

\underset{K, R}{\arg \min} E_{K} + E_{R} + E_{M | K, R} . - - - (B 2)

然后通过固定“K”和“R”来更新M为：

\underset{M}{\arg \min} E_{M | K, R} + E_{L | M} . - - - (B 3)

这一优化过程可以相互结合、即“同时”优化“K”、“R”和“M”。在至少一些实现方式中，为了确定初始值，从“V”选择小子集“{v_c1，v_c2，…，v_ck}”。然后，从“V_c”选择三个消没点作为初始“M”以评估等式(B1)。

在至少一些实现方式中，基于曼哈顿假设，可以选择可以使“E_L|M”最小化如下的“V_c”：

\underset{{v_{c_{1}}, . . ., v_{c_{k}}}}{\arg \min} Σ_{i = 1}^{n} \min {d (v_{c_{1}}, l_{i}), . . ., d (v_{c_{k}}, l_{i})}, - - - (B 4)

其中“n”是线段数目并且“d(·)”是以上定义的距离函数。在至少一些实施方式中，“k＝9”。对于在“V_c”中的消没点的每个三元组，可以通过相对于三元组优化“K”和“R”来评估等式(B1)。然而在选择消没点时，一些消没点经常可能遗漏，因为可能无代表具体曼哈顿方向的消没点(例如，见图10B)。

在至少一些实现方式中，这通过向“V_c”中添加代表遗漏消没点“v_miss”的特殊消没点来建模，从而“V_c＝{v_cl，…，v_ck，v_miss}”然后可以从“V_c”选择消没点的三元组以构建“M”如下：

M＝[v_xv_yv_z]

1≤x，y，z≤k+1

如果x，y，z≤k则x≠y≠z，

其中“v_x”、“v_y”和“v_z”是“V_c”的第“x”、“y”和“z”个元素。有了这一表示，可以构建包括遗漏消没点的“M”。

一旦构建初始“M”，可以优化“K”、“R”和“M”。然而对于可能三元组中的每个三元组进行优化可能涉及到大量计算，因此在至少一些实现方式中可以使用以下策略。对于每个三元组，使用等式(B2)来优化“K”和“R”。然后，评估等式(B1)而无“M”的任何进一步优化。三元组中的每个三元组按照它们的评估的能量值来排序，然后选择若干三元组作为向迭代优化的输入。在至少一些实现方式中，可以选择其能量值是在所有三元组之中的最小值的两倍的三元组。

图10A至图10D图示根据至少一些实现方式的相机校准技术的过程。该技术可以有效地发现曼哈顿方向并且同时估计相机参数。图10A示出输入图像。在图10B中，未良好估计沿着x轴的曼哈顿方向，因为“V_c”无恰当对应消没点。在迭代优化步骤期间处置这一问题；在图10C中，估计正确M。在图10D中，虚线所示两个轴的原点指示投影中心。

第二相机校准示例

如以上描述的那样，来自单个图像的相机参数的校准是高度地不良引起的问题。在先前方式、比如曼哈顿世界假设中利用若干先验。在这一章节中，首先描述校准先验集合，然后用公式表示校准技术为最大a-后验(MAP)估计，然后描述优化算法。

景物先验

曼哈顿世界假设是在单图像相机校准方法中的最常见先验。它假设在景物中存在三个主导正交方向，这些主导正交方向如图22C中所示称为“曼哈顿方向”。通过提取那些方向，可以恢复参考世界坐标轴，并且可以校准相机参数。

尽管曼哈顿世界模型有效，但是在一些情况下，景物可以具有未对准的多个正交方向、比如两组建筑物而在它们的水平方向之间有非直角(见图22C)，这可以称为“亚特兰大”世界假设。在这一示例中，运用其中进行亚特兰大世界假设的相似先验。例如，该假设可以指定输入图像具有主导正交框而附加水平方向共享相同竖直方向。

相机先验

一些技术利用关于相机的本征参数矩阵“K”的先验。该假设是相机以像素为尺度的焦距与图像的宽度相同并且投影的中心是图像中心，从而：

K = (\begin{matrix} f & 0 & u_{0} \\ 0 & f & v_{0} \\ 0 & 0 & 1 \end{matrix}) ~ (\begin{matrix} W & 0 & c_{x} \\ 0 & W & c_{y} \\ 0 & 0 & 1 \end{matrix})

其中分别地，“W”是图像宽度并且“(c_xc_y)”是图像中心。

对于关于外部相机定向“R”的先验，采用人们倾向于对准他们的相机与世界的主轴(principalace)这样的人类倾向。在这一假设之下，定向矩阵“R”的旋转角度为小，从而：

{ψ，θ，φ}＝0，其中R＝R_ψR_θR_φ

校准公式表示

同前，使用线段作为用于校准的基本源语。从输入图像以多比例方式提取线段集合“L”。存储每个线段“l_i”而它在投影平面“p²”中的两个端点为“p_i”和“q_i”。

一旦提取线段，校准相机参数“K”和“R”。为了利用校准先验，在校准期间提取曼哈顿方向“M”和附加水平消没点“A”，其中：

M＝[v_xv_yv_z]和A＝[v_a1v_a2…v_ak]，

并且“v”代表在“p²”中的消没点。可以格式化“K”、“R”、“M”和“A”相对于“L”的联合概率如下：

p(K，R，M，A|L)∝p(L|K，R，M，A)p(K，R，M，A)

＝p(L|M，A)p(M，A|K，R)p(K)p(R)

而假设为“K”和“R”相互独立并且也独立于“L”。通过取对数，可以将以上表达式转换成以下能量函数：

E_K，R，M|L＝E_K+E_R+E_M，A|K，R+E_L|M，A

为了计算“E_L|M，A”’，使用景物先验。在曼哈顿字词假设之下，代表更多线段的消没点的三元组合乎需要。另外，对于“M”和“A”的并集，可能希望具有尽可能多的线段作为消没线。因而，可以用公式表示能量函数如下：

E_{L | M, A} = λ_{L_{m}} \underset{i}{Σ} d_{m} (M, l_{i}) + λ_{L_{n}} \underset{i}{Σ} d_{m} (M \cup A, l_{i})

其中“l_i代表线段。值“”d_m(·)”用来测量在消没点集合“V＝{v₁，v₂，…，v_k}”与线段“1”之间的最小距离如下：

d_m(V，l)＝min{d(v₁，l)、d(v₂，l)，…，d(v_k，l)}

值“d((·)”用于使用以下定义来测量在消没点与线之间的距离：

d (v, l) = \min (\frac{| r^{T} p |}{\sqrt{r_{1}^{2} + r_{2}^{2}}}, δ)

其中“p”和“q”是“1”的两个端点并且

r = (\frac{p + q}{2}) \times v = {[\begin{matrix} r_{1} & r_{2} & r_{3} \end{matrix}]}^{T}

值“δ”代表给定的最大误差值，该最大误差值在示例中是1.75。值“λ_Lm”和“λ_Lq”在这一示例中分别设置成0.01和0.02，但是也设想其它示例。

值“E_K”和“E_R”与相机先验有关。从本征参数矩阵“K”和“R”，可以获得以下表达式：

E_{K} = λ_{f} {(\frac{\max (W, f)}{\min (W, f)} - 1)}^{2} + λ_{c} {| | c_{p} - c_{i} | |}^{2}

并且

E_R＝λ_ψψ²+λ_θθ²+λ_φφ²

对于”E_K”，设置值“λ_f”为0.001而设置“λ_C”为“(4/W)²”。对于“E_R”，三个旋转角度未被同等地加权。具体地，发现用于“φ”(即z轴旋转)的先验更强对于实行视平线对准可以是有益的。因此，可以利用以下表达式：

[λ_ψ，λ_θ，λ_φ]＝[3/π，2/π，6/π]²

为了计算“E_M，A|K，R”，假设可以独立地计算“E_M|K，R”和“E_A|K，R，从而：

E_M，A|K，R＝E_M|K，R+E_A|K，R

然后，如果“K”和“R”已知，则可以估计“M”为：

M＝[v_xv_yv_z]＝(KR)I₃

其中“I₃＝[e_xe_ye_z]”是单位矩阵。使用这一性质，可以用公式表示“E_M，K|R”如下：

E_{M | K, R} = λ_{M} \underset{i &Element; (x, y, z)}{Σ} {[\cos^{- 1} {e_{i}^{T} \frac{{(KR)}^{- 1} v_{i}}{| | {(KR)}^{- 1} v_{i} | |}}]}^{2}

其中在一个或者多个示例中设置“λ_m”为“(48/π)²”。值“A”代表水平方向并且因此将与“e_y”垂直。因此，可以用公式表示“E_A|K，R”如下：

E_{A | K, R} = λ_{A} \underset{i}{Σ} {[\cos^{- 1} {e_{y}^{T} \frac{{(KR)}^{- 1} v_{a_{i}}}{| | {(KR)}^{- 1} v_{a_{i}} | |}} - \frac{π}{2}]}^{2}

其中“v_ai”代表水平消没点并且在一个或者多个示例中设置“λ_A”为“(48/π)²”。

遗漏消没点

迭代方式可以用来使用以上定义的能量项来发现求解。在迭代中，以交替方式优化值“K”和“R”、“M”和“A”。如果“M”和“A”固定，则可以按照下式相对于“K”和“R”优化以上用于“E_M，A|K，R”的能量函数：

\underset{K, R}{\arg \min} E_{K} + E_{R} + E_{M, A | K, R}

相似地，可以通过求解以下表达式来实现“M”和“A”的优化：

\underset{M}{\arg \min} E_{M, A | K, R} + E_{L | M, A},

\underset{A}{\arg \min} E_{M, A | K, R} + E_{L | M, A}

而固定其它参数。

为了优化“K”和“R”，至少一些实现方式可以使用Matlab中的“fminsearch”或者相似函数或者某种其它优化技术。在另一方面，“M”和“A”的优化仍然可能有困难，因为“E_L|M，A”如以上描述的那样将距离截短成“δ”并且“A”的大小未知。

为了求解以上表达式，可以利用离散近似。例如从线段“L”，可以假设大消没点集合“V＝[v₁v₂…v_nv_miss]”，其中除了代表遗漏消没点的“v_miss”之外计算每个元素为两个随机选择线的交点。可以在一个或者多个示例中设置值“n”为“2000”。优化“M”和“A”因此变成从“V”选择消没点以最小化在以上表达式中的能量。

为了最小化“M”，对于“M＝[v_xv_yv_z]”的每个元素，发现“V”中的使能量最小化而保持其它两个元素的消没点。为了优化“A”，可以使用贪心算法，其中从“V”逐个选择使以上用于“A”的优化表达式最小化的消没点直至能量未减少。

为了产生“M”的初始值，以如下方式从“V”选择“与所有线最接近”的小子集“V_c{v_c，v_c2…，v_ck}”：

\underset{{v_{c_{1}}, . . ., v_{c_{k}}}}{\arg \min} \underset{i}{Σ} \min {d (v_{c_{1}}, l_{i}), . . ., d (v_{c_{k}}, l_{i})}

其中在一个或者多个示例中设置“k”等于九。也向“V_c”中添加值“v_miss”。

对于在“V_c”中的消没点的每个三元组，优化初始“K”和“R”，设置“M”为三元组，并且“A”为空。然后优化初始“A”。然后使用以上表达式来优化并且使用以上能量函数来评估变量中的每个变量，该能量函数取以上联合概率的对数。最后，具有最小能量的“K”、“R”、“M”和“A”的值用作校准结果。虽然初始“V_c”可以不含曼哈顿方向中的每个曼哈顿方向，但是可以在使用以上表达式来优化“M”作为迭代优化过程的部分之时从“V”检测遗漏方向。

在校准过程之后，确定用于“M”中的每个消没点的消没线。按照下式从“L”获得消没线“L_x”、“L_y”和“L_z”的三个射束：

L_i＝{1∈L|d(v_i，l)＜δ}，i∈{x，y，z}

其中“d(·)”是如以上描述的距离函数。

利用外部信息

可以重新用公式表示MAP公式表示为各种形式以利用用户或者相机制造者提供的附加信息。例如，如果给定则可以固定焦距或者投影中心。可以检测、但是如果景物严格地遵循曼哈顿世界假设则可以忽略附加水平消没点“A”。在这样的情况下，“E_L|M，A”和“E_M，A|K，R”分别变成“L_|M”和“E_M|K，R”，并且可以执行校准而未检测附加水平消没点。

与手动校正比较

图11A和图11B比较自动竖直调整技术的实现方式的结果与手动生成的结果。收集良好对准的原有图像集合。用任意旋转矩阵旋转每个图像以产生破坏的结果。若干用户使用数字图像处理应用的透镜校正工具来手动调整变换的照片。也使用自动竖直调整技术的实现方式来变换相同破坏的图像。图11A和图11B示出结果中的一些结果用于比较。可见手动调整结果与自动竖直调整技术生成的结果相似。

为了确认自动竖直调整技术正确地执行竖直调整，比较该计算计算的旋转角度与实况值。由于已经良好地拍摄原有照片，所以该计算计算的旋转角度应当与实况值相似。发现旋转角度的差值小。

与倾斜移位透镜比较

图12比较自动竖直调整技术的实现方式的结果与使用倾斜移位透镜而捕获的图像。捕获若干对照片用于比较。对于每对，首先常规地捕获景物，然后使用透镜的移位功能来捕获第二图像以拍摄景物的竖直版本。然后使用自动竖直调整技术的实现方式来调整常规照片并且与来自倾斜移位透镜的竖直版本的结果比较。图12示出一些示例结果。可见自动竖直调整技术生成的结果与使用倾斜移位而捕获的图像相似。

示例结果

图14A至图22B示出根据至少一些实现方式的自动竖直调整的附加结构。图14A示出坐在走廊秋千中的人的景物的原有图像。图14B示出向图14A的图像应用的常规矫正技术的结果。注意在图像中、具体在秋千和人类体形中的失真。图14C示出根据至少一些实现方式的向图14A的图像应用的自动竖直调整技术的结果。注意在与图14B比较时有秋千和人类体形的很少或者无失真。

图15A示出坐在厨房中的人类的景物的原有图像。图15B示出根据至少一些实现方式的向图15A的图像应用的自动竖直调整技术的结果。注意已经调整前景和背景特征而有人类体形或者其它特征的很少或者无失真。

图16A示出飞机的内部的景物的原有图像。图16B示出根据至少一些实现方式的向图16A的图像应用的自动竖直调整技术的结果。

图17A示出店面景物的原有图像。图17B示出根据至少一些实现方式的向图17A的图像应用的自动竖直调整技术的结果。

图18A示出具有板饰和图片的墙壁的原有图像。图17B示出根据至少一些实现方式的向图18A的图像应用的自动竖直调整技术的结果。

图19A示出包含未对准视界的原有图像。图19B示出根据至少一些实现方式的向图19A的图像应用的自动竖直调整技术的结果。

图20A示出门的原有图像。图20B示出根据至少一些实现方式的向图20A的图像应用的自动竖直调整技术的结果。

图21A示出包括笔迹的海报的原有图像。图21B示出根据至少一些实现方式的向图21A的图像应用的自动竖直调整技术的结果。

图22A示出用宽角度透镜拍摄并且因此包含失真的城市景物的原有图像。图22B示出根据至少一些实现方式的向图22A的图像应用的自动竖直调整技术的结果。

示例***

一些实现方式可以包括用于如这里描述的图像、比如数字或者数字化照片的自动竖直调整的装置。例如，应用的一个或者多个模块可以如这里描述的那样接收输入、包括但不限于图像、从图像获得线段并且执行校准技术以同时估计相机参数以及消没点和线。此外，应用的一个或者多个模块可以如这里描述的那样获得用于图像的相机参数以及消没点和线的估计并且相对于单应性矩阵的参数优化再投影模型以使用基于人类感知的一个或者多个判据作为能量项约束优化来估计新相机参数并且根据新相机参数再投影图像。一个或者多个模块可以在一些实现方式中由计算装置的非瞬态、计算机可读存储介质和一个或者多个处理器实施。计算机可读存储介质可以存储一个或者多个处理器可执行的程序指令以使计算装置执行如这里描述的相机校准技术和/或再投影技术。一个或者多个模块的其它实现方式可以至少部分由例如在非易失性存储器中存储的硬件电路装置和/或固件实施。

图23图示可以实施如图1至图22B中所示用于图像的自动竖直调整的技术中的一种或者多种技术的一个或者多个示例模块。图24图示可以在其上实施模块900的实现方式的示例计算机***。模块900接收各自显示景物的一个或者多个数字相机910A作为输入。在一些实现方式中，模块900可以经由用户接口902接收用户输入912，该用户输入指定用于如这里描述的相机校准技术和/或用于如这里描述的再投影技术的一个或者多个参数。模块900执行低级线检测904以从图像910A获得线段。模块900然后执行相机校准906以估计用于图像910A的相机参数和消没点信息。模块900然后执行如这里描述的估计新相机参数的再投影技术908并且将新相机参数应用于再投影图像910A。模块900生成用于每个输入图像910A的调整的图像910B作为输出。调整的图像910B可以例如显示于显示器930设备上、存储到存储介质940、比如***存储器、盘驱动、DVD、CD等和/或传递到一个或者多个其它模块950用于附加处理。在一些实现方式中，模块900可以在输出调整的图像910B之前裁剪再投影的图像。可以实施如图1至图22B中所示用于图像的自动竖直调整的模块900或者技术中的一种或者多种技术的实现方式为用于应用的插件、为库函数和/或为单独应用。可以在包括但不限于和After的任何图像处理应用中实施如这里描述的模块或者技术和算法中的一个或者多个技术和算法的实现方式。Adobe、PhotoShop、PhotoShopElements和AdobeAfterEffects是AdobeSystemsIncorporation在美国和/或其它国家内的注册商标或者商标。

可以在可以与各种其它设备交互的一个或者多个计算机***上执行如图1至图22B中所示用于图像的自动竖直调整的技术的实现方式。图24图示一个这样的计算机***。在不同实现方式中，计算机***1000可以是各种类型的设备、包括但不限于个人计算机***、桌面型计算机、膝上型、笔记本或者上网本计算机、平板或者写字板设备、大型机计算机***、手持计算机、工作站、网络计算机、相机、机顶盒、移动设备、无线电话、智能电话、消费者设备、视频游戏控制台、手持视频游戏设备、应用服务器、存储设备、***设备、比如交换机、调制解调器、路由器或者一般为任何类型的计算或者电子设备中的任何设备。

在所示实现方式中，计算机***1000包括经由输入/输出(I/O)接口1030耦合到***存储器1020的一个或者多个处理器1010。计算机***1000还包括耦合到I/O接口1030的网络接口1040和一个或者多个输入/输出设备1050、比如光标控制设备1060、键盘1070和显示器1080。计算机***1000也可以包括作为输入/输出设备的一个或者多个具有触摸或者多触摸功能的设备、例如具有触摸功能的显示器和/或平板。在一些实现方式中，设想可以使用计算机***1000的单个实例来实施实现方式，而在其它实现方式中，多个这样的***或者组成计算机***1000的多个节点可以被配置为托管实现方式的不同部分或者实例。例如在一个实现方式中，一些单元可以经由计算机***1000的与实施其它单元的那些节点不同的一个或者多个节点来实施。

在各种实现方式中，计算机***1000可以是包括一个处理器1010的单处理器***或者包括若干处理器1010(例如，两个、四个、八个或者另一适当数目)的多处理器***。处理器1010可以是能够执行指令的任何适当处理器。例如在各种实现方式中，处理器1010可以是实施多种指令集架构(ISA)、比如x86、PowerPC、SPARC或者MIPSISA或者任何其它适当ISA中的任何ISA的通用或者嵌入式处理器。在多处理器***中，处理器1010中的每个处理器可以公共地但是未必实施相同ISA。

在一些实现方式中，至少一个处理器1010可以是图形处理单元。图形处理单元或者GPU可以视为用于个人计算机、工作站、游戏控制台或者其它计算或者电子设备的专用图形渲染设备。现代GPU可以操控和显示计算机图形很高效，并且它们的高度地并行结构可以使它们比用于复杂图形算法范围的典型CPU更有效。例如图形处理器可以用如下方式实施多个图形原语操作，该方式使得比向具有主机中央处理单元(CPU)的屏幕直接绘制快得多地执行它们。在各种实现方式中，这里公开的图像处理算法可以至少部分由被配置用于在这样的GPU之一上执行或者在这样的GPU中的两个或者更多GPU上并行执行的程序指令实施。GPU可以实施允许程序员调用GPU的功能的一个或者多个应用程序员接口(API)。适当GPU可以从销售者、比如NVIDIACorporation、ATITechnologies(AMD)和其它销售者可商用。

***存储器1020可以被配置为存储处理器1010可访问的程序指令和/或数据。在各种实现方式中，可以使用任何适当存储器技术、比如静态随机存取存储器(SRAM)、同步动态RAM(SDRAM)、非易失性/闪存型存储器或者任何其它类型的存储器来实施***存储器1020。在所示实现方式中，在***存储器1020内示出实施希望的功能——比如以上描述的用于如图1至图22B中所示用于图像的自动竖直调整的技术的实现方式的功能——的程序指令和数据分别为程序指令1025和数据存储装置1035。在其它实现方式中，可以接收发送或者在不同类型的计算机可访问介质上或者在从***存储器1020或者计算机***1000分离的相似介质上存储程序指令和/或数据。一般而言，计算机可访问介质可以包括经由I/O接口1030耦合到计算机***1000的存储介质或者存储器介质、比如磁或者光介质、例如盘或者CD/DVD-ROM。可以通过传输介质或者信号、比如电、电磁或者数字信号传输经由计算机可访问介质存储的程序指令和数据，这些信号可以经由比如可以经由网络接口1040实施的通信介质、比如网络和/或无线链路来运送。

在一个实现方式中，I/O接口1030可以被配置为协调在处理器1010、***存储器1020和在设备中的任何***设备、包括网络接口1040或者其它***设备、比如输入/输出设备1050之间的I/O流量。在一些实现方式中，I/O接口1030可以执行用于将来自一个部件(例如，***存储器1020)变换成适合用于由另一部件(例如，处理器1010)使用的格式的数据信号的任何必需协议、定时或者其它数据变换。在一些实现方式中，I/O接口1030可以例如包括支持通过各种类型的***总线、比如***部件互连(PCI)总线标准或者通用串行总线(USB)标准的变体附着的设备。在一些实现方式中，I/O接口1030的功能可以例如被拆分成两个或者更多分离部件、比如北桥和南桥。此外，在一些实现方式中，I/O接口1030的功能中的一些或者所有功能、比如与***存储器1020的接口可以被直接地结合到处理器1010中。

网络接口1040可以被配置为允许数据在计算机***1000与附着到网络的其它设备、比如其它计算机***之间或者在计算机***1000的节点之间被交换。在各种实现方式中，网络接口1040可以例如支持经由有线或者无线通用数据网络、比如任何适当类型的以太网网络；经由远程通信/电话网络、比如模拟语音网络或者数字光纤通信网络；经由存储区域网络、比如光纤信道SAN或者经由任何其它适当类型的网络和/或协议的通信。

输入/输出设备1050可以在一些实现方式中包括一个或者多个显示终端、键盘、键区、触板、扫描设备、语音或者光识别设备或者适合用于一个或者多个计算机***1000录入或者取回数据的任何其它设备。多个输入/输出设备1050可以存储于计算机***1000中或者可以分布于计算机***1000的各种节点上。在一些实现方式中，相似输入/输出设备可以从计算机***1000分离并且可以通过有线或者无线连接、比如通过网络接口1040与计算机***1000的一个或者多个节点交互。

如图24中所示，存储器1020可以包括配置为实施如图1至图22B中所示用于图像的自动竖直调整的技术的实现方式的程序指令1025和包括程序指令1025可访问的各种数据的数据存储装置1035。在一个实现方式中，程序指令1025可以包括如以上各图中所示用于图像的自动竖直调整的技术的实现方式的软件单元。数据存储装置1035可以包括可以在实现方式中使用的数据。在其它实现方式中，可以包括其它或者不同软件单元和数据。

本领域技术人员将认识计算机***1000仅为示例而未旨在于限制如这里描述的用于图像的自动竖直调整的技术的范围。具体地，计算机***和设备可以包括可以执行所示功能的硬件或者软件的任何组合、包括计算机、个人计算机***、桌面型计算机、膝上型、笔记本或者上网本计算机、平板或者写字板设备、大型机计算机***、手持计算机、工作站、网络计算机、相机、机顶盒、移动设备、网络设备、因特网装置、PDA、无线电话、智能电话、寻呼机、消费者设备、视频游戏控制台、手持视频游戏设备、应用服务器、存储设备、***设备、比如交换机、调制解调器、路由器或者一般为任何类型的计算或者电子设备。计算机***1000也可以连接到未图示的其它设备或者代之以可以作为单独***操作。此外，可以在一些实现方式中在更少部件中组合或者在附加部件中分布所示部件提供的功能。相似地，在一些实现方式中，可以未提供所示部件中的一些部件的功能和/或其它附加功能可以可用。

本领域技术人员也将认识尽管图示各种项目为在使用之时存储于存储器中或者存储装置上，但是可以在存储器与其它存储设备之间传送这些项目或者它们的部分用于存储器管理和数据完整性的目的。备选地，在其它实现方式中，软件部件中的一些或者所有软件部件可以在另一设备上的存储器中执行并且经由计算机间通信与所示计算机***通信。数据结构的***部件中的一些或者所有***部件也可以(例如，作为指令或者结构化数据)存储于计算机可访问介质或者便携物品上以由适当驱动读取，以上描述该适当驱动的各种示例。在一些实现方式中，在从计算机***1000分离的计算机可访问介质上存储的指令可以经由传输介质或者信号、比如电、电磁或者数字信号被发送到计算机***1000，这些信号经由通信介质、比如网络和/或无线链路来运送。各种实现方式还可以包括接收、发送或者在计算机可访问介质上存储根据前文描述而实施的指令和/或数据。因而，可以用其它计算机***配置实现本发明。

结论

各种实现方式还可以包括接收、发送或者在计算机可访问介质上存储根据前文描述而实施的指令和/或数据。一般而言，计算机可访问介质可以包括存储介质或者存储器介质、比如磁或者光介质、例如盘或者DVD/CD-ROM、易失性或者非易失性介质、比如RAM(例如SDRAM、DDR、RDRAM、SRAM等)、ROM等以及传输介质或者信号、比如电、电磁或者数字信号，这些信号经由通信介质、比如网络和/或无线链路来运送。

如各图中图示和这里描述的各种技术代表技术的示例实现方式。可以在软件、硬件或者其组合中实施。可以改变技术的顺序并且可以添加、重新排序、组合、省略、修改等各种单元。

可以如从本公开内容受益的本领域技术人员将清楚的那样进行各种修改和改变。旨在于本发明涵盖所有这样的修改和改变，因而将在示例而非限制意义上对待以上描述。

Claims

1.一种由一个或者多个计算设备实施的方法，所述方法包括：

获得用于景物的图像的相机信息，所述景物包括具有线的一个或者多个特征；

基于所述相机信息计算单应性，所述单应性将被应用于所述图像以调整所述景物的所述一个或者多个特征相对于所述图像的轴而言的对准，所述单应性至少部分根据一个或者多个基于人类感知的判据来计算；以及

根据所述单应性再投影所述图像以生成所述景物的调整的图像，所述调整的图像具有所述景物的所述一个或者多个特征的所述线相对于所述图像的所述轴而言的所述调整的对准。

2.根据权利要求1所述的方法，其中所述轴是竖直轴或者水平轴，并且所述一个或者多个特征与在所述调整的图像中的所述竖直轴或者水平轴实质上对准。

3.根据权利要求1所述的方法，其中所述单应性根据所述一个或者多个基于人类感知的判据描述新相机信息。

4.根据权利要求1所述的方法，其中所述相机信息包括本征相机参数矩阵和三维旋转矩阵。

5.根据权利要求4所述的方法，其中所述相机信息还包括消没点信息。

6.根据权利要求1所述的方法，其中所述单应性包括新本征相机参数矩阵和新三维旋转矩阵。

7.根据权利要求1所述的方法，其中所述单应性包括平移。

8.根据权利要求1所述的方法，其中所述获得包括应用相机校准技术以估计用于所述图像的所述相机信息。

9.根据权利要求8所述的方法，其中所述相机校准技术基于优化以估计用于所述景物的所述图像的、相互结合的本征相机参数、三维旋转和消没点信息。

10.根据权利要求1所述的方法，其中所述一个或者多个基于人类感知的判据包括可用来根据所述图像定义的画面框约束所述一个或者多个特征的对准的画面框对准判据。

11.根据权利要求1所述的方法，其中所述一个或者多个基于人类感知的判据包括可用来根据连接所述景物的两个消没点的线而约束所述一个或者多个特征的对准的视平线对准判据。

12.根据权利要求1所述的方法，其中所述一个或者多个基于人类感知的判据包括可用来约束所述一个或者多个特征的失真的图像失真判据。

13.根据权利要求1所述的方法，其中所述单应性包括在竖直方向和水平方向上的焦距，在每个方向上的所述焦距被允许相互变化。

14.一种由一个或者多个计算设备实施的方法，所述方法包括：

从输入图像提取线段；

根据所述提取的线段确定用于能量函数的初始值；以及

通过迭代地优化所述能量函数来校准相机参数以估计相互结合的、用于所述输入图像的相机本征参数矩阵、定向矩阵和消没点集合。

15.根据权利要求14所述的方法，其中所述校准包括提取曼哈顿方向和附加水平消没点。

16.根据权利要求14所述的方法，其中所述校准包括通过所述输入图像具有主导正交框而附加水平方向共享相同竖直方向这样的假设的视平线估计。

17.根据权利要求14所述的方法，还包括确定用于每个消没点的消没线，并且其中所述定向矩阵是三维旋转矩阵。

18.一种***，包括：

一个或者多个计算设备，被配置为执行如下操作，所述操作包括：

校准相机参数作为用于根据一个或者多个基于人类感知的判据而调整景物的图像的一个或者多个特征相对于所述图像的轴而言的对准的基础，所述一个或者多个基于人类感知的判据包括所述图像的正交框的标识，所述图像的正交框具有共享相同竖直方向的附加水平方向以估计所述图像的视平线。

19.根据权利要求18所述的***，其中所述正交框按照其中所述图像包括相互未对准的多个正交方向的亚特兰大世界假设。

20.根据权利要求18所述的***，其中所述轴是竖直轴或者水平轴，并且所述一个或者多个特征与在所述调整的图像中的所述竖直轴或者水平轴实质上对准。