CN102308320B

CN102308320B - 从图像生成三维模型

Info

Publication number: CN102308320B
Application number: CN2010800068803A
Authority: CN
Inventors: 权龙�; 肖健雄; 方天; 赵鹏
Original assignee: Hong Kong University of Science and Technology HKUST
Current assignee: Hong Kong University of Science and Technology HKUST
Priority date: 2009-02-06
Filing date: 2010-02-03
Publication date: 2013-05-29
Anticipated expiration: 2030-02-03
Also published as: US8798965B2; CN102308320A; US20120041722A1; WO2010088840A1

Abstract

本发明涉及从图像生成模型的方法及***。一方面，多视点语义分割提供用于在像素级别识别和分割图像为语义上有意义的区域，并能为特定的对象类别提供标签。另一方面，也提供了一种分区方案以使用一个场景的主要线条结构，分割对象为独立区块。此外，提供了为一个区块进行基于散件的逆正投影组合和结构分析，以规范杂讯和遗失的已重建的体数据，方便图像建模。

Description

从图像生成三维模型

相关申请的交叉引用

本申请要求于2009年2月6日提交的第61/202,229号美国临时专利申请之“METHOD FOR GENERATING THREE-DIMENSIONAL MODELS FROMIMAGES”的优先权，其全部内容通过引用结合到本文中。

技术领域

本发明主题涉及图形建模，具体地讲，涉及从图像生成三维模型。

背景技术

在电脑游戏、电影、地图服务、机器人、导航及摄影测量等等的市场驱动下，对于建筑物、城市及景观等等制作高度写实建模之强烈需求应运而生。然而，以常规的方法制作此类型模型，着重于使用大比例尺航空摄影进行城市建模。结果，把建模画面推近至地平面时，其视觉效果将强差人意，因建模会显得模糊并难以描绘细节。更甚者，为提供更佳的用户体验，许多有潜力的应用程序需要高度写实的街头景象，以描绘我们赖以进行日常活动的建筑物。

举例来说，现时的城市建模通常使用Google^TM地球及Microsoft

Virtual Earth

(立体)3D平台所提供的空中图像。不过，此类基于空中图像进行的城市图像建模通常没法制作于地面的高度写实模型。作为一种过渡的解决方案，Google^TM街景，Microsoft

Live Street-Side及其它类似服务能显示捕获的具有固定视点的平面(2D)全景式图像，而此类型解决方案亦不足以应付需要使用真正的高度写实立体模型的应用程序，让使用者能与立体环境互动的需求。更甚者，很多现有的从图像生成三维模型方法亦有各种不足之处。

例如，传统的以互动方法从图像生成三维模型需要使用者的大量互动，这在大型的建模工作中并不能轻易得到部署。更进一步的例子是，着重早期的建模管道这种较自动化的方法，于作为图形应用程序的层面上却未能产生令人满意的结果。使得进一步从图像进行城市建模的方法(如单视图方法、交互式多视角法及自动多视角方法等等)亦存在类似或其它缺陷。

以基于图像的建模为例，现有方法使用图像作为指标，用以互动地制作建筑物的模型。比方说，传统的单视图方法可以使用单幅图像加上手动分配深度，基于对绘画的隐喻进行建模。在其它使用手动深度分配(例如以概略方式分配深度)的单幅图像的例子中，则只有有限的规则形状外墙可用于突出特征的重要性，例如建筑环境内的窗户，用以生成楼宇。一般来说，这些方法需要与使用者有大量的互动作用，才可产生让人满意的视觉效果。因此，传统以图像建模的例子会遭遇规模上的问题。然而，较复杂的图像建模方法则有特征需要以手动选择，以及需要对应不同景观的繁琐表示。

譬如一些互动多视点建模例子，可使用图像内的线段特征及多面体区块作为立体原函数，用以互动式配准图像及以与观察点相关的纹理映像方式重现区块。但是，手动选择特征及对应各种需要的视图是琐碎的工序。因此，这种方法会随着输入图像的数量增加而出现规模上的问题。

进一步举例，一个半密集的重建点云可用于操作前方平行墙壁之参考图像并以此提供可接受的建模效果。又举一例，使用配准的多视点和使用消失点提取主要方向，亦可作出良好的建模效果。然而，这些方法仍然涉及与使用者的大量互动，使得此方法于大型城市建模应用之中难以被采用。在一些传统的自动多视点建模方法中，以少量的图像序列进行三维造型的建筑建模方法仍然需要用户提供大量的建筑规则以进行贝叶斯推断。

在图像建模中，已知人造场景的线段特征可用作场景的建模。比如，已配准的图片中稀疏的点可加上线段用作重现楼宇，而线段特征可同时用于运动恢复结构和建模。可惜，线段特征与点相比，往往显得稀疏，在几何层面上也不够稳定。

在其它城市环境建模的传统方法中，***化的方法在注重于来自己配准的图像中的以密集立体效果作全体重建之余，同时使用利用实时视频配准的视频摄像机。然而，缺乏建筑规范会导致最终的建模结果显得不规则。

很显然，虽然一些传统建模方法的例子能在已提供规则形状的建筑及简单重复的墙壁的情况下，制作可接受的建模；对不规则的建筑特征(例如路边的墙壁)则需要更复杂的技术。其它的例子虽然对不规则背景具有普遍适用性，却仍然因大量的手动互动而难以扩展至大规模建模工程。还有一些例子则需要对模型的参数化和点的对应作出繁琐的手动分配。

因此，有必要提供一套更高效的***，结构和方法以从图像制作立体建模，并同时克服前述的各种缺陷。而上述几种典型建模技术所带来的缺憾，只属现有方式带来的常见问题，实际可出现的其它问题则并未在此详述。其它现有建模技术所带来的问题，以及在此提及的各种方案带来的相关利益有可能在重新审视以下描述后进一步显现。

发明内容

以下为说明书的简单概要，以提供对说明书一些方面的基本了解。

此概要并非对说明书的广泛概述。并非用作确认说明书的重要或关键要素，亦非界定说明书实施例中的实例范畴，又或者是权利要求的任何范围。本部分唯一目的只为以简化方式介绍说明书的一些概念，以作之后更详细的描述之前言。

本文中所使用的术语“立面”是指一个或多个对象的、突出的视觉表现。例如，术语“立面”通常指一个对象(如建筑物)的面，而且通常指的是前方的面或是面向观察者的一面。然而，这里使用的术语“立面”可以指任何类型，任意数量的，有突出视觉表现的对象，就像楼宇、城市、城市景观、地貌景观及其它感兴趣的对象等等。更进一步，此处使用的术语“立面的数据表示”和“表示一个立面的数据”指“可表示为立面的一个或多个对象之中，用于描述物理、视觉或者其它特征的有用数据”。

在所披露的主题的各种非限制实施例中，图像建模的***和方法被描述为从图像(例如，于街面高度沿路获取的图像)中提供产生立体高度写实模型(例如，对路旁建筑的立体高写实度模型)的自动或半自动建模法。

例如，在示范实施方式中，多视点语义分割可以在像素层面上将每个图像识别和分割到语义上有意义的领域，并给特定的对象分类(例如建筑物，天空，地面，植被和汽车等等对象分类)提供标签。典型实施例可采用能使用场景内主线结构把各物体(像建筑物之类)分开变为独立区块的分区方案。此外，多种实施方式可以对区块进行基于组件的逆正投影组合和结构分析，以便从图像建模(例如从图像进行立体立面建模)，从而有效地规范杂讯及遗失的重现立体数据。在进一步的非限制性实施方案中，在此披露的主题可以于一个典型的城市的例子中，通过实施强大的建设规律先例，从而有效地产生引人注目的视觉效果(例如包括使用自动，半自动或其它方式)。

因此，在此将描述各种图像建模的实施例。一方面，提供了图像建模的方法，其对代表立面的重建输入图像数据执行多视点语义分割，以辨识立面结构以及分割立面。此外，进一步的方法包括将已重建的输入图像数据作区块分割以产生一个与分割的立面相关的对象区块(例如建筑物区块)。在进一步的示范图像建模方法中，对与对象区块相关的重建输入图像数据进行逆正投影组合，以对于对象区块制作一个组合正投影深度图以及一个组合正投影纹理。此外，示范的方法可包括执行组合正投影深度图和组合正投影纹理的结构分析和正规化以确定对象区块在多个立面深度的结构要素。

因此，在有利于图像建模的***中，***可以根据在此披露的主题的各个方面包括多视点语义分割组件，其基于与立面有关联的配准的图像序列产生立面的语义分割。此外，图像建模***可进一步包括分区组件以对重建图像数据作区块分区，从而确定一个与立面的语义分割有关联的对象区块。另外，示范的***可包含逆正投影组件，以从对象区块的重建图像数据组合一个正投影深度图及正投影纹理；以及结构分析和正规化组件，其可以从对象区块的正投影深度图及正投影纹理确定不同立面深度的结构要素。

此例和其它实施例之详细介绍如下。

附图说明

参照附图，各种非限制性实施方案将在此进一步说明：

图1描述了非限制的图像建模示范例，在此披露的主题的实施可应用于其中；

图2及图3描绘了从图像进行三维(3D)建模的示范的、非限制方法的各个方面；

图4描述了图像前置处理的各方面，其中详细显示了用于图像建模的非限制示范方法的重建三维点和垂直线；

图5至图6描绘了关于将披露的主题的非限制示范实例应用于其中的识别和分割的详情；

图7说明了根据披露主题的各方面的多视点语义分割的非限制示范图形拓扑结构的原理方块图；

图8描述了一个根据各个方面的示范的非限制建筑物区块分割，其中显示了不同的区块；

图9至图11根据非限制性图像三维建模方法的各方面，以图形说明示范逆正投影组合的概念；

图12至图15以图形说明用于建模的示范性结构分析及规范化的概念，以说明披露主题的各方面的进一步优势；

图16说明了根据披露主题的进一步方面的非限制示范马尔可夫随机场(MRF)图的原理方块图，该图可以促进优化立面的上边界；

图17展示了促进图像建模的，非限制示范方法的各个方面的流程图；

图18至图22显示用于非限制示范的功能方块图，其描绘了实施按照披露主题的各方面的图像建模***及设备；

图23至图28描绘了根据披露主题的各方面的对各种区块的非限制建模实例；

图29是一个非限制示范的网络环境的方块图，其中可以应用在此所属的各种可实施方案，以及

图30是代表其中可以实施在此描述的各种可实施方案的一个或多个方面的非限制示范计算***或操作环境的方块图。

具体实施方式

在提供一个简单的概述后，在此将描述、或描绘披露主题的数个方面，以作说明，且并不用于进行限制。因此，由在此披露的装备、***和方法所建议的、披露实施方案的变化，其目的为涵盖在此披露主题的范围内。例如，关于披露技术的装备、***和方法之各种实施方案，均以描述由路边图像制作的城市和建筑模型为背景。然而，在之后的进一步描述中，亦可使用其它图像或物品，而不会偏离本文所述主题。

如背景所述，现有图像建模技术会因需要大量人手的互动而面对规模难以扩张的问题。结果，当以一些现有技术从图像制作高度写实立体模型时(例如高度写实的立体建筑物模型)，该技术可能会在进行大规模项目时(例如制作路边建筑立面、城市立面及城市景观的高度写实立体模型等等)变得累赘。

为了解决这些问题和其它缺陷，本发明披露的技术主题提供了图像建模***和方法。例如，图1描绘了非限制性的图像建模例子，让所披露技术主题的实例可得以应用。例如，两个路边特写镜头，从已建模区域106所看见的视点102及104均被描述为从各自输入的图像系列108和110所自动生成的立体模型。从已建模区域106所看见一个标签为3的路边特写视点，则已在图28作进一步说明。在所披露技术主题中的各种非限制性实施方案中，图像建模的***及方法皆为提供从图像(例如沿街道路面捕获的图像)以自动或半自动建模生成立体高度写实模型(例如，路旁景象的立体高度写实模型)。

举例说，在很多方面，多视点语义分割可在像素层面上辨认每个图像及将其分割为语义上有意义的区域，并为特定的对象分类加上标签(例如建筑物、天空、地面、植被及车辆等等的对象分类)。在示范实例中，分区方案可以场景的主线结构把对象(例如建筑物等)分为独立区块。此外，不同的实施方案亦可采用对区块进行基于组件的逆正投影组合和结构分析，以便作图像建模(例如图像三维立面建模)，可有效地把杂讯及遗失的重建立体数据正规化。在多种实施方案中，本发明披露的技术主题通过实施如在典型的城市实例中描述的强大的规律建设先例能有利地产生引人注目的视觉效果(包括使用自动，半自动或其它方式)。

图像建模概述

图2及图3描绘了图像三维建模的非限制示范方法的多个方面。此法可理解为立面和体系结构建模可使用配准图像进行。在计算机视觉中，在不同时间或从不同的角度，通过抽样获得的同一场景或对象的数据集合，将有不同的坐标***。在此处使用的，图像配准的目的可被理解为一种将同一场景或对象的不同的数据集合转化到一个坐标***的过程。配准可以使来自不同的测量之中所获得的数据能够比较或整合。如上所述，各种披露技术主题中的各种实施例便于从接收、收集、储存等等方法获得的图像202(302)作为输入图像数据(例如路边数据)来进行对象(例如建筑物及立面等的对象)的自动或半自动三维模型重建。例如，在202(302)，可以接收代表立面的输入图像数据。此外，根据进一步方面，图像建模的示范方法200和300可包括使用现有的算法(例如运动恢复结构算法等等)重建输入图像数据(例如一个图像序列)，以计算204(304)半密集点集合、纵向和横向线段，及摄像机的位置。

此外，在206(306)，可以对重建输入图像数据执行多视点语义分割，以识别立面结构及分割立面。例如，从输入图像的重建序列，方法200和300可进一步包括在像素层次把输入图像数据分割206(306)为语义上有意义的区域。例如，在206(306)，输入图像可以通过经监督的学习模式把每个像素分割为语义上有意义的可标示区域(例如，标示为建筑物、天空、地面、植被或汽车等)。图像建模方法200和300可进一步包括在206(306)优化，跨越多个已配准视点的分类像素，以产生一个连贯的语义分割。因此，根据不同的实施方案，披露的技术主题可包括执行受监督的，能够识别输入图像(例如输入路边图像)和根据感兴趣的不同对象分类(例如，建筑物、天空、地面、植被或汽车等)把输入图像(例如输入路边图像)分割为不同的区域的多视点语义分割。

在进一步的非限制性实施方案中，方法200和300可包括把全部或几乎全部序列分区208(308)成区块。例如，在208(308)，重建的输入图像数据可作区块分区，以产生与分割立面相关的个别建筑物区块。有利的是，这样的区块可以代表单个对象，例如可以独立进行建模的建筑物区块，并且可以进一步对准区块的主要正投影方向和坐标***。因此，根据进一步的非限制性实施方案，所披露的技术主题可包括有***地分区序列、或者其中一个子集，例如，通过使用一个场景的一个或多个主要人造线结构，以将建筑物分割为独立区块。

此外，在210(310)中，方法200和300可以包括在210(310)执行逆正投影组合及以形状为基础的分析，可以有效地规范缺失和有杂讯的、具有较强先例的建筑立体数据。再举例，可执行对与独立建筑物区块相关的重建输入图像数据进行的逆正投影组合以对于单独建筑物区块制作一个组合正投影深度图以及一个组合正投影纹理。

在212(312)中，方法200和300可以进一步包括对组合正投影深度图及纹理执行结构分析和正规化，以确定独立建筑物区块在不同立面深度的结构要素。因此，额外的非限制性实施方案可以包括分析立面结构及建模，以自动生成有良好视觉效果的建模(例如建筑物模型)。根据进一步的非限制性实施方案，在214(314)中，方法200和300也可包括从所识别的不同的立面深度的结构要素产生独立建筑区块几何及对独立建筑区块进行纹理化，以生成立体模型。此外，在216(316)，关于方法200和300的各种非限制性实施方案可以进一步包括以结合或合并已生成的两个独立建筑区块的立体模型，从而生成城市或立面建模。进一步的图像建模方法与***的非限制性实施方案已在下列特别详细描述，请特别参考图17至18。

前置处理

图4描述了各方面的图像前置处理，其中为示范的非限制性图像三维建模方法200和300，详细地显示了404重建的立体点和垂直线。例如，一组从示范图像序列重建计算所得的点(例如，一组半密集点)的详细描述在详情406放大，另外，一个经计算的独立区块垂直线子集408亦在此表示。例如，考虑把相机面向建筑立面，安装在一辆沿街道移动的车辆上，并由该相机取得的路旁图像，这些车辆可配备可与相机一起校准的全球定位***/惯性导航***(GPS/INS)。根据各种非限制性实施方案的一方面，图像建模的示范方法200和300可包括以现有的算法(例如运动恢复结构算法等等)重建图像序列，计算204(304)一组半密集点、垂直和水平线段，以及摄像机的位置。

因此，根据各方面，一个动作的半密集结构可以使半密集点云(例子于详情406显示)及摄像机的位置经自动计算生成。有利的是，示范性实施方案使用的一个准密集的方法可以提供在使用捆绑式方法中全体地和使用优化三角分割的有足够密度的点。可以理解，从GPS/INS按次获得的相机位置方向数据可以进一步提高从运动恢复结构鲁棒性以及可以有效地促进大型建模(例如城市建模之类)。所以为作说明，且并不用于进行限制，根据披露技术主题的多个方面的一个重建序列，可以是一组半密集重建立体点和具有配准的相机位置方向的一组输入图像。

进一步如上所述，根据各种非限制性实施方案，图像建模的示范方法200和300可以包括计算204(304)垂直和水平线段。例如，传统的Canny边缘检测，可以在图像上进行204(304)，而且已连接的边缘点可以连接在一起以形成线段。由此产生的线段可以分为垂直线段(如408)和水平线段。

例如，随机抽样一致性(RANSAC)是一种用以从一组含有异常值的观测数中，估计某数学模型参数的迭代法。它是一个非确定性算法，因为在某种意义上说，它只有一定的概率可以产生合理的结果，而此概率会因执行更多的迭代而增加。一个典型的基本假设是，数据点的分布可以解释成一些模型参数的集合，以及一些离群值，它们是不适合该模型的数据，而且被视为杂讯。例如，异常值可能来自：极端的杂讯、错误的测量结果或有关数据解释的不正确假设。RANSAC通常假设，有一组(通常是少量的)内层数值，则存在一个程序，能够估计某个能作最佳解释或适用于数据的模型的参数。

因此，上述几种线段的分组可于204(304)使用RANSAC方法进行检查，以判断它们是否经过共同的消失点。有利的是，根据披露技术主题的多个方面，从以前的运动恢复结构计算所得的、每对图像之间的半密集点的匹配信息，使得能够取得检测到的线段的匹配。此外，线段的成对匹配可以扩展到整个序列。这可以理解为，当一个相机在地上进行横向移动时，在三维空间中重建水平线会由于缺乏水平视差而出现困难。因此，各种实施例可以在204(304)以超过三个的视点进行追踪的垂直线进行重建。此外，根据单一方面，于RANSAC框架内方向相互一致的三维垂直线可以在204(304)进行保持；而根据进一步的方面，其它离群的垂直线则可以去掉。

分割

如上所述，关于方法200和300，对于重建的图像序列，可以在206(306)识别和分割所有图像中的显示出引起关注对象的区域(例如建筑物区域)。图5和图6描绘应用了披露技术主题的示范非限制性实例的辨认和分割的各方面。例如，图5描绘了一个输入图像和对应的高度分割组件504。图6描绘了根据披露技术主题的各种非限制实例的像素基础的辨认602和相对应的分割604。

例如，根据不同的实施方案，在206(306)，一个有监督的类别识别可以方便从图像内识别和分割出显示引起关注的对象的区域(例如建筑物区域)。例如，可以对一个来标记图像数据库的像素级分类器进行培训，使其识别和区分一定数量的对象类别(例如，建筑、天空、地面、植被，汽车等等之中的某对象类别)。为了描述图像的特征，披露技术主题的各种实施方案可使用有效分类物料和一般对象分类的纹理基元。在一个示范性非限制的实例中，一个多维滤波器库(例如，一个17维滤波器组，其中包括3个高斯，4个高斯的拉普拉斯(LOG)和4个一阶导数的高斯)可用于在像素水平计算训练和测试图像的反应。然后，则可从滤波器库的反应得出K平均丛集，通过几何中心获得纹理基元。

由于在测试序列附近的图像有可能被假定为类似，披露技术主题的各种实施方案可以通过对所有或几乎所有的全序列运行一个纹理基元集群的减少子集，来节省计算时间和内存空间。因此，各种实施方案可以从六幅图像抽出一幅，以获得集群化的纹理基元。根据进一步实施例，可使用纹理布局描述器提取一个或更多的特征，以部分基于纹理基元识别来训练分类器，这是因为纹理布局描述器可以成功地识别和分类一般类别的图像。

因此，描述器的尺寸可以对应图像区域(r)以及纹理基元(t)的配对[r，t]，而区域r相对于一个已知的像素位置，根据非限制方面，作为一个在±100像素的矩形窗口中已选择的矩形(例如随机选择)。根据不同的实施方案，一个在像素位置i，以v_[r，t](i)表示的回应可定义为于区域r+i之中拥有纹理基元t的像素比例，例如根据公式1：

v_[r，t](i)＝∑_j∈(r+i)[T_j＝t]/size(r) (公式1)

如上所述，关于方法200和300，根据不同的实施方案，披露技术主题可包括执行经监督的多视点语义分割，其能够于206(306)根据不同的关注对象物(如建筑、天空、地面、植被或汽车等等)识别和分割输入图像(例如，输入路边图像)为不同区域。各种非限制实现可以在206(306)采用分类器以便于根据不同的关注对象分类(如建筑、天空、地面、植被或汽车等等)识别和细分为不同区域。

因此，在进一步的非限制性实施方案，可在206(306)使用联合加强算法(Joint Boost Algorithm)，它可用迭代过程选择与众不同的纹理过滤布局为弱学习者，并能结合它们为一个强大的分类形式，如公式2：

H (l, i) = \underset{m}{Σ} h_{i}^{m} (r)

(公式2)

例如，每个弱学习者h_i(l)可以定义为基于响应v_[r，t](i)的决定株(decisionstump)，如公式3的形式

h_{i} (l) = \{\begin{matrix} a [v_{[r, t]} (i) > θ] + b & l &Element; C \\ k^{l} & l &NotElement; C \end{matrix}

(公式3)

对于共享了特征l∈C的类别，弱学习者根据比较对不同的阈值θ的反应，可求得h_i(l)∈{a+b，b}。对于没有共享特征

的类别，常数k^l可用于确保每个类别训练例子的不相等的数量并不会在学习过程中产生很大程度的不利影响。此外，根据披露技术主题的进一步非限制性实施方案，副抽样和随机特征选择技术可用于迭代强化。此外，估计信心值可以被重新解释为一个使用softmax变换的概率分布，如公式4：

P_{g} (l, i) = \frac{\exp (H (l, i))}{Σ_{k} \exp (H (l, k))}

(公式4)

根据一方面，一个如上述说明一样的分类器可以有利地在完整标签的预定子集数据上进行培训，为提高性能和速度，计算上的数据可以是大量的。例如，根据示范的实例，为了保证学***均反应为4级，图像区域方向分别为8，8，4和4。经过计算标记图像和测试序列的输入图像之间的距离后，最接近的20幅标记图像可以通过近邻分类从数据库中选择，作为序列的训练数据。

由于摄影机在捕捉图像时通常会保持垂直，因此，学习每个类别的先前大概位置是可行的。例如，在上述的路边图像，假如天空(606/612)永远出现在图像的上部，地面(606/616)则出现在下部，建筑物(608/614)则在中间。因此，披露技术主题的各种实施方案可使用标记的数据以计算不同的对象类别p_l(l，i)的累计频率。再者，由于摄影机通常沿着街道横向移动以捕捉路边图像，在图像空间内同一高度的一个像素，应该有同样的机会属于同一类别。因此，披露技术主题可根据这方面，简单地积累在图像空间的垂直方向内的频率。

正如关于图2至图3的进一步描述，根据不同的实施方案，披露技术主题可包括在206(306)执行经监督的多视点语义分割，能够识别输入图像(例如，输入路边图像)和根据关注的不同目标对象(例如，建筑物、天空、地面、植被或汽车等)把输入图像(例如，输入路边图像)分割成不同区域。可以理解，对于一个多视点语义分割，每像素辨认可以导致每个输入图像的语义分割出现杂讯或在整个重建序列的优化产生不连贯。由于测试图像序列已由SFM重建，不同的实施例可以在多视点间利用点匹配的信息实施一致的分割。

图7说明了根据所披露技术主题的不同方面的多视点语义分割的示范非限制性图形拓扑的原理框图，图

及图

均以示范超像素706、图708及分割线710作描述。因此，根据某一方面，对于一个多视点语义分割，每幅图像I_i(例如，图像502)使用现有基于图形的图像建模分割技术时可能会被高度分割。根据进一步的示范实例，可以为每幅图像502建造高度分割组件504的图表

例如，根据一个方面，图表中的顶点v∈ν_i可以定义为在高度分割504内的图像组件或超像素(如706)，而边线ε_i可表示超像素706间的邻近关系。所以从多个在同一顺序的图像的图表可凭在两个对应而不同的超级像素706之间加入边线，而组合成一幅大图表

根据进一步的方面，于图像I_i及I_j中的超像素(如706)p_i及p_j可说是互相对应的，例如，当且仅当存在最少一个特征轨t＝<(x_u，y_u，i)，(x_v，y_v，j)，...>并且其投影(x_u，y_u)位于图像I_i的超像素(如706)p_i之中，而(x_v，y_v)位于I_j的p_j之中。再根据图7，披露技术主题的多种非限制实施方案可限制图表大小，最终的图表

可被限制至在最终图表

内任何超像素(如706)p_i及p_j之间的最多一条边线e_ij。

对于有精细边界的对象分割，披露技术主题的多种实施例可使用颜色线索以把局部外观特征化，作为适应特征。举例，根据一方面，一图像中所有像素的颜色分布在平均值为u_k，协方差为∑_k的色彩空间中可以由m个高斯组成的混合模型进行估计。例如，在开始时，同一序列的图像中的所有或接近所有像素颜色可以作为输入的数据点，K平均可用于在三原色(RGB)空间中初始化512个高斯的混合。让γ_kl代表第k个高斯属于类别l的机率，顶点p_i拥有标签l的机率则如公式5所示：

P_{a} (l, i) = Σ_{k = 1}^{m} γ_{kl} N (c_{i} | u_{k}, Σ_{k})

(公式5)

计算γ时，机率P_g(l，i)可用于单独地以贪婪算法取得最初的分割602{l_i}，如图6所示。最初分割{l_i}可用于γ的最大似然估计训练，并根据公式6及规限∑_k γ_kl＝1来进行：

γ_{kl} &Proportional; \underset{p_{i} &Element; v}{Σ} [l_{i} = k] p (c_{i} | u_{k}, Σ_{k})

(公式6)

结合局部适应特征和整体特征的成本，有关数据成本则如公式7所定义：

ψ_i(l_i)＝-logP_a(l，i)-λ_llogP_l(l，i)-λ_glogP_g(l，i) (公式7)

对于同一幅图像I_k的边线e_ij∈ε_k，平滑度的成本如公式8所定义：

ψ_ij(l_i，l_j)＝[l_i≠l_j]·g(i，j) (公式8)

其中g(i，j)＝1(ζ‖c_i-c_j‖²+1)及‖c_i-c_j‖²可定义为两个超像素p_i及p_j的三原色差的L₂-范数。根据披露技术主题的多种实施例，注意[l_i≠l_j]可允许仅沿分割710的边界捕获梯度信息。换言之，ψ_ij可说是对分配到相邻节点的不同标签的惩罚。对穿越两幅图像的边线e_ij∈ε，平滑度的成本如公式9所定义：

ψ_ij(l_i，l_j)＝[l_i≠l_j]·λ|T|g(i，j) (公式9)

其中，T＝{t＝<(x_u，y_u，i)，(x_v，y_v，j)，...>}可以被定义为其投影(x_u，y_u)于图像I_i内的超像素(如706)p_i之中和投影(x_v，y_v)于图像I_j内的p_j之中的所有特征轨集合。这定义可理解为有利于使有更多匹配轨的两个超级像素706具有相同的标签，这是由于当|T|较大时，有不同的标签的成本会较高。

使用构造图

标签问题可以定义为分配一个唯一的标签l_i给每个节p_i∈ν。解L＝{l_i}可由最小化公式10所列的吉布斯能(Gibbs energy)的方法求得：

E (L) = \underset{p_{i} &Element; v}{Σ} ψ_{i} (l_{i}) + ρ \underset{e_{ij} &Element; ϵ}{Σ} ψ_{ij} (l_{i}, l_{j})

(公式10)

根据进一步的方面，Graph Cut的alpha expansion算法(例如，通过Graph cut算法以快速估计能量最小化)可用于在一个全体最低的常数因子中取得一局部的优化标签配置L，如图6的604，因为定义的成本方面可满足指标的要求。

区块分区

在进一步非限制实施例中，方法200及300可包括将整个序列的全部或接近全部分区208(308)为区块。这些区块可有利地代表独立对象，诸如建筑物区块，它们可进行独立建模，而且坐标***可进一步与区块的主要正投影方向对齐。结果，根据进一步的非限制实施例，披露技术主题可以包括有***地对一序列或其子集进行分区，例如使用场景的一个或多个主要人造线段结构，以把建筑物分割为独立区块。

又例如，图8描绘了根据多种方面的非限制示范建筑物区块分区800，其中不同的区块显示为区块802，804，806，808，810，812，及814。如上述，已重建序列可被分区为独立建筑物区块。结果，每个区块均可作独立建模。由于一城市场景的特点是有大量具有纵向和横向线的人造结构，因为它们稳定，而且已有对前述技术有用的独特分割器，故披露技术主题的多种实施例可以使用垂直线(如408)以把一序列分区为区块。

因此，根据一方面，从之前一节的分割建筑物区域所投影出的线段可被移除。注意建筑物区块的定义是模糊的，且一区块可包含任意数量的建筑物。因此，一个建筑物区块大致可以定义为一个连续的立面序列，只要这些立面共享同一主导的基础平面即可。

由全部或绝大部分垂直线段(如408)，在各种非限制实施例，通过取得全部或绝大部分在如图2至4所述的预处理阶段204(304)发现的已重建立体垂直线的中位数方向，可以计算一个全体的垂直方向(例如，全体的垂直重力方向)。因此，已重建序列的坐标***的Y轴可以与在204(304)的估计垂直方向对齐。

应注意的是，虽然垂直线408是作为区块分割器的一个重要线索，以把场景分隔为自然建筑物区块，某些垂直线408可导致建筑物区块被过度分割。因此，根据披露技术主题的进一步方面，区块分割器可从垂直线408精心挑选。例如，披露技术主题的多种非限制实例可以根据立面的垂直边界与立面区域内的垂直线相比通常与较少数量的水平线段(例如，不包括端点)纵横交错的观察而通过选择性避免其延展会与许多水平线段纵横交错的垂直线段，有识别地选择区块分割器。结果，示范实施方案可以通过积累了垂直线段408与水平线段的交错数量，计算出一个垂直线段408的分数。

因此，垂直线408可以按交错数量作升序排序，以方便选择一个区块分隔器。根据示范的非限制实施例，一个以经验选择的阈值(例如，选择每25米内的前15％线段)可以为区块分隔器制作已选择的候选线段。正如理解，这样的选择可以过滤掉大部分不合适垂直线408。结果，在示范实施方案中，在二维图像内的投影的边线反应大于预设阈值的垂直线将被选择出来。此外，在进一步非限制实施方案中，选择一个独立建筑物区块时，可用相关建筑物区块宽度阈值进一步限制(例如，一个于6米及30米之间的宽度阈值)，以进一步确保序列是不会被过度分割。

在y轴的全体垂直对齐之后，所需的区块立面平面将是垂直的或基本上垂直的。然而，在某些情况下，所需的立面平面并不会与坐标***的xy平面平行。因此，在另一些非限制实例中，在区块序列的最前方的平行图像中，水平线的消失点可经自动计算获得环绕y轴的旋转，以对齐x轴与水平方向。需要注意的是，一方面，如果在所选择的图像中有足够的水平线的话，计算可以在局部中对每个区块完成。根据多种非限制实例，这可理解为，经过这些操作，在局部坐标***中，每个独立立面可以说是分别面对负z轴，而x轴为从左至右的水平方向，y轴则为由上到下的垂直方向。

图像建模

进一步如上所述，关于图2至图3，方法200和300可以包括执行一个逆正投影组合310和基于形状的分析，以强大的建筑先例有效规范缺少和有杂讯的立体数据。因此，额外的非限制实施例可以包括立面结构分析与建模以自动产生视觉效果优良的模型(例如，建筑模型)。图9至图11以根据非限制图像立体建模方法的多种方面，图示说明示范性逆正投影组合的概念。举例，在图9中，在输入图像的空间中描绘示范深度图902，其具有根据一个视点的相应的局部正投影深度图904。在图10中，从一个视点的相应局部正投影纹理1002与已组合的正投影深度图1004被一起描绘，其中不可靠估计的像素在水平线1006则被描绘成区域阴影。图11描述了一个具有相应正投影建筑区组合1104的正投影纹理组合1102。

语义分割(例如，描绘于604)可以识别一个所关注的区域，而区块分区(例如，描绘于800)则可以把数据分割成不同立面(例如802、804、806、808、810、812及814)，披露技术主题的进一步方面可对每个立面作建模。例如，如前所述，已重建的立体点经常带杂讯和/或有缺失。因此，根据多种实施例，无关的立体点可用语义分割(例如，描绘于604)和用区块分割(例如，描绘于800)过滤掉。根据披露技术主题的进一步方面，结构分析与建模可以在立面的正投影视图中通过建筑正规化模式以作促进，如后文的进一步描述。

举例，一方面，建筑物区块的输入图像可以被过度分割成散件，如图5关于504的描述(例如，基于图形的图像分割)。这可理解为散件的大小可以上准确性和鲁棒性之间的取舍。因此，在非限制示范实例中，700个像素可以被指定为分辨率为640×905像素的图像中，最低的散件大小，以有利于比较大的散件，这是因为从图像的已重建立体点可能带有杂讯。

根据非限制示范实施例，每个p_i的法向矢量和中心位置可从立体点集合p_i＝{(x_k，y_k，z_k}估计，而它们的投影在p_i内。由于区块的局部坐标***与建筑的三个主要正投影方向有利地对齐，根据示范实施例，计算可以较直接。设

及

为p_i的三个方向中，所有的立体点的标准偏差，归一化标准差

可被计算，而及

可以定义为输入图像的散件边界框的水平和垂直尺寸。所有散件的各中位数可定义为

这可理解为正规化有利地避免小散件构成的偏差。

结果，如果σ_z小于

和

根据一方面，散件p_i可视为平行于立面基面。因此，根据一方面，所有σ_z数值较小的并行散件有助于构成一个立面的正投影视点。可理解，这种散件p_i的方向与z轴一致，它的位置则设置在深度

图9显示这种散件的重建在输入图像空间902中造成了深度图的一个例子。应该指出的是，输入图像空间902中灰阶描绘的深度图的效用只限于作为一个说明工具。因此，虚线的黑色或白色椭圆是与箭头一起，以根据深度规模906粗略指示深度。需理解，其它过渡颜色的深度可类似地按其各自与平均深度之间的相对距离，来上色。然而，亦应该进一步了解，输入图像空间902的深度图只是提供说明，而不是作为限制。

为了简化表示不规则形状的散件，披露技术主题的多种实例可在xy平面上部署一个离散二维正投影空间，以创建立面的正投影视点O。然而，一方面，O在xy平面上的大小和位置可由区块的立体点边界框定义，O的分辨率可被定义为一个参数(例如，定义一个参数设置为不超过1024×1024)。因此，散件可以从原来的图像空间映射至如图9所示的一个视点906的部分正投影深度图中描述的正投影空间。作为一个非限制性的例子，考虑呈现在算法1的细节，它可以使用逆正投影映射算法，以避免差距。

算法1，逆正投影修补的虚拟码：

1：for each image I_k visible to the facade do

2： for each super pixel p_i∈I_k do

3： if normal direction of p_i parallel with z-axis then

4： for each pixel(x，y)in the bounding box do

5： X←(x，y，z_i)^T

z_i is the depth of p_i

6： compute projection(u，v)of X to Camera i

7： if super pixel index of(u，v)in I_k＝k then

8： accumulate depth z_i，color，segmentation

理论上，所有散件的扭曲纹理可以建立一个真正的正射影像，因每个已使用散件可以有一个已知的深度，并可与基准平面平行。因此，根据进一步方面，正射影像O的每个像素v_i，一组深度值{z_j}，一组相应的颜色值{c_j}以及一组分割标签{l_j}可被累积。这个像素深度可以设置为{z_j}的中位数，其指数为k＝arg median_j z_j。由于深度可以在多种非限制实例中判断纹理颜色和分割标签，像素的c_k及l_k，估计的颜色和标签都可以使用。然而，在实践中，只有一小组环绕z_k的估计点可以接受，它们的平均值可用作纹理组合的颜色值。注意图10之中，从一个视点的相应的局部正投影纹理1002是描绘为具有一组合正投影深度图1004。

可理解，图像的内容会高度重叠。因此，如果一个像素只能从一个图像观察到一次，则它很有可能来自于一个不正确的重建。因此，在多种实施例中，如果只能从一个图像观察到一次某一个像素，它会被推定为来自不正确的重建，并会于深度融合的过程被拒绝。此外，根据披露技术主题的进一步方面，带有多重观察{{z_j}_i}的像素{v_i}可根据其深度集合的标准偏差ζ_i＝sd({z_j})以非递减顺序排序。

因此，ζ(η)可定义为已排序的{ζ_i}之中第η|{v_i}|个元素。结果，在多种实例中，如果ζ_i＞ζ(η)，则像素v_i可以声明为不可靠的。需要注意η值可以来自于深度测量的估计置信区间。在进一步方面，该值可由立体点的数量与O的总像素数量之比例数进行缩放。

注意，当散件被重建时，输入图像空间中的语义分割结果会基于两个原因而不作使用。举例，这可理解为用于重建的散件可以比用于语义分割的散件更大，而可能会导致标签不一致。尽管为散件估算一个独特的标签仍为可行，却会有把语义分割的准确性降级的不良副作用。再比如，语义分割可出现的错误会有过度拒绝可以中和深度估计质量的散件之类进一步的不良副作用。

因此，根据披露技术主题的各种非限制性实施方案，深度可优先重建，分割结果可以像素级精度，从输入图像的空间转移到正投影视点，如图11所描绘的正投影建筑区域组合1104。据披露技术主题的进一步非限制性实例，根据分割标签(例如，1104中的建筑物)，正投影影像的非建设像素可以被删除，如图11所示的正投影纹理组合1102。注意，披露的组合算法内，各种正投影深度图的示范实施方案均比传统的深度图融合技术更强大，例如，使用的建筑前例的正投影性，有利地保留了结构的不连续性而不会过度平滑化。

从每个立面的组合正投影深度图1004和纹理图像1102，任务是在不同立面深度辨认结构要素，以丰富立面的几何形状。因此，根据披露主题的进一步方面，不同的实施方案可从建筑先例采用强大的正规化以应付立面上的不规则，杂讯和缺少深度估计。如前述，大多数建筑物以垂直和水平线条，形成自然的矩形形状。因此，在示范实例中，每个不同结构元素的先例形状可被限制(例如，限制为一个矩形)，如图11的典型伸出式招牌1106。

图12至图15说明示范结构分析和正规化用于建模的概念，以展示披露技术主题在多种方面的进一步优势。例如，图12描述了一个边界正规化的立面分割1202和对应的数据成本1204，其中区域1206，1208和1210均于图13中进一步介绍。在图12至图13中，为作说明，有关数据的成本以彩色编码，从表示较高数值的红色到表示较低数值的蓝色，而绿色则描绘中间数值。然而，由于使用灰阶图像有所限制，需使用线条底纹以进一步说明这些概念。举例，图12中的区域1206，1208和1210均放大显示为图13中区域的进一步详细数据成本的差异。例如，区域1206描绘粗横线底纹1302以模拟分区的低成本数据值，而粗的垂直线底纹1304则为分区的高端数据成本值，细垂直线底纹1306用于指示中间数据成本值。

进一步注意，由于灰阶图像所施加的限制，有关数据的成本值通常是在高端和低端数据成本值之间的连续离散值。例如，区域1308和1310分别处于中央至低数据成本值1308之间，及中央至高数据成本值1310之间。然而，用于说明，这些区域都没有单独线阴影，同时也是高的数据成本1312和局部变化1314的主背景区域。

图14描述了一个正规化的深度图1402和纹理映射立面1404，而图15描述了纹理映射区块1502和对应区块几何1504。

根据披露技术主题的进一方面，可以采用一个基于图形的分割框架，类似于以上关于图5及图9至图11等所述，以把正投影纹理及深度图共同分割为多个区域，其中每个区域皆可视为立面内一个独特的元素。有利的是，根据披露技术主题的基于形状的分割方法，可以共同利用纹理和深度的信息，并可以进行全自动立面结构分析。在多方面，传统的自上而下的递归子划分技术，不能无需用户互动同时产生令人满意的结果。

例如，根据示范实例，图表

可以定义在正射影像图O，其所有像素为顶点ν及边线ε连接相邻像素。为了增加横向和纵向切割，可使用四邻域***以构建ε。需要注意的是，根据一方面，加上可靠的深度估计，连接两个像素的边线之权重函数可同时根据色彩距离和归一化的深度差异，如公式11：

w ((v_{i}, v_{j})) = {| | c_{i} - c_{j} | |}^{2} \cdot {(\frac{z_{i} - z_{j}}{ζ (η)})}^{2}

(公式11)

其中，‖c_i-c_j‖²可以被定义为两个像素v_i及v_j间，三原色差的L₂范数。根据披露技术主题的另一方面，纹理图像在计算边线权重前可以使用低方差值高斯预先过滤(例如，稍为预先过滤)。在进一步例子中，根据披露技术主题的各种实施例，没有可靠的深度估计，连接两个像素边线的权数可以设置为零(0)，从而迫使它们具有相同的标签。因此，有可靠深度和没有可靠深度的像素之间因为权重无法定义，而不能建造边线。

因此，根据披露技术主题的其它方面，ε可以依权重w非降序排列。举例，从一个初始分割开始，其中每个顶点v_i均于其自己组件内，该算法可以为每个边缘e_q＝(v_i，v_j)重复以进行下列步骤：若v_i及v_j均处于不相交组件C_i≠C_j内，而w(e_q)与这两个组件内部差异w(e_q)＝M Int(C_i，C_j)相比为小，则两个组件可以融合。则最小的内部差异可如公式12所定义：

M Int(C₁，C₂)＝min(Int(C₁)+τ(C₁)，Int(C₂)+τ(C₂)) (公式12)

其中，组件C的内部差异可以被定义为组件的最小生成树中最大权重，如公式13所示：

Int (C) = \max_{e &Element; MST (C, E)} w (e)

(公式13)

此外，根据进一步的方面，非负阈值函数τ(C)可于每个组件C上作定义，其中两个组件之间的阈值函数差异大于内部差异，可以作为它们之间存在边界的证据。根据有利于长方形的每个区域的一些示范实例，阈值函数τ(C)可定义为组件C与一个被定义为相对于组件C的边界框B_c内一部分的矩形之间的分歧值

因此，这可理解为对于小组件，Int(C)可以被证明是对数据的局部特征的不充分估计。因此，阈值函数可基于组件的大小进行适应性修改，如公式14所示：

(公式14)

其中，

可以定义为一个常数，例如，一个在披露技术主题的多种示范实行中设置为3.2的常数。可理解τ有可能是一个没法放入矩形内的巨大组件，另一方面，数值τ较大的两个组件能较容易融合。此外，数值

较大适合较大的组件，较小的组件边界则可能需要更有力的证据。

在进一步示范实例中，一旦分割完成，每个可靠的组件C_i中，所有在C_i内的像素深度值可以设置为中位数，另一方面，最大区域的深度可视为立面的基准平面深度。此外，对小于某一预定的大小的不可靠组件C_i，例如，在一些示范实例中设置为等于目前立面面积4％的预定大小，不可靠的组件可在邻近组件存在的情况下，合并到此唯一可靠的邻近组件中。

除立面的基准平面外，多种示范实施例可以在立面上的每个要素容纳一个矩形。对于元素C＝{v_i＝(x_i，y_i)}，中位数的位置(x_med，y_med)可由x_med＝median_ix_i及y_med＝median_iy_i求得。此外，|x_i-x_med|＞2.8σ_x或|y_i-y_med|＞2.8σ_x的离群点可被去除，其中σ_x＝∑_i|x_i-x_med|/|C|，及σ_y＝∑_i|y_i-y_med|/|C|。进一步，根据其在剩下的点集的x和y坐标而处在左、，右、顶部和底部1％区域的点可被删除。以此方法，可得一个从C得出的可靠子集C_sub。因此，C_sub的边界框

可以被定义为C的合适矩形，其中合适信心值则如公式15所示：

f_{C} = \frac{B_{C_{sub}} \cap C}{B_{C_{sub}} \cup C}

(公式15)

因此在各种非限制实施例中，如果信心值f_c超过预定阈值(例如f_c＞0.72)和矩形尺寸不会过小，作为不同立面元素的矩形则可以保留。根据示范性非限制性实施例，结果，如果矩形元素的距离少于预定的标准，例如目前立面宽度和高度的2％，矩形元素可以在合成纹理图像的积累索贝尔反应下自动向最近的垂直与水平众数位置对齐。因此，检测到的矩形可以相互嵌套。当产生最后的立体模型时，根据非限制性方面，较大的元素可以从基面弹出，然后可以填补较大元素内的较小的元素。例如，如果两个矩形重叠但不互相包含，则首先弹出一个最接近基准平面的矩形。

在进一步非限制实例中，区块立面的边界，可以进一步被规范以有利于急剧变化和减弱锯齿。例如，对于上述的形状正规化结构元素，类似的技术可以用于计算立面的外边框[x_min，x_max]×[y_min，y_max]。此外，立面的上边界可作进一步优化，因为建筑物区块实际上是否有相同的高度的单个建筑物，在区块分区内并不确定。

图16说明按照披露技术主题的进一方面的非限制示范马尔可夫网络图1602的原理框图，其可以促进优化立面的上边界1604。例如，在图16中，一维(1D)马尔可夫网络1602被描绘在正射影像1606的水平方向。注意每个x_i∈[x_min，x_max]皆定义一个顶点，边线亦可以添加于两个相邻顶点间。x_i的标签l_i对应边界的位置，而l_i∈[y_min，y_max]对应所有x_i。因此，MRF的一个标签配置对应一个立面边界。因此，全部或绝大部分纹理、深度和分割信息可用于定义数据成本，根据水平索贝尔反应数据成本可以被定义为公式16：

ψ_{i} (l_{j}) = 1 - \frac{HorizontalSobel (i, j)}{2 \max_{xy} HorizontalSobel (x, y)}

(公式16)

对于界限不在任何输入图像的视场中的立面，其立面的边界可以设为边界框的顶部边界，而根据多种示范实例，φ_i(y_min)的更新则可以把它乘以经验判断常数，例如一个经验判断常数0.8。举例，再次参照图12至图13，示范定义的数据成本被描述于1204、1206、1208、1210。

可理解，立面高度的上边界通常在具有较强的垂直边缘反应的区域中发生变化。因此，在每个x_i的垂直索贝尔反应可以积累成

V_{i} = Σ_{y &Element; [y_{\min}, y_{\max}]} VerSobel (i, y),

而平滑数值可以定义为公式17：

ψ_{i, i + 1} (l_{i}, l_{i + 1}) = μ | l_{i} - l_{i + 1} | (1 - \frac{V_{i} + V_{i + 1}}{2 \max_{j} V_{j}})

(公式17)

μ是一个可控的参数。结果，在披露技术主题的各种非限制实例，边界可以使用最小化如公式18的吉布斯能进行优化：

E (L) = \underset{x_{i} &Element; [x_{\min}, x_{\max}]}{Σ} ψ_{i} (l_{i}) + \underset{x_{i} &Element; [x_{\min}, x_{\max - 1}]}{Σ} ψ_{i, i + 1} (l_{i}, l_{i + 1})

(公式18)

其中，φ_i可以被定义为数据成本，而φ_i，i+1则可以被定义为平滑成本。根据披露技术主题的进一步方面，精确的推断可以从多种现有技术的全体最佳化方法取得，例如，Belief Propagation算法。

图像建模示范方法

披露技术主题的多种实施例均提供图像建模方法。除了图2至图3描述的方法200和300之外，图17亦描述了一个流程图，展示有助于图像建模的多种非限制示范方法1700。

举例，示范图像建模方法1700可以包括对一个代表立面的已重建输入图像数据子集执行多视点语义分割，以在1702辨认立面结构及分割立面。举例，如上述，一个捕获得的图像序列(例如，街边拍摄的建筑或城市立面图像)可以根据用以计算立体点、线和相机位置的一个从运动恢复结构算法进行配准并重建。因此，多视点语义分割可于输入图像502上进行，以通过从SFM取得点匹配资料在多个视点间实施一致分割来建造过度分割散件504以及通过为每个图像构建一个图形并加入边线以合并图表来产生立面分割604，例如参照图7所述。

根据图像建模方法1700的进一步实例，在1704，已重建输入图像数据子集可作区块分区，以产生一个与分割立面(如，604)相关联的对象区块(建筑物区块)。例如，根据多种实施例，一个区块分区计划可以使用垂直线(如垂直线408)产生独立建筑立面区块(例如802、804、806、808、810，812和814等)，如上参考图8所示和所述。

此外，图像建模方法1700可以进一步包括在1706，于与对象区块相关的已重建输入图像数据子集执行一个逆正投影组合，以为对象区块产生组合正投影深度图(如904)及组合正投影纹理(如1002)。举例，此处所述的逆正投影组合可以对来自图像序列的局部正投影深度图904和纹理1002来进行以产生组合正投影深度图1004和组合正投影纹理1102。

在1708，图像建模方法1700的进一步实例可以包括，对组合正投影深度图904和组合正投影纹理1002执行结构分析和正规化，以确定对象区块于多个立面深度的结构元素。举例，如之前的充分描述，正投影深度图和正投影纹理的联合语义分割，可以和立面分割1202的形状和边界正规化一起执行，以产生正规化深度图1402和纹理映射立面1404。

此外，在1712，可以通过从所识别的数个立面深度的结构元素为至少一个对象区块生成几何1504并且对该对象区块进行纹理，来生成对象模型(例如，立体建筑模型1502)。

鉴于上文介绍的方法，披露技术主题可实现的***和设备，将于参考图18至图22的功能框图后得到更好的理解。而为了简单解释，功能框图会显示及形容为多种组合的功能组件区块，应当明白和理解的是，此插图或相应的描述并不限于功能框图，这是因为一些实例可能发生在不同的配置中。此外，并不是所有的说明区块都被需要来实施以下描述的***和设备。

示范图像建模***

图18至图22描绘实现按照披露技术主题的多方面的图像建模***和设备的非限制示范功能框图。应当理解的是，根据本文所述(例如，关于多个附图及相关说明)的多种方法，可以将多种组件和/或副组件实现为计算机执行的组建，如图29至图30进一步描述。例如，根据多种实例，本文所述的组件可以配置为通过计算机处理器上的标准软件编程技术和执行配置的组件来执行本文所披露的适用方法，或其中的某些部分。

为此，示范的非限制图像建模***1802可以包括一个多视点语义分割组件1804，例如其可以促进上文所述的方法，如图2、图3、图5至图7及图17等。在多种非限制实例中，图像建模***1802可以包括例如促进上文如图2、图3、图4、图8及图17等所述的方法的分区组件1806和图像重建组件1808。一方面，图像建模***1802可以进一步包括例如促进上文如图2、图3、图9至图11及图17等所述的方法的逆正投影组合组件1810。

在图像建模***1802的进一步的非限制实例中，该***可以包括促进上文如图2、图3、图12至图17等所述的方法的结构分析和正规化组件1812。在另一方面，示范图像建模***1802可以进一步包括建模组件1814，除了其它功能外，其存储、修改、生成、发送和/或接收模型，几何模型，生成带纹理的立面，创建立体对象建模，如建筑物建模，及建立立体城市建模等，如图2、图3、图14、图15、及图17。另一方面，图像建模***1802可以包括一个接口组件1816，除了其它功能外，其接收互动分割、互动分区、向深度地图进行深度的互动分配、纹理合成过程中互动编辑图像以去除伪像的指令，接收或存储数据(如纹理、立体点、相机位置，图像序列、深度图等)至存储组件1818。

图19描绘多视点语义分割组件1804的非限制示范功能框图。如上所述，一个多视点语义分割组件1804例如可促进上文所述的方法，如图2、图3、图5至图7及图17。因此，一个示范多视点语义分割组件1804可以包含图形组件1902、颜色和平滑度组件1904、及优化组件1906中的一个或多个，或其中的子部分。应理解，如此处描述，示范多视点语义分割组件1504的多种部件成分可以相应配置，执行本文所述的各个方法，或其中的某些部分。

对于图20，分区组件1806和图像重建组件1808的非限制示范功能框图均在此描述。如前所述，示范非限制立面分解组件1506例如可以促进上文所述的方法，如图2、图3、图4、图8及图17等。因此，一个分区组件1806可以包含一个或更多全体垂直对齐组件2002、区块分隔器组件2004、和局部水平对齐组件2006，或其中的子部分；而图像重建组件1808可以包含从运动恢复结构组件2008和边缘检测组件2010中的一个或多个，或其中的子部分。应了解，示范分区组件1806和图像重建组件1808的多种部件部份可以相应配置，执行如本文所述的各个方法，或其中某些部分。

此外，图21描绘逆正投影组合组件1810及结构分析和正规化组件1812的非限制示范功能框图。如前所述，非限制示范逆正投影组合组件1810例如可以促进上文所述的方法，如图2、图3、图9至图11及图17等等。进一步如上所述，非限制示范的结构分析和正规化组件1812例如可以促进上文所述的方法，如图2、图3、图12至图14、图16及图17。因此，一个逆正投影组合组件1810可包括一个或更多散件重建组件2102和正投影组合组件2104，或其中的某些部分。此外，结构分析和正规化组件1812可以包括共同分割组件2106、形状正规化组件2108、和边界正规化组件2110中的一个或多个，或其中的某些部分。需了解，示范逆正投影组合组件1810、结构分析和正规化组件1812的多种组件部份可以相应配置以执行如此处所述的各个方法，或其中某些部分。

图22描绘建模组件1814的非限制示范的功能框图。如上所述，建模组件1814除了其它功能外亦可创建存储、修改、生成、发送和/或接收模型，几何模型，生成带纹理的立面，创建立体对象模型，如建筑物模型，及建立立体城市建模等，如上文参照图2、图3、图14、图15及图17所述。因此，建模组件1814的非限制示范实例可包含几何建模组件2202(例如，用于生成一个立面几何)、立面纹理化组件2204(例如，用于生成带纹理立面)、对象建模组件2206(例如，用于创建纹理对象)、和组合对象建模组件2208(例如，用于组合一个组合建模，合并纹理对象等)中的一个或多个，或其中的某些部分。应该明白，在示范建模组件1814的多种组件部份可根据如此处所述的各个方法，或其中的某些部分进行配置。

为此，一个非限制示范图像建模***1802可以包括一个多视点语义分割组件1804，以基于与立面相关的配准图像序列产生该立面(例如，一个对象，诸如建筑物，路边立面，市区景象等)的语义分割604。此外，图像建模***1802的多种实施例可以进一步包括分区组件1806，以将已重建的图像数据作区块分区，判断一个与立面的语义分割604相关的对象区块(例如，建筑物区块)。

举例，图像重建组件1808可配准代表立面的一个图像序列，产生已配准的图像序列。图像重建组件1808可进一步计算已重建图像数据，该数据包括例如，关于立面的立体(3D)点、线、和相机的位置。此外，多种非限制图像建模***1802可以包括逆正投影组合组件1810，其从对象区块的已重建图像数据组合正投影深度图1004和纹理1102。作为进一步的例子，非限制示范图像建模***1802可以包括结构分析和正规化组件1812，其从对象区块的正投影深度图1004和纹理1102判断在多个立面深度的结构要素。

此外，图像建模***1802可以进一步包括建模组件1814，其从所确定的在多个立面深度的结构要素产生对象区块的区块几何。进一步例子，建模组件1814可以被配置为对象区块加上纹理，以创建相关立面的对象区块模型。此外，建模组件1814可以进一步配置为合并相关立面的对象区块模型与相关立面的另一对象区块模型，以组成一个组合立面模型。

示范图像建模结果

图23至图28显示了根据披露主题的各区块的非限制性建模实例。例如，在2302、2402、2502和2602，示出了各种区块的正投影纹理。在2304、2404、2504和2604，正投影已彩色编码深度图(其中，为了使用灰阶附图，不可靠的像素会显示为黄色，如图10的1006)。此外，在2306、2406、2506和2606，显示多个区块的立面分割，而相关的正规化深度图描绘于2308、2408、2508和2608。在2310、2410、2510和2610，显示了由多个区块产生的几何形状，而由此产生的纹理模型则显示于2312、2412、2512和2612。

披露技术主题的示范方法已经实施和测试于匹兹堡市中心的路边图像。这些图像已用于Google^TM街景以创建分辨率为640×905的无缝全景图像。其中一些图像已描绘于图1。根据披露技术主题的多个方面，序列可以使用从运动恢复结构算法来重建，以产生一组半密集点和相机位置方向。此外，相机可在地理位置上与GPS坐标***配准，场景的所有序列已经被重叠相机位置方向合并。

此外，一方面，如以下有关图29至图30的进一步详细描述，如本文所述的多种方法可以用未优化的C++代码来实施，其中在一个五立面集合上手动调整参数。此外，每个正面立面可以在z方向延长成有默认深度(例如，默认深度18米)的框中。因此，纹理映射可以使用z缓冲排序通过可视性检查来进行。

此外，如果框没有被相邻的建筑物阻挡，则它的侧面亦可作自动纹理化。举例，对于匹兹堡的一部分，使用10498个图像，重建202个建筑物区块。在一个由普通桌面个人计算机(PC)组成的小集群，示范结果可于以小时计的时间内自动生成，其中本文所述的示范模拟结果包括：约2小时用于SFM，19小时用于分割，另外2小时用于分区和建模。

再参照图23至图26，这些附图描绘出区块和中间结果的不同例子。此外，图27至图28描述了分别从输入图像序列2804和2704通过示范图像建模***1802产生的示范性的最终模型的特写视点2702和2802。除了一些已使用灰阶附图对当前概念进行的更改之外，本文所述的示范结果皆自动生成，无需手动处理。

在进一步方面，为渲染最后的模型，每个建筑物区块可用多层次的细节表示，例如非限制示范实例中的两层细节。例如，其中一个层次可以包含立面基面，而另一个层面可以包含相应的立面的增强元素。

在另一个示范图像建模的结果中，为进行语义分割，173幅图像被数据集内的均匀采样图像作手工标记，以创建已标记路边图像的初始数据库。此外，每个序列可被独立辨认和分割。然而，在测试中，标记图像如果来自相同的图像序列则不被使用，以表现出相当于处理未见过的序列时的真正性能。

由此从示范图像建模的结果可以看出，披露技术主题的多种实施例的强大，足以使轻微错误或失败情况不会生成干扰视觉的伪像。举例，虽然特别的元素，如立面的窗户和门由于缺乏可靠的立体点，不能全数重建，但是因深度的变化很小，披露技术主题的示范实例可以用合适的纹理把这些元素平滑化至立面基面。

此外，可以看出，大部分伪像皆来自纹理本身。举例，虽然许多树木和人可能不能从建筑物一楼上的纹理移除，如图27及图28的特写视点2702及2802所见，但是可以理解这些伪像能容易地修正。例如，至少部分基于上述接口组件接收到的指令，例如通过交互的分割和/或修复，披露技术主题的进一步非限制实例可去除各种伪像。此外，如果背景建筑物与前景的建筑物分隔不充分，一些伪像可能会出现在立面的边界，如图27所见的特写视点2702。

如上述，图23至图26描绘进一步示范的图像建模结果。例如，多种示范实例已经在不同的具有较高分辨率的图像的输入数据上进行了测试，如使用广州的数据集合生成有代表性的例子，如底部面板2402所示。

根据进一步非限制实例，缓和采用长方形假设和/或为鲁棒性而进行的折衷可达成更高要求的建模任务，如地标建筑的自动或半自动建模。然而，可理解矩形元素的假设应永远被视为第一级估计。因此，在进一步非限制实例中，矩形元素的估计可被替换为其它对象，或由此产生的模型或中间结果可以通过其它方法加以完善。

可以进一步了解，一台摄像机的视场有限，高楼大厦的上部可能在某些情况下会遗失。因此，在进一步的非限制实例中，按照披露技术主题的建筑物下部的路边建模可与采用常规技术的用于上部分的空中图像建模结果合并。另外，示范实例亦可以采用多台相机，而其中一台摄像机朝上拍摄建筑物上部。因此，可理解，虽然在某些情况下，披露的实施方案，可采用其它常规技术来进行增强以解决此问题和其它特殊情况，这样的改变仍包含于披露技术主题的范围内。

此外，虽然在这里介绍的各种实施方案提供示范的自动图像建模，进一步非限制性实施方案仍可采用互动式编辑技术，以进一步改善最终建模结果，例如，通过在二维图像空间中采用互动式编辑技术来改善。作为另一个例子，在其它示范的实例中，分割结果可于图像空间中，以传统的互动式图像分割的解决方案作修饰。此外，根据另一方面，区块分区可进一步手动地在任何图像中表示，以生成一个垂直分隔器。此外，在进一步非限制性的方面中，可以在正投影纹理和深度图像中添加、删除等立面元素，类似于Google^TM Sketchup之类中的操作。其它示范实例可包括在语义分割中合并三维信息，以及使用从已重建模型提取的语法规则，以有程序地合成缺少的部分。

因此，正如本文所述，披露技术主题提供了多种自动或半自动图像建模***和方法，其能从一个重叠图像序列(例如，一个沿着街道拍摄的重叠图像序列)产生高度写实的三维建模。在各种非限制实例中，多视点语义分割可以识别所关注的对象类别。在进一步非限制实例中，披露技术主题可以采用***化分割，用人造的垂直线和水平线，把建筑分为独立区块。此外，披露技术主题的示范实例可以提供具有鲁棒性的立面建模，以及对矩形形状作推和拉的动作。在多个方面，示范组件可以组装成一个具有鲁棒性的全自动***，或者允许传统的互动编辑和完善化技术。

示范网络化和分布式环境

所属领域的技术人员可以理解此处描述的图像建模的多种实施例均可以在连接任何计算机或其它任何客户端或服务器设备时得以实现，任何计算机或其它任何客户端或服务器设备可部署为计算机网络的一部分或分布式计算环境中，并且可以连接到任何类型的数据储存。在这方面，在此描述的多种实例可以实现于任何有任意数量的内存或存储单元以及在任意数量的存储单元上进行的任意数量的应用程序和进程的电脑***或环境。这包括但不限于具有部署在网络环境或者分布式计算环境中的服务器计算机和客户端计算机、具有远程或局部存储的环境。

分布式计算以计算设备和***之间的通信沟通，提供计算机资源和服务的共享。这些资源和服务包括用于诸如文件的对象的信息、缓存和磁盘存储的交换。这些资源和服务还包括共享多个处理单元的处理能力，以均衡负载、扩大资源、专业化处理等等。分布式计算充分利用了网络连接，允许客户充分利用它们的集体力量，以造福于整个企业。在这方面，各种设备可能有能利用如披露主题的多种实例描述的图像建模的应用程序、对象或资源。

图29提供了示范网络或分布式计算环境的原理图。分布式计算环境包括计算对象2910，2912等，以及计算对象或设备2920，2922，2924，2926，2928等，其中可能包括程序、方法、数据存储、可编程逻辑等，如应用程序2930，2932，2934，2936，2938所代表。可以明白，对象2910，2912等和计算对象或装置2920，2922，2924，2926，2928等，可能包括不同的设备，如PDA，音频/视频设备，移动电话，MP3播放器，个人计算机，笔记本计算机等。

每个对象2910，2912等及计算物件或装置2920，2922，2924，2926，2928等，可以与一个或多个其它对象2910，2912等以及计算对象或装置2920，2922，2924，2926，2928等直接或间接地通过通信网络2940进行通信。尽管图29是作为一个单一的元素进行描述，网络2940可能包括其它计算设备和计算对象，以提供服务至图29的***，和/或可能代表多个没被显示的互连网络。每个对象2910，2912等，或2920，2922，2924，2926，2928等，也可以包含一个应用程序，如应用程序2930，2932，2934，2936，2938，它们可能利用适用于按照披露主题的多种实施例提供的图像建模功能进行通讯或实施的API，或其它对象，软件，固件和/或硬件。

有多种***，组件和网络配置可支持分布式计算环境。例如，计算***可以有线或无线***，通过本地网络或分布广泛的网络连接在一起。目前，许多网络耦合到互联网，互联网提供配套设施以配合广泛分布式计算和包含了许多不同的网络，虽然任何网络基础设施均可用于如各实施例中所述的图像建模的示范性的通信中。

因此，可使用一台主机的网络拓扑结构和网络基础设施，诸如客户端/服务器、点对点、或混合结构。“客户端”是一个级别或群组的成员，该级别或群组使用与其不相关的另一个级别或群组的服务。客户端可以是一个进程，例如大约为一组指令或任务，其请求另一个程序或进程提供的服务。客户端进程使用其请求的服务，而不必“知道”任何有关的其它程序或服务本身的工作细节。

在客户端/服务器体系结构(尤其是网络***)中，客户端通常是一台计算机，它会访问另一台计算机(例如一台服务器)提供的共享网络资源。在图29中，作为一个非限制的例子，计算机2920，2922，2924，2926，2928等可被视为客户端，而计算机2910，2912等，可被视为服务器，提供数据服务，如从客户端计算机2920，2922，2924，2926，2928等接收数据，存储数据，处理数据，传输数据到用户端计算机2920，2922，2924，2926，2928等，虽然任何计算机都可以被认为是一个客户端，服务器，或两者兼而有之，视情况而定。所有这些计算设备皆可以是牵涉如本文针对一个或多个实施例所述的图像建模的处理数据，形成元数据，同步数据，请求服务或任务。

服务器是一个典型的远端计算机***，可以通过远程或本地网络(如互联网或无线网络基础设施)来访问。客户端进程可能会活跃于第一台计算机***，而服务器进程可能会活跃在另一台计算机***，通过通信媒介彼此沟通，从而提供了分布式功能，并允许多个客户端利用服务器的信息收集能力。任何根据图像建模技术执行的软件对象可独立提供，或分布在多个计算设备或对象上。

在通信网络/总线2940是互联网的网络环境中，例如，服务器2910，2912等均可为Web服务器，而客户端2920，2922，2924，2926，2928等通过多种已知的协议(如超文本传输协议(HTTP))与Web服务器进行通信。服务器2910，2912等，因分布式计算环境的特征，也可以作为客户端2920，2922，2924，2926，2928等。

示范计算设备

如前所述，有利地，这里描述的技术可以应用到任何具有可执行图像建模的设备中。因此，应理解，各种手持式、便携式和其它计算设备和计算对象也被考虑与各种实施例一起使用，例如，设备可能要同步数据的任何地方。因此，以下图30所述的通用远程计算机只是计算设备的一个例子。此外，图像建模可以包括使用下述通用计算机的一个或多个方面，如通过显示器3050显示或输出被建模的立面。

虽然没被要求，此处所述的多种实例仍可以部分地经由一个操作***实施，供设备或对象服务的开发人员使用，和/或包含在应用软件内，该应用软件执行本文所述的各种实施例的一个或多个功能方面。软件可以由一个或多个计算机执行的计算机可执行指令的一般情况(如程序模块)来描述，所述一个或多个计算机如客户端工作站，服务器或其它设备。所属领域的技术人员能明白，电脑***有多种配置和协议，可以用于数据通信，因此，不必考虑限于任何一种特别的配置或协议。

因此，图30展示了一个合适的计算***环境3000的一个例子，其中可以实现本文所述实施例的一个或多个方面，虽然已于以上作明确说明，计算***环境3000只是一个合适的计算环境的例子，而非提出对使用或功能的范围的任何限制。也不应把计算环境3000解释为对任何一个或多个组件有任何依赖或要求。

参照图30，一个用于实现一个或多个实例的示范远程设备包括如计算机3010形式的通用计算设备。计算机3010的组件可包括，但不限于，处理单元3020，***内存3030和***总线3022，***总线3022将包括***内存的各种***组件耦合至处理单元3020。

计算机3010通常包括各种计算机可读媒体，亦可以是任何可被计算机3010访问的媒体。***内存3030可以包括易失的和/或非非易失的内存形式的，如只读存储器(ROM)和/或随机存取存储器(RAM)等的计算机存储媒体。通过这样的非限制例子，内存3030还可以包括一个操作***，应用程序，其它程序模组和程序数据。

用户可以通过输入设备3040，将命令和信息输入计算机3010。监视器或其它类型的显示设备也通过接口，如输出接口3050，连接到***总线3022。除了监视器，计算机也可以包括通过输出接口3050连接的其它外设输出设备，如扬声器和打印机。

计算机3010可以使用与一个或多个其它远程计算机(如远程计算机3070)的逻辑连接在网络或分布式环境工作。远程计算机3070可以是个人电脑，服务器，路由器，网络电脑，对等设备或其它常见的网络节点，或任何其它远端媒体消费或远程传输设备，并可能包括任何或所有上述相对于计算机3010描述的要素。图30描绘的逻辑连接包括网络3072，诸如局域网(LAN)或广域网(WAN)，但也可能包括其它网络/总线。这样的网络环境于家庭，办公室，企业范围的计算机网络，内联网和互联网中司空见惯。

如上所述，虽然连同多种计算设备和网络架构描述了各种实施例，但是本发明的基本概念可以应用到可执行图像建模的任何网络***和任何计算设备或***。

此外，有多种方法来实现相同或类似的功能，例如适当的API，工具包，驱动程序代码，操作***，控制项，独立或下载软件对象等等，这些功能使得应用程序和服务可应用图像建模的功能。因此，此处实例均为从一个API(或其它软件对象)的立场以及从实现在此所述的图像建模的一个或多个方面的软件或硬件对象来考虑进行。因此，这里描述的多种实例中可以是以下几方面：完全为硬件，部分硬件及部分软件，以及完全为软件。

术语“示范”，是指用作举例，实例或说明。为避免疑问，在此披露的主题内容并不限制于这些例子。此外，此处作为“示范”描述的任何方面或设计并不一定要被解释为优选或对其它方法或设计较有优势，也不是为了排除此领域技术人员已知的等同示范结构和技术。此外，对于术语“包括”，“有”，“含有”和其它类似词语在详细说明或权利要求中使用的程度，为避免疑问，这些术语旨在以术语“包括”类似的方式是包括的，作为一个开放性的过渡词，不排除任何额外物或其它元素。

如上所述，本文所述的多种技术可以在硬件或软件方面上实施，或在适当情况下，以二者组合的方式实施。本文中所使用的术语“组件”，“***”之类的也同样是指计算机相关的实体，可以是硬件，硬件和软件的组合，软件，或执行中的软件。例如，一个组件可能是，但不限于，在一个处理器运行的进程，处理器，对象，一个可执行文件，一个执行线程，程序和/或计算机。通过这样的例示，无论在计算机运行的应用程序还是计算机都可以是一个组件。一个或多个组件可以驻留在过程和/或执行线程内，而一个组件可以定位在一台计算机上和/或分布在两个或更多的计算机之间。

上述***已在关于几个组件之间的相互作用时进行了介绍。可以理解，这样的***和组件可以包括一些组件或指定的子组件，指定的组件或子组件，和/或其它组件，并据前述作多种排列组合。子组件也可以实现为以通信方式耦合到其它组件而不是包含在父组件(分层)内的组件。此外，应该指出，一个或多个组件可以组合成一个提供总功能的单个组件或分为几个分隔的子组件，而可提供任何一个或多个中间层，如管理层，以通信方式耦合至这些子组件，以提供综合的功能。此处所述的任何组件还可以与其它为此领域技术人员所普遍认识的，没有在此具体说明的一个或多个组件互动。

鉴于上文所述的示范***，参照各个附图的流程图，可更好地理解按照所描述主题实现的方法。虽然为简单解释，而把方法显示和描述为一系列区块，应理解和明白，要求保护的主题不受限于区块的顺序，因此处描述的一些区块可能与其它区块同时和/或以不同的顺序发生。其中通过流程图示出了非连续或分支的流程，可以理解区块的各种其它分支，流动路径和命令，亦可加以实施，以实现相同或类似的结果。此外，并不是所有说明的区块均需要执行以下描述的方法。

除了此处所述多种实施例之外，需了解可以使用其它类似的实施例，或者在不引起偏离的情况下对所描述的一个或多个实施例进行修改和增加，以执行相应实施例的相同或相近功能。进一步，多个处理芯片或多个设备可以共享一个或多个此处描述的功能，同样，存储可以在多个设备上受到影响。因此，本发明不应局限于任何单个实施例，而是应该按照所附权利要求的广度，精神和范围来解释。

Claims

1.一种有利于图像建模的方法，包括：

接收代表立面的输入图像数据；

以计算机重建输入图像数据以计算关于该立面的三维(3D)点、线、和相机的位置；对已重建输入图像数据执行多视点语义分割，以识别立面结构和分割立面；

把已重建输入图像数据进行区块分区，以生产至少一个与分割立面有关的独立建筑物区块；以及

对于与至少一个独立建筑物区块有关的已重建输入图像数据，执行一个逆正投影组合以产生该至少一个独立建筑物区块的组合正投影深度图和纹理。

2.如权利要求1的方法，进一步包括：

接到分割指令，以互动方式细化多视点语义分割。

3.如权利要求1的方法，进一步包括：

接收影像修复指令，以互动方式编辑组合正投影深度图或纹理中的至少一个。

4.如权利要求1的方法，进一步包括：

对组合正投影深度图和纹理进行结构分析和正规化以为至少一个独立建筑物区块识别不同立面深度的结构要素。

5.如权利要求4的方法，进一步包括：

根据所识别的不同立面深度的结构要素来为至少一个独立建筑物区块生成几何结构以及对该至少一个独立建筑物区块加上纹理，以此生成三维模型。

6.如权利要求5的方法，进一步包括：

通过将为至少一个独立建筑物区块产生的三维模型和为至少一个其它独立建筑物区块产生的三维模型结合以产生城市建模。

7.一种图像建模***，包括：

多视点语义分割组件，其基于至少一部分与立面相关的配准图像序列，产生立面的语义分割；

分区组件，将已重建图像数据进行区块分区，以确定至少一个与立面的语义分割有关的对象区块；以及

逆正投影组合组件，其从至少一个对象区块的已重建图像数据来组合一个正投影深度图和纹理。

8.如权利要求7的***，进一步包括：

图像重建组件，其配准代表立面的图像序列以产生配准图像序列和计算已重建图像数据，已重建图像数据包括关于立面的三维(3D)点、线、和相机的位置。

9.如权利要求7的***，进一步包括：

结构分析和正规化组件，其从至少一个对象区块的正投影深度图和纹理确定不同立面深度的结构要素。

10.如权利要求9的***，进一步包括：

建模组件，从已确定的不同立面深度的结构要素为至少一个对象区块产生区块几何结构。

11.如权利要求10的***，建模组件进一步配置为：

为至少一个对象区块加上纹理，以创建一个与立面相关的对象区块模型。

12.如权利要求10的***，建模组件进一步配置为：

合并至少两个与立面相关的对象区块模型，以组合一个复合立面模型。

13.如权利要求8的***，进一步包括：

接口组件，其接收代表立面的图像序列。

14.如权利要求13的***，接口组件进一步配置为：

接收指令，当指令被图像建模***执行时，指令进行以下两个操作中的至少一个：互动方式细化多视点语义分割，或互动方式编辑与立面关联的深度图或纹理中的至少一个。

15.一种图像建模方法，包括：

对至少一个代表立面的已重建输入图像数据的子集执行多视点语义分割，以辨认立面结构和分割立面；

对至少一个已重建输入图像数据的子集进行区块分区，以产生至少一个与分割立面相关的对象区块；

对与至少一个对象区块关联的至少一个已重建输入图像数据的子集执行逆正投影组合，以针对至少一个对象区块产生一个组合正投影深度图和一个组合正投影纹理；以及

对组合正投影深度图和组合正投影纹理，进行结构分析和正规化，从而为至少一个对象区块识别多个立面深度的结构要素。

16.如权利要求15的方法，进一步包括：

通过从识别的多个立面深度的结构要素为至少一个对象区块产生几何结构并且为至少一个对象区块加上纹理来产生对象模型。