CN113068017A

CN113068017A - 增强真实场景的视频通量

Info

Publication number: CN113068017A
Application number: CN202011589359.9A
Authority: CN
Inventors: E·梅尔; V·吉特尼
Original assignee: Dassault Systemes SE
Current assignee: Dassault Systemes SE
Priority date: 2019-12-31
Filing date: 2020-12-29
Publication date: 2021-07-02
Also published as: US11631221B2; US20210201587A1; JP2021111375A; EP3846136A1

Abstract

本发明尤其涉及增强现实的计算机实现的方法。该方法包括：用摄像机捕获视频通量；从视频通量中提取一个或多个2D图像，每个2D图像均表示真实对象；以及提供表示真实对象的3D模型。该方法还包括在候选姿势中确定相对于视频通量的3D模型的姿势。该确定奖励针对至少一个2D图像和针对每个给定候选姿势的互信息，其表示虚拟2D渲染与至少一个2D图像之间的相互依赖性。该方法还包括基于姿势来增强视频通量。这形成了增强现实的改进的解决方案，以用于增强包括真实对象的真实场景的视频通量。

Description

增强真实场景的视频通量

技术领域

本发明涉及计算机程序和***领域，并且更具体地涉及用于增强包括真实对象的真实场景的视频通量的方法、***和程序。

背景技术

市场上提供了许多用于对象的设计、工程和制造的***和程序。CAD是计算机辅助设计的首字母缩略词，例如它涉及用于设计对象的软件解决方案。CAE是计算机辅助工程的缩写，例如它涉及用于模拟未来产品的物理行为的软件解决方案。CAM是计算机辅助制造的首字母缩略词，例如它涉及用于定义制造过程和操作的软件解决方案。在这种计算机辅助设计***中，图形用户界面在技术效率方面起着重要的作用。这些技术可能嵌入在产品生命周期管理(PLM)***中。PLM指的是一种商业战略，帮助企业共享产品数据，应用通用流程，并利用企业知识进行从概念到产品生命尽头的跨越扩展企业概念的产品开发。达索***(Dassault Systèmes)(以CATIA，ENOVIA和DELMIA为商标)提供的PLM解决方案提供了一个组织产品工程知识的工程中心，一个管理制造工程知识的制造中心和一个使企业集成和连接工程和制造中心的企业中心。整个***提供了一个开放的对象模型，连接产品、流程和资源，实现动态的、基于知识的产品创建和决策支持，从而推动优化的产品定义、制造准备、生产和服务。

在该上下文和其他上下文中，增强现实正变得越来越重要。增强现实包括用于增强包括真实对象的真实场景的视频通量的解决方案。这些解决方案例如允许通过视频通量将信息添加到真实对象的显示中。这些解决方案要求知道相对于视频通量的不同2D帧的真实对象的3D模型的姿势，从而可以将与3D模型相关联的信息添加到视频通量以对其进行增强。实际上，为了将虚拟模型叠加在对象上，需要尽可能准确地知道对象在增强现实***的参考框架中的位置。

如果3D模型(例如虚拟3D网格)具有与视频通量的图像帧中的真实对象相同的纹理，则一种现有解决方案是合成对象的虚拟视图，并使虚拟图像与真实图像之间的关键点匹配(例如FERN或SIFT描述符)。由于虚拟图像上的关键点对应于已知的3D点，因此一些现有解决方案包括使用EPnP算法计算姿势。这尤其是V.Lepetit，F.Moreno-Noguer和P.Fua在以下论文中提出的，EPnP:An Accurate O(n)Solution to the PnP Problem(EPnP：PnP问题的精确O(n)解决方案)，《国际计算机视觉》(IJCV)，2008年。但是，非常常见的是3D模型没有纹理(或与图像上显示的真实对象不同的纹理)，并且这会阻止计算足够鲁棒以产生准确姿势的关键点。此外，真实对象可能难以在图像中分割，这也阻止了对象轮廓上任何可靠的描述符。在这种情况下，现有的基于学习的方法可以通过训练神经网络来预测正确的来提供解决方案。但是，这种方法在训练过程中看不见的真实对象上效果不佳。

因此，需要一种增强现实的改进解决方案，以用于增强包括真实对象的真实场景的视频通量。

发明内容

因此，提供了一种计算机实现的增强现实方法。该方法用于增强包括真实对象的真实场景的视频通量。该方法包括用摄像机捕获视频通量。该方法还包括从视频通量提取一个或多个2D图像，每个2D图像表示真实对象。该方法还包括提供表示真实对象的3D模型。该方法还包括在候选姿势中确定相对于视频通量的3D模型的姿势。该确定针对至少一个2D图像以及针对每个给定候选姿势奖励互信息。互信息表示虚拟2D渲染与至少一个2D图像之间的相互依赖性。虚拟2D渲染是利用至少一个2D图像的给定候选姿势的值对3D模型的虚拟2D渲染。该方法还包括基于姿势来增强视频通量。

该方法可以包括以下一项或多项：

-一个或多个2D图像包括多个2D图像，每个2D图像对应于所述视频通量的相应帧，所述确定针对所述多个2D图像中的每个2D图像奖励所述互信息；

-所述确定包括优化包括项的目标函数，每个项针对所述多个2D图像中的相应2D图像奖励所述互信息；

-目标函数是各项的总和；

-每个项等于相应2D图像的互信息；

-优化包括：提供N个起始姿势，其中N>1；并且在所述目标函数上运行N次不可微分的迭代优化算法，每次从起始姿势中的相应一个开始并输出相应的最终姿势；并且所述确定包括：基于N个最终姿势之一计算姿势。

-所述确定还奖励所述3D模型的一个或多个点在所述多个2D图像上的投影之间的光一致性；

-所述确定包括：在计算中修剪，该修剪执行对光一致性的所述奖励并输出N个最终姿势之一；和/或在优化之后，对所述光一致性进行奖励的细化；

-所述确定还奖励所述3D模型的3D边缘的投影与至少一个2D图像中的2D边缘之间的匹配，所述细化可选地执行所述匹配的所述奖励；

-对于所述至少一个图像的每个相应图像，所述3D边缘在所述相应图像中形成所述3D模型的廓影；

-所述互信息是以下之间的互信息：从虚拟2D渲染中提取的第一变量，及从至少一个2D图像中提取的第二变量，所述第一变量和所述第二变量表示像素值范围上的分布；和/或

-所述像素值域上的分布是具有属于预定子范围之一的值的像素的计数。

还提供了一种计算机程序，其包括用于执行该方法的指令。

还提供了一种其上记录有计算机程序的计算机可读存储介质。

还提供了一种***，该***包括耦合到存储器的处理器，该存储器上记录有计算机程序。

附图说明

现在将通过非限制性示例并参考附图来描述本发明的实施例，其中：

-图1示出了该方法的示例的流程图；

-图2示出了***的示例；

-图3-4示出了该方法；并且

-图5-6示出了用该方法获得的结果。

具体实施方式

提出了一种计算机实现的增强现实方法。该方法用于增强包括真实对象的真实场景的视频通量(flux)。该方法包括用摄像机捕获视频通量。该方法还包括从视频通量提取一个或多个2D图像，每个2D图像表示真实对象。该方法还包括提供表示真实对象的3D模型。该方法还包括在候选姿势中确定相对于视频通量的3D模型的姿势。(对姿势的)确定针对至少一个2D图像以及针对每个给定的候选姿势奖励互信息。互信息表示虚拟2D渲染与至少一个2D图像之间的相互依赖性。虚拟2D渲染是利用至少一个2D图像的给定候选姿势的值对3D模型的虚拟2D渲染。该方法还包括基于(确定的)姿势来增强视频通量。

这种方法形成增强现实的改进解决方案，以用于增强包括真实对象的真实场景的视频通量。

该方法确定表示真实对象的3D模型相对于包括所述真实对象的真实场景的视频通量的姿势，该视频通量由摄像机捕获。因此，该方法允许例如根据任何已知方法基于所确定的姿势来增强视频通量。因此，该方法在视频通量捕获的特定上下文中提供了增强现实解决方案的功能。

现在，该方法以特定方式确定3D模型相对于视频通量的姿势。具体地，通过该方法确定姿势将奖励互信息，该互信息表示针对从视频通量提取的至少一个2D图像的3D模型的虚拟2D渲染与所述至少一个2D图像本身之间的相互依赖性。由于这种奖励，该方法确定了与视频通量相对一致的姿势。换句话说，就增强现实而言，该方法确定相对准确地对应于摄像机的真实姿势参数或以可接受的方式模拟这些真实姿势参数的姿势参数的姿势。实际上，互信息基于姿势捕获了一个或多个提取图像与其(它们)对应的渲染之间的相互依赖性。通过奖励这种互信息，该方法假设必须一定程度地验证这种依赖性，并且在评估通过该方法获得的结果的准确性时，这是正确的。因此，增强也相对准确，这是因为它依赖于确定的姿势。

另外，该方法不需要依赖于3D模型的纹理与2D图像的分割之间的任何确定性相关性。实际上，该方法使用相似性的统计度量，即互信息。由于考虑了3D模型的2D渲染以获得与2D图像可比的格式，因此启用了此功能。通过这种统计分析，该方法具有足够的信息，以便能够将一方面的沿候选姿势渲染的3D模型与另一方面的提取的2D图像相关联。因此，该3D模型可以是无纹理的，或者可替代地具有纹理，但是具有与一个或多个2D图像的分割不相关的纹理，和/或一个或多个2D图像可能是不可分割的(即，难以或不可能进行分割)。而且，在测试期间揭示了互信息(具有概率理论定义)，以提供比仅依赖于具有非概率理论定义的准则(例如，虚拟2D渲染及其(它们)对应的提取2D图像之间的L2-范数)的解决方案更准确的结果。此外，该方法不必依赖于机器学习数据集的任何预先提供。实际上，该方法的姿势确定可以是完全确定性的(即，执行确定性算法，即，它不是学习的，因此不是经过训练的神经网络)。

一个或多个(提取的)2D图像可以包括几个2D图像(即，多个2D图像)，每个2D图像对应于视频通量的相应帧。在这种情况下，该确定可以针对每个这样的2D图像(即，针对几个2D图像中的每个图像/几个2D图像之中的每个图像)奖励互信息。换句话说，对表示真实对象的视频通量的所提取的多个帧中的每一个帧执行奖励。这允许相对充分地利用视频通量提供的信息的丰富性(例如，与依赖单个提取的图像帧相比)。这提高了方法的准确性和鲁棒性。

特别地，从不同的观点来看，几个2D图像可以包括真实对象的2D图像。不同的视点例如可以包括真实对象的不同的视角。为此，捕获可以包括在场景中(例如，包括围绕真实对象)移动(例如，包括转动)摄像机，以便从不同的视点(例如，包括不同的角度)捕获真实对象的视频帧。在这种情况下，该方法利用视频通量捕获所允许的真实对象的完整空间覆盖。这仍然提高了该方法的准确性和鲁棒性。所提取的2D图像可以例如包括小于20或10和/或大于2或3和/或在大于1秒或5秒和/或小于1分钟或30秒的时间段上分布的多个图像。

真实对象可以是真实世界和/或固定/不动产的制成品。真实对象可能是各种无限的工业领域中的产品，包括：航空航天，建筑，建造，消费品，高科技设备，工业设备，运输，海洋和/或海上油气生产或运输。因此，真实对象可以是工业产品，可以是任何机械零件，例如陆地车辆的一部分(包括汽车和轻型卡车设备、赛车、摩托车、卡车和机动车设备、卡车和公共汽车、火车)的一部分，飞行器(包括机身设备、航空航天设备、推进设备、国防产品、航空设备、航天设备)的一部分，海军车辆(包括海军设备、商用船、海上设备、游艇和工作船、船舶设备)的一部分，通用机械零件(包括工业制造机械、重型移动机械或设备、安装设备、工业设备产品、金属制品、轮胎制品)，机电或电子零件(包括消费类电子产品、安全和/或控制和/或仪器产品、计算和通信设备、半导体、医疗设备和装备)，消费品(包括家具、家居和花园产品、休闲用品、时尚产品、硬商品零售商的产品、软商品零售商的产品)，包装(包括食品和饮料和烟草、美容和个人护理、家用产品包装)。真实场景可以是真实对象的物理实例所在的任何真实环境。

方法是计算机实现的。这是指该方法的步骤(或基本上所有步骤)由至少一台计算机或任何类似***执行。因此，该方法的步骤由计算机执行，可能是全自动执行，也可能是半自动执行。在示例中，可以通过用户计算机交互来执行该方法的至少一些步骤的触发。所需的用户-计算机交互级别可能取决于预见的自动级别，并与实现用户意愿的需求保持平衡。在示例中，该级别可以是用户定义的和/或预定义的。

方法的计算机实现的典型示例是使用适用于此目的的***执行该方法。该***可以包括耦合到存储器的处理器，该存储器上记录有计算机程序，该计算机程序包括用于执行该方法的指令。存储器还可以存储数据库。该存储器是适合于这种存储的任何硬件，可能包括几个物理上不同的部分(例如，一个用于程序，而可能一个用于数据库)。

该计算机程序可以包括可由计算机执行的指令，该指令包括用于使上述***执行该方法的装置。该程序可以记录在任何数据存储介质上，包括***的存储器。该程序可以例如以数字电子电路或计算机硬件、固件、软件或它们的组合来实现。该程序可以被实现为有形地体现在机器可读存储设备中以由可编程处理器执行的装置，例如产品。方法步骤可以通过可编程处理器执行指令程序以通过对输入数据进行操作并生成输出来执行该方法的功能来执行。因此，处理器可以是可编程的并且被耦合以从数据存储***、至少一个输入设备和至少一个输出设备接收数据和指令，以及向数据存储***、至少一个输入设备和至少一个输出设备发送数据和指令。如果需要，可以以高级过程或面向对象的编程语言或汇编或机器语言来实现应用程序。在任何情况下，该语言都可以是编译语言或解释语言。该程序可以是完整的安装程序或更新程序。在任何情况下，程序在***上的应用都会导致执行该方法的指令。

该***可以包括显示屏。处理器可以耦合到显示屏，并且被配置为在显示屏上显示(例如，增强的)视频通量。该方法可以进一步包括，例如在捕获视频通量期间(基本上)实时地，在显示屏上显示增强的视频通量(即，由该方法执行的增强步骤所产生的增强的视频通量)。可替代地，可以在该方法之后单独地执行显示。

该***可以包括摄像机。摄像机可以耦合到处理器并且被配置为捕获视频通量。捕获可以例如经由用户交互来执行。用户可以携带摄像机并在场景中移动摄像机(例如，在周围)以捕获真实对象的视频。使用者可以例如将摄像机握在手中，或者可替换地佩戴在其上安装摄像机的配件(例如眼镜)。该方法的其他步骤可以完全自动地执行，例如在捕获视频通量的同时(基本上)实时地执行。

该***可以被配置为例如通过包括安装在摄像机上或相对于摄像机固定的传感器来确定摄像机在其运动期间的相对位置。传感器可以耦合到处理器，并且被配置为在摄像机运动期间确定相对位置，以便跟踪摄像机的位置。传感器可以包括运动和/或惯性传感器。

该***例如可以包括被编程用于AR(增强现实)和/或AR眼镜的移动电话或平板电脑。如从增强现实领域本身已知的，这样的***可以被配置用于AR。该方法可以包括由用户以上讨论的方式在场景周围携带这样的***以用***的摄像机执行视频的捕获，这本身就从增强现实领域中是已知的。

该方法通过增强视频通量来提供增强现实。“增强视频通量”是指包括计算要叠加(即覆盖)在视频通量上的图形学通量的任何操作。增强的视频通量可以完全包括视频通量本身，将计算出的图形学通量添加(叠加)到该视频通量中。例如，如果***是移动电话或平板电脑，并且在由用户携带以捕获视频通量的同时在移动电话或平板电脑的屏幕上执行显示，就是这种情况。可替代地，可以从视频通量中剥夺增强的视频通量，从而仅包括计算的图形学通量。例如，如果***包括透明的AR眼镜，则情况就是这样，其中用户不需要看到最初捕获的视频通量本身，因为用户已经由于其透明性而通过AR眼镜看到了现实，因此仅计算出的图形学通量需要在叠加在所看到的现实之上的眼镜上显示。这本身是从增强现实领域中已知的，并且在本公开中没有进一步详细描述。

“通量”在此是指图像的连续(即时间序列)。因此，视频通量是表示真实场景的一部分的一组连续2D图像，每个2D图像对应于(即是)视频通量的相应帧。可以连续执行捕获，使得视频通量的两个连续帧可以彼此接近(例如，相隔小于1秒或0.1秒)。

“提取”在此仅意味着该方法选择一个或多个捕获的视频帧，每个帧包含真实对象的(全部或部分)视图，并将对应于所述帧(或多个)的2D图像提供给姿势确定步骤。每个提取的2D图像可以是包含真实对象视图的选定帧或其子部分。该方法可以包括以任何方式识别每个这样的子部分。例如，该识别可以包括围绕例如由用户绘制的真实对象的所述视图定义(例如矩形)边界框。

3D模型是3D建模对象。建模对象是由例如存储在数据库中的数据定义的任何对象。通过扩展，表达“建模对象”表示数据本身。“3D建模对象”是指由允许其3D表示的数据建模的任何对象。3D表示允许从各个角度查看零件。例如，当表示3D时，可以处理3D建模对象并围绕其任何轴或围绕显示该表示的屏幕中的任何轴来旋转它们。特别是，这不包括未进行3D建模的2D图标。3D表示的显示有助于设计(即，提高设计人员统计上完成任务的速度)。由于产品的设计是制造过程的一部分，因此可以加快工业制造过程。

因此，3D模型包括对真实对象的3D形状的规范。3D形状可以在3D参考框架中定义或可定义于3D参考框架中。规范可以采用允许姿势确定的虚拟2D渲染的任何格式。3D模型可以是例如3D网格或允许计算3D网格的任何其他3D建模对象，例如边界表示或B-Rep(其中B-Rep可以通过镶嵌细分转换为3D网格，例如本身在CAD领域是众所周知的)。

3D模型可能已经使用CAD***进行了设计，或者可能是通过使用CAD***进行的设计得出的。所谓CAD***，意味着至少适于基于建模对象的图形表示来设计建模对象的任何***，诸如CATIA。在这种情况下，定义建模对象的数据包括允许表示建模对象的数据。CAD***可以例如使用边或线(在某些情况下具有面或表面)来提供CAD建模对象的表示。线、边或表面可以各种方式表示，例如非均匀有理B样条(NURBS)。具体而言，CAD文件包含可以从中生成几何图形的规范，从而可以生成表示形式。建模对象的规范可以存储在单个CAD文件中，也可以存储在多个CAD文件中。表示CAD***中建模对象的文件的典型大小在每零件1MB的范围内。建模对象通常可以是数千个零件的组件。

3D模型的提供可以以任何方式执行。3D模型可以例如由用户检索或由***自动识别，例如在3D模型库中。

通过“相对于视频通量的3D模型的姿势”，在此指的是摄像机相对于3D模型的逐帧姿势参数，例如在3D模型的参考框架中定义。姿势参数也称为“外在参数”。因此，针对(即，相对于)所提取的2D图像的姿势的“值”是用于与所述所提取的2D图像相对应的视频通量的帧的姿势参数的值。

如从计算机视觉领域本身已知的，以及视频摄像机的(逐帧)固有参数，姿势参数允许在视频通量的每个帧中投影3D模型，并且该方法可以包括投影。因此，可以基于这种投影的结果来增强视频通量。

3D模型特别地提供了真实对象的3D形状的数学表示，从而允许将基于基于这样的数学表示而进行的计算而产生的图形学(例如文本、数字和/或纹理)添加到视频通量中。替代地或附加地，该3D模型可以与可以用于增强的任何类型的数据相关联，例如用于生成要添加到视频通量的图形学。关联的数据可以例如包括链接到3D模型或链接到3D模型的不同部分的元数据(例如，数据库中的元数据)。在3D模型包括不同部分的情况下，元数据可以例如包括链接到3D模型的每个部分的文本描述或文本规范。该姿势允许将所述图形学相对于真实对象在其中的视图定位在视频通量的正确位置处。这本身是从增强现实领域中已知的，并且在本公开中没有进一步详细描述。

该方法在候选姿势中准确地确定这种姿势。这意味着该姿势是该方法的未知变量，并且确定步骤为其输出计算值。在此，候选姿势仅是指提供给确定步骤的可探索域。由于通过该方法确定的姿势是准确的，因此在投影的3D模型与框架中的真实对象的2D视图很好地匹配的意义上，每个帧中3D模型的投影也相对准确。换句话说，姿势定义了摄像机相对于3D模型的虚拟位置，并且由于该方法，所述虚拟位置准确地对应于摄像机相对于真实对象的真实位置。

固有参数可以(至少部分地)类似地被认为是未知变量，并且可以由该方法确定，例如，在姿势确定步骤内(在这种情况下，确定不仅对每个给定的候选姿势执行奖励，而且还针对固有参数的每个给定的候选逐帧值执行奖励)。可替代地，固有参数可以(至少部分地)被预先确定并且因此被提供给该方法，例如由摄像机本身输出(现代摄像机通常提供其使用的固有参数)。又或者，该方法可以为固有参数设置恒定和任意的值。这可能会导致精确度稍差的姿势，但仍会提供相对准确的投影结果，从而增强真实感。

在所有这些情况下，该方法输出摄像机参数候选通量中相对于视频通量的摄像机参数通量，每组摄像机参数对应于视频通量的相应帧(该通量包括一系列摄像机参数集)。并且该方法可以通过对至少一个2D图像以及对于摄像机参数的每个给定候选通量奖励表示表示利用至少一个2D图像的摄像机参数的给定候选通量(即，对应于图像的通量中的摄像机参数的集合)的值对3D模型的虚拟2D渲染与至少一个2D图像之间的相互依赖性的互信息来确定摄像机参数的输出通量。

该确定可以以允许惩罚互信息的低值或得分的任何方式来执行互信息的奖励。换句话说，该确定被配置为在其他条件相等的情况下(或在其他条件下)，对于给定的提取的2D图像输出导致所有候选姿势中的互信息的最大值的姿势。该方法针对每个提取的2D图像执行这种奖励，并且该方法可以执行其他类型或奖励，使得所确定的姿势通常不是使所有2D图像的互信息最大化的一个姿势，而是总体上提供良好分数从而实现了较高的增加精度的姿势。

该方法可以遵循的一种实现这种奖励的特定方式是运行优化程序，也就是说，使确定过程包括优化目标函数。目标函数包括奖励不同度量的项。在实践中，这样的优化程序可以作为包括成本(或罚款)项的最小化程序执行，每个项都对度量的倒数进行惩罚以进行奖励。

该方法可以利用任何类型的优化算法来优化程序，例如通过执行迭代优化算法的至少一次运行。迭代优化算法可以从起始点(即，然后要优化的起始姿势)开始。每次迭代可包括提供当前给定的候选姿势(用起始姿势初始化)，以及输出新的候选姿势(用于下一次迭代)，该新的候选姿势改善目标函数的值(例如，在最小化程序的情况下减小目标函数的值)。新候选姿势的输出可以包括计算当前候选姿势和/或另一候选姿势的互信息，以及比较当前候选姿势和另一候选姿势的计算出的互信息值。互信息的计算可以包括计算3D模型的虚拟2D渲染。

在该方法提取几个图像的情况下，该方法的姿势确定可以包括优化包括项的目标函数。然后每个项可以奖励几个2D图像中的相应2D图像的互信息。换句话说，每个提取的2D图像可以具有其自己的奖励项(例如成本项)。这提供了实现奖励的有效方式。

具体而言，目标函数可以是项的总和。替代地或附加地，每个项(分别关于提取的2D图像)可以等于用于各个2D图像的互信息。这允许优化的鲁棒且有效的收敛。事实证明，即使部分提取的2D图像质量不佳，也可以提供准确的结果。

该方法可以包括以任何已知的方式来跟踪摄像机的相对姿势，例如基于先前提到的传感器(现代AR***通常基于这种传感器来提供这种功能)。在这种情况下，已知3D模型在不同帧之间的相对姿势。因此，姿势确定可以包括基于所提取的一个或多个2D图像来初始化3D模型的姿势相对于视频通量的值，基于初始化值和相对姿势跟踪来确定姿势的剩余值。结果，该方法可以被限制为确定初始姿势以便知道3D模型的完整姿势，并且因此能够在整个视频通量捕获的整个过程中执行增强。替代地或附加地，在该方法提取多个图像并且确定对于每个此类图像奖励互信息的情况下，姿势确定可以将仅一个2D图像的每个给定候选姿势(例如第一个，按时间顺序)的值视为未知变量，其他图像的姿势的值由变量定义为未知变量和相对姿势跟踪的函数。

摄像机可以拍摄RGB视频通量，或者也可以拍摄灰度视频通量。在最初获取的视频通量是RGB视频通量的情况下，该方法可以可选地包括将视频通量转换成灰度视频通量，使得提取的2D图像是灰度图像。可替代地，该方法可以包括将仅选择的视频帧或仅它们的子部分转换为灰度图像，使得提取的2D图像在这里再次是灰度图像。由于忽略了颜色信息，因此提高了方法的效率(这种忽略在3D模型没有传达正确的颜色信息甚至根本没有颜色信息的情况下(例如，如果它没有纹理)和/或基于阴影的2D渲染的情况，因此即使存在纹理也不会考虑任何纹理)。

现在，该方法考虑表示利用姿势值对3D模型的虚拟2D渲染与对应的2D图像之间的相互依赖性的互信息。术语“虚拟”仅是指该方法不需要输出2D渲染的事实。3D模型的虚拟2D渲染可以包括从姿势值所定义的观点来看的3D模型的逼真的2D图像的任何生成。虚拟2D渲染可以进一步基于摄像机固有参数(如上所述，该摄像机固有参数是该方法预定的或由该方法确定的)。虚拟2D渲染的生成可以包括任何光栅化和/或着色，例如Phong着色器或法线贴图着色器的应用。

如从概率论和信息论领域本身已知的，两个变量的互信息是两个变量之间的相互依赖性的量度。在Cover,T.M.和Thomas,J.A.的教科书(1991年)《信息论的要素》(Wiley编辑)，第2章中详细介绍了这个概念，也通过以下URL可访问的网站找到：https：//en.wikipedia.org/wiki/Mutual_information。本教科书的内容和本网站的内容(在本专利申请的优先权日时)通过引用并入本文，并且通过该方法的姿势确定所奖励的互信息可以如其中所定义，即包括Kullback-Leibler散度。

特别地，互信息可以是从虚拟2D渲染中提取的第一变量和从至少一个2D图像中提取的第二变量之间的互信息，并且第一变量和第二变量可以表示像素值范围上的分布。互信息尤其可以是在这样的像素值范围上的联合分布的互信息(Kullback-Leibler散度)。在特定示例中，像素值域上的分布可以是具有属于预定子范围之一的值的像素的计数。子范围(或“箱”)可以形成每个像素所取值的范围的细分。细分可能是常规的。在实践中，细分可以包括多个箱，这些箱高于5或10，和/或低于100或50，例如大约20。

现在参考图1所示的示例来讨论该方法的可选特征。

该示例的方法包括利用摄像机捕获S10视频通量。然后，该示例的方法包括从视频通量提取S20多张2D图像，每张2D图像表示真实对象。并行地，该示例的方法包括提供S30表示真实对象的3D模型。然后，该示例的方法包括确定S40-S80 3D模型相对于视频通量的姿势。由于在S50处的目标函数包括对每个2D图像的互信息进行奖励的项(例如，前面提到的总和)，因此确定S40-S80对多个2D图像中的每个2D图像的互信息进行奖励。该示例的方法最终包括基于姿势来增加S90视频通量。

除了互信息之外，姿势确定还可以奖励3D模型的一个或多个点在多个2D图像上的投影之间的光一致性(photo-consistency)。除了互信息之外，姿势确定还可以奖励3D模型的3D边缘的投影与至少一个2D图像中的2D边缘之间的匹配。奖励这些进一步的准则可以提高所确定姿势的准确性。在现有技术中将这样的准则(光一致性和边缘匹配)用作确定姿势的唯一和主要的准则。通过使用互信息作为主要统计准则，该方法的姿势确定收敛更快，从而获得了相对准确的结果。然而，示例的方法仍然使用其他准则作为次要准则，以提高效率，但是在第二阶段(在运行了基于互信息的优化之后)。这总体上实现了准确性、鲁棒性和高速性。

光一致性准则可以等同于假设最终姿势必须使得由3D模型的特定3D点在多个2D图像上(根据所述最终姿势)的投影产生的2D点(取决于每个图像对应的3D点的可见性，所有这些存在的2D点)必须在图形上保持一致，这意味着它们必须与呈现相同局部图形特征的2D图像位置相对应。可以通过将至少一个可以旋转不变的图形描述符应用于不同图像的此类2D点，并在2D图像上比较图形描述符的值来测量图形一致性。图形描述符也可以可选地对于亮度变化是不变的和/或可区分的。可以从一个或多个图形描述符的预定集合中选择图形描述符，例如，包括SIFT描述符、FERN描述符和/或(简单地)像素颜色。3D点可以源自以任何方式(例如随机地)执行的3D模型的采样。该方法可以在不同阶段奖励光一致性，并且至少图形描述符在每个这样的阶段可以是不同的。

边缘匹配标准可以等同于假设最终姿势必须使得3D模型的特定3D边缘(根据所述最终姿势)投影在至少一个所提取的2D图像(例如每个所提取的2D图像)的特定2D边缘上。3D边缘可以例如是在每个图像中形成3D模型的廓影的那些边缘(根据所述图像的所述最终姿势的值)。3D模型的廓影是根据姿势的3D模型的轮廓。图像的2D边缘也称为“轮廓”，并且该方法可以以任何已知方式确定轮廓图，例如使用受过训练的神经网络，或通过计算Canny边缘检测结果的倒角图来确定轮廓图。轮廓图可以是轮廓概率图(即，每个像素被分配是轮廓的概率)。

优化可以包括提供S40(预定)数量N个开始姿势，其中N>1(换句话说，用于优化的多个起始点稍后将在S50处运行)。提供S40可以以任何方式执行，稍后将讨论具体实现方式。然后，优化可以包括在目标函数上运行S50(例如，相同的)迭代优化算法(即，优化所述目标函数的算法)N次，每次从一个起始姿势中的相应一个开始，并且每次输出一个相应的最终姿势。实际上，N可以高于10或20和/或低于100或50。

然后，在所示示例中，该方法可以经由S60-S80基于N个最终姿势中的一个来计算(最终)姿势。这可以降低与算法由于局部极值的潜在下降而导致的意外不准确结果相关的风险。特别地，由于手头的问题，优化算法可能是不可微的(该方法例如可以运行Nelder-Mead算法)。这种不可微分会产生上述风险。

计算S60-S80可以包括在N次运行中保持S60a(预定)数量k的优化姿势，其中k<N。换句话说，该方法可以在由S50输出的N个最终姿势中识别出k个最佳结果(例如，最小化目标函数的k个姿势)。在实践中，k可以大于2或3和/或小于20或10。在此阶段可以丢弃其他最终姿势，仅将所选的k个结果输入到修剪S70。可替代地，该方法可以跳过S60，从而将所有N个最终姿势输入到修剪S70。

输入不仅仅是S50输出的最佳最终姿势，可以减少与意外不准确结果相关的风险。如果仅依赖于互信息，则可能会出现这种不准确的结果，这是因为互信息是一种统计量度，因此会产生歧义(例如，在对称的情况下)。步骤S60类似地降低了与意外不准确的结果相关的风险(与将所有N个最终姿势输入到修剪S70相比)，这是由于修剪S70的光一致性准则可能导致意外选择姿势而使关于互信息满意度不足。

计算S60-S80可以包括N个最终姿势的修剪S70，以输出单个姿势(然后输入到步骤S70)。修剪S70显示为与S60分开，但S60可等效地视为修剪的一部分。在所示的示例中，修剪S70在于通过奖励先前描述的光一致性，在由S60输出的k个优化姿势中选择最佳姿势。例如，修剪S70可以在k个优化姿势中选择相对于光一致性准则表现最好的一个姿势。这可以包括对3D模型进行采样，然后评估k个姿势中的每个姿势的光一致性准则(例如，包括为通过采样3D点的投影产生的每个2D点计算任何早先提及的描述符，例如，SIFT描述符)。

然后，计算S60-S80可以包括对由S70输出的姿势进行细化S80，并且细化后的姿势可以被认为是最终确定的姿势，并且被输入到S90以增强视频通量。

细化S80可以奖励较早描述的光一致性(由此再次使用)和/或2D边缘3D边缘匹配，例如这两个准则。细化S80可以例如使全局误差最小化。全局误差可以包括惩罚在3D模型的投影轮廓(例如，在每个2D图像——即2D视图——上的虚拟网格)与所述2D图像中的真实对象的检测到的边缘之间的误差的第一项，和/或惩罚在对应于例如采样的3D点的2D点处跨不同2D图像的描述符值之间的误差的第二项。在如上所述的基于轮廓概率图的边缘匹配奖励的情况下，第一项可以惩罚其上投影有3D边缘(例如，对应于廓影)的2D像素的轮廓概率的低度。在如上所述基于图形描述符的光一致性奖励的情况下，第二项可以惩罚在(例如，采样的)3D点在2D图像上的投影上的图形描述符的值之间的差异。最小化可以是基于梯度的。这提高了效率。在这种情况下，图形描述符可能是可区分的，例如像素颜色。

图2示出了***的示例。

该示例的客户计算机包括连接至内部通信总线1000的中央处理单元(CPU)1010，也连接至总线的随机存取存储器(RAM)1070。客户端计算机还被提供有图形处理单元(GPU)1110，其与连接到总线的视频随机存取存储器1100相关联。视频RAM 1100在本领域中也称为帧缓冲器。大容量存储设备控制器1020管理对大容量存储设备(例如硬盘驱动器1030)的访问。适合于有形地体现计算机程序指令和数据的大容量存储设备包括所有形式的非易失性存储器，包括例如半导体存储器设备，例如EPROM，EEPROM和闪存设备；磁盘，例如内部硬盘和可移动磁盘；磁光盘；CD-ROM盘1040。上述任何内容可以通过专门设计的ASIC(专用集成电路)进行补充或合并。网络适配器1050管理对网络1060的访问。客户端计算机还可以包括显示屏1080和摄像机1090。

现在讨论根据图1的示例的方法的实施方式。

该方法的这些实施方式旨在计算采取已知3D对象的不同视图的摄像机的姿势(可能还包括固有参数)。“已知”是指***拥有表示对象的(例如，无纹理的)3D模型(例如，3D网格)。此外，在此假设该方法的实施方式在于增强现实***的上下文中，其中该***知道由摄像机拍摄的不同视图之间的相对姿势。

该方法的实施方式依赖于基于虚拟渲染真实图像之间的互信息的姿势相关能量的定义。该能量在几个姿势中离散化(例如，在汤姆森球上拍摄)。该方法的实施方式优化了该能量以找到最佳的可能姿势。然后，该方法的实施方式通过利用光一致性准则来修剪错误的姿势。最后，该方法的实施方式通过拟合图像边缘来微调姿势。

该方法的实施方式即使在分割不可能或不准确以及对象的纹理未知时也能够计算姿势。此外，由于该方法的实现在多视图框架中结合了互信息方法、光一致性准则和廓影/轮廓匹配，因此它们可以消除歧义并获得更准确的姿势。该方法的实施方式在互信息优化中一次利用所有视图，而不会偏向任何视图。此外，该方法的实施方式利用光一致性准则以及将3D模型的投影廓影匹配到图像中最近的轮廓上来局部地改善姿势。最后，该方法的实施方式不依赖任何数据集/机器学习算法。

令I₁,…,I_n为n个实像，R_i为I₁和I_i之间的已知相对刚性变换(R₁＝Id_3×3)，即从帧I₁到帧I_i的变换。令

为出现在所有视图I₁,…,I_n中的对象的网格。一个目标可能是计算视图I₁中网格

的姿势

其中姿势被定义为具有刚性变换(旋转和平移)的投影的组成。

令T_i(P)为视图I_i的姿势矩阵，由帧I₁的姿势P给出，即，如果P＝KR且投影矩阵为K，则R为从网格帧到I₁帧的刚性变换，那么T_i(P)＝KR_iR。

该方法的实施方式可以包括提供图像I₁的对象所位于的部分。例如，用户可以在其周围绘制边界框。

多视图优化

预处理

首先，该方法的实施方式可以对图像I₁,…,I_n进行预处理以将它们转换为灰度亮度空间。然后，该方法的实施方式可以均衡每个图像的直方图。每个像素颜色是属于[0,255]的一维整数。

一旦所有图像都被转换，该方法的实施方式可以以任何方式对P₁,…,P_N个姿势进行采样。

例如，如果已知所寻找姿势

的近似值

如增强现实中的常见情况，即用户可以在相对于

的近似已知位置拍摄图片I₁，则该方法的实现可以在

周围采样P₁,…,P_N。

例如，如果不知道这种近似值，则该方法的实现可以在网格周围的汤姆森球体上对点进行采样，并将位于球体上一个采样点处并且看向中心的摄像机视作P₁,…,P_N的刚性变换。可以设置汤姆森球体的半径以及摄像机光学平面中的平移，以使投影的边界框

等于对象在图像I₁中的预期位置。

如果已知真实摄像机的固有参数(焦点和主要点)，则该方法的实现方式可以将这些参数用于固有矩阵。如果它们是未知的，则该方法的实现可以将主点初始化为图像的中心，并将焦点初始化为(width+height)/2，其中width和height是图像I₁的宽度和高度。这些固有参数可以与姿势一起优化，或者也可以固定。

互信息定义

令f为将姿势P映射到以姿势P拍摄的网格

的虚拟渲染(彩色或灰度)的函数。例如，该方法的实现可以在f中使用Phong着色器渲染网格

或者也可以使用法线贴图着色器。在这种情况下，每个像素的颜色属于[0,255]³。该方法的实现还可以强加f以产生与真实图像的分辨率相同分辨率的视图。

给定一对图像(J₁,J₂)，并且c₁和c₂是J₁和J₂的通道数，

表示输入图像(J₁,J₂)的多通道颜色分布的联合直方图。即，该方法的实现方式可以将第二图像作为第一图像的附加通道进行串联，并且将一对图像视为具有第一输入图像和第二输入图像两者的通道的新图像。直方图的每个通道中的箱数量可以在2到可能的颜色数量之间。在实践中，该方法的实现可以使用20个箱来获取保持准确的有意义的直方图。这意味着该方法的实现可以将间隔

均匀地划分为

个子间隔，并且对于每个子间隔，该方法的实现都可以计数多通道颜色属于此子间隔的像素数(例如，通过像素总数归一化)(其中，联合图像(J₁,J₂)中的像素的颜色属于

)。

该方法的实现可以将第二图像上的分布H边际化以仅获得图像J₁中的颜色的分布

并且类似地，该方法的实现可以仅考虑图像J₂中的颜色的分布

如果X是遵循联合分布

的随机变量，则

是

的分布，而

是

的分布。

最后，令D为联合分布

的互信息：

这样的互信息是联合分布和J₁和J₂中的边际分布之间的Kullback-Leibler散度。如果J₁和J₂中的颜色分布是独立的，则D(J₁,J₂)＝0，而J₁和J₂中的颜色链接得越多，则互信息就越高。它始终是非负且对称的。当J₂中的颜色是颜色J₁的函数时，则互信息最高，并且等于J₁的熵。

注意，互信息不表征J₁和J₂的颜色之间的线性关系(与相关性不同)。它是一个值，它描述了人们知道J₁中的颜色如何推断J₂的颜色，即J₁和J₂中的颜色的随机相关性。

互信息优化

为了计算最佳姿势

该方法的实现可以最大化虚拟渲染和真实图像之间的互信息。实际上，如果网格

对齐良好，则即使没有简单的仿射变换来匹配虚拟图像和真实图像的颜色空间，虚拟渲染中的颜色也应强烈依赖于真实图像中的颜色，例如该方法的实现可能不知道网格的真实纹理。

这就是为什么该方法的实现可以最大程度地减少以下能量的原因：

为了最小化E₁(P)并避免较差的局部最小值，该方法的实现可以从P₁,…,P_N开始运行N个优化。优化可以用任何算法来完成。在有效的示例中，该方法的实现可以使用Nelder-Mead(例如在稍后讨论的测试实现方式中)。

该方法的实现可以在N次运行中保持k个(在测试实现方式中为k＝5)最佳优化姿势，表示为

这由图3示出。

姿势修剪

从现在开始，该方法的实现可以与原始图像I₁,…,I_n一起使用，而无需任何预处理。

为了在

中选择最佳姿势并避免歧义，该方法的实现可以使用光一致性准则。

令x₁,…,x_m为网格

上m个点的采样，n₁,…,n_m为它们对应的法线。令s(x,I)为一个函数，它将图像I上的2D坐标x映射到局部描述符上，例如(理想情况下)对于照明和取向的变化是不变的。s(x,I)可以和颜色I(x)本身一样简单，或者可以像使用SIFT描述符一样考虑局部邻居，但是也可以使用预训练的神经网络来提取。

最后，令

在I_j中是可见的}。可以简单地通过每个姿势T_j(P)中

的Z缓冲区来计算

令

该方法的实现可以在

中选择最佳姿势作为最小化下式的姿势

其中σ是类似于L2范数的惩罚函数，ρ是加权函数，当该点的法线n_i与摄像机的眼睛向量(由姿势PR_j给出)正交时，使能量权重更低，

是x_i可见的所有图像中描述符的平均值：

表示以此准则找到的

中的最一致的姿势。

这由图4示出。

姿势细化

最后，该方法的实施方式可以通过最小化基于局部颜色的和基于边缘的能量来细化

以增加光一致性并匹配投影的网格

的轮廓与图像中的边缘之间的边缘。

首先，该方法的实现可以将每个图像I_j归一化，例如在投影网格

的域中具有零均值和方差1，以使像素颜色照明不变。可以考虑其他归一化。

令σ为损失，惩罚两个颜色

之间的差异，例如L2范数或

令J_j为I_j边缘的平滑图像(例如，神经网络的预测，Canny边缘检测的倒角图或具有平方距离的倒角图)。令

为M上的投影到视图T_j(P)中

的廓影上的3D点。

该方法的实现可以通过从

开始最小化以下能量来细化姿势

其中

这种最小化可以通过任何可微分的优化来处理，相对于像素在图像中位置的像素颜色的雅可比行列式由Sobel滤镜给出。

图5-6示出了根据图1的方法的经测试实施方式获得的结果，并为该方法的所讨论的实施方式提供公式。

图5示出了包括桌椅的场景的视频通量的2D帧如何能够通过该方法利用其3D模型的投影而被精确地增强。可以看出，桌子在2D帧上的图形表示64与桌子的3D模型62之间的误差相对较小。

图6示出了如何利用与数据库中的咖啡机的3D模型相关联的咖啡机的不同部分的文本描述64使用该方法来精确地增强包括咖啡机62的场景的视频通量。在图6中，还以半透明的方式显示咖啡机的3D模型的投影66，该投影66叠加在图像中的咖啡机的2D视图上。

Claims

1.一种计算机实现的增强现实的方法，以用于增强包括真实对象的真实场景的视频通量，所述方法包括：

-利用摄像机捕获所述视频通量；

-从所述视频通量中提取一个或多个2D图像，每个2D图像表示所述真实对象；

-提供表示所述真实对象的3D模型；

-在候选姿势中确定相对于所述视频通量的、所述3D模型的姿势，所述确定针对至少一个2D图像和每个给定的候选姿势而奖励表示以下各项之间相互依赖的互信息：

o利用所述至少一个2D图像的给定候选姿势的值而对所述3D模型进行的虚拟2D渲染，以及

o所述至少一个2D图像；并且

-基于所述姿势增强所述视频通量。

2.根据权利要求1所述的方法，其中，所述一个或多个2D图像包括多个2D图像，每个2D图像对应于所述视频通量的相应帧，所述确定针对所述多个2D图像中的每个2D图像而奖励所述互信息。

3.根据权利要求2所述的方法，其中，所述确定包括优化包括项的目标函数，每个项针对所述多个2D图像中的相应2D图像而奖励所述互信息。

4.根据权利要求3所述的方法，其中，所述目标函数是所述项的和。

5.根据权利要求4所述的方法，其中，每个项等于所述相应2D图像的互信息。

6.根据权利要求3、4或5所述的方法，其中：

所述优化包括：

-提供N个起始姿势，其中N>1；并且

-在所述目标函数上运行N次不可微分的迭代优化算法，每次从所述起始姿势中的相应一个开始并输出相应最终姿势；并且

所述确定包括：

-基于N个最终姿势之一计算姿势。

7.根据权利要求2至6中任一项所述的方法，其中，所述确定还奖励所述3D模型的一个或多个点在所述多个2D图像上的投影之间的光一致性。

8.根据权利要求7所述的方法，其中，所述确定包括：

-在计算中，执行对所述光一致性的所述奖励并输出所述N个最终姿势之一的修剪；和/或

-在优化之后，执行对所述光一致性的所述奖励的细化。

9.根据权利要求1至8中任一项所述的方法，其中，所述确定还奖励所述3D模型的3D边缘的投影与至少一个2D图像中的2D边缘之间的匹配，所述细化可选地执行对所述匹配的所述奖励。

10.根据权利要求9所述的方法，其中，针对所述至少一个图像的每个相应图像，所述3D边缘在相应图像中形成所述3D模型的廓影。

11.根据权利要求1至10中任一项所述的方法，其中，所述互信息是以下各项之间的互信息：

-从所述虚拟2D渲染中提取的第一变量，以及

-从所述至少一个2D图像中提取的第二变量，

所述第一变量和所述第二变量表示像素值范围上的分布。

12.根据权利要求11所述的方法，其中，所述像素值域上的所述分布是具有属于预定子范围之一的值的像素的计数。

13.一种计算机程序，包括用于执行根据权利要求1至12中任一项所述的方法的指令。

14.一种计算机可读存储介质，其上记录有根据权利要求13所述的计算机程序。

15.一种***，包括耦合到存储器的处理器，所述存储器在其上记录有根据权利要求13所述的计算机程序。