CN105264567A

CN105264567A - 用于图像稳定化的图像融合方法

Info

Publication number: CN105264567A
Application number: CN201480032024.3A
Authority: CN
Inventors: M·蒂考; 周剑平; S·A·纳里亚尼; R·托伏特; P·休布尔; 孙伟
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2013-06-06
Filing date: 2014-05-06
Publication date: 2016-01-20
Anticipated expiration: 2034-05-06
Also published as: US20140363087A1; WO2014197154A1; KR20160004379A; KR101743861B1; US9262684B2; CN105264567B

Abstract

本发明描述了一种用于改善图像稳定性操作的***、方法和计算机可读介质。公开了一种用于将一组共同捕获的图像中的非参考图像与预先选择的参考帧融合的新颖方法。该融合方法可通过使用针对鬼影/非鬼影像素的加权平均值来使用软过渡，以避免邻域和几乎相似像素之间的突然过渡。此外，可基于一组相邻像素而不是独立地针对每个像素来进行鬼影/非鬼影决策。替代方法可能涉及使用时间融合、时空融合或它们的组合在每个层级处对所有所捕获的图像执行多分辨率分解，以及组合不同层级以生成输出图像。

Description

用于图像稳定化的图像融合方法

背景技术

本公开整体涉及数字摄影领域。更具体地，但并非加以限制，本公开涉及静止图像稳定化技术。如本文所使用，图像稳定化是指在图像捕获操作期间用于减少运动诱发的模糊的一系列技术。此类运动可能源自相机、场景中的对象或两者的运动。

在低环境光条件下拍摄高质量照片，或者拍摄动态场景(例如，体育比赛场景)是有挑战性的，这是因为在图像捕获期间的相机运动和/或场景内的对象的运动。减少运动模糊而不放大图像噪声的一种方式是捕获并融合场景的多个短曝光图像。此类操作常常被称为“静止图像稳定化”。尽管缩短图像曝光时间可减少运动模糊伪影，但这样做的代价是图像噪声更大和/或图像更暗。

图像稳定化的一般方法由如下方面构成：(1)从一组多个短曝光图像选择参考图像，(2)相对于参考图像来全局地配准所有非参考图像，以及(3)通过将所有所捕获的图像融合为参考图像来合成输出图像。通过这种方式，输出图像代表了捕获参考图像时的场景的样子，其中使用非参考图像通过对所有图像间的每个参考像素的多次观察进行平均/合并来减少参考图像中的噪声。

通过将所有所配准的非参考图像融合为参考图像来合成输出图像的一般方法是对图像直接求平均值。直接求平均值将减少图像中的静态区域中的噪声，但也将引入鬼影伪影。由于场景中的对象移动而在一些非参考图像中遮蔽参考图像中的一些像素时常常发生鬼影伪影。在所捕获的图像之间存在运动时，在直接对图像求平均值时，在最终的输出中可能存在明显的鬼影伪影。图1中示出此类鬼影伪影的效应的实例。图1示出了对全局配准的图像直接求平均值的所得输出。从图1中可以看出，在对图像求直接平均值时，存在明显的鬼影伪影。

避免鬼影伪影的一种方式是对遮蔽和噪声进行区分并拒绝融合所有被遮蔽区域的融合流程。这可通过拒绝对与其对应参考像素相比具有非常不同的值的所有非参考像素求平均值来实现。确定可接受差异的一种方式是基于特定像素中的预计噪声来对其进行计算。一旦已确定接受阈值，便可从求平均值过程中排除与其对应参考像素差异超过这个阈值的非参考像素。

然而，使用针对鬼影/非鬼影像素分类而设置的阈值自身可能导致图像伪影，尤其是在存在严重噪声的情况下，这对于图像稳定化而言可能是一种典型情况。这是因为接受阈值是可能具有一定失败比例的统计估计值。相邻像素可能容易落在阈值的一侧或另一侧，从而导致在鬼影像素/非鬼影(即，更大噪声/更清洁)像素之间产生突然的过渡。因此，可改进当前使用的融合方法。

发明内容

在一个实施例中，提供了一种将所捕获的参考图像与所捕获的非参考图像融合的方法。该方法包括获取在第一时间处所捕获的场景的第一图像，其中该图像具有多个像素，并且在第二时间处获取场景的第二图像，其中第一图像中的多个像素中的每个像素在第二图像中具有对应像素。该方法然后可涉及从第一图像选择第一像素，并且针对第二图像中的第一像素的对应像素来确定非二元权重值。然后可使用非二元权重值来将第一像素及其来自第二图像的对应像素组合以获取第一融合像素。可重复该过程以针对第一图像中的多个其他像素中的每个像素进行选择、确定和组合以获取融合图像。

在另一个实施例中，提供了一种用于将所捕获的参考图像与所捕获的非参考图像融合的替代方法。根据这种方法的一种方法包括获取在第一时间处所捕获的场景的第一图像，其中第一图像具有多个像素，然后在第二时间处获取场景的第二图像，其中第一图像中的多个像素中的每个像素在第二图像中具有对应像素。然后可确定第一像素在第二图像中的对应像素的非二元权重值。在非二元权重值大于指定阈值时，该方法然后可将第一像素以及其来自第二图像的对应像素组合，以获取第一融合像素。在非二元权重值小于或等于指定阈值时，可不将第一像素及其来自第二图像的对应像素组合。然后可重复该过程以针对第一图像中的多个其他像素中的每个像素进行选择、确定和组合，以获取融合图像。

在又一个实施例中，可通过替代方式将拍所捕获的参考图像与所捕获的非参考图像融合，以获取融合图像。这种方法涉及获取在第一时间处所捕获的场景的第一图像，其中第一图像具有多个像素，然后获取在第二时间处所捕获的场景的第二图像，其中第二图像具有多个像素，并且第二图像中的每个像素在第一图像中具有对应像素。然后可生成第一图像的多层级金字塔表示，其中多层级金字塔的顶部层级包括第一图像的低分辨率表示，并且第一多层级金字塔的基本级包括第一图像的高分辨率表示，并且其中顶部层级和基本级之间的每个层级包括与该层级的分辨率对应的第一图像的高空间频率表示。该方法然后可生成第二图像的多层级金字塔表示，其中第二多层级金字塔的顶部层级包括第二图像的低分辨率表示，并且第二多层级金字塔的基本级包括第二图像的高分辨率表示，并且其中顶部层级和基本级之间的每个层级在第一图像的多层级金字塔表示中具有对应层级。该方法然后可通过针对场景的第一多层级金字塔表示中的层级中的每一组像素来识别场景的第二多层级金字塔表示中的对应的一组像素以及将来自场景的第一层级金字塔表示和第二多层级金字塔表示的所识别的一组像素融合，针对场景的第一层级金字塔表示和第二多层级金字塔表示中的每个层级来生成场景的输出多层级金字塔表示中的层级。最后，通过组合场景的输出多层级金字塔表示可生成表示场景的输出图像并将其存储在存储器中。

在又一个实施例中，可通过另一种方式将所捕获的参考图像与所捕获的非参考图像融合，以获取融合图像。这种方法涉及获取在第一时间处所捕获的场景的第一图像，其中第一图像具有多个像素，然后对第一图像执行多分辨率分解，以生成第一图像的第一多层级金字塔表示。然后可获取场景的第二图像，其中所述第二图像在与第一图像不同的时间处被捕获，并且其中第一图像中的所述多个像素中的每个像素在第二图像中具有对应像素。然后可对第二图像执行多分辨率分解，以生成第二图像的第二多层级金字塔表示。该方法然后通过如下方式针对场景的第一层级金字塔表示和第二多层级金字塔表示中的每个层级来生成场景的输出多层级金字塔表示中的层级：从第一图像选择一个或多个像素；针对第二图像中的与第一图像中的一个或多个像素对应的一个或多个像素来确定非二元权重值；以及在非二元权重值大于指定阈值时，将来自第一图像的一个或多个像素及其来自第二图像的对应一个或多个像素组合，以获取第一融合像素；在非二元权重值小于或等于指定阈值时，不将来自第一图像的一个或多个像素及其来自第二图像的对应像素组合。然后重复该过程以针对第一图像的多分辨率分解中的每个层级来生成场景的输出多层级金字塔表示中的层级。可组合场景的输出多层级金字塔表示中的不同层级以生成输出图像。

附图说明

图1示出了根据现有技术的图像融合操作的实例。

图2以流程图形式示出了根据一个实施例的融合操作。

图3示出了根据一个实施例的示例性时间融合操作。

图4示出了根据一个实施例的使用块像素的示例性时间融合操作。

图5示出了根据一个实施例的示例性时空融合操作。

图6以流程图形式示出了根据一个实施例的多分辨率融合操作。

图7示出了根据替代实施例的所捕获的示例性图像序列。

图8A-8B示出了根据又一个替代实施例的通过融合图7的所捕获的图像序列而产生的融合输出图像。

图9示出了根据一个实施例的通过多个分辨率分解而创建的示例性图像。

图10以流程图形式示出了根据一个实施例的多分辨率融合操作。

图11以框图形式示出了根据一个实施例的多功能电子设备。

具体实施方式

本公开涉及一种改善图像稳定性操作的***、方法和计算机可读介质。在一个实施例中，可利用一种用于在一组共同捕获的图像中将配准的非参考图像与参考图像融合的新型方法。融合方法可通过使用针对鬼影像素/非鬼影像素的加权平均值来利用像素间的软过渡，以避免几乎相似的像素的邻居之间的突然过渡。在替代实施例中，可基于一组相邻像素而不是针对每个像素独立地进行鬼影/非鬼影决策。替代方法可能涉及使用一组相邻像素的加权平均值和/或在每个层级处检查所述一组相邻像素以确定在每个层级处融合哪些像素，以及组合不同层级以生成输出图像来对所有所捕获的图像执行多分辨率分解。

在以下描述中，为了解释的目的，阐述了很多具体细节以便提供对发明构思的彻底理解。作为该描述的一部分，本公开的附图中的一些附图以框图形式表示结构和设备，以避免模糊本发明。为了清晰起见，不对实的际具体实施的所有特征进行描述。此外，本公开中所使用的语言已主要被选择用于可读性和指导性目的，并且可能没有被选择为划定或限定本发明的主题，从而诉诸于所必需的权利要求以确定此类发明主题。在本公开中提到“一个实施例”(“oneembodiment”或“anembodiment”)意指包括在本发明的至少一个实施例中的结合该实施例所述的特定特征、结构或特性，并且多次提到“一个实施例”(“oneembodiment”或“anembodiment”)不应被理解为必然地全部参考相同的实施例。

应当理解，在任何实际具体实施的开发中(如在任何开发项目中那样)，必须要作出许多决策以实现开发者的特定目标(如，符合与***和商务相关的约束条件)，并且这些目标可在不同具体实施之间变化。还应当理解，此类开发工作可能是复杂并且耗时的，但尽管如此，对于在受益于本公开而设计和实施图像稳定性***的那些普通技术人员而言，这仍然是他们的日常工作。

图像稳定化的一种新型方法涉及通过将配准的非参考图像与参考图像进行时间融合来产生输出图像。参考图2，在根据这种方法的一个实施例中，图像稳定性操作200在接收到图像序列R时开始(框205)。典型图像稳定性操作中的第一步骤中的一个第一步骤是在序列中选择图像中的一个图像作为参考图像(框210)。在该领域中已知用于选择参考图像的多种方法。与本专利申请同时提交并且题为“ReferenceFrameSelectionforStillImageStabilization”的申请号未知的美国专利申请描述了一种这样的方法，该专利申请全文以引用方式并入本文。在选择参考图像之后，可相对于参考图像来对序列中的剩余图像进行全局配准(框215)。在与本专利申请同时提交并且全文以引用方式并入本文的题为“ImageRegistrationMethodsforStillImageStabilization”的美国专利申请中论述了用于相对于参考图像来全局配准非参考图像的一种方法。

一旦对非参考图像进行了全局配准，图像序列中的所有图像中的对应像素可具有相同的空间坐标(x,y)。因为图像是在不同时刻获得的，所以每个像素可通过代表时间的第三坐标来表示，该第三坐标仅仅对应于图像索引(x,y,t)。例如，像素(x,y,3)可代表位于第三图像中的空间坐标(x,y)处的像素。

时间融合涉及连同其时间维度来一起融合像素。在图3中示出了这一点，其中线305代表参考图像，并且线310、315和320中的每条线代表图像序列中的一个经配准的非参考图像。为了简单起见，仅示出了被表示为s的一个空间坐标。水平轴代表其时间坐标，沿着该水平轴可放置所接收的帧。像素325代表参考图像中的需要与非参考图像中的对应像素融合的像素。可以看出，在时间融合中，可将当前像素与所有图像中的具有相同空间坐标的像素融合。因此，在图3中，像素325可与像素330、335和340融合。

有时由于场景中的对象移动，可排除与参考图像像素对应的非参考图像像素。如上所述，将此类像素与参考像素融合可能导致鬼影伪影。为了防止最终输出图像中存在鬼影伪影，时间融合操作200(参考图2)可决定非参考图像中的像素是否为鬼影。这可通过将非参考图像中的每个像素与参考图像中的对应像素进行比较(框220)以确定两个像素之间的相似性来完成。

然而，并非基于像素相似性来进行硬鬼影/非鬼影决策，该操作可针对每个非参考像素来计算加权函数(框225)。在一个实施例中，该加权函数可具有介于0和1之间的值。权重1可对应于非鬼影像素，并且权重0对应于鬼影像素。

在一种具体实施中，可通过将每个非参考像素与其在参考图像中的对应像素进行比较来计算权重。在替代实施例中，可基于像素相似值和特定曝光参数处的预期噪声内容来计算权重。如本领域中所已知的，在具体曝光参数下，许多相机针对每个像素具有已知的预期噪声内容。可在计算其权重函数时使用像素的预期噪声内容。可通过基于噪声标准偏差S(x,y)和像素相似值D(x,y)针对像素(x,y)计算权重W(x,y)来这样做。像素相似值可以是像素(x,y)及其对应的参考像素之间的像素差异值。假设在YUV彩色空间中表达图像，对于每个像素，可存在三个像素值差异(Dy,Du,Dv)，以及三个噪声标准偏差(Sy,Su,Sv)。

所使用的具体权重函数可变化，这是设计选择的问题。在一个实施例中，该权重函数可以是高斯函数。在另一个实施例中，该权重函数可以是线性的。等式(1)表示示例性权重函数。

ω_t＝ω_Y*ω_U*ω_V

(1)

其中ω_t代表分配给非参考像素(x,y,t)的权重，ω_Y代表与Y通道对应的权重分量，ω_U代表与U通道对应的权重分量，并且ω_V代表与V通道对应的权重分量。在本实施例中，所计算的权重函数ω_t代表像素(x,y,t)是非鬼影像素的概率。在基于预期噪声内容和像素值差异来计算权重的实施例中，可根据以下方程计算权重参数：

ω_{y} = \exp (K_{y} * (\frac{D_{y}}{S_{y}})^2) - - - (2)

ω_{u} = \exp (K_{u} * (\frac{D_{u}}{S_{u}})^2) - - - (3)

ω_{v} = \exp (K_{v} * (\frac{D_{v}}{S_{v}})^2) - - - (4)

其中(K_y，K_u，K_u)可以是常数，可根据设计偏好来设置该常数的值。

用于确定像素是否是鬼影的替代方法是将像素块彼此进行比较。可针对每个像素(x,y)通过分析中心在(x,y)附近的像素块而不是通过单独分析个体像素来这样做。在图4中示出了实例，其中图像400代表参考图像并且图像420和450代表两个非参考图像。在为了将图像400的像素405与对应像素425和455融合而需要计算权重时，可将中心在像素405附近的块410与块430和460进行比较，块430和450中的每一者的中心在相应非参考图像中的对应像素附近。代替计算个体像素之间的差异，可计算对应块例如块410和块430或块410和块460之间的差异。例如，可通过计算块之间的平均绝对差异(MAD)或均方差异(MSD)来这样做。可根据以下方程来计算MAD：

Σ_{i, j = - 1}^{1} | | y (x_{r} + i, y_{r} + j) - (x_{p} + i, y_{p} + j) | | - - - (5)

其中(x_r，y_r)代表位于非参考图像中的像素的坐标，该非参考图像的状态被确定为鬼影/非鬼影，并且(x_p，y_p)代表位于参考图像中的对应像素的坐标。I和j是跨越每个像素附近的块的汇总索引，并且“||”代表绝对值运算符。一旦根据方程(5)针对块计算了像素差异值，便在如上所述计算权重参数ω_Y,ω_U,ω_V时使用所计算的值。所选择的块的尺寸可变化并且这是设计选择的问题。在一个实施例中，该块可为3×3的。在另一个具体实施中，该块可为5×5的。

再次参考图2，一旦针对每个非参考像素计算了权重，便可以使用所得的值针对输出图像中的对应像素来计算值(框230)。以下方程可用于这种计算：

r (x, y) = \frac{p (x, y, 0) + (Σ_{t} w_{t} p (x, y, t)}{1 + Σ_{t} w_{t}} - - - (6)

其中r(x，y)代表最终输出像素值，p(x，y，t）代表图像t中的空间坐标(x，y)处的像素值，并且w_t是分配给非参考像素(x，y，t)的权重。可假设参考图像具有时间坐标t＝0。

通过使用权重函数而非一组阈值，时间融合操作可提供鬼影像素和非鬼影像素之间的软过渡，从而避免突然过渡和所得的图像伪影。然而，仅考虑所有图像中的具有相同(x,y)空间坐标的像素来限制该过程以仅实现针对每个序列所接收的若干个短曝光图像的良好的噪声去除效果。例如，如果在图像序列中接收到4个图像，可利用其他图像中的最多三个未遮蔽的像素来对参考像素求平均。如果一个或多个图像中的像素为鬼影，则进一步减少可被融合的像素的数量。在这种情况下，发现有更多的像素可供选择，这将显著改善最终输出图像的质量。在一个实施例中，可通过使用本文称为时空融合的操作来这样做。

在一个实施例中，时空融合可能涉及不仅通过融合具有相同空间坐标的像素而且通过融合其他可能像素来扩展时间融合方法。因此，可将参考图像中的像素(x,y)与非参考图像中的具有不同空间坐标的像素进行匹配。在图5中示出了这种情况，其中将来自参考图像505的像素525与非参考图像510、515和520中的每个非参考图像中的多个像素融合。

参考图6，在根据该方法的一个实施例中，图像稳定性操作600在接收到图像序列R时开始(框605)。可从图像序列选择参考图像(框610)，并相对于所选择的参考图像来配准非参考图像(框615)。然后可将非参考图像中的每个像素(x,y)与参考图像中的对应像素进行比较(框620)以针对每个非参考像素来计算权重函数(框625)。一旦计算了权重，便可将其与预先确定的阈值进行比较，以确定该像素是否可能是鬼影(框630)。

可从用于权重的任何可能值中选择预先确定的阈值。在一个实施例中，阈值可等于权重的最大值的10％。因此，如果权重值范围在0和1之间，则阈值可以是0.1。

在一个实施例中，可以与时间融合相似的方式通过将中心在参考图像中的对应像素附近的小图像块与中心在被分析像素附近的类似块进行比较来决定像素是否代表鬼影。

如果在框630处确定权重大于阈值，则可使用时间融合来计算输出图像中的对应像素的值(框635)。如果权重小于阈值从而指示像素可能是鬼影像素，则操作600可以在包含像素(x,y)的图像中执行空间搜索，以找到用于融合的更好的候选者(框640)。在一个实施例中，可通过考虑像素(x,y)的邻域中的所有其他空间位置来执行空间搜索。可通过考虑非参考图像中的空间位置在(x,y)附近特定邻域中的所有像素来这样做。替代实施例涉及仅使用非参考像素中的位于空间坐标(x,y)的特定邻域中的子集。如前面针对时间融合所述的，替代方式可能涉及将中心在参考像素附近的像素块与来自非参考图像的所选择的候选像素中的每个所选择的候选像素周围的对应像素块进行匹配。也可将非参考候选像素的子集从一个参考像素变为另一个参考像素。这意味着在处理新参考像素时，非参考像素候选者的图案可能与处理前一参考像素时使用的图案不同。

不论用于搜索的方法如何，一旦在每个非参考图像中找到用于与参考图像中的对应像素融合的一个或多个像素，便可通过与前面类似的方式来计算所选择的像素的权重(框645)。然后可所使用计算的权重针对输出图像中的对应像素来确定值(框635)。

已发现，以这种方式组合时间融合和空间融合可提高效率，同时还改善了输出图像的质量。这是因为仅在确定像素可能是鬼影时才搜索更好的像素。这意味着与图像中所有像素相比，通常仅针对有限数量的像素执行搜索操作，从而显著改善效率。

上文论述的时间融合和时空融合操作在图像序列中的所有图像相对清晰时效果很好。然而，不能保证图像序列中的所有图像都是清晰的。尽管参考图像一般是清晰的图像，但由于相机或快速对象运动，非参考图像中的一些非参考图像可能是模糊的。通过如前述操作中所述来融合图像，在输出图像中，在任何非参考图像中存在的模糊可能变得不可见。在图7和8中示出了这种情况。

图7示出了图像序列中的四个短曝光图像705、710、715和720，通过根据本公开的图像稳定性操作来处理该图像序列以生成输出图像。可以看出，图像序列中的图像705呈现显著的运动模糊伪影。图8A示出了使用时间融合或时空融合来将图像705、710、715和720融合所得到的输出图像805。可以看出，在最终输出图像805中存在也存在于输入图像705中的模糊。为了避免这个问题，可使用多分辨率融合策略，该多分辨率融合策略以不同方式融合不同频段中的图像，从而有效地消除一些输入图像中存在的模糊区域。

由模糊帧导致的劣化主要表现在图像边缘的邻域中和高频纹理中。相反，在平滑图像区域(例如，低空间频带)中，模糊帧的贡献可能在减少噪声方面是有用的。在一个实施例中，通过在融合低空间频率内容过程中使用模糊帧以及在融合图像边缘或高频纹理过程中排除这些帧时，多分辨率融合方法利用了这一理解。

实施这种方式的一种方式可以是将输入图像中的每个图像分解成不同的空间频段并独立地融合每个此类频段。在不同的频段中进行多分辨率图像分解是现有技术中已知的，并且可通过各种方式来实现。一种流程可以是使用高通金字塔分解算法。另一种方式可以是利用小波分解。其他替代方式也是可能的。

在优选实施例中，可使用高通分解算法。这种算法可能涉及产生原始图像副本的序列，其中以常规步骤降低样本密度和分辨率，以生成多个中等水平的原始图像。为了实现这个目的，可对该图像首先进行低通滤波，然后以预先确定的因子来对其进行下采样，以获取图像的下一个金字塔层级。预先确定的因子可以变化并且这是设计选择的问题。在一个实施例中，预先确定的因子是四。在替代实施例中，预先确定的因子是二。每个所产生的图像的层级的数量也可根据需要和所使用设备的处理能力而变化。在一个实施例中，该层级的数量是四。在替代实施例中，该层级的数量是三。

一旦通过这种方式生成了所有中间层级，便可对每个层级进行上采样并进行低通滤波，以实现与前一层级相同的分辨率并从前一层级减去该结果，以获取在每个层级处的与该分辨率对应的高频段分量。然而，应当指出，一般不能以这种方式来获取来自顶部层级的高频段。在所得的金字塔中，每个层级均小于前一层级并包含该分辨率下的高空间频段。金字塔的顶部层级类似于原始图像的低分辨率版本并包含低空间频段。在图9中示出了这种情况的实例，其包括三个层级905、910和915。顶部层级图像905是该图像的低频表达。各层级从上到下呈现出逐渐升高的分辨率/频率。通过这种方式，可将原始图像分解成不同的空间频段，从而可以将这些频段独立地融合在一起。

一旦针对图像序列(包括参考图像)中的每个图像生成了各个层级，便可通过接收图像序列中的图像中的每个图像的所有层级来开始根据图10的多分辨率融合操作1000(框1005)。然后可选择顶部层级图像进行处理(框1010)，并可在顶部层级处执行时间融合。如上所述，可通过将非参考图像顶部层级处的每个像素与参考图像中的对应像素进行比较(框1015)并针对每个非参考像素计算权重函数来这样做。在针对每个像素来计算权重函数之后，可将该权重与预先确定的阈值进行比较以决定该像素是否为鬼影(框1025)。如果所计算的权重高于预先确定的阈值，则可在针对输出图像顶部层级的对应像素计算值时使用非参考像素(框1045)。

如果权重低于预先确定的阈值，则操作1000可通过在所选择的像素的邻域中执行空间搜索来利用时空技术以找到更好的匹配(框1030)。然后可在用于所选择的像素的对应字段中存储最佳匹配的相对位置或坐标(框1035)。对应字段是指所识别的对应像素的字段。该操作然后可针对最佳匹配的像素计算权重函数(框1040)，并使用这个值来确定输出图像的顶部层级处的对应像素的值(框1045)。

一旦针对顶部层级的所有像素完成处理，该操作便可进行到框1050，以确定是否存在另一层级待处理。如果已处理了所有层级，则各个值可用于该输出图像的所有层级处的像素。然后可合成或组合各个层级以生成最终输出图像(框1060)。可通过在金字塔顶部层级处开始并向上推进(即，上采样和低通滤波)输出层级，然后将其添加到下一输出层级来这样做。可重复这种操作，直到组合了所有层级并且输出图像具有与输入图像相同的分辨率。如果在框1050处确定还有另一个层级，则可更新针对当前层级处的每个所发现的最佳匹配的对应字段(框1055)。可通过考虑预先确定的因子来这样做，每个层级被下采样预先确定的因子，并且对应字段中的位置信息被放大相同因子以匹配下一层级的分辨率。然后可选择下一层级进行处理(框1065)，并在框1015开始重复该过程。然而，对于这个层级而言，可将更新的对应字段用作待在某个地方查找的初始估计值，以找到每个参考像素的对应像素。可重复步骤1005-1055，直到所有层级都经过处理过并根据框1060来生成最终输出图像。

通过这种方式，操作1000从顶部层级(低频段)处开始并且在最高分辨率层级处结束，从而在每个金字塔层级处执行融合。在每个层级处，可使用对应非参考和参考像素之间的相似性以便避免鬼影伪影。在金字塔的顶部层级处，可假设对应像素具有相同的空间坐标。然而，因为由于场景中的对象移动，对应像素在下一层级中不具有相同的空间坐标，对于每个非参考层级，可确定存储每个非参考像素和其对应参考像素之间的空间位移的对应字段。如果权重低于特定阈值，则确定非参考像素可能是鬼影。在这种情况下，可执行其空间位置附近的本地搜索，以便找到与参考像素的更好匹配。然后可在利用其相关联的权重进行融合时使用所找到的最佳匹配，并可保持所找到的最佳匹配相对于参考像素坐标的空间位移。典型地，仅对小百分比的像素需要这样的搜索，因为大部分场景是静态的。这提高了效率，因为该过程仅在需要时才执行搜索。可通过如上所述的块匹配来进行搜索。通过采取这些步骤，方法1000利用所论述的所有三种融合技术(时间、时空和多分辨率)以执行可显著减少或消除噪声和模糊并产生高质量的最终输出图像的有效率的融合操作。

或者，可通过在每个层级处仅使用时间融合来执行多分辨率融合方法。可通过仅使用在所有图像中具有相同空间坐标的那些像素在每个金字塔层级处进行融合来这样做。因此，可将来自每个非参考层级处的单个像素与具有相同空间坐标的对应参考像素(在对应的参考图像层级中)融合。

在替代实施例中，为了获取时空融合的优点，多分辨率融合流程可在每个金字塔层级处使用时空融合。在一个实施例中，可通过在每个金字塔层级处将参考像素与来自每个非参考层级的更多个像素融合来这样做。与参考像素融合的非参考像素的空间坐标可在参考像素坐标附近的特定邻域中。

另一个实施例可利用运动场进行融合。这可通过从金字塔顶部层级开始为每个非参考图像估计运动场来实现。在金字塔的每个层级处，运动场可将待融合的最相似的参考像素和非参考像素相关联。然后可将每个参考像素与来自每个非参考层级的单个像素融合，但根据该层级处的运动场，它们的空间坐标可以不同。

可利用将参考像素与来自任何非参考像素的一个以上像素融合的另一个实施例。非参考像素的空间坐标可在运动场建议的空间坐标附近的特定邻域中。

如本文所使用的，术语“相机”是指包括或结合数字图像捕获功能的任何电子设备。例如，这包括独立的相机(例如，数字SLR相机和“点击式”相机)以及具有嵌入式相机能力的其他电子设备。该后一种类型的实例包括但不限于移动电话、平板电脑和笔记本计算机***以及数字媒体播放器设备。

参考图11，其示出了根据一个实施例的示例性电子装置1100的简化框图。电子装置1100可包括处理器1105、显示器1110、用户界面1115、图形硬件1120、设备传感器1125(例如，接近传感器/环境光传感器、加速度计和/或陀螺仪)、麦克风1130、一个或多个音频编解码器1135、一个或多个扬声器1140、通信电路1145、数字图像捕获单元1150、一个或多个视频编解码器1155、存储器1160、存储装置1165和通信总线1170。例如，电子设备1100可以是数字相机、个人数字助理(PAD)、个人音乐播放器、移动电话、服务器、笔记本电脑、膝上型电脑、台式计算机或平板计算机。更具体地，可在包括设备1100的一些或全部部件的设备上执行所公开的技术。

处理器1105可执行必要的指使得以实施或控制由设备1100所执行的多种功能的操作。处理器1105可例如驱动显示器1110，并可从用户界面1115接收用户输入。用户界面1115可呈现多种形式，诸如按钮、小键盘、转盘、点击式转盘、键盘、显示屏、触摸屏或它们的组合。处理器1105也可例如为片上***诸如存在于移动设备中的那些片上***，并且包括专用图形处理单元(GPU)。处理器1105可基于精简指令集计算机(RISC)架构或复杂指令集计算机(CISC)架构或任何其他合适的架构，并且可包括一个或多个处理内核。图形硬件1120可以是用于处理图形和/或辅助处理器1105以处理图形信息的专用计算硬件。在一个实施例中，图形硬件1120可包括可编程图形处理单元(GPU)。

传感器和相机电路1150可由以下设备至少部分地根据所公开的技术来捕获可能被处理的静态图像和视频图像：一个或多个视频编解码器1155和/或处理器1105和/或图形硬件1120、和/或结合在电路1150内的专用图像处理单元。由此，所捕获的图像可存储在存储器1160和/或存储装置1165中。存储器1160可包括由处理器1105和图形硬件1120使用的一个或多个不同类型的介质以执行设备功能。例如，存储器1160可包括存储器高速缓存、只读存储器(ROM)，和/或随机存取存储器(RAM)。存储装置1165可存储介质(如，音频文件、图像文件和视频文件)、计算机程序指令或软件、偏好信息、设备配置文件信息以及任何其他合适的数据。存储装置1165可包括一个或多个非暂态存储介质，包括例如磁盘(固定盘、软盘和可移除盘)和磁带、光学介质(诸如CD-ROM和数字视频光盘(DVD))、以及半导体存储设备(诸如电可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM))。存储器1160和存储装置1165可用于有形地保持被组织成一个或多个模块并以任何所需的计算机编程语言写编写的计算机程序指令或代码。例如，当由处理器1105执行时，此类计算机程序代码可实现本文所述的操作中的一种或多种操作。

应当理解，以上描述旨在是示例性的而非限制性的。已呈现材料以使得本领域的任何技术人员能够作出并使用本文所述的受权利要求保护的主题，并在特定实施例的上下文中提供该主题，其变化对于本领域的技术人员而言将是显而易见的(例如，可彼此结合使用所公开的实施例中的一些所公开的实施例)。例如，尽管已在处理原始图像或未处理图像的上下文中描述了图1-图11，但这不是必要的。可将根据本公开的图像稳定性操作应用于所捕获的图像的已处理的版本(例如，边缘图)所捕获的图像的亚采样版本。此外，所述操作中的一些操作可使其各个步骤以不同形式或结合本文给出的其他步骤的次序来执行。更一般地，如果有硬件支持，可并行执行结合图1-图11所述的一些操作。

在回顾以上描述时，许多其他的实施例对于本领域的技术人员而言将是显而易见的。因此，应当参考所附权利要求与此权利要求被授权的等同形式的完整范围来确定本发明的范围。在所附权利要求中，术语“包括(including)”和“其中(inwhich)”被用作相应术语“包括(comprising)”和“其中(wherein)”的通俗的英语等同形式。

Claims

1.一种非暂态程序存储设备，所述非暂态程序存储设备可由可编程控制设备读取并且包括在其上存储的指令以使得所述可编程控制设备：

获取在第一时间处所捕获的场景的第一图像，所述第一图像具有多个像素；

对所述第一图像执行多分辨率分解，以生成所述第一图像的第一多层级金字塔表示；

获取所述场景的第二图像，其中所述第二图像在与所述第一图像不同的时间处被捕获，并且其中所述第一图像中的所述多个像素中的每个像素在所述第二图像中具有对应像素；

对所述第二图像执行多分辨率分解，以生成所述第二图像的第二多层级金字塔表示；

根据指令针对所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示中的每个层级来生成所述场景的输出多层级金字塔表示中的层级，所述指令使得所述可编程控制设备：

针对所述场景的所述第一多层级金字塔表示的层级中的一组像素来在所述场景的所述第二多层级金字塔表示中识别对应的一组像素，以及

将来自所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示的所识别的一组像素融合；

重复所述指令以使得所述可编程控制设备针对所述第一图像的所述多分辨率分解中的每个层级来生成所述场景的所述输出多层级金字塔表示中的层级；

组合所述场景的所述输出多层级金字塔表示以生成表示所述场景的单输出图像；以及

在存储器中存储所述输出图像。

2.根据权利要求1所述的非暂态程序存储设备，其中用于使得所述可编程控制设备将来自所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示的所识别的一组像素融合的所述指令包括用于使得所述可编程控制设备执行如下操作的指令：

确定权重值，所述权重值与来自所述场景的所述第一多层级金字塔表示的所述层级中的每一组像素以及来自所述场景的所述第二多层级金字塔表示的所述层级中的对应的一组像素相关联；以及

在所确定的权重值大于指定阈值时，将来自所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示的所识别的一组像素融合，并且在非二元权重值小于或等于所述指定阈值时，不将第一像素及其来自所述第二图像的对应像素组合。

3.根据权利要求2所述的非暂态程序存储设备，其中用于使得所述可编程控制设备确定权重值的所述指令包括用于使得所述可编程控制设备执行如下操作的指令：

比较所述场景的所述第一多层级金字塔表示的所述层级中的一组像素中的每个像素与所述场景的所述第二多层级金字塔表示中的对应的一组像素中的对应像素之间的相似性；

基于所述比较来获取像素相似值；

针对所述场景的所述第一多层级金字塔表示的所述层级中的所述一组像素中的每个像素来获取预期噪声内容；以及

基于所述像素相似值和所述预期噪声内容来计算所述权重值。

4.根据权利要求2所述的非暂态程序存储设备，其中用于使得所述可编程控制设备确定权重值的所述指令进一步包括用于使得所述可编程控制设备执行如下操作的指令：

在所述权重值小于或等于所述指定阈值时，对所述场景的所述第二多层级金字塔表示的所述层级执行空间搜索以找到更好的对应的一组像素；

针对所述更好的对应的一组像素来确定权重值；以及

将来自所述第一多层级金字塔表示的所识别的一组像素与来自所述第二多层级金字塔表示的所述更好的对应的一组像素融合。

5.根据权利要求1所述的非暂态程序存储设备，其中用于使得所述可编程控制设备将来自所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示的所识别的一组像素融合的所述指令包括用于使得所述可编程控制设备执行如下操作的指令：

针对所述第二图像的每个第二多层级金字塔表示来估计运动场，其中所述运动场使来自所述第一图像的像素与来自所述第二图像的像素相关联；以及

将来自所述第一多层级金字塔表示的每个像素与选自所述运动场的像素融合。

6.根据权利要求1所述的非暂态程序存储设备，其中用于使得所述可编程控制设备将来自所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示的所识别的一组像素融合的所述指令包括用于使得所述可编程控制设备将来自所述第一多层级金字塔表示的一个像素与来自所述第二多层级金字塔表示的两个或更多个像素融合的指令，其中所述两个或更多个像素的空间坐标在所述第二多层级金字塔表示中处于与所述一个像素对应的所识别的像素的预先确定的邻域中。

7.根据权利要求1所述的非暂态程序存储设备，其中用于生成所述第一图像的第一多层级金字塔表示的所述指令包括用于使得所述可编程控制设备生成所述第一图像的高通金字塔分解的指令。

8.根据权利要求1所述的非暂态程序存储设备，其中用于生成所述第一图像的第一多层级金字塔表示的所述指令包括用于使得所述可编程控制设备生成所述第一图像的小波分解的指令。

9.一种***，包括：

图像捕获设备；

存储器；和

一个或多个可编程控制设备，所述一个或多个可编程控制设备用于与所述图像捕获设备和所述存储器进行交互并且用于执行操作，所述操作包括：

根据指令针对所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示中的每个层级来生成所述场景的输出多层级金字塔表示中的层级，所述指令使得所述可编程控制设备执行操作，所述操作包括：

在存储器中存储所述输出图像。

10.根据权利要求9所述的***，其中将来自所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示的所识别的一组像素融合包括：

11.根据权利要求10所述的***，其中确定权重值包括：

基于所述比较来获取像素相似值；

针对所述场景的所述第一多层级金字塔表示的所述层级中的所述一组像素来获取预期噪声内容；以及

12.根据权利要求10所述的***，其中确定权重值进一步包括：

针对所述更好的对应的一组像素来确定权重值；以及

13.根据权利要求9所述的***，其中将来自所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示的所识别的一组像素融合包括：

14.根据权利要求9所述的***，其中将来自所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示的所识别的一组像素融合包括将来自所述第一多层级金字塔表示的一个像素与来自所述第二多层级金字塔表示的两个或更多个像素融合，其中所述两个或更多个像素的空间坐标在所述第二多层级金字塔表示中处于与所述一个像素对应的所识别的像素的预先确定的邻域中。

15.一种方法，包括：

针对所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示中的每个层级来生成所述场景的输出多层级金字塔表示中的层级，其中生成所述层级包括：

在存储器中存储所述输出图像。

16.根据权利要求15所述的方法，其中将来自所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示的所识别的所述一组像素融合包括：

在所确定的权重值大于指定阈值时，将来自所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示的所识别的一组像素融合，并且在所述权重值小于或等于所述指定阈值时，不将第一像素及其来自所述第二图像的对应像素组合。

17.根据权利要求16所述的方法，其中确定权重值包括：

基于所述比较来获取像素相似值；

18.根据权利要求16所述的方法，其中确定权重值还包括：

针对所述更好的对应的一组像素来确定权重值；以及

19.根据权利要求15所述的方法，其中将来自所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示的所识别的所述一组像素融合包括：

20.根据权利要求15所述的方法，其中将来自所述场景的所述第一多层级金字塔表示和所述第二多层级金字塔表示的所识别的一组像素融合包括：将来自所述第一多层级金字塔表示的一个像素与来自所述第二多层级金字塔表示的两个或更多个像素融合，其中所述两个或更多个像素的空间坐标在所述第二多层级金字塔表示中处于与所述一个像素对应的所识别的像素的预先确定的邻域中。