CN113454981A

CN113454981A - 用于基于卷积神经网络的多个图像帧的多曝光融合及用于对多个图像帧去模糊的技术

Info

Publication number: CN113454981A
Application number: CN202080015231.3A
Authority: CN
Inventors: 约翰·W·格洛茨巴赫; 胡玉婷; 甄睿文; ***·佩克库克森; 哈米德·R·希克
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-02-18
Filing date: 2020-01-03
Publication date: 2021-09-28
Anticipated expiration: 2040-01-03
Also published as: US11107205B2; CN113454981B; US20200265567A1; WO2020171373A1; EP3871405A1; EP3871405A4

Abstract

一种方法包括使用电子装置的至少一个相机获得场景的多个图像帧。该方法也包括使用卷积神经网络来生成与图像帧相关联的混合图。混合图包含或基于图像帧中的运动测量值和图像帧的不同部分的曝光程度如何的测量值两者。该方法还包括使用图像帧中的至少一些和混合图中的至少一些来生成场景的最终图像。可通过使用混合图中的至少一些来混合图像帧中的至少一些，生成场景的最终图像，并且场景的最终图像可包括由于过曝或欠曝而在图像帧中的至少一个中丢失的图像细节。

Description

用于基于卷积神经网络的多个图像帧的多曝光融合及用于对多个图像帧去模糊的技术

技术领域

本公开总体上涉及图像拍摄***。更具体地，本公开涉及用于基于卷积神经网络的、多个图像帧的多曝光融合以及用于对多个图像帧去模糊的技术。

背景技术

诸如智能电话和平板计算机的许多移动电子装置包括可用于拍摄静态和视频图像的相机。

发明内容

[技术问题]

虽然方便，但是移动电子装置上的相机通常具有许多缺点。例如，移动电子装置上的相机经常拍摄具有欠曝或过曝区域的图像，诸如当拍摄自然场景的图像时。这通常是因为相机中的图像传感器具有有限的动态范围。可能拍摄场景的多个图像帧，然后组合图像帧的“最佳”部分以产生混合图像。然而，从具有不同曝光的一组图像帧产生混合图像是挑战性的过程，尤其是对于动态场景来说。作为另一示例，移动电子装置上的相机在弱光情况下通常具有较差的性能。虽然可能通过增加曝光时间来增加在图像传感器处收集的光的量，但是这也增加了由于物体和相机运动而产生模糊图像的风险。

[问题的解决方案]

本公开提供了用于基于卷积神经网络的、多个图像帧的多曝光融合以及用于对多个图像帧去模糊的技术。

在第一实施方式中，方法包括使用电子装置的至少一个相机获得场景的多个图像帧。该方法还包括使用卷积神经网络来生成与图像帧相关联的混合图。混合图包含或基于(i)图像帧中的运动的测量值和(ii)图像帧的不同部分的曝光程度如何的测量值两者。该方法还包括使用图像帧中的至少一些和混合图中的至少一些来生成场景的最终图像。

在第二实施方式中，电子装置包括至少一个相机和至少一个处理装置。至少一个处理装置配置为使用至少一个相机获得场景的多个图像帧并且使用卷积神经网络来生成与图像帧相关联的混合图。混合图包含或基于(i)图像帧中的运动的测量值和(ii)图像帧的不同部分的曝光程度如何的测量值两者。至少一个处理装置还配置为使用图像帧中的至少一些和混合图中的至少一些来生成场景的最终图像。

在第三实施方式中，非暂时性机器可读介质包含指令，该指令在被执行时使得电子装置的至少一个处理器使用电子装置的至少一个相机获得场景的多个图像帧并且使用卷积神经网络来生成与图像帧相关联的混合图。混合图包含或基于(i)图像帧中的运动的测量值和(ii)图像帧的不同部分的曝光程度如何的测量值两者。介质还包含指令，该指令在被执行时使得至少一个处理器使用图像帧中的至少一些和混合图中的至少一些来生成场景的最终图像。

在第四实施方式中，方法包括使用电子装置的至少一个相机以不同相机曝光拍摄场景的多个图像帧。该方法还包括基于所拍摄的图像帧中的模糊量来确定是否丢弃所拍摄的图像帧中的任何一个。该方法还包括识别所拍摄的图像帧中易于模糊的部分并且混合未被丢弃的图像帧以产生混合图像。此外，该方法包括仅在所识别的部分中执行混合图像的去模糊并且执行混合图像的滤波和运动补偿以生成场景的最终图像。

在第五实施方式中，电子装置包括至少一个相机和配置为执行第四实施方式或其从属权利要求中的任何一个的方法的至少一个处理装置。在第六实施方式中，非暂时性机器可读介质包含指令，该指令在被执行时使得电子装置的至少一个处理器执行第四实施方式或其从属权利要求中的任何一个的方法。

根据以下附图、说明书和权利要求，其他技术特征对于本领域技术人员来说是显而易见的。

附图说明

为了更完整地理解本公开及其优点，现在结合附图参考以下描述，其中相同的附图标记表示相同的部件：

图1示出了根据本公开的包括电子装置的示例性网络配置；

图2示出了根据本公开的用于多个图像帧的多曝光融合的基于卷积神经网络的示例性过程；

图3示出了根据本公开的示例性卷积神经网络架构；

图4和图5示出了根据本公开的用于准备数据以训练卷积神经网络的示例性技术；

图6和图7示出了根据本公开的用于生成合成数据以训练卷积神经网络的示例性技术；

图8示出了根据本公开的用于训练卷积神经网络以用于多个图像帧的多曝光融合的示例性方法；

图9、图10和图11示出了根据本公开的其它示例性卷积神经网络架构；

图12示出了根据本公开的用于使用卷积神经网络架构以用于多个图像帧的多曝光融合的示例性方法；

图13A、图13B和图13C示出了根据本公开的输入到卷积神经网络架构以用于多个图像帧的多曝光融合的示例性图像帧；

图14A、图14B和图14C示出了根据本公开的与图13A、图13B和图13C的图像帧相关联的示例性混合图；

图15示出了根据本公开的使用图13A、图13B和图13C的图像帧以及图14A、图14B和图14C的混合图生成的示例性输出图像；

图16示出了根据本公开的用于对多个图像帧去模糊的示例性过程；

图17示出了根据本公开的用于在图16的过程中执行多曝光多帧去模糊操作的示例性过程；

图18示出了根据本公开的用于在图17的过程中执行参考帧选择操作的示例性过程；

图19、图20、图21、图22和图23示出了根据本公开的用于在图17的过程中执行运动图生成操作的示例性过程；以及

图24示出了根据本公开的用于对多个图像帧去模糊的示例性方法。

具体实施方式

在进行以下详细描述之前，阐述贯穿本专利文件使用的某些词和短语的定义可能是有利的。术语“发送”、“接收”和“通信”以及其派生词涵盖直接通信和间接通信。术语“包括(include)”和“包含(comprise)”以及其派生词意指非限制性地包括。术语“或”是包括性的，意味着和/或。短语“与…相关联”以及其派生词意味着包括、包括在…内、与...互连、包含、包含在…内、连接到或与…连接、联接到或与...联接、可与…通信、与…协作、交织、并列、接近、绑定到或与...绑定、具有、具有...的特性、与…有关系，等等。

此外，下面描述的各种功能可由一个或多个计算机程序来实现或支持，每个计算机程序由计算机可读程序代码形成，并以计算机可读介质实现。术语“应用”和“程序”是指一个或多个计算机程序、软件组件、指令集、过程、函数、对象、类、示例、相关数据或其适于在适合的计算机可读程序代码中实现的部分。短语“计算机可读程序代码”包括任何类型的计算机代码，包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够由计算机访问的任何类型的介质，诸如，只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字视频光盘(DVD)或任何其它类型的存储器。“非暂时性”计算机可读介质排除了有线、无线、光或传输暂时性的电信号或其它信号的其它通信链路。非暂时性计算机可读介质包括可永久存储数据的介质以及可存储数据并随后重写数据的介质，诸如，可重写光盘或可擦除存储装置。

如这里所使用的，诸如“具有”、“可具有”、“包括”或“可包括”特征(如，数字、功能、操作或诸如部件的组件)的术语和短语指示该特征的存在，并且不排除其它特征的存在。此外，如本文所用，短语“A或B”、“A和/或B中的至少一个”或“A和/或B中的一个或多个”可包括A和B的所有可能的组合。例如，“A或B”、“A和B中的至少一个”和“A或B中的至少一个”可指示以下所有：(1)包括至少一个A，(2)包括至少一个B，或(3)包括至少一个A和至少一个B。此外，如这里使用的，术语“第一”和“第二”可对各种组件进行修改而不管重要性，并且不限制组件。这些术语仅用于将一个组件与另一个组件区分开。例如，第一用户装置和第二用户装置可指示彼此不同的用户装置，而不管装置的顺序或重要性。在不背离本公开的范围的情况下，第一组件可被表示为第二组件，反之亦然。

应当理解，当一个元件(诸如，第一元件)被称为(可操作地或通信地)与另一元件(诸如，第二元件)“联接或连接”或者“联接或连接”至“另一元件(诸如，第二元件)”时，该元件可“与”另一元件“直接联接或连接”或“直接联接或连接至”另一元件或者经由第三元件与另一元件”联接或连接“或“联接或连接至”另一元件。相反，应当理解，当元件(诸如，第一元件)被称为“直接”与另一元件(诸如，第二元件)联接或连接”或“直接联接或连接至”另一元件(诸如，第二元件)时，没有其它元件(诸如，第三元件)介于该元件与该另一元件之间。

如这里所使用的，取决于环境，短语“配置(或设置)为”可与短语“适合于”、“具有能力以”、“被设计成”、“适于”、“被制造成”或“能够”互换地使用。短语“配置(或设置)为”本质上并不意味着“具体设计成硬件以”。相反，短语“配置为”可意味着装置可与另一装置或部件一起执行操作。例如，短语“配置(或设置)为执行A、B和C的处理器”可意味着可通过执行存储在存储器装置中的一个或多个软件程序来执行操作的通用处理器(诸如，CPU或应用处理器)，或者用于执行操作的专用处理器(诸如，嵌入式处理器)。

这里所使用的术语和短语仅提供以描述其一些实施方式，但不限制本公开的其它实施方式的范围。应当理解，单数形式“一个”、“一种”和“该”包括复数引用，除非上下文另有明确规定。这里使用的包括技术术语和短语以及科学术语和短语的所有术语和短语，具有与本公开的实施方式所属领域的普通技术人员通常理解的相同的含义。还应当理解，除非在这里明确地如此限定，否则术语和短语(诸如，在常用词典中定义的那些)应当被解释为具有与它们在相关技术的上下文中的含义一致的含义，并且将不以理想化或过分正式的意义来解释。在一些情况下，这里限定的术语和短语可被解释为排除本公开的实施方式。

根据本公开的实施方式的“电子装置”的示例可包括智能电话，平板个人计算机(PC)，移动电话，视频电话，电子书阅读器，台式PC，膝上型计算机，网络书计算机，工作站，个人数字助理(PDA)，便携式多媒体播放器(PMP)、MP3播放器、移动医疗装置，相机或可佩戴装置(诸如，智能眼镜，头戴式装置(HMD)，电子衣服，电子手镯，电子项链，电子配件，电子纹身，智能镜子或智能手表)中的至少一种。在整个本专利文件中提供了某些词语和短语的定义，本领域普通技术人员应当理解，在许多情况下(如果不是大多数情况下)，这种定义适用于这种定义的词和短语的现有的使用以及将来的使用。

本申请中的任何描述都不应被理解为暗示任何特定元素、步骤或功能都是必须包括在权利要求范围内的必要元素。专利权主题的范围仅由权利要求限定。此外，权利要求中的任何一个都不旨在调用35U.S.C.§112(f)，除非确切的词语“用于…的装置”后面跟有分词。在权利要求内使用的任何其它术语(包括但不限于“机构”、“模块”、“装置”、“单元”、“组件”、“元件”、“构件”、“设备”、“机器”、“***”、“处理器”或“控制器”)被申请人理解为是指相关领域的技术人员已知的结构。

参考附图描述下面讨论的图1至图24以及本公开的各种实施方式。然而，应了解，本公开不限于这些实施方式，且对这些实施方式的所有改变和/或等效物或替代也属于本发明的范围。在整个说明书和附图中，相同或相似的附图标记可用于表示相同或相似的元件。

如上所述，许多移动电子装置中的相机具有许多缺点。例如，移动电子装置上的相机通常拍摄具有欠曝或过曝区域的图像，这通常是因为相机中的图像传感器具有有限的动态范围。可拍摄场景的多个图像帧并且然后组合图像帧的部分，这通常由可被合并到被称为“混合图”的标量值权重图中的一组质量/可靠性测量值来指导。然而，从具有不同曝光的一组图像帧产生混合图像是挑战性的过程，尤其是对于动态场景来说。除其他原因之外，这是因为多个图像之间的差异可具有多个源，诸如，电子装置或相机本身的运动、场景内物体的运动、曝光差异和噪声。理想地，其中图像差异仅由曝光差异引起的图像帧被混合。然而，实际上，可能难以有效地区分由运动、曝光差异和噪声引起的图像差异。

作为另一示例，移动电子装置上的相机在弱光情况下通常具有较差的性能。虽然可通过增加曝光时间来增加在相机的图像传感器处收集的光的量，但是这也增加了由于物体和相机运动而产生模糊图像的风险。因此，可使用去模糊算法来尝试反转模糊并恢复场景中的细节。不幸的是，有效地对图像进行去模糊可能是困难的任务，特别是对于动态场景来说。除其他原因之外，这是因为可能很难在动态场景中定位运动，并且一些去模糊算法可能具有诸如振铃之类的问题。虽然可简单地拍摄多个图像并且选择最清晰的一个图像，但是当所有拍摄的图像遭受模糊时或者当不同的图像中不同的区域看起来更清晰时，这种方法不能很好地工作。

本公开提供了用于多个图像帧的多曝光融合的技术和用于对多个图像帧去模糊的技术。为了支持多曝光融合技术，使用基于卷积神经网络的方法来解决由动态场景中的运动物体引起的重影伪像，并且从过曝或欠曝区域恢复图像细节。使用这些技术，可生成不同曝光的低动态范围(LDR)图像帧的混合图。然后，混合图可用于混合图像帧并产生场景的一个或多个最终图像。作为特定示例，卷积神经网络可用于生成与不同图像帧相对应的混合图，其中混合图包括关于图像帧的运动测量值和良好曝光度测量值两者的信息。以这种方式，卷积神经网络可用于减少重影伪像并改善场景的最终图像中的图像细节。这种方法在各种应用中可能是有用的，诸如，高动态范围(HDR)成像、图像混合或静态或动态场景的图像融合。卷积神经网络的使用也可提供更通用、更鲁棒和更可解释的方法，并且可容易地以各种方式改进(诸如，通过涉及语义信息)。

为了支持多帧去模糊技术，几种方法被组合并用于减少场景中的模糊的量。例如，由于(假设噪声是随机的)噪声应该影响不同图像帧中的不同像素，因而拍摄多个图像帧有助于降低噪声水平。此外，如果将较短曝光的图像帧中的一个用作参考帧，则获取具有较短曝光的输入图像帧的子集有助于限制场景的最终图像中的模糊的量。此外，可使用经训练的去模糊网络来进一步降低模糊水平，并且可使用运动补偿噪声滤波来从去模糊降低噪声放大和振铃伪像。以这种方式，即使当场景是动态的时，场景的最终图像也可包括显著更少的模糊。

注意，虽然下面描述的技术通常被描述为使用移动电子装置来执行，但是也可使用其他电子装置来执行或支持这些技术。因此，这些技术可用于各种类型的电子器件中。此外，虽然下面描述的技术经常被描述为当拍摄场景的静态图像时处理图像帧，但是相同或类似的方法可被用于支持视频图像的拍摄。

图1示出了根据本公开的包括电子装置的示例性网络配置100。图1中所示的网络配置100的实施方式仅用于说明。在不背离本公开的范围的情况下，可使用网络配置100的其它实施方式。

根据本公开的实施方式，电子装置101包括在网络配置100中。电子装置101可包括总线110、处理器120、存储器130、输入/输出(I/O)接口150、显示器160、通信接口170或传感器180中的至少一个。在一些实施方式中，电子装置101可排除这些组件中的至少一者或可添加至少一个其它组件。总线110包括用于将组件120-180彼此连接并且用于在组件之间传送通信(诸如，控制消息和/或数据)的电路。

处理器120包括中央处理单元(CPU)、应用处理器(AP)或通信处理器(CP)中的一个或多个。处理器120能够对电子装置101的其它组件中的至少一个执行控制和/或执行与通信相关联的操作或数据处理。在一些实施方式中，处理器120可以是图形处理器单元(GPU)。例如，处理器120可接收在拍摄事件期间由至少一个相机拍摄的图像数据。除此之外，处理器120可使用卷积神经网络来处理图像数据(如下面更详细讨论的)以混合图像帧。处理器120也可或可选地处理图像数据(如下面更详细讨论的)以使用多个图像帧提供去模糊。

存储器130可包括易失性存储器和/或非易失性存储器。例如，存储器130可存储与电子装置101的至少一个其它组件相关联的命令或数据。根据本公开的实施方式，存储器130可存储软件和/或程序140。程序140包括例如核141、中间件143、应用编程接口(API)145和/或应用程序(或“应用”)147。核141、中间件143或API 145的至少一部分可被表示为操作***(OS)。

核141可控制或管理用于执行在其它程序(诸如，中间件143、API 145或应用程序147)中实现的操作或功能的***资源(诸如，总线110、处理器120或存储器130)。核141提供允许中间件143、API 145或应用147访问电子装置101的各个组件以控制或管理***资源的接口。应用147包括如下所述的用于图像拍摄和图像处理的一个或多个应用。这些功能可由单个应用或由各自执行这些功能中的一个或多个的多个应用执行。例如，中间件143可用作允许API 145或应用147与核141通信数据的中继。可提供多个应用147。中间件143能够控制从应用147接收的工作请求，诸如通过将使用电子装置101的***资源(如总线110、处理器120或存储器130)的优先级分配给多个应用147中的至少一个。API 145是允许应用147控制从核141或中间件143提供的功能的接口。例如，API 145包括用于归档控制、窗口控制、图像处理或文本控制的至少一个接口或功能(诸如，命令)。

I/O接口150用作可例如将从用户或其它外部装置输入的命令或数据传送到电子装置101的其它组件的接口。I/O接口150也可向用户或其他外部装置输出从电子装置101的其他组件接收的命令或数据。

显示器160包括例如液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、量子点发光二极管(QLED)显示器、微机电***(MEMS)显示器或电子纸显示器。显示器160还可以是深度感知显示器，诸如，多焦点显示器。显示器160能够向用户显示例如各种内容(诸如，文本、图像、视频、图标或符号)。显示器160可包括触摸屏，并且可接收例如使用电子笔或用户的身体部分的触摸、手势、接近或悬停输入。

例如，通信接口170能够在电子装置101与外部电子装置(诸如，第一电子装置102、第二电子装置104或服务器106)之间建立通信。例如，通信接口170可通过无线或有线通信与网络162或164连接，以与外部电子装置通信。通信接口170可以是有线或无线收发器或用于发送和接收诸如图像的信号的任何其它组件。

电子装置101还包括一个或多个传感器180，该一个或多个传感器180可计量物理量或检测电子装置101的激活状态，并将计量的或检测到的信息转换为电信号。例如，一个或多个传感器180可包括用于触摸输入的一个或多个按钮、一个或多个相机、手势传感器、陀螺仪或陀螺仪传感器、气压传感器、磁传感器或磁力计、加速度传感器或加速度计、握持传感器、接近传感器、颜色传感器(诸如，红绿蓝(RGB)传感器)、生物物理传感器、温度传感器、湿度传感器、照明传感器、紫外(UV)传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、红外(IR)传感器、超声传感器、虹膜传感器或指纹传感器。传感器180也可包括惯性测量单元，该惯性测量单元可包括一个或多个加速度计、陀螺仪和其它组件。传感器180还可包括用于控制这里包括的至少一个传感器的控制电路。这些传感器180中的任何一个都可位于电子装置101内。一个或多个相机可以可选地与至少一个闪光灯190结合使用。闪光灯190表示配置为生成用于电子装置101的图像拍摄的照明的装置，诸如，一个或多个LED。

第一外部电子装置102或第二外部电子装置104可以是可佩戴装置或可安装电子装置的可佩戴装置(诸如，HMD)。当电子装置101安装在电子装置102(诸如，HMD)中时，电子装置101可通过通信接口170与电子装置102通信。电子装置101可直接与电子装置102连接以与电子装置102通信，而不涉及单独的网络。电子装置101也可以是包括一个或多个相机的诸如眼镜的增强现实可佩戴装置。

无线通信能够使用例如长期演进(LTE)、长期演进高级(LTE-A)、第五代无线***(5G)、毫米波或60GHz无线通信、无线USB、码分多址(CDMA)、宽带码分多址(WCDMA)、通用移动电信***(UMTS)、无线宽带(WiBro)或全球移动通信***(GSM)中的至少一个作为蜂窝通信协议。有线连接可包括例如通用串行总线(USB)、高清晰度多媒体接口(HDMI)、推荐的标准232(RS-232)或普通老式电话服务(POTS)中的至少一个。网络162包括至少一个通信网络，诸如，计算机网络(如局域网(LAN)或广域网(WAN))、因特网或电话网络。

第一外部电子装置102和第二外部电子装置104以及服务器106各自可以是与电子装置101相同或不同类型的装置。根据本公开的某些实施方式，服务器106包括一组一个或多个服务器。此外，根据本公开的某些实施方式，在电子装置101上执行的操作中的所有或一些可在另一个或多个其他电子装置(诸如，电子装置102和104或服务器106)上执行。此外，根据本公开的某些实施方式，当电子装置101应当自动或根据请求执行一些功能或服务时，电子装置101可请求另一装置(诸如，电子装置102和104或服务器106)执行与该功能或服务相关联的至少一些功能，而不是独自或附加地执行该功能或服务。其它电子装置(诸如，电子装置102和104或服务器106)能够执行所请求的功能或附加功能，并将执行的结果传送到电子装置101。电子装置101可通过按原样或附加地处理所接收的结果来提供所请求的功能或服务。为此，例如，可使用云计算、分布式计算或客户机-服务器计算技术。虽然图1示出了电子装置101包括通信接口170以经由网络162与外部电子装置104或服务器106通信，但是根据本公开的一些实施方式，电子装置101可在没有单独的通信功能的情况下被独立地操作。

服务器106可以可选地通过执行或支持在电子装置101上实现的操作(或功能)中的至少一个来支持电子装置101。例如，服务器106可包括可支持在电子装置101中实现的处理器120的处理模块或处理器。

虽然图1示出了包括电子装置101的网络配置100的一个示例，但是可对图1进行各种改变。例如，网络配置100可在任何适合的配置中包括任何数量的每个组件。通常，计算和通信***具有多种配置，并且图1不将本公开的范围限制于任何特定配置。此外，虽然图1示出了其中可使用本专利文件中公开的各种特征的一个操作环境，但是这些特征可用在任何其它适合的***中。

图2示出了根据本公开的基于卷积神经网络的用于多个图像帧的多曝光融合的示例性过程200。为了便于解释，图2中所示的过程200被描述为涉及图1的电子装置101的使用。然而，图2中所示的过程200可与任何其它适合的电子装置一起使用，并且可在任何适合的***中使用。

如图2中所示，使用电子装置101的相机拍摄图像帧的组群202。这里，组群202包括至少三个图像帧204、206和208。在一些实施方式中，可使用不同的相机曝光来拍摄图像帧204、206和208中的每个。例如，可使用最短曝光来拍摄图像帧204，可使用最长曝光来拍摄图像帧208，并且可使用最短曝光与最长曝光之间的中间曝光来拍摄图像帧206。然而，注意，可拍摄其它数量的图像帧(包括两个图像帧或多于三个的图像帧)且可使用其它数目的曝光(包括一个或两个曝光或多于三个的曝光)。可在每次曝光时拍摄一个或多个图像帧，并且不需要每次曝光拍摄相等数量的图像帧。而且，不存在任何情况防止所拍摄的图像帧具有共同曝光，而不是不同曝光。

图像帧组群202被提供给图像配准操作210，图像配准操作210通常操作以对准图像帧204、206和208。如果电子装置101在图像拍摄之间移动或旋转并且使得图像帧中的物体稍微移动或旋转(这对于手持装置是常见的)，则可能需要对准。这里，图像帧204、206和208可几何地和光度地对准。图像配准操作210可使用任何适合的技术(包括下面描述的那些技术)来对准图像帧，并且各种对准技术是本领域已知的。

对准图像帧被提供给基于卷积神经网络(CNN)的混合图生成操作212，其通常操作以产生用于对准图像帧的混合图。每个混合图可标识相应的对准图像帧如何与其它图像帧混合以及混合到何种程度。在一些实施方式中，由生成操作212产生的混合图是逐像素混合图，这意味着混合图标识如何在像素级混合对准图像帧。混合图中的每个可基于或表示去重影图和良好曝光度图的复合(诸如，乘积)。去重影图(也称为运动图)通常标识图像帧中出现运动并且应该被去除的区域，由此标识图像帧中的预期运动和噪声水平。良好曝光度图通常标识良好曝光(不是过曝或欠曝)的对准图像帧中的一个对准图像帧的一个或多个区域，这可基于多个因素(诸如，用于拍摄图像帧的曝光)而变化。因此，每个混合图可包含或基于(i)图像帧中的运动的测量值和(ii)图像帧的不同部分曝光程度如何的测量值两者。如下所述，当混合对准图像帧时使用混合图，以减少由场景中的运动物体引起的重影伪像并重新拍摄对准图像帧的过曝部分或欠曝部分的图像细节。

混合图生成操作212可使用任何适合的卷积神经网络来生成混合图。下面描述用于卷积神经网络的各种架构，并且这里可使用用于卷积神经网络的这些架构或者其它适合的架构中的任何一种。这里使用的卷积神经网络通常被训练以基于输入的图像帧生成混合图。例如，在图像混合中，拍摄的图像帧(甚至那些快速拍摄的图像帧，诸如，突发模式)之间的差异通常来自拍摄图像帧的相机的运动、场景中一个或多个物体的运动、曝光差异和噪声。当图像帧的部分中的图像差异由曝光差异或噪声引起时，可混合那些部分以帮助改善那些部分中的图像细节，从而帮助恢复欠曝或过曝区域中的图像细节(即使那些细节诸如由于饱和或遮挡而在原始输入中具有极弱的存在)。对于由场景内的运动物体引起的图像差异，由于混合将导致重影伪像出现在场景的最终图像中，因而可能需要很少的混合或不需要混合。这里使用的卷积神经网络被训练以学习在哪些区域中混合是可接受的(诸如，在图像差异是由于曝光差异引起的区域中)以及在哪些区域中应该拒绝混合(诸如，在图像差异是由于场景中的物体运动引起的区域中)。一旦经过训练，卷积神经网络就可生成混合图以有效地指示运动物体，使得显著减少重影伪像并恢复图像细节。

与需要手动参数调整(诸如，调整平铺尺寸或运动阈值)的常规算法相比，混合图生成操作212更通用、更鲁棒且更可解释。此外，可在没有光流对准的情况下训练混合图生成操作212，光流对准由于遮挡和大运动易于出错。因此，混合图生成操作212本质上有助于避免由错误的光流引起的伪像和失真。如上所述，这种方法适用于各种应用，诸如，动态场景或静态场景的多曝光融合、用于多个恒定曝光图像帧的去重影图的生成、或通过卷积神经网络的适当训练的其它操作。

对准图像帧也被提供给图像合成操作214，图像合成操作214也从混合图生成操作212接收去重影或混合图。图像合成操作214通常操作以从对准图像帧中选择参考图像帧，并且用来自参考图像帧的相应部分替换非参考图像帧的包含运动的部分，或者组合图像帧的那些部分。例如，如果在拍摄图像帧时物体在场景内移动，那么非参考图像帧中包含物体的区域可被参考图像帧中包含物体的相同区域替换或者与参考图像帧中包含物体的相同区域组合。这有助于确保物体在混合发生时不会出现在多个位置中，物体出现在多个位置中将导致重影。在一些实施方式中，图像帧的与运动相关联的部分(其在相关联的去重影或混合图中被标识)可经历α混合操作，或者也可发生其它类型的混合或完全替换。为了保持图像帧之间的曝光差异，可修改参考图像帧的被***非参考图像帧或与非参考图像帧组合的一个或多个部分。例如，可在参考帧上应用直方图匹配，以将参考帧的亮度与每个非参考帧相匹配。理想地，图像合成操作214的输出包括一组图像帧(包括一个或多个合成图像帧)，其中运动区域在所有图像帧中是一致的。

从混合图生成操作212输出的混合图和从图像合成操作214输出的图像帧被提供给图像混合操作216。图像混合操作216通常操作以基于从混合图生成操作212输出的混合图来混合从图像合成操作214输出的图像帧。例如，每个混合图可包括标量值，每个标量值标识将被应用于相关联的图像帧中的相应像素值的权重。图像混合操作216可基于不同图像帧的混合图来对不同图像帧的相同位置中的各个像素进行加权，并组合所加权的像素。在来自图像合成操作214的图像帧的所有像素上重复这一操作导致生成至少一个混合图像帧。然而，注意，存在用于混合图像帧的多种可能技术，以及图像混合操作216可支持用于组合图像帧的任何适合的一种或多种技术。以这种方式，图像混合操作216混合具有不同亮度级的图像帧，以在混合图像帧中获得更高的动态范围。

然后可使用混合图像帧进行任何适合的后处理操作。在该示例中，混合图像帧经历色调映射操作218和噪声滤波和边缘增强操作220。色调映射操作218通常操作以将全局色调映射曲线应用于混合图像帧，以使较暗区域变亮并增加混合图像帧中的图像对比度。噪声滤波和边缘增强操作220通常操作以去除噪声并改善混合图像帧中边缘的外观。用于色调映射、噪声滤波和边缘增强的各种技术在本领域中是已知的。图2中所示的过程200的输出是场景的至少一个最终图像222。最终图像222通常表示处理后的原始图像帧204、206和208的混合。理想地，即使在原始图像帧204、206和208过曝或欠曝的区域中，最终图像222也具有很少的重影伪像或没有重影伪像并且具有改进的图像细节。

虽然图2示出了基于卷积神经网络的用于多个图像帧的多曝光融合的过程200的一个示例，但是可对图2进行各种改变。例如，虽然被示为一序列步骤，但是图2中所示的各种操作可重叠、并行进行、以不同的顺序进行、或者进行任何次数。

图3示出了根据本公开的示例性卷积神经网络架构300。特别地，图3中所示的卷积神经网络架构300表示在图2中所示的过程200的混合图生成操作212中使用的卷积神经网络的一个可能的实现。为了便于解释，图3中所示的卷积神经网络架构300被描述为涉及图1的电子装置101的使用。然而，图3中所示的卷积神经网络架构300可与任何其它适合的电子装置一起使用，并且可在任何适合的***中使用。

如图3中所示，卷积神经网络架构300通常操作以接收输入图像补丁302的组群并产生输出混合图补丁304。图像补丁通常是指图像帧的一小部分，以及混合图补丁通常是指混合图的一小部分。这里，输入图像补丁302被假设为已经通过图像配准操作210对准，这允许卷积神经网络架构300假设由于相机运动引起的差异已经被充分地减小或消除。

卷积神经网络架构300通常表示经常被应用于分析图像的一类深度人工神经网络。在该示例中，使用编码器网络306和相应的解码器网络308形成卷积神经网络架构300。使用多个编码器层形成包括多个卷积层310a-310d和多个池化层312a-312d的编码器网络306。卷积层310a-310d中的每个表示一层卷积神经元，该卷积神经元应用模拟各个神经元对视觉刺激的响应的卷积操作。每个神经元通常对其输入值应用某种函数(通常通过不同地对不同的输入值进行加权)以生成输出值。池化层312a-312d中的每个表示将来自一个卷积层的神经元簇的输出值组合成下一层的输入值的层。这里编码器网络306示出为包括具有四个卷积层310a-310d和四个池化层312a-312d的四个编码器层，虽然编码器网络306可包括不同数量的编码器层、卷积层和池化层。

在一些实施方式中，卷积层310a-310d中的每个可用滤波器组(包含滤波器或核)执行卷积以产生一组特征图。这些特征图可以是批量归一化的，并且可将逐元素整流线性单元(ReLU)函数应用于归一化的特征图值。ReLU函数通常操作以确保其输出值中没有一个是负的，诸如通过选择(对于每个归一化的特征图值)该值或零中的较大值。然后，池化层312a-312d中的每个可利用窗口和两个(非重叠窗口)的步长来执行最大池化，并且对所得到的输出进行二倍子采样。最大池化可用于在输入图像补丁中获得小空间偏移上的平移不变性。子采样为特征图中的每个像素产生一个大的输入图像上下文(空间窗口)。

使用包括多个上采样层314a-314d和多个卷积层316a-316d的多个解码器层形成解码器网络308。上采样层314a-314d中的每个表示对输入特征图进行上采样的层。卷积层316a-316d中的每个表示产生可被批量归一化的密集特征图的可训练的卷积层。这里的解码器网络308被示出为包括具有四个上采样层314a-314d和四个卷积层316a-316d的四个解码器层，虽然解码器网络308可包括不同数量的解码器层、上采样层和卷积层。编码器网络306中的每个编码器层可在解码器网络308中具有对应的解码器层，因此在编码器网络306和解码器网络308中可具有相等数量的层。

卷积层318处理由解码器网络308输出的特征图。例如，卷积层318可执行卷积操作以独立地为输入图像补丁302产生像素级混合图补丁。例如，这允许卷积层318将特征图转换为混合图补丁304。混合图补丁304是像素质量测量值的密集的每像素表示，涉及关于运动程度和良好曝光度的信息。

在一些实施方式中，每个输入图像补丁302包括多个颜色“通道”，颜色“通道”中的每个通常表示包含在相关联的图像补丁302中的一个颜色。例如，数字相机通常支持红色通道、绿色通道和蓝色通道。通过沿着颜色通道级联输入图像补丁302，可增加对卷积层310a的输入的数量。例如，如果存在各自具有N个颜色通道的M个输入图像补丁302，则沿着颜色通道级联输入可产生到卷积层310a的M×N个输入。类似地，卷积层316d可生成具有M×N个加权通道的特征图，并且卷积层318可处理特征图以生成M个混合图补丁304。

在一些实施方式中，卷积神经网络架构300如下操作。编码器网络306中的初始层负责提取场景内容和与场景内容相关联的空间缩减的特征图。这使得能够在输入图像补丁302的大区域上有效地聚集信息。编码器网络306中的后面的层学习合并特征图。解码器网络308的层和卷积层318通过逐渐地对特征图进行上采样来模拟缩减表示的粗略到精细的重构，并将特征图转换为混合图。这允许对编码器网络306丢失的细节进行更可靠的恢复。

应当注意，图3中所示的卷积神经网络架构300可容易地被定制用于不同的应用。例如，输入图像补丁302的尺寸可变化并且具有任何适合的值，诸如，360像素乘480像素、256像素乘256像素、或200像素乘200像素。此外，卷积层310a-310d和卷积层316a-316b内的核尺寸可变化并具有任何适合的值，诸如，7×7、5×5或3×3。卷积层318内的核尺寸通常可具有1×1的核尺寸，虽然这也可根据需要或期望而变化。此外，在卷积层310a-310d和卷积层316a-316b内使用的步长可变化并且具有任何适合的值，诸如，一或二。此外，编码器网络306和解码器网络308中的层的数量可变化并且具有任何适合的值，诸如，各自具有在四层与八层之间的层。可选择卷积神经网络架构300的这些参数中的任何参数或所有参数，以最优地满足应用对性能和计算成本的要求。

此外，可以以各种方式压缩和加速卷积神经网络架构300的操作，用于实时应用。例如，可使用参数剪裁和参数共享来去除参数中的冗余。作为另一示例，可使用低秩因子分解来估计基于学习的模型中的信息参数。作为第三个示例，可通过设计特殊的结构卷积滤波器来转移或压缩卷积滤波器的使用以减少存储和计算的复杂性。

虽然图3示出了卷积神经网络架构300的一个示例，但是可对图3进行各种改变。例如，在卷积神经网络架构300中不存在全连接层，因此这里的卷积神经网络架构300仅仅是卷积的。可使用卷积神经网络架构的其它实现，诸如在Unet、SegNet、FlowNet和FlowNet2架构上建模的设计。这些架构支持编码器层与解码器层之间的各种连接(诸如，下面描述的那些)，或者可通过使用丢弃操作、正则项或数据增强来改进架构，以避免过拟合。

卷积神经网络的训练通常需要使用大量的训练实例。为了支持基于卷积神经网络的、多个图像帧的多曝光融合，每个训练实例可包括动态场景(或其它场景)的一组LDR图像帧以及与图像帧相关联的“地面真实(ground truth)”混合图。地面真实混合图通常是指被假设为有效的并且可与卷积神经网络的输出进行比较以确定卷积神经网络是否被正确配置的混合图。训练的目标是调整卷积神经网络，使得当给定LDR图像帧的补丁时，卷积神经网络产生与地面真实混合图相匹配的输出混合图补丁。然而，由于现有数据集通常缺少地面真实混合图、从静态场景拍摄、具有少量仅具有刚性运动的场景或者仅是端对端HDR成像数据集，因此当前没有适用于该训练问题的现有相关数据集。为了克服这些问题，可使用以下技术中的一者或两者来生成用于配置卷积神经网络的适合数据。然而，注意，也可使用其它技术来训练卷积神经网络。

图4和图5示出了根据本公开的用于准备数据以训练卷积神经网络的示例性技术。为了便于解释，图4和图5中所示的技术被描述为涉及使用图1的电子装置101，该电子装置101使用图3中所示的卷积神经网络架构300来实现图2中所示的过程200。然而，图4和图5中所示的技术可与任何其它适合的电子装置一起使用并且可在任何适合的***中使用，并且图4和图5中所示的技术可与任何其它适合的过程和卷积神经网络架构一起使用。

为了配置这种卷积神经网络，会通常获得图像的数据集并将其用于训练、验证和测试卷积神经网络。在一些实施方式中，数据集可包括数百或数千个图像集。每个图像集通常会包括使用不同相机曝光拍摄的相同场景的多个图像，并且不同的图像集将与不同的场景相关联。例如，可用{-2.0，+0.0，+1.0}的曝光偏差来拍摄每个场景的图像集，虽然也可使用其它相机曝光。在每个图像集中，具有中间曝光值的图像可用作参考图像，虽然不需要总是这种情况。此外，每个集合中的相同场景的图像通常将被预处理以对准该集合中的图像，使得在该集合中的对准图像之间不存在相机运动。数据集中的图像可被划分成训练图像集、验证图像集和测试图像集。正如名称所暗示的，训练图像集用于训练卷积神经网络，诸如通过配置在卷积神经网络中使用的权重或其它值。验证图像集用于验证经训练的卷积神经网络，诸如通过向卷积神经网络提供未用于训练卷积神经网络的输入图像，使得可在多次训练迭代中度量卷积神经网络的操作。测试图像集用于证明经训练和验证的卷积神经网络正在正确运行。作为这种情况的特定示例，可获得260个图像集(每个集合具有使用不同相机曝光拍摄的相同场景的多个图像)并且随机划分，使得训练集包括139个图像集，验证集包括40个图像集，并且测试集包括81个图像集。当然，这里也可使用其它数量的图像。

为了生成用于训练卷积神经网络的更多数据，可进行图4中所示的处理。特别地，图4示出了可在上述训练图像集中使用的图像的集合400的一个示例。这里，集合400包括使用不同相机曝光拍摄的相同场景的三个图像402、404和406。例如，可使用最短曝光来拍摄图像402，可使用最长曝光来拍摄图像406，以及可使用最短曝光与最长曝光之间的中间曝光来拍摄图像404。因为不同的相机曝光，图像402、404和406中的一个或多个中的至少一个区域可能是欠曝的或过曝的。图像402、404和406中的每个可与多个颜色通道相关联，诸如三个颜色通道。注意，虽然这里的集合400包括三个图像402、404和406，但是集合400可包括更多的图像，诸如以相同曝光拍摄的多个图像和/或以不同曝光拍摄的附加图像。

为了增加用于卷积神经网络的训练样本的数量，可从图像402、404和406提取或使用图像402、404和406生成各种图像训练补丁408、410和412。为了生成用于训练的适合数据集，从图像402、404和406中的相同位置提取或剪裁训练补丁408、410和412。因此，训练补丁408、410和412可表示场景的相同部分，但是这些训练补丁是使用不同的相机曝光来拍摄的。

训练补丁408、410和412可具有任何适合的尺寸和形状。例如，在一些实施方式中，图像402、404和406可表示全分辨率图像，诸如以约3000像素乘约4000像素的分辨率拍摄的具有三个颜色通道的图像(虽然这里可使用其它图像)。训练补丁408、410和412可表示图像的显著较小的区域，诸如，360像素乘480像素的区域(虽然这里可使用其它补丁尺寸)。注意，虽然单个训练补丁408、410和412被示出为分别从图像402、404和406生成，但是也可从集合400中的每个图像获得多个训练补丁。在一些实施方式中，例如，可从集合400中的每个图像生成十个图像训练补丁。如果训练集包括如上所述的139个图像集，则这允许生成1390个训练补丁集。还要注意的是，这里的一个总的期望可以是将经训练的卷积神经网络更多地聚焦在图像的挑战性区域上，诸如，包含运动的区域和/或欠曝或过曝的区域。为此，可选择图像训练补丁的位置，使得非参考图像(诸如，图像402和406)中的补丁覆盖与参考图像(诸如，图像404)中的相同位置相比具有多于指定百分比的欠曝或过曝或高运动度的区域。

为了生成用于训练卷积神经网络的更多数据，也可进行图5中所示的处理。具体而言，图5示出了与图4中的图像402、404和406相关联的初始地面真实混合图502、504和506的集合500的一个示例。可以以任何适合的方式为图像402、404和406生成地面真实混合图502、504和506。例如，这里可使用本领域中已知的用于生成混合图的任何适合的技术。可为每个训练数据集中的每个图像生成地面真实混合图。然而，获得地面真实混合图502、504和506，可从地面真实混合图502、504和506提取地面真实训练补丁508、510和512或使用地面真实混合图502、504和506生成地面真实训练补丁508、510和512。

由于地面真实混合图502、504和506以及图像402、404和406被对准，所以分别使用图像402、404和406和地面真实混合图502、504和506的相同部分来生成图像训练补丁408、410和412以及地面真实训练补丁508、510和512。因此，可生成相同数量的图像训练补丁和地面真实训练补丁，并且补丁可具有相同的尺寸和形状。再次注意，虽然单个地面真实训练补丁508、510和512被示为分别从地面真实混合图502、504和506生成，但是也可从集合500中的每个地面真实混合图获得多个地面真实训练补丁。在一些实施方式中，例如，可从集合500中的地面真实混合图中的每个生成十个地面真实训练补丁。如果训练集包括如上所述的139个图像集，则这允许生成1390个地面真实训练补丁集。

此时，根据训练集中的图像的数量和从训练集中的每个图像提取的补丁的数量，可具有足够的数据来训练卷积神经网络，如下所述。如果没有足够的数据，合成图像也可用于补充训练数据以更有效地训练卷积神经网络。图6和7示出了根据本公开的用于生成合成数据以训练卷积神经网络的示例性技术。这些技术可用于生成合成图像训练补丁和合成地面真实训练补丁，合成图像训练补丁和合成地面真实训练补丁然后可用于帮助训练卷积神经网络。

如图6中所示，获得图像的集合600。在该示例中，在集合600中存在三个图像602、604和606，虽然集合600可包括其它数量的图像。图像602、604和606具有相同的场景并且使用不同的相机曝光来拍摄。例如，图像602、604和606可分别用{-2.0，+0.0，+1.0}的曝光偏差来拍摄，虽然也可使用其它相机曝光。在该示例中，场景基本上是静态的或完全是静态的，意味着在场景中具有很少的运动或没有运动。这些图像602、604和606被处理以生成合成图像610、612和614的集合608。为了生成合成图像集608，将扭曲算子616应用到图像602，并将扭曲算子618应用到图像606。每个扭曲算子616和618通常表示具有随机形状和运动矢量的运动物体。当比较图像602和610时，将扭曲算子616应用到图像602创建运动的外观，并且当比较图像606和614时，将扭曲算子618应用到图像606创建运动的外观。因此，可使用静态场景的图像来人工创建运动的外观，从而有效地将静态场景的图像转换为具有已知运动的动态场景的图像。在该示例中，图像604不是使用扭曲算子扭曲的，虽然它可以是。

如图7中所示，一旦生成了合成图像608、610和612中的至少一些，就可处理图像对702和704。每对中的图像702表示静态场景的一个图像(诸如，图像602或606)，并且每对中的图像704表示动态场景的相关联的合成图像(诸如，图像610或614)。如果图像604不被扭曲以产生图像612，则在这里可能不需要处理该图像对。可生成标识由于从图像702到图像704的运动而引起的差异的前向光流图706，并且可生成标识由于从图像704到图像702的运动而引起的差异的后向光流图708。理想地，这些图706和708标识具有相同形状但相反运动矢量的相同运动物体。图706和708可用于生成标识图像702与704之间的运动的地面真实混合图710。再次，这里可使用本领域中已知的用于生成混合图的任何适合的技术。

因为图像602、604和606是从静态场景拍摄的，所以由于图像612不是扭曲的，在图像602与610之间生成的地面真实混合图710也(理想地)表示图像604(即图像612)与图像610之间的相同地面真实混合图710。换句话说，假设忽略所有曝光差异，在图像602与610之间生成的地面真实混合图710理想地是会在图像604(即图像612)与图像610之间生成的相同地面真实混合图710。类似地，因为图像602、604和606是从静态场景拍摄的，所以由于图像612不是扭曲的，在图像606与图像614之间生成的地面真实混合图710也(理想地)表示图像604(即图像612)与图像614之间的相同地面真实混合图710。换句话说，假设忽略所有曝光差异，在图像606与614之间生成的地面真实混合图710理想地是在图像604(即图像612)与图像614之间生成的相同地面真实混合图710。因此，可使用合成图像610、612和614及其相关联的地面真实混合图来生成图像训练补丁和地面真实训练补丁，诸如，以与上述相同的方式。

也可对验证集的图像和地面真实混合图执行这些方法中的一者或两者。例如，假设验证集包括40个图像集，则可使用图4和图5中所示的技术来生成400个附加的图像训练补丁集和相关联的地面真实训练补丁集。如果需要或期望，则这些可由使用图6和图7中所示的技术生成的合成图像训练补丁和相关联的地面真实训练补丁补充。

对于测试集的图像，可将这些图像及其相关联的地面真实混合图划分成图像和地面真实测试补丁。各个图像测试补丁可用作卷积神经网络的输入，并且可在测试期间将卷积神经网络的输出与地面真实测试补丁进行比较。测试补丁可具有与上面生成的训练和验证补丁相同的尺寸和形状，但这不是必需的。在一些实施方式中，每个测试补丁可具有360像素乘480像素的尺寸。基于上述原始图像的特定分辨率，这可允许每个图像生成64个测试补丁，虽然这里可使用其它图像分辨率和其他数量的测试补丁。如果测试集包括如上所述的81个图像集，则这可允许生成5184个测试补丁集。

一旦获得用于训练、验证和测试目的(诸如，通过使用从训练图像集中生成补丁和/或生成合成补丁)的足够的数据集，就训练卷积神经网络。在一些实施方式中，可使用Tensorflow框架来训练卷积神经网络。然而，注意，可使用用于训练卷积神经网络的其它方法。

虽然图4和图5示出了用于准备数据以训练卷积神经网络的技术的示例，并且图6和7示出了用于生成合成数据以训练卷积神经网络的技术的示例，但是可对图4、图5、图6和图7进行各种改变。例如，可使用任何其它适合的技术来处理或生成用于卷积神经网络的图像和训练数据。

图8示出了根据本公开的用于为多个图像帧的多曝光融合训练卷积神经网络的示例性方法800。为了便于解释，图8中所示的方法800被描述为涉及图1的使用图3中所示的卷积神经网络架构300的电子装置101的使用。然而，图8中所示的方法800可与任何其它适合的电子装置一起使用并且可在任何适合的***中使用，并且图8中所示的方法800可与任何其它适合的卷积神经网络架构一起使用。此外，为了便于解释，图8中所示的方法800被描述为使用如上关于图4、图5、图6和图7所述生成的图像训练补丁和地面真实训练补丁。然而，图8中所示的方法800可与任何其它适合的信息一起使用。

如图8中所示，在步骤802处将图像训练补丁提供给卷积神经网络，并且在步骤804处使用卷积神经网络生成输出混合图补丁。这可包括，例如，电子装置(诸如，服务器106)的处理器向卷积神经网络提供图像训练补丁408、410和412，该卷积神经网络生成与图像训练补丁408、410和412相关联的输出混合图补丁。在步骤806处，将输出的混合图补丁同与图像训练补丁相关联的地面真实训练补丁进行比较。这可包括，例如，电子装置的处理器将由卷积神经网络生成的输出混合图补丁与地面真实训练补丁508、510和512进行比较。这也可包括电子装置的处理器标识补丁之间的差异。该差异表示卷积神经网络的输出中的误差。

在步骤808处计算卷积神经网络的损失函数。这可包括，例如，电子装置的处理器基于由卷积神经网络生成的输出混合图补丁与地面真实训练补丁之间的差异来计算损失函数。这里可计算任何适合的损失函数，诸如，L2范数、L1范数、交叉熵或感知损失的损失函数。基于所计算的损失，在步骤810处优化卷积神经网络。这可包括，例如，电子装置的处理器改变卷积层310a-310d、316a-316d、318中使用的权重或卷积神经网络的其它参数。优化的总目标是尝试和减少或最小化损失函数。在一些实施方式中，本领域已知的“Adam”求解器(其从自适应矩估计得到)可用于以0.01的学习速率优化卷积神经网络的权重。然而，这里可使用用于卷积神经网络的其它优化技术和超参数(诸如，学习速率)。

在步骤812处验证神经网络的设计。这可包括，例如，卷积神经网络接收附加图像训练补丁和附加地面真实训练补丁，诸如，使用验证集的图像生成的训练补丁或者合成生成的训练补丁。可将附加图像训练补丁供应给经训练的卷积神经网络，并且可将由卷积神经网络生成的混合图补丁与附加地面真实训练补丁进行比较。通过向经训练的卷积神经网络提供附加的图像训练补丁，这允许使用在训练期间未提供的图像来检查经训练的卷积神经网络的操作，增加了卷积神经网络的模型通用性。

在步骤814处，确定是否需要额外的训练迭代。这可包括，例如，电子装置的处理器确定是否已经进行了指定次数的迭代或者是否已经经过了指定的时间量。这也可包括电子装置的处理器确定为训练或验证确定的损失函数值是否已经收敛于通常稳定和可接受的值。如果进行另一次迭代，则过程返回到步骤802，在此情况下，分析相同的图像训练补丁以确定损失函数是否改善。在特定实施方式中，该过程可在小批量图像补丁(诸如，每批五个图像补丁)上的大量迭代(诸如，约20000次迭代或更多)上执行。

一旦训练迭代结束，则在步骤816处测试经训练和验证的卷积神经网络的操作。这可包括，例如，电子装置的处理器将使用测试集的图像生成的测试图像补丁提供给卷积神经网络。这也可包括电子装置的处理器将来自卷积神经网络的输出混合图补丁与地面真实测试补丁进行比较。基于测试假设卷积神经网络功能正常，则可在步骤818处部署神经网络。这可包括，例如，电子装置的处理器将限定卷积神经网络的权重和其他参数的数据提供给其他装置，诸如，终端用户装置。

使用该过程，可示出使用卷积神经网络获得的训练损失值通常随着训练迭代次数的增加而减小。因此，可示出该过程可用于成功地训练卷积神经网络。此外，可示出，与训练学习曲线相比，验证学习曲线具有类似的趋势，并且收敛到类似的损失值，这是在训练过程中没有发生过拟合的良好指示。

虽然图8示出了用于为多个图像帧的多曝光融合训练卷积神经网络的方法800的一个示例，但是可对图8进行各种改变。例如，虽然被示为一系列步骤，但是图8中的各种步骤可重叠、并行进行、以不同的顺序进行、或者进行任何次数。作为特定的示例，诸如当仅在训练过程的迭代中的一些期间进行验证时，可能不需要在每次迭代中验证卷积神经网络。

如上所述，存在各种类型的卷积神经网络架构，并且图3中所示的架构仅表示可用于图2中所示的过程200的混合图生成操作212中的架构的类型的一个示例。图9、图10和图11示出了根据本公开的其它示例性卷积神经网络架构。

如图9中所示，卷积神经网络架构900可包括编码器网络906和解码器网络908。编码器网络906包括多个编码器层，每个编码器层包括卷积层910和池化层912。解码器网络908包括多个解码器层，每个解码器层包括上采样层914和卷积层916。解码器网络906的输出由产生输出混合图补丁的卷积层918处理。注意，编码器网络306可包括不同数量的编码器层，以及解码器网络308可包括不同数量的解码器层。

在该示例中，卷积神经网络架构900也包括编码器/解码器跳跃连接(skipconnection)920。每个跳跃连接920提供来自编码器网络906的一个编码器层的输出作为到解码器网络908中的相应解码器层的输入。因此，每个跳跃连接920允许将来自编码器网络906中的相关联的编码器层的输出作为输入提供给解码器网络908中的相应解码器层。来自编码器网络906中的相关联的编码器层的输出仍可由编码器网络906的下一层处理。然而，跳跃连接920允许呈现来自相关联的编码器层的输出，而无需对相应的解码器层的进一步处理。注意，虽然这里示出了编码器网络906和解码器网络908的每一级的跳跃连接920，但是其它设计可具有更少的跳跃连接920。

如图10中所示，卷积神经网络架构1000可包括编码器网络1006和解码器网络1008。编码器网络1006包括多个编码器层，每个编码器层包括多个卷积层1010a-1010b和池化层1012。类似地，解码器网络1008包括多个解码器层，每个解码器层包括上采样层1014和多个卷积层1016a-1016b。解码器网络1008的输出由生成输出混合图补丁的卷积层1018处理。

在一些实施方式中，每对卷积层1010a-1010b或1016a-1016b可执行3×3卷积，每个池化层1012可执行2×2最大池化，以及每个上采样层1014可执行2×2上采样。卷积神经网络架构1000也支持编码器网络1006和解码器网络1008中的相应编码器层与解码器层之间的一个或多个跳跃连接1020。这些跳跃连接1020可用于支持各种功能，诸如，复制和裁剪操作。这里所示的卷积神经网络架构1000表示Unet架构的版本。

如图11中所示，卷积神经网络架构1100可包括编码器网络1106和解码器网络1108。编码器网络1106包括两个级的编码器层，其中每个级中的每个编码器层包括卷积层1110a和池化层1112a。两个级的编码器层向相关层1113提供输出。多个附加编码器层处理相关层1113的输出，其中每个附加编码器层包括卷积层1110b和池化层1112b。这里的相关层1113可用于执行由两个级的编码器层生成的特征图之间的乘法补丁比较。来自相关层1113的输出进一步由单个级的编码层处理。解码器网络1108包括多个解码器层，每个解码器层包括上采样层1114和卷积层1116。解码器网络1106的输出由生成输出混合图补丁的卷积层1118处理。

在一些实施方式中，每个池化层1112可执行2×2最大池化，并且每个上采样层1114可执行2×2上采样。卷积神经网络架构1100还支持编码器网络1106和解码器网络1108中的相应层之间的一个或多个跳跃连接1120。这些跳跃连接1120可用于支持各种功能，诸如，级联操作。这里所示的卷积神经网络架构1100表示FlowNet架构的版本。

这里所示的架构900、1000和1100中的任何一个均可用于图2中所示的过程200中的混合图生成操作212中。这是因为这里所示的架构900、1000和1100中的任何一个均可以以与上述相同或类似的方式来训练，以教导卷积神经网络如何基于输入图像补丁来生成混合图补丁。

虽然图9、图10和图11示出了卷积神经网络架构的其它示例，但是可对图9、图10和图11进行各种改变。例如，这些架构中的任何一个或任何其它架构(现在已知的或以后开发的)可被用于图2中所示的过程200的混合图生成操作212中的卷积神经网络。

应当注意，虽然上面将各种操作描述为使用一个或多个电子装置来执行，但是这些操作可以以任何适合的方式来实现。例如，在一些实施方式中，可使用由电子装置101的处理器120执行的一个或多个软件应用或其它软件指令来实现或支持各种操作。在其它实施方式中，可使用专用硬件组件来实现或支持操作中的至少一些。通常，可使用任何适合的硬件或硬件和软件/固件指令的任何适合的组合来执行电子装置的操作。

也应当注意，上面将各种操作描述为使用电子装置101的特定实现来执行，但是可基于正在使用的实际电子装置101来进行多种修改。例如，电子装置101可包括或使用单个相机或多个相机。如果使用单个相机，则可依次拍摄场景的多个图像帧，诸如，在一个或多个快速突发中。如果使用多个相机，则可同时或以重叠的方式拍摄多个图像帧。如果需要，仍然可使用多个相机中的至少一个依次拍摄场景的多个图像帧。假设多个相机的几何形状是提前已知的，则这种几何形状可用于帮助对准由相机拍摄的图像帧或执行其它功能。作为另一示例，本专利文件中描述的技术可诸如在由电子装置101使用的软件库中与传统的高动态范围(HDR)图像处理算法相结合。这可允许电子装置101的用户诸如基于特定的情况或基于用户偏好在不同的图像处理算法或其它算法之间进行选择。作为第三示例，虽然经常被描述为用于处理以不同曝光拍摄的图像，但是这里描述的方法可用于执行其它功能，诸如图像融合或多个恒定曝光图像的混合，或者去重影或良好曝光度图的生成。通常，在给定卷积神经网络的适合的训练的情况下，这里的卷积神经网络可执行各种类型的操作。作为第四示例，电子装置101可使用上述技术来支持场景的静态图像或视频序列的拍摄。

图12示出了根据本公开的使用用于多个图像帧的多曝光融合的卷积神经网络架构的示例性方法1200。为了便于解释，图12中所示的方法1200被描述为涉及图1的电子装置101的使用。然而，图12中所示的方法1200可与任何其它适合的电子装置一起使用并且可在任何适合的***中使用。

如图12中所示，在步骤1202处，使用电子装置拍摄场景的多个图像。这可包括，例如，电子装置101的处理器120接收拍摄请求并使得电子装置101的至少一个相机拍摄场景的图像帧204、206和208。这也可包括电子装置101的处理器120控制相机在拍摄图像时使用不同的曝光。在步骤1204处，图像被对准并且以其它方式被预处理。这可包括，例如，电子装置101的处理器120通过执行图像配准操作210来对准图像帧204、206和208。理想地，从图像配准操作210输出的对准图像不具有由于相机运动而引起的图像差异，虽然实际上由于相机运动(即使当在突发模式中拍摄图像帧204、206和208时)，仍然可能存在一些小的图像差异。

在步骤1206处，使用卷积神经网络生成与对准的图像相关联的混合图。这可包括，例如，电子装置101的处理器120执行混合图生成操作212以通过上述卷积神经网络架构中的一个来馈送对准的图像302。这也可包括卷积神经网络执行卷积、推理和其它操作，以生成对准的图像302的混合图。在一些实施方式中，可针对图像302的每个颜色通道将对准的图像302划分成补丁(诸如，320像素乘480像素补丁)，并且可将补丁输入到卷积神经网络中。然后，卷积神经网络的输出将表示混合图补丁，其可根据需要被组合以产生对准的图像的最终混合图。注意，如果混合图的补丁被简单地级联在一起以形成最终的混合图，则最终的混合图通常可具有示出了混合图补丁在何处被级联的网格图案伪像。为了克服这一点，图像302可被划分成重叠的补丁，并且所得到的混合图补丁可被剪裁和级联或者以其他方式组合以产生无缝的最终混合图。

在步骤1208处，基于对准的图像帧合成图像帧，以从对准图像帧去除运动。这可包括，例如，电子装置101的处理器120执行图像合成操作214以选择参考图像帧，并用参考图像帧中的相应区域替换非参考图像帧中的区域。这也可包括电子装置101的处理器120执行图像合成操作214，以将参考图像帧的曝光与每个非参考图像帧的曝光相匹配，以保持每个合成图像帧中的曝光水平。

在步骤1210处执行合成图像的混合。这可包括，例如，电子装置101的处理器120执行图像混合操作216以根据由卷积神经网络生成的混合图来组合合成图像。每个混合图通常可具有与合成图像中的一个相对应的像素，其中较暗的像素指示更少(或没有)相关联的合成图像正在被混合，以及较亮的像素指示更多(或全部)相关联的合成图像正在被混合。以这种方式，图像混合操作216可基于合成图像中的像素的加权组合来生成混合图像。

在步骤1212处进行混合图像帧的任何期望的后处理。这可包括，例如，电子装置101的处理器120执行色调映射操作218和/或噪声滤波和边缘增强操作220。后处理的输出是场景的最终图像，该最终图像可在步骤1214处被存储、输出或以某种方式使用。这可包括，例如，电子装置101的处理器120在电子装置101的显示器160上显示场景的最终图像。这也可包括电子装置101的处理器120将场景的最终图像保存到存储在电子装置101的存储器130中的相机胶卷。这还可包括电子装置101的处理器120将场景的最终图像附加到要从电子装置101发送的文本消息、电子邮件或其它通信。当然，场景的最终图像可以以任何其它或附加的方式使用。

虽然图12示出了用于使用用于多个图像帧的多曝光融合的卷积神经网络架构的方法1200的一个示例，但是可对图12进行各种改变。例如，虽然被示为一系列步骤，但是图12中的各种步骤可重叠、并行进行、以不同的顺序进行，或者进行任何次数。

现在描述可使用基于卷积神经网络的、多个图像帧的多曝光融合技术获得的结果的一个示例。图13A、图13B和图13C示出了根据本公开的输入到用于多个图像帧的多曝光融合的卷积神经网络架构的示例性图像帧1302、1304和1306。如这里可看到的，场景包括人和物体移动，并且使用不同的曝光来拍摄图像帧(其中，图像帧1302具有最短的曝光，以及图像帧1306具有最长的曝光)。图像帧1302、1304和1306可被划分成被提供给经训练的卷积神经网络的图像补丁。

图14A、图14B和图14C示出了根据本公开的与图13A、图13B和图13C的图像帧相关联的示例性混合图1402、1404和1406。这些混合图1402、1404和1406由经训练的卷积神经网络生成。例如，卷积神经网络可处理表示图像帧1302、1304和1306的图像补丁，并生成相应的混合图补丁。然后可组合混合图补丁以产生混合图1402、1404和1406。如上所述，在一些情况下，可通过将图像帧1302、1304和1306的重叠补丁馈送到卷积神经网络中以产生混合图的重叠补丁来生成混合图1402、1404和1406。然后，混合图的补丁可被剪裁和级联或者以其它方式组合以产生最终的混合图1402、1404和1406。

图15示出了根据本公开的使用图13A、图13B和图13C的图像帧以及图14A、图14B和图14C的混合图生成的示例性输出图像1500。基于上述过程，混合图1402、1404和1406可用于基于图像帧1302、1304和1306混合合成图像，以产生最终输出图像1500。在该示例中，上述过程可用于预测运动正在何处发生，并减少或防止重影伪像的形成，同时帮助从原始图像的过曝区域或欠曝区域恢复图像细节。

虽然图13A、图13B、图13C、图14A、图14B、图14C和图15示出了可通过使用基于卷积神经网络的、多个图像帧的多曝光融合获得的结果的示例，但是可对这些图进行各种改变。例如，这些图仅意在示出可使用本公开中描述的方法获得的结果的类型的一个示例。显然，场景的图像可广泛变化，并且使用本专利文献中描述的方法获得的结果也可根据环境广泛变化。

这里应当注意，上述卷积神经网络被常规地描述为接收输入图像补丁并生成输出混合图补丁。然而，这种情况并不总是必需的。在其它实施方式中，例如，卷积神经网络可接收整个输入图像帧和/或生成整个输出混合图。这里，可训练卷积神经网络以将输入图像帧划分成补丁和/或将混合图补丁组合成输出混合图。在其它实施方式中，可训练卷积神经网络来处理输入图像帧并生成输出混合图，而不使用补丁。

图16示出了根据本公开的用于对多个图像帧去模糊的示例性过程1600。为了便于解释，图16中所示的过程1600被描述为涉及图1的电子装置101的使用。然而，图16中所示的过程1600可与任何其它适合的电子装置一起使用，并且可在任何适合的***中使用。

如图16中所示，过程1600涉及使用至少一个图像传感器1602，图像传感器1602可表示电子装置101的至少一个相机中的一个或多个传感器180。图像传感器1602可用于拍摄预览图像帧和与场景相关联的突发的图像帧。这里可使用任何适合的图像传感器1602。预览图像帧通常被输出到显示器(诸如，电子装置101的显示器160)，使得用户可查看预览图像帧并确定是否以及何时启动突发的图像帧的拍摄。

预览图像帧也被提供给场景分析操作1604，场景分析操作1604通常操作以识别要被用于拍摄场景的图像的基线曝光时间(表示为EV0)。例如，在一些实施方式中，场景分析操作1604可接收自动曝光(AE)算法基于场景的光水平确定的适于场景的曝光时间。AE算法通常选择曝光时间，以试图在亮度方面平衡所拍摄的图像帧(意味着所拍摄的图像帧具有最小限度的欠曝像素和过曝像素)。因此，场景分析操作1604可操作以正好在实际帧拍摄操作发生之前、基于图像传感器的视场中的光水平来识别基线曝光时间。

由场景分析操作1604确定的基线曝光时间被提供给相机曝光控制操作1606，相机曝光控制操作1606通常操作以识别要拍摄的图像帧的数目和当拍摄那些图像帧时要使用的曝光时间。例如，相机曝光控制操作1606可确定图像传感器1602应当以基线曝光时间(EV0)拍摄一个或多个图像帧，以1/2曝光时间(EV-1)拍摄一个或多个图像帧，以1/4曝光时间(EV-2)拍摄一个或多个图像帧，以及以1/8曝光时间(EV-3)拍摄一个或多个图像帧。注意，根据总拍摄时间预算，可以以每次曝光拍摄单个图像帧或多个图像帧，并且可省略上述曝光时间中的一个或多个，或者如果总拍摄时间预算需要或允许的话，添加一个或多个附加曝光时间。也要注意，图像拍摄的顺序不需要以增加或减少曝光时间的顺序进行，并且该顺序可变化以帮助优化处理时间。相机曝光控制操作1606可控制图像传感器1602在拍摄突发时以这些确定的曝光水平拍摄图像帧。图像传感器1602的ISO水平在图像拍摄期间也可以可选地由相机曝光控制操作1606控制，以帮助保持所拍摄的图像的总增益可比。

在突发中由图像传感器1602拍摄的图像被提供给多曝光多帧去模糊操作1608，多曝光多帧去模糊操作1608通常处理所拍摄的图像以产生场景的具有最小限度的模糊或不模糊的至少一个最终图像。如下面更详细描述的，去模糊操作1608通常操作以识别输入图像帧中的运动区域，其中那些运动区域表示由于运动而易于模糊的区域。因为曝光时间随着光水平的降低而增加，所以尤其在低光下，运动区域易于模糊。去模糊操作1608可操作以将参考图像帧与每个非参考图像帧进行比较，并且生成运动图，该运动图标识在何处混合图像帧是安全的，在何处混合图像帧是不安全的，以及在何处可部分混合图像帧。实质上，每个运动图标识更可能属于运动中的物体的像素。如下所述使用该信息来限制在何处应用去模糊算法。下面描述去模糊操作1608的一个示例性实现，虽然也可使用去模糊操作1608的其它实现。

图17示出了根据本公开的用于在图16的过程1600中执行多曝光多帧去模糊操作1608的示例性过程。如图17中所示，去模糊操作1608包括参考帧选择操作1702，参考帧选择操作1702通常操作以选择输入图像帧中的一个作为参考帧。可使用任何适合的标准以从输入图像帧中选择参考帧。在一些实施方式中，参考帧选择操作1702使用锐度度量来对输入的图像帧进行排序，然后选择具有最高锐度分数的图像帧作为参考帧。具有相对较低锐度分数的帧可被完全拒绝，并且可从进一步的处理中省略，以便消除将它们的伪像引入到最终输出图像中的风险。下面描述参考帧选择操作1702的一个示例性实现，虽然也可使用参考帧选择操作1702的其它实现。

几何对准操作1704通常操作以变换非参考图像帧，使得非参考图像帧与所选择的参考图像帧对准。用于执行几何对准的各种技术在本领域中是已知的。在一个示例性技术中，每个图像帧可被划分成片(诸如，四乘四图案中的片)，并且定向FAST和旋转BRIEF(ORB)特征点可位于片中。然后例如通过识别非参考图像帧中的也在参考图像帧的相同片中被识别的特征点来识别这些特征点之间的对应关系，并丢弃不正确的特征点匹配。确定识别如何对非参考图像帧进行变换以使其特征点与参考图像帧的相应特征点对齐的变换矩阵，并将该变换矩阵应用于非参考图像帧。这可对每个非参考图像帧重复。在该操作之后，场景中的包含在非参考图像帧中的所有静止物体应当(理想地)与参考图像帧对准，并且仅运动物体应当处于不同的像素坐标处。

光度对准操作1706通常操作以匹配来自具有不同曝光的输入图像帧的像素值观察结果，使得它们的差异可用作运动的量度。用于执行光度对准的各种技术在本领域中是已知的。在一个示例性技术中，为此目的使用了全局直方图匹配，只要运动像素不是像素总数的大部分，全局直方图匹配对于运动像素就是鲁棒的。这里应该注意，如上所述，图像传感器1602的ISO水平可在图像拍摄期间被调整，以帮助保持所拍摄的图像帧的总增益可比。通过直方图匹配执行的光度对准操作1706也可或可选地用于帮助保持图像帧的总增益可比。将(在不同的曝光下拍摄的)图像帧带到近似相同的亮度水平允许更容易地比较图像帧以检测运动。

运动图生成操作1708通常操作以接收经预处理的图像帧并生成识别由图像帧拍摄的运动的运动图。例如，运动图生成操作1708可将每个非参考图像帧与先前选择的参考图像帧进行比较，以识别两个图像帧不同(诸如，以至少某阈值量或百分比)的位置。运动图生成操作1708的输出包括运动图，运动图在各种图像帧中标识与运动相关联的区域。例如，每个运动图可包括指示未检测到运动的位置的黑色像素和指示检测到运动的位置的白色像素。下面描述运动图生成操作1708的一个示例性实现，虽然也可使用运动图生成操作1708的其它实现。

混合操作1710接收对准图像帧和运动图，并使用该信息生成一个或多个混合图像帧。每个混合图像帧可包括或基于不同图像帧的部分。例如，可通过组合由运动图加权的像素值来形成混合图像帧。实质上，混合允许基于局部运动响应将来自非参考图像帧的内容带入参考图像帧中。部分混合是可能的，这使得运动-无运动转换更易于管理。用于混合多个图像帧的各种技术在本领域中是已知的。

然后可对每个混合图像帧进行一个或多个后处理操作，以便改善混合图像帧。例如，可对混合图像帧进行去模糊操作1712，去模糊操作1712通常操作以减少混合图像帧中的模糊的量。例如，当使用卷积神经网络实现时，可基于已训练去模糊操作1712的示例来减少混合图像帧中的模糊的量。在这里，可针对不同的使用情况采用不同的架构。例如，一些神经网络对所有输入帧执行批处理，并且这种类型的网络可更适合于静态图像应用。顺序架构(诸如，递归神经网络)期望一次一个附加帧并保持时间一致性，这可能更适合于视频应用。这里可使用任何适合的用于执行去模糊的神经网络或其它机制。注意，因为运动图对于去模糊操作1712是可用的，所以去模糊操作1712只需要处理运动图指示运动正在发生的一个或多个区域中的混合图像帧。

由于去模糊趋向于具有噪声放大效果，因此可通过运动补偿噪声滤波操作1714来处理混合图像帧。各种类型的噪声滤波在本领域中是已知的，并且可使用分层运动矢量搜索或某种光流来帮助提供运动补偿的噪声滤波。再次注意，因为运动图对噪声滤波操作1714是可用的，所以噪声滤波操作1714可仅需要处理运动图指示运动正在发生的一个或多个区域中的混合图像帧。噪声滤波操作1714的输出可表示场景的最终图像。

图17中所示的过程可支持各种特征以改善场景的最终图像的生成。例如，使用不同曝光拍摄的多个图像帧的使用可帮助限制场景的最终图像中的模糊的量。此外，在可能的情况下，可通过组合图像帧来降低噪声水平。由于随着每个帧中的噪声水平的增加，区分运动与噪声变得更加困难，因此较短的曝光使得去噪更加困难。具有多个曝光水平有助于这个问题，因为较长的曝光可提供较低噪声样本(即使这些噪声样本在一些区域中模糊)，并且较短的曝光帧提供运动物体的较清晰样本，即使这些样本的总噪声水平较高。作为另一示例，在具有相同曝光水平的多个图像帧中的参考帧选择可使得能够使用具有最小量的模糊的图像帧。由于如果模糊在所有图像帧中是一致的，则可能不能降低模糊水平，因此即使在恒定的物体运动情况下，具有某种较低曝光的图像帧也有助于确保具有较少模糊的图像帧的可用性。此外，所描述的技术通过限制去模糊操作1712的输入处的模糊水平来帮助增加去模糊操作1712的有效性，并且多帧去模糊和运动补偿噪声滤波帮助减少或避免振铃伪像。此外，可使用各种操作的联合控制来帮助改善整体图像质量。例如，多帧去模糊和噪声滤波灵敏度两者都可由来自图像拍摄设置的估计噪声水平来控制，并且这些设置本身可基于场景分析来优化。

图18示出了根据本公开的用于在图17的过程中执行参考帧选择操作1702的示例性过程。特别地，图18示出了可用于计算输入图像帧的锐度分数的示例性机制，其中锐度分数可用于从一组输入图像帧中选择参考图像帧。如图18中所示，下采样函数1802接收输入图像帧，并对图像数据进行下采样以产生下采样图像帧。下采样允许在随后的操作中处理较少的图像数据，这有助于加速随后的操作。可使用任何适合的量的下采样，诸如，通过将数据进行2倍下采样。然而，这里下采样不是必须的。图像数据通过对图像数据进行滤波的高通滤波器1804。高通滤波器1804表示用于对图像数据进行滤波的任何适合的高通滤波器。

逐元素相乘操作1806将滤波后的图像数据中的像素值乘以权重掩膜1808中的值，并且相加和归一化操作1810将相乘的乘积求和，并归一化所得到的和，以产生输入图像帧的锐度分数。权重掩膜1808可基于图像帧中的一个或多个运动物体的物体框坐标。物体框通常是指计算性地围绕场景中的运动物体放置的框，并且由于运动通常导致图像帧中的锐度较低，因此如果滤波后的图像数据中的像素落入物体框内，则可减少滤波后的图像数据中的像素(可能减为零)。场景中的运动的量越大可导致由物体框占据的区域越大，从而导致最终的锐度分数降低。

可对一组输入图像帧中的每个图像帧重复图18中所示的过程。集合中具有最高锐度分数的图像帧可被选择作为参考图像帧，并且集合中的其他图像帧可被视为非参考图像帧。如果图像帧的锐度分数低于某些阈值(与参考图像帧的锐度分数相比)，则也可完全丢弃这些图像帧。这可帮助拒绝其中模糊量太高或者其中在混合中使用将导致模糊的图像帧。

图19、图20、图21、图22和图23示出了根据本公开的用于在图17的过程中执行运动图生成操作1708的示例性过程。如上所述，运动图生成操作1708用于识别由电子装置101拍摄的图像的对准版本中的运动。如图19中所示，运动图生成操作1708通常包括由参考帧块1902和主块1904执行的操作。参考帧块1902接收参考图像帧和非参考图像帧的亮度(Y)值，并为这两个图像帧生成运动乘数(Mot_Mult)。运动乘数控制运动图生成操作1708中的主块1904在拒绝具有高差异的像素作为运动的方面将有多激进。主块1904接收运动乘数、参考图像帧和非参考图像帧的亮度值和参考图像帧和非参考图像帧的色度值(U和V)，以及任何期望的调谐参数(诸如，表示为Sig_Est的噪声水平估计)。噪声水平估计可基于在图像帧的拍摄期间相机的ISO水平。主块1904使用该信息为这两个图像帧生成运动图1906。运动图1906标识这两个图像帧中正在发生运动并且应该被去除的区域，由此标识图像帧中的预期运动和噪声水平。

图20示出了图19中的参考帧块1902的示例性实现。如图20中所示，参考帧块1902包括缩减函数2002和2004。缩减函数2002接收参考图像帧的亮度值Yref并缩减该亮度值以产生缩减亮度值Yref_DS。类似地，缩减函数2004接收非参考图像帧的亮度值Ynonref，并缩减该亮度值以产生缩减亮度值Ynonref_DS。缩减允许在随后的操作中处理较少的数据，这有助于加速随后的操作。可使用任何适合的量的缩减，诸如，通过将数据缩减4倍。然而，这里不一定需要按比缩减。

差值函数2006逐个像素地识别缩减亮度值(或原始亮度值的)之间的差值。差值函数2006输出仅标识图像帧之间的差值的差值图，差值图(理想地)表示图像帧内的运动。例如，差值图可具有指示图像帧像素值之间的小差别的较暗像素和指示图像帧像素值之间的更大差别的较亮像素。直方图函数2008基于差值图生成图量化片内的运动统计量的直方图。

阈值/传递函数2010接收来自直方图函数2008的运动统计量和噪声水平估计Sig_Est。阈值/传递函数2010使用噪声水平估计来识别在图像帧中检测到的差异何时实际上代表图像帧中的运动。阈值/传递函数2010的输出是运动乘数2012。

图21示出了图19中的主块1904的示例性实现。如图21中所示，主块1904包括边缘强度滤波器2102和主子块2104。边缘强度滤波器2102接收参考图像帧的亮度值Yref、噪声水平估计Sig_Est和运动乘数Mot_Mult，并生成由主子块2104使用的范数图。下面描述边缘强度滤波器2102的一个示例性实现，虽然也可使用边缘强度滤波器2102的其它实现。主子块2104接收参考图像帧的亮度和色度值YUVref和非参考图像帧的亮度和色度值YUVnonref以及范数图。主子块2104使用该信息来生成运动图1906。下面描述主子块2104的一个示例性实现，虽然也可使用主子块2104的其它实现。

图22示出了图21中的主块1904的边缘强度滤波器2102的示例性实现。如图22中所示，边缘强度滤波器2102包括缩减函数2202，缩减函数2202接收参考图像帧的亮度值Yref并缩减亮度值以产生缩减的亮度值Yref_DS。这里可使用任何适合的缩减(诸如，缩减4倍)，虽然可能不需要缩减。缩减亮度值Yref_DS通过高通滤波器2204以产生表示场景中的粗略边缘的边缘值(表示为YESF)。边缘值通过低通滤波器2206以产生经滤波的边缘值(表示为FilterESF)，该经滤波的边缘值表示场景中的经平滑的边缘。高通滤波器2204表示用于对像素值进行滤波的任何适合的高通滤波器，诸如，3×3高通滤波器。低通滤波器2206表示用于对像素值进行滤波的任何适合的低通滤波器，诸如，5×5低通滤波器。

经滤波的边缘值被提供给求和/移位/乘法函数2208，求和/移位/乘法函数2208也接收噪声水平估计Sig_Est和运动乘数Mot_Mult。求和/移位/乘法函数2208操作以使用该信息生成范数图，其中范数图用于归一化由于片内的像素差异引起的运动，如下所述。求和/移位/乘法函数2208可以以任何适合的方式使用经滤波的边缘值FilterESF、噪声水平估计Sig_Est和运动乘数Mot_Mult以生成范数图。在一些实施方式中，求和/移位/乘法函数2208通过执行以下计算来生成范数图，虽然也可进行其它适合的计算。

((Sig_Est+FilterESF)*Mot_Mult/4)/16 (1)

图23示出了图19中的主块1904的主子块1104的示例性实现。如图23中所示，主子块1104包括差值函数2302和2304。差值函数2302识别参考图像帧的亮度值Yref与非参考图像帧的亮度值Ynonref之间的差值Ydiff，以及差值函数2304识别参考图像帧的色度值UVref与非参考图像帧的色度值UVnonref之间的差值Udiff和Vdiff。亮度值的差值Ydiff被提供给平均/缩减函数2306，平均/缩减函数2306对亮度值差值的集合进行平均以缩减亮度值差值的尺寸并产生缩减的亮度值差值Ydiff_DS。同样，可在这里使用任何适合的缩减(诸如，缩减4倍)，虽然可能不需要缩减。

求和/加盖(cap)函数2308接收缩减的亮度值差值Ydiff_DS和色度值差值Udiff和Vdiff，并操作以产生标识图像帧之间的差值的差值图。求和/加盖函数2308可以以任何适合的方式使用缩减的亮度值差值Ydiff_DS和色度值差值Udiff和Vdiff来生成差值图。在一些实施方式中，求和/加盖函数2308通过执行以下计算来生成差值图，虽然也可进行其它适合的计算。

Diff＝(Ydiff_DS+(Udiff+Vdiff)/2)2 (2)

Diff_map＝Diff*(Yref<Sat_Thr) (3)

其中，Diff_map表示差值图像素值，以及Sat_Thr表示饱和阈值。

差值图被提供给低通滤波器(LPF)/除法函数2310，低通滤波器(LPF)/除法函数2310也接收范数图和两个标量值。一个标量值表示参考权重Ref_weight，以及另外一个标量值表示权重乘数W_mult。低通滤波器/除法函数2310使用差值图、范数图和标量值来生成标识图像帧中正在发生运动的区域的运动图。低通滤波器/除法函数2310可以以任何适合的方式使用差值图、范数图和标量值来生成运动图。在一些实施方式中，低通滤波器/除法函数2310通过计算以下内容来生成运动图，虽然也可进行其它适合的计算。

Filt_Mot＝LPF(Diff_map)/Norm_map (4)

Deghost_map＝Ref_weight-min(Ref_weight，Filt_Mot*W_mult) (5)

其中，Deghost_map表示运动图像素值，以及LPF()表示滤波函数。这里的参考权重Ref_weight限定运动图像素可获得的最大值。这里的权重乘数W_mult限定Filt_Mot值乘以的值，以便标识当存在运动时从参考权重Ref_weight减去的量。因此，权重乘数W_mult的值越大导致从参考权重Ref_weight减去的值越大，从而导致检测到更多的运动。

注意，可对对准图像帧的组群中的每个非参考图像帧重复图19、图20、图21、图22和图23中所示的过程，通常使用来自该组群的相同图像帧作为参考图像帧。图19、图20、图21、图22和图23中的过程的执行结果理想地是标识非参考图像帧与参考图像帧之间的所有运动(或至少超过阈值的所有运动)的一组运动图1906。

虽然图16示出了用于对多个图像帧去模糊的过程1600的一个示例，以及图17至图23示出了图16的过程1600中的操作的示例，但是可对图16至图23进行各种改变。例如，虽然被示为步骤序列，但是图16至图23中所示的各种操作可重叠、并行进行、以不同的顺序进行、或者进行任何次数。此外，图17至图23中所示的特定操作仅是示例，并且可使用其它技术来执行图17至图23中所示的每个操作。

应当注意，图16至图23中所示的操作可以以任何适合的方式在电子装置101中实现。例如，在一些实施方式中，可使用由电子装置101的处理器120执行的一个或多个软件应用或其它软件指令来实现或支持图16至图23中所示的操作。在其它实施方式中，可使用专用硬件组件来实现或支持图16至图23中所示的操作中的至少一些。通常，图16至图23中所示的操作可使用任何适合的硬件或硬件和软件/固件指令的任何适合的组合来执行。

还应当注意，图16至图23中所示的操作在上面被描述为使用电子装置101的特定实现来执行，但是可基于实际所使用的电子装置101来进行多种修改。例如，电子装置101可包括或使用单个相机或多个相机。如果使用单个相机，则可诸如在一个或多个快速突发中依次拍摄场景的多个图像。如果使用多个相机，则可同时或以重叠的方式拍摄多个图像，诸如通过使用不同的相机同时但使用不同的相机曝光拍来摄场景的多个图像。多相机设置的一些具体示例包括使用广角和远摄相机、广角和单焦点相机或广角、远摄和单焦点相机。注意，可进行额外的处理以应对相机之间的基线差异。如果需要，仍然可使用多个相机中的至少一个依次拍摄场景的多个图像。假设多个相机的几何形状是提前已知的，则这种几何形状可用于帮助对准由相机拍摄的图像或执行其它功能。作为另一示例，电子装置101在上面被描述为使用YUV图像数据执行各种操作。然而，也可使用或处理其它域中的数据(诸如，RGB数据)。作为第三示例，本专利文件中描述的技术可诸如在电子装置101使用的软件库中与传统的HDR图像处理算法相结合。这可允许电子装置101的用户诸如基于特定的情况或基于用户偏好在不同的图像处理算法之间进行选择。作为第四示例，电子装置101可使用上述技术来支持场景的静态图像或视频序列的拍摄。可交替视频序列的拍摄设置以提供具有不同曝光的图像帧，并且高帧速率拍摄能力可帮助掩盖由于帧选择而导致的帧速率降低。作为第五示例，电子装置101可包括如上所述的惯性测量单元，并且惯性测量单元可向去模糊操作1608提供输入。

此外，应当注意，本公开描述了(i)用于基于卷积神经网络的、多个图像帧的多曝光融合的技术和(ii)用于对多个图像帧去模糊的技术两者。然而，在相同的电子装置101中不需要一起使用这些技术。可使用基于卷积神经网络的、多个图像帧的多曝光融合的技术或用于对多个图像帧去模糊的技术(但不是两者)来实现电子装置101。当然，两者也可在同一电子装置101中实现。

图24示出了根据本公开的用于对多个图像帧去模糊的示例性方法2400。为了便于解释，图24中所示的方法2400被描述为涉及图1的电子装置101的使用。然而，图24中所示的方法2400可与任何其它适合的电子装置一起使用，并且可在任何适合的***中使用。

如图24中所示，在步骤2402处，使用电子装置拍摄场景的一个或多个预览图像。这可包括，例如，电子装置101的处理器120使得图像传感器1602拍摄场景的预览图像。在步骤2404处，执行场景分析以确定场景的要拍摄的附加图像帧。这可包括，例如，电子装置101的处理器120执行场景分析操作1604以识别要拍摄的多个附加图像以及在拍摄附加图像时要使用的曝光。在步骤2406处，拍摄场景的附加图像帧。这可包括，例如，电子装置101的处理器120接收拍摄请求并使得图像传感器1602以所识别的曝光拍摄场景的附加图像。

在步骤2408处，对准和预处理附加图像。这可包括，例如，电子装置101的处理器120选择附加图像帧中的一个作为参考帧，并将非参考图像帧与参考帧几何地和光度地对准。在步骤2410处，生成标识对准图像帧的易于模糊的部分的运动图。这可包括，例如，电子装置101的处理器120执行运动图生成操作1708以生成标识参考帧与非参考帧之间的运动的运动图。在步骤2412处，使用运动图对图像帧进行混合，以产生混合图像。这可包括，例如，电子装置101的处理器120执行混合操作1710以基于运动图来组合对准图像帧。

在步骤2414处，使用运动图对混合图像帧进行去模糊。这可包括，例如，电子装置101的处理器120执行去模糊操作1712以对混合图像帧进行去模糊。这里可使用运动图来限制混合图像帧的由去模糊操作1712处理的部分，诸如通过将去模糊仅限制为其中运动由运动图标识的那些部分。

在步骤2416处，对混合图像帧进行任何期望的后处理。这可包括，例如，电子装置101的处理器120执行运动补偿噪声滤波操作1714。后处理的输出是场景的最终图像，其可在步骤2418处被存储、输出或以某种方式使用。这可包括，例如，电子装置101的处理器120在电子装置101的显示器160上显示场景的最终图像。这也可包括电子装置101的处理器120将场景的最终图像保存到存储在电子装置101的存储器130中的相机胶卷。这还可包括电子装置101的处理器120将场景的最终图像附加到要从电子装置101发送的文本消息、电子邮件或其它通信。当然，场景的最终图像可以以任何其它或附加的方式使用。

虽然图24示出了用于对多个图像帧去模糊的方法2400的一个示例，但是可对图24进行各种改变。例如，虽然被示为一系列步骤，但是图24中的各个步骤可重叠、并行进行、以不同的顺序进行、或者进行任何次数。

虽然已经参考各种示例性实施方式描述了本公开，但是可建议本领域技术人员进行各种改变和修改。本公开旨在涵盖落入所附权利要求的范围内的这种改变和修改。

Claims

1.一种方法，包括：

使用电子装置的至少一个相机获得场景的多个图像帧；

使用卷积神经网络来生成与所述图像帧相关联的混合图，其中，所述混合图包含或基于(i)所述图像帧中的运动测量值和(ii)所述图像帧的不同部分的曝光程度如何的测量值两者；以及

使用所述图像帧中的至少一些和所述混合图中的至少一些生成所述场景的最终图像。

2.根据权利要求1所述的方法，其中：

生成所述场景的最终图像包括：使用所述混合图中的所述至少一些来混合所述图像帧中的所述至少一些；以及

所述场景的所述最终图像包括由于过曝或欠曝而在所述图像帧中的至少一个中丢失的图像细节。

3.根据权利要求1所述的方法，其中，所述卷积神经网络执行多个卷积操作和池化操作、多个上采样操作和解码操作以及最终卷积操作，以生成所述混合图。

4.根据权利要求1所述的方法，其中：

对所述卷积神经网络的输入是来自所述图像帧的图像补丁，每个图像补丁具有多个颜色通道；

将所述图像补丁沿着所述颜色通道级联，以增加输入的数量；

来自所述卷积神经网络的输出是混合图补丁，每个混合图补丁具有单个加权通道；以及

沿着所述加权通道组合多个混合图补丁，以产生所述混合图。

5.根据权利要求1所述的方法，其中，所述卷积神经网络配置为：

从所述图像帧的至少部分提取场景内容；

空间缩减与所述场景内容相关联的的特征图；

合并所缩减的特征图；

对所合并的特征图进行上采样；以及

将所合并的特征图转换为所述混合图。

6.根据权利要求1所述的方法，其中，所述卷积神经网络通过以下方式训练：

获取不同场景的多个初始图像；

通过变换所述初始图像来生成所述场景的附加图像，以模拟所述不同场景内的运动；

使用所述初始图像和所述附加图像生成地面真实混合图；以及

使用所述初始图像、所述附加图像和所述地面真实混合图来训练所述卷积神经网络。

7.根据权利要求1所述的方法，其中，所述卷积神经网络通过以下方式训练：

获取不同相机曝光下的多个初始图像和所述初始图像的地面真实混合图；

将所述初始图像和所关联的地面真实混合图划分成训练集、验证集和测试集；

识别所述训练集和所述验证集的图像中的图像补丁以及所述训练集和所述验证集的所述地面真实混合图中相应的地面真实训练补丁；

重复(i)使用所述训练集的所述图像补丁和所述地面真实训练补丁训练所述卷积神经网络，以及(ii)使用所述验证集的所述图像补丁和所述地面真实训练补丁验证所训练的卷积神经网络；

识别所述测试集的所述初始图像和所关联的地面真实混合图中的测试补丁；以及

使用所述测试集的所述初始图像和所关联的地面真实混合图中的所述测试补丁来测试所训练和所验证的卷积神经网络。

8.一种电子装置，包括：

至少一个相机；以及

至少一个处理装置，配置为：

使用所述至少一个相机获得场景的多个图像帧；

使用卷积神经网络来生成与所述图像帧相关联的混合图，其中所述混合图包含或基于(i)所述图像帧中的运动测量值以及(ii)所述图像帧的不同部分的曝光程度如何的测量值两者；以及

使用所述图像帧中的至少一些和所述混合图中的至少一些来生成所述场景的最终图像。

9.根据权利要求8所述的电子装置，其中：

为了生成所述场景的所述最终图像，所述至少一个处理装置配置为使用所述混合图中的所述至少一些来混合所述图像帧中的所述至少一些；以及

10.根据权利要求8所述的电子装置，其中，所述卷积神经网络配置为执行多个卷积操作和池化操作、多个上采样操作和解码操作以及最终卷积操作，以生成所述混合图。

11.根据权利要求8所述的电子装置，其中：

12.根据权利要求8所述的电子装置，其中，所述卷积神经网络配置为：

从所述图像帧的至少部分提取场景内容；

空间缩减与所述场景内容相关联的的特征图；

合并所缩减的特征图；

对所合并的特征图进行上采样；以及

将所合并的特征图转换为所述混合图。

13.根据权利要求8所述的电子装置，其中，所述卷积神经网络通过以下方式训练：

获取不同场景的多个初始图像；

14.根据权利要求8所述的电子装置，其中，所述卷积神经网络通过以下方式训练：

以不同相机曝光获得多个初始图像；

为所述初始图像生成地面真实混合图；

识别所述训练集的图像中的图像补丁和所述训练集的所述地面真实混合图中相应的地面真实训练补丁；

使用所述图像补丁和所述地面真实训练补丁来训练所述卷积神经网络；

使用所述验证集中的所述初始图像和所关联的地面真实混合图来验证所训练的卷积神经网络；

识别所述测试集中的所述初始图像和所关联的地面真实混合图中的测试补丁；以及

使用所述测试集中的所述初始图像和所关联的地面真实混合图中的所述测试补丁来测试所训练和所验证的卷积神经网络。