CN108230253B

CN108230253B - 图像恢复方法、装置、电子设备和计算机存储介质

Info

Publication number: CN108230253B
Application number: CN201710327522.6A
Authority: CN
Inventors: 汤晓鸥; 余可; 施煜锴; 董超; 吕健勤; 林倞
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-05-08
Filing date: 2017-05-08
Publication date: 2020-11-27
Anticipated expiration: 2037-05-08
Also published as: CN108230253A

Abstract

本发明实施例公开了一种图像恢复方法、装置、电子设备和计算机存储介质，其中，方法包括：对待恢复图像进行特征提取，获得待恢复图像的特征向量；利用策略神经网络，至少根据所述特征向量，获取对所述待恢复图像进行本次恢复的恢复策略向量；根据所述恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，利用确定的恢复工具对所述待恢复图像进行恢复；将本次恢复的图像作为新的待恢复图像，重复执行上述图像恢复操作，直至满足预定的停止条件。对于恢复失真的种类和顺序均未知的含有多种混合失真原因的失真图像，本发明方法可以得到显著的恢复效果。

Description

图像恢复方法、装置、电子设备和计算机存储介质

技术领域

本发明涉及图像处理技术，尤其是一种图像恢复方法、装置、电子设备和计算机存储介质。

背景技术

获取图像的过程中，由于相机的曝光噪声、失焦模糊和图像压缩造成的失真等等原因可能导致图像质量下降，对质量下降的图像加以重建或恢复的处理为图像恢复处理，通过计算机处理。

发明内容

本发明实施例提供一种用于图像恢复的技术方案。

根据本发明实施例的一个方面，提供的一种图像恢复方法，包括：

对待恢复图像进行特征提取，获得所述待恢复图像的特征向量；

利用策略神经网络，至少根据所述特征向量，获取对所述待恢复图像进行本次恢复的恢复策略向量；

根据所述恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，利用确定的恢复工具对所述待恢复图像进行恢复；

将本次恢复的图像作为新的待恢复图像，重复执行上述图像恢复操作，直至满足预定的停止条件。

基于上述方法的另一实施例中，所述停止条件包括以下至少之一：

所述恢复策略向量对应的本次恢复策略为停止恢复；

已经执行的图像恢复操作达到预定的次数阈值。

基于上述方法的另一实施例中，其中，所述N+1维包括：分别表示预设的N种恢复工具中各恢复工具的使用概率的N维、以及表示停止恢复概率的1维，N为大于1的整数。

基于上述方法的另一实施例中，根据所述恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，包括：

根据所述恢复策略向量中各维度对应的恢复工具，确定最大使用概率值对应的恢复工具或者使用概率值大于设定概率阈值的至少一个维度对应的恢复工具，作为本次恢复需要使用的恢复工具。

基于上述方法的另一实施例中，所述至少根据所述特征向量，获取对所述待恢复图像进行本次恢复的恢复策略向量，包括：

根据所述特征向量与参考策略向量，获取对所述待恢复图像进行本次恢复的恢复策略向量；所述参考策略向量为对所述待恢复图像对应的原始图像或其恢复图像进行上一次图像恢复操作时使用的恢复策略向量；

所述以本次恢复的图像作为新的待恢复图像，重复执行上述图像恢复操作，包括：

将本次恢复的图像作为新的待恢复图像、将所述恢复策略向量作为新的参考策略向量，重复执行上述图像恢复操作。

基于上述方法的另一实施例中，根据所述特征向量与参考策略向量，获取对所述待恢复图像进行本次恢复的恢复策略向量，包括：

根据所述特征向量获取对所述待恢复图像进行本次恢复的候选恢复策略向量；

基于所述参考策略向量，由所述候选恢复策略向量获取对所述待恢复图像进行本次恢复的恢复策略向量。

基于上述方法的另一实施例中，基于所述参考策略向量，由所述候选恢复策略向量获取对所述待恢复图像进行本次恢复的恢复策略向量，包括：

响应于所述候选恢复策略向量与所述参考策略向量对应的恢复工具相同，由所述候选恢复策略向量获取与所述参考策略向量对应的恢复工具不相同的恢复策略向量作为进行本次恢复的恢复策略向量；和/或，

响应于所述候选恢复策略向量与所述参考策略向量对应的恢复工具不相同，以所述候选恢复策略向量作为进行本次恢复的恢复策略向量。

基于上述方法的另一实施例中，所述预定的多种恢复工具的种类包括以下任意一项或多项：JPEG国际图像压缩标准解压、去高斯噪声、去均值模糊、去高斯模糊、去运动模糊、视频解压缩、去上采用模糊；和/或

所述恢复工具的结构包括：循环神经网络、卷积神经网络或递归神经网络。

基于上述方法的另一实施例中，所述待恢复图像具体为样本图像；

所述利用策略神经网络，根据所述特征向量，获取对所述待恢复图像进行本次恢复的恢复策略向量，包括：利用初始策略神经网络模型，根据所述特征向量，获取对所述待恢复图像进行本次恢复的恢复策略向量；

所述满足预定的停止条件之后，还包括：根据所述本次恢复的图像调整所述初始策略神经网络的网络参数，以获得策略神经网络。

基于上述方法的另一实施例中，根据所述本次恢复的图像调整所述策略神经网络的网络参数，包括：

获取本次恢复的图像与所述样本图像对应的未失真图像的峰值信噪比，并以所述峰值信噪比作为奖励信号调整所述初始策略神经网络模型的网络参数。

本发明实施例的另一个方面，提供了一种图像恢复装置，包括：

特征提取单元，用于对待恢复图像进行特征提取，获得所述待恢复图像的特征向量；

策略神经网络，用于至少根据所述特征向量获取对所述待恢复图像进行本次恢复的恢复策略向量；

恢复单元，用于根据所述恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，利用确定的恢复工具对所述待恢复图像进行恢复；

循环单元，用于将本次恢复的图像作为新的待恢复图像，重复执行上述图像恢复操作，直至满足预定的停止条件。

基于上述装置的另一实施例中，所述循环单元中包括的停止条件包括以下至少之一：

所述恢复策略向量对应的本次恢复策略为停止恢复；

已经执行的图像恢复操作达到预定的次数阈值。

基于上述装置的另一实施例中，所述恢复策略向量包括N+1维，其中，所述N+1维包括：分别表示预设的N种恢复工具中各恢复工具的使用概率的N维、以及表示停止恢复概率的1维，N为大于1的整数。

基于上述装置的另一实施例中，所述恢复单元，具体用于根据所述恢复策略向量中各维度对应的恢复工具，确定最大使用概率值对应的恢复工具或者使用概率值大于设定阈值的至少一个维度对应的恢复工具，作为本次恢复需要使用的恢复工具。

基于上述装置的另一实施例中，所述策略神经网络，具体用于根据所述特征向量与参考策略向量，获取对所述待恢复图像进行本次恢复的恢复策略向量；所述参考策略向量为对所述待恢复图像对应的原始图像或其恢复图像进行上一次图像恢复操作时使用的恢复策略向量；

所述循环单元，具体用于将本次恢复的图像作为新的待恢复图像、将所述恢复策略向量作为新的参考策略向量，重复执行上述图像恢复操作。

基于上述装置的另一实施例中，所述策略神经网络包括：

策略备选模块，用于根据所述特征向量获取对所述待恢复图像进行本次恢复的候选恢复策略向量；

策略获取模块，用于基于所述参考策略向量，由所述候选恢复策略向量获取对所述待恢复图像进行本次恢复的恢复策略向量。

基于上述装置的另一实施例中，所述策略获取模块包括：

向量相同模块，用于响应于所述候选恢复策略向量与所述参考策略向量对应的恢复工具相同，由所述候选恢复策略向量获取与所述参考策略向量对应的恢复工具不相同的恢复策略向量作为进行本次恢复的恢复策略向量；和/或，

向量不同模块，用于响应于所述候选恢复策略向量与所述参考策略向量对应的恢复工具不相同，以所述候选恢复策略向量作为进行本次恢复的恢复策略向量。

基于上述装置的另一实施例中，所述策略神经网络包括循环神经网络；

所述循环神经网络包括长短时记忆LSTM模型。

基于上述装置的另一实施例中，所述预定的多种恢复工具的种类包括以下任意一项或多项：国际图像压缩标准压缩JPEG国际图像压缩标准解压、去高斯噪声、去均值模糊、去高斯模糊、去运动模糊、视频解压缩、去上采用模糊；和/或，

基于上述装置的另一实施例中，还包括：训练单元，用于将所述待恢复图像具体为样本图像，所述利用策略神经网络，根据所述特征向量，获取对所述待恢复图像进行本次恢复的恢复策略向量，包括：利用初始策略神经网络模型，根据所述特征向量，获取对所述待恢复图像进行本次恢复的恢复策略向量；

参数调整单元，用于在满足预定的停止条件，停止一次恢复操作之后，根据所述本次恢复的图像调整所述初始策略神经网络的网络参数，以获得策略神经网络。

基于上述装置的另一实施例中，所述参数调整单元，具体用于获取本次恢复的图像与所述样本图像对应的未失真图像的峰值信噪比，并以所述峰值信噪比作为奖励信号调整所述初始策略神经网络模型的网络参数。

本发明实施例的另一个方面，提供了一种电子设备，包括如上所述的图像恢复装置。

本发明实施例的另一个方面，提供了一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述图像恢复方法的操作。

本发明实施例的另一个方面，提供了一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述图像恢复方法的操作。基于本发明上述实施例提供的图像恢复方法、装置、电子设备和计算机可读介质，可以预定多种分别针对各种可能的失真原因的恢复工具，进行图像恢复时，对本次输入的待恢复图像进行特征提取，获得待恢复图像的特征向量，由策略神经网络根据该特征向量获取对本次恢复的恢复策略向量，然后根据恢复策略向量在确定本次恢复需要使用的恢复工具，利用确定的恢复工具对待恢复图像进行恢复然后再以本次恢复的图像作为新的待恢复图像，继续进行下一次图像恢复操作，直至满足预定的停止条件。由于本发明实施例可以在满足预定的停止条件前对待恢复图像(如失真图像、质量较差的图像等)进行多次恢复操作，每次进行图像恢复时都基于本次输入的待恢复图像自身的特征来确定本次恢复的恢复策略向量、并选择相应的恢复工具进行图像恢复，可用于实现对任意已知或未知失真原因、失真程度和失真顺序的失真图像的恢复，改善图像恢复效果，提高图像恢复的普适性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明失真图像的恢复方法一个实施例的流程图。

图2为本发明图像恢复方法另一个实施例的流程图。

图3为本发明失真图像的恢复方法又一个实施例的流程图。

图4为本发明实施例中对策略神经网络进行训练一个实施例的流程图。

图5为本发明图像恢复装置一个实施例的结构示意图。

图6为本发明图像恢复装置又一个实施例的结构示意图。

图7为本发明图像恢复装置的再一个实施例的结构示意图。

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机***/服务器，其可与众多其它通用或专用计算***环境或配置一起操作。适于与计算机***/服务器一起使用的众所周知的计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

计算机***/服务器可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

图1为本发明图像恢复方法一个实施例的流程图。如图1所示，该实施例的图像恢复方法包括：

步骤101，对待恢复图像进行特征提取，获得待恢复图像的特征向量。

其中，待恢复图像可以是原始图像或者原始图像经上一次(即：最近一次)图像恢复操作获得的图像。

步骤102，利用策略神经网络，至少根据特征向量，获取对上述待恢复图像进行本次恢复的恢复策略向量。

步骤103，根据获取到的恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，利用确定的恢复工具对上述待恢复图像进行恢复。

具体地，根据恢复策略向量选择恢复工具时，可以一次选择一种恢复工具对待恢复图像进行恢复，也可以一次选择多种恢复工具对待恢复图像进行恢复。由于每次对失真图像进行一次恢复操作会恢复失真图像某些方便的质量，一次选择一种恢复工具对待恢复工具进行恢复，有助于每次均根据待恢复图像的最新特征向量获取最佳恢复策略向量、从而确定最需要使用的恢复工具进行下一次图像恢复操作，从而提升待恢复图像的恢复效率。

步骤104，将本次恢复的图像(即：经步骤103恢复得到的图像)作为新的待恢复图像，重复执行上述图像恢复操作，即：再次开始执行步骤101-103，直至满足预定的停止条件，停止执行本发明实施例的图像恢复操作。

图像恢复问题与导致图像质量下降的原因息息相关，而在现实应用中，图像质量下降的原因很少由单独一种失真原因导致，通常图像质量下降的过程是多种失真原因混合导致的，这些失真原因有可能是已知的，比如：曝光噪声和JPEG国际图像压缩标准压缩混合；还有可能由多种具有一定未知性的失真原因导致失真，比如：噪声的幅度和JPEG质量因子混合；更为极端的情况是，多种未知种类和顺序的失真原因混合导致图像质量下降。

在实现本发明的过程中，发明人通过调查研究发现，现有技术中，对失真图像的恢复方法通常局限在恢复某一种特定失真原因的图像，或针对已知失真原因种类的特定组合；采用现有技术中的恢复方法无法有效恢复包含未知混合失真原因的失真图像。未知的混合失真图像难以恢复是因为其质量降低过程具有很大的多样性，而现有的模型受限于自身的计算复杂度只能处理一些质量降低过程相近的图像。

基于本发明上述实施例提供的图像恢复方法，可以预定多种分别针对各种可能的失真原因的恢复工具，进行图像恢复时，对本次输入的待恢复图像进行特征提取，获得待恢复图像的特征向量，由策略神经网络根据该特征向量获取对本次恢复的恢复策略向量，然后根据恢复策略向量在确定本次恢复需要使用的恢复工具，利用确定的恢复工具对待恢复图像进行恢复然后再以本次恢复的图像作为新的待恢复图像，继续进行下一次图像恢复操作，直至满足预定的停止条件。由于本发明实施例可以在满足预定的停止条件前对待恢复图像(如失真图像、质量较差的图像等)进行多次恢复操作，每次进行图像恢复时都基于本次输入的待恢复图像自身的特征来确定本次恢复的恢复策略向量、并选择相应的恢复工具进行图像恢复，可用于实现对任意已知或未知失真原因、失真程度和失真顺序的失真图像的恢复，改善图像恢复效果，提高图像恢复的普适性

在本发明各图像恢复方法实施例的一个具体示例中，步骤103中所指停止条件包括以下之一，或者同时包括以下两个：

恢复策略向量对应的本次恢复策略为停止恢复；

已经执行的图像恢复操作达到预定的次数阈值。基于本实施例，若步骤103中所指停止条件为：恢复策略向量对应的本次恢复策略为停止恢复，则进行本次恢复的恢复策略向量指向的不是恢复工具、而是停止恢复时，即满足预定的停止条件，停止执行图像恢复操作。可以设置图像质量已满足预设条件时的恢复策略为停止恢复，这样在恢复的图像达到预设质量标准时自动退出图像恢复操作。

若步骤103中所指停止条件为：已经执行的图像恢复操作达到预定的次数阈值，则预先设定一个次数阈值，在对待恢复图像进行本次恢复后，判断该待恢复图像之前经过图像恢复操作的次数是否达到了上述预设次数阈值，在达到该预设次数阈值时，即停止图像恢复操作，这里的预设次数阈值可以是大于1的任意整数。通过设置预设次数阈值来控制图像恢复操作次数，可以防止对有些无法继续提升图像质量的图像进行无限循环的恢复操作、从而浪费计算资源，在具体运用过程中，预设次数阈值可以是自行设定，也可以是根据大数据统计获得的每个失真图像进行图像恢复操作次数的平均值。

在步骤103中所指停止条件包括上述两个条件时，可以预先设定，上述任一条件满足时即满足预定的停止条件，也可以预设设定，上述条件均满足时满足预定的停止条件。

在本发明各图像恢复方法实施例的一个具体示例中，恢复策略向量具体可以包括N+1维，其中，N+1维包括：分别表示预设的N种恢复工具中各恢复工具的使用概率的N维、以及表示停止恢复的概率的1维，N为大于1的整数，例如，在本发明一个应用示例中，N的取值为12。基于该恢复策略向量结构，当对应于恢复工具的N维中某一维的使用概率值最大时，获取该恢复策略向量对应的恢复工具对待恢复图像进行恢复操作，而当其余1维的使用概率值最大时，停止执行恢复操作，此时的待恢复图像便可以作为恢复结果进行输出。

本实施例中的恢复工具为针对失真图像进行质量恢复的工具，例如可以是循环神经网络、卷积神经网络、递归神经网络等任何一种对图像恢复有效的工具，该N种预设的恢复工具已预先训练好。预设的N种恢复工具中，每种恢复工具分别用于恢复由一种原因导致或者主要导致的图像质量降低，每种恢复工具分别对应于恢复策略向量前N维中的一维，各恢复工具与维度之间的对应关系可以预先设定。

另外，在本发明上述各图像恢复方法实施例的另一个具体示例中，在操作103中，根据获取到的恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，具体可以通过以下方式实现：

根据进行本次恢复的恢复策略向量中各维度对应的恢复工具的使用概率关系，确定所有维度中最大的使用概率值对应的恢复工具或者使用概率值大于设定概率阈值的至少一个维度对应的恢复工具，作为进行本次恢复需要使用的恢复工具。其中的设定概率阈值可以根据对图像的质量改善需求设定。

基于待恢复图像的特征向量获取对应的恢复策略向量，该恢复策略向量中最大使用概率值所在的维度表示当前待恢复图像最需要使用的一个恢复工具或者对当前待恢复图像的质量恢复效果最好的一个恢复工具，此时选用最大使用概率值所在维度对应的恢复工具对待恢复图像进行恢复，便可以最大效果的改善图像质量。若确定使用概率值大于设定概率阈值的至少一个维度对应的恢复工具作为进行本次恢复需要使用的恢复工具，由于使用概率值大于设定概率阈值的维度可能为多个，因此进行本次恢复需要使用的恢复工具也需要多个，则可以一次针对该待恢复图像存在的多种失真问题进行恢复，通过一次图像恢复流程改善该待恢复图像由于多种失真问题导致的质量问题。

示例性地，在使用概率值大于设定概率阈值的维度为多个时，可以按照使用概率值从大到小的顺序，依次选取一个使用概率值大于设定概率阈值的一个维度对应的恢复工具对待恢复图像进行恢复操作，这样可以按照失真问题的严重程序依次进行图像质量恢复，有助于提升图像恢复效果和效率。

另外，在本发明上述各图像恢复方法实施例的又一个具体示例中，预定的多种恢复工具的种类例如可以包括以下任意一项或多项：JPEG国际图像压缩标准解压、去高斯噪声、去均值模糊、去高斯模糊、去运动模糊、视频解压缩、去上采用模糊等。

上述恢复工具的种类可以相应针对以下图像如失真等质量降低问题进行恢复：JPEG国际图像压缩标准压缩、高斯噪声、均值模糊、高斯模糊、运动模糊、视频压缩造成的失真、上采样造成的模糊等。

示例性地，如下表1所示，作为本发明的一个具体应用示例，示出了国际图像压缩标准N＝12时12种恢复工具的全称及其可以解决的失真问题。

表1工具箱中恢复工具的名称及其对应解决的问题

采用表1所示的恢复工具时，可以在失真图像存在表1中的任意一种失真问题或者任意多种失真问题以任意顺序组合时，通过本发明实施例的失真图像恢复方法进行图像质量恢复。为便于指代，可以以工具箱表示包含了本发明实施例中的预定多种恢复工具的一个模块。而本示例中仅是列举12中恢复工具，并非对发发明可选恢复工具限定，具体在实际应用中，工具箱可根据实际情况进行选择多个适合的恢复工具。而在对失真图像的恢复过程中，还可以根据具体恢复工具的选用对工具箱进行调整，如：在恢复过程中一直用不到的某一个或某一个恢复工具，在后期可以将其替换成与采用次数多的恢复工具相近似的其他工具，以便实现更好更快的图像恢复效果。

图2为本发明图像恢复方法另一个实施例的流程图。如图2所示，该实施例的图像恢复方法包括：

步骤201，对待恢复图像进行特征提取，获得待恢复图像的特征向量。

其中，待恢复图像可以是原始图像、或者原始图像或其恢复图像经上一次(即：最近一次)图像恢复操作获得的图像。

步骤202，利用策略神经网络，根据特征向量与参考策略向量，获取对上述待恢复图像进行本次恢复的恢复策略向量。

其中，参考策略向量为对为原始图像或其恢复图像进行上一次图像恢复操作时使用的恢复策略向量；当待恢复图像为原始图像时，由原始图像进行恢复获得原始图像不存在恢复策略信息，此时参考策略向量为零向量。

步骤203，根据获取到的恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，利用确定的恢复工具对上述待恢复图像进行恢复。

示例性地，该步骤203中，可以将待恢复图像的特征向量与参考策略向量按照预设格式结合后输入策略神经网络；策略神经网络基于特征向量与参考策略向量，获取对待恢复图像进行本次恢复的本次恢复策略信息，并生成N+1维的恢复策略向量。

具体地，特征向量与参考策略向量按照预设格式结合的方式可以采用：将特征向量与参考策略向量连接(concatenate)，得到维度是特征向量维度和参考策略向量维度之和的连接向量。

在此示例中向循环神经网络输入的向量是特征向量和参考策略向量的连接构成的连接向量，该连接向量的维度数是特征向量维度数和参考策略向量维度数的和；此时可将首次对待恢复的失真图像的处理合并入该步骤中，只是由于待恢复的失真图像没有经过恢复处理，因此参考策略向量为零向量。

步骤204，判断是否满足预定的停止条件。

其中的停止条件，例如可以是：本次恢复策略向量对应的本次恢复策略为停止恢复，已经执行的图像恢复操作达到预定的次数阈值等。

若满足预定的停止条件，执行操作206。否则，执行操作205。

步骤205，将本次恢复的图像(即：经步骤203恢复得到的图像)作为新的待恢复图像、以上述进行本次恢复的恢复策略向量作为新的参考策略向量，重复执行上述图像恢复操作，即：再次开始执行步骤20201-204。

步骤206，输出经步骤203的恢复操作获得的恢复图像。

基于本发明上述实施例提供的图像恢复方法，可以预定多种分别针对各种可能的失真原因的恢复工具，进行图像恢复时，对本次输入的待恢复图像进行特征提取，获得待恢复图像的特征向量，并获得由对为原始图像或其恢复图像进行上一次图像恢复操作时使用的恢复策略向量，将该恢复策略向量作为参考策略向量，由策略神经网络根据该特征向量和参考特征向量获取对本次恢复的恢复策略向量，然后根据恢复策略向量在确定本次恢复需要使用的恢复工具，利用确定的恢复工具对待恢复图像进行恢复然后再以本次恢复的图像作为新的待恢复图像、以上述进行本次恢复的恢复策略向量作为新的参考策略向量，继续进行下一次图像恢复操作，直至满足预定的停止条件。由于本发明实施例可以在满足预定的停止条件前对失真图像进行多次恢复操作，每次进行图像恢复时都基于本次输入的待恢复图像自身的特征来确定本次恢复的恢复策略向量、并选择相应的恢复工具进行图像恢复，可用于实现对任意已知或未知失真原因、失真程度和失真顺序的失真图像的恢复；并且由于参考策略向量的加入，可以大大提高对已知顺序的多种失真原因的失真图像的恢复效率。

图3为本发明失真图像的恢复方法又一个实施例的流程图。在上述实施例的基础上，如图3所示，该实施例的图像恢复方法的步骤202具体可以包括：

步骤301，根据特征向量获取对待恢复图像进行本次恢复的候选恢复策略向量。

步骤302，基于参考策略向量，由候选恢复策略向量获取对待恢复图像进行本次恢复的恢复策略向量。

示例性地，步骤302还可以包括：

响应于候选恢复策略向量与参考策略向量对应的恢复工具相同，由候选恢复策略向量获取与参考策略向量对应的恢复工具不相同的恢复策略向量作为进行本次恢复的恢复策略向量；和/或，

响应于候选恢复策略向量与参考策略向量对应的恢复工具不相同，以候选恢复策略向量作为进行本次恢复的恢复策略向量。

基于本发明上述实施例提供的图像恢复方法，对于待恢复图像，采用仅基于图像的特征向量输入策略神经网络获得候选恢复策略向量，此时还获得对待恢复图像进行上一次恢复的参考策略向量，此时，为了避免重复选择一些恢复工具，在候选恢复策略向量与参考策略向量对应的恢复工具相同时，由候选恢复策略向量获取与参考策略向量对应的恢复工具不相同的恢复策略向量作为进行本次恢复的恢复策略向量；而在候选恢复策略向量与参考策略向量对应的恢复工具不相同时，就可以选择候选恢复策略向量作为进行本次恢复的恢复策略向量，避免了重复选择同一恢复工具连续对待恢复图像进行恢复。在上述图像恢复方法的一个具体示例中，步骤302中在候选恢复策略向量与参考策略向量对应的恢复工具相同时，还可以将候选恢复策略向量中的最大概率值置为0或者置为小于候选恢复策略向量中其他所有概率值的任一数值，获得进行本次恢复的恢复策略向量。

在本示例中，候选恢复策略向量与参考策略向量对应的恢复工具相同，此时如果根据后续恢复策略向量选择恢复工具，则会选择与上一次相同的恢复工具，就出现了连续执行两次相同的恢复操作，这样对于有些失真情况是无用的，例如模糊失真；因此，采用本示例中将候选恢复策略向量中的最大概率值修改的方式，将最大概率值进行屏蔽，此时，将选择仅小于最大概率值的概率值对应的恢复工具对待恢复图像进行恢复，有效避免了连续重复选择同一恢复工具对待恢复图像进行恢复的问题。在本发明实施例中，策略神经网络采用循环神经网络实现时，具体的循环神经网络可采用但不限于长短时记忆模型(LongShort-Term Memory，LSTM长期记忆)或其他类型的循环神经网络实现。其中，LSTM是一种时间递归神经网络。

在具体示例中，LSTM的运算方式如下：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)LSTM的忘记门

i_t＝σ(W_i·[h_t-1，x_t]+b_i)LSTM的输入门

o_t＝σ(W_o[h_t-1，x_t]+b_o)LSTM的输出门

其中，忘记门，输入门和输出门里面有参数W和b，这几个门通过以下输入([]里面的h和x)产生门的“权重”(f，i，o)：一部分是上一步的恢复策略向量(13维，公式里的h)，另一部分是特征向量+参考特征向量(128+128＝256维，公式里的x)，总共13+256维。这三个门的权重都是13维向量，每一维元素的值在0-1之间。

细胞状态的候选值

其中，C代表LSTM的细胞状态，即：对同一个待恢复的原始图像使用的恢复策略向量，这个结构可以使得LSTM保持长期记忆。候选值由一个模块产生(可命名为“候选值产生模块”，这一模块也有参数W和b)，它的输入和上面相同(13+256维)，输出就是候选值。

更新细胞状态

其中，有了候选值和三个门的权重，就可以更新细胞状态并产生策略向量，公式对应：新的细胞状态＝忘记门的权重*旧的细胞状态+输入门的权重*候选值。

h_t＝o_t*tanh(C_t) 输出

其中，产生策略向量，公式对应：新的策略向量(尚未归一化)＝输出门权重*tanh(新的细胞状态)。

以上公式标识了标准的LSTM结构，其中[h_t-1，x_t]表示上一步的策略向量h_t-1和LSTM输入x_t的链接，维度是13+256。W表示全连接层的权值(weight)，b表示偏置(bias)，W和b是网络参数，开始随机初始化，在训练过程中不断更新，取值上没有约束条件；σ表示sigmoid函数，其取值固定，在训练过程中不会变化；上述6个公式左边输出的维度都是13，输出h_t的取值在[-1,1]之间，归一化后输出的取值在0-1之间，输出h_t的公式中作为替代方案可以使用σ替代tanh，此时输出h_t的取值在0-1之间，该h_t归一化后即得到当前策略向量(可用sigmoid函数代替tanh函数，即可省去归一化的过程)。式中的*表示向量逐个元素相乘。

上述LSTM的运算方式中，忘记门用于“忘记”之前的细胞状态，它在之前的细胞状态的每一个元素上乘一个[0,1]之间的值(0代表全忘记，1代表全保留)；细胞状态是LSTM的“记忆”，它包含了LSTM之前所有输入的信息(恢复策略信息)；候选值是细胞状态备选的更新值，新的细胞状态＝候选值*输入门+之前的细胞状态*忘记门，可以把候选值理解为新的记忆(当前恢复策略信息)，之前的细胞状态是旧的记忆(历史恢复策略信息)，因而细胞状态始终保持着长期记忆。

上述图像恢复方法实施例的一个具体示例中，参考策略向量基于由原始图像进行恢复获得所述待恢复图像使用过的恢复策略信息通过编码器获得。

在具体应用中，具体可以通过编码器由参考策略向量获得本次恢复策略信息。

在上述各图像恢复方法实施例的一个具体示例中，对待恢复图像进行特征提取，获得特征向量，具体可以通过如下方式实现：

对待恢复图像进行转换获得多维特征图像，将多维特征图像依次经过至少一层卷积层和至少一层全连接层，输出预设维度的特征向量。

在具体使用过程中，输入的失真图像例如可以是一个128*128的灰度图，而具体的该灰度图经过至少一层卷积层Conv和至少一层全连接层，其中卷积层的数量例如为5层，全连接层的数量例如为2层，该灰度图经过5层卷积层和2层全连接层输出128维的特征向量，其具体处理过程包括：

(1)输入128*128的灰度图，通过Conv(3,16,1)和修正线性单元(ReLU)激活函数，得到128*128*16维特征图像；

(2)输入128*128*16维特征图像，通过Conv(3,16,2)和ReLU激活函数，得到64*64*16维特征图像；

(3)输入64*64*16维特征图像，通过Conv(3,16,2)和ReLU激活函数，得到32*32*16维特征图像；

(4)输入32*32*16维特征图像，通过Conv(3,16,2)和ReLU激活函数，得到16*16*16维特征图像；

(5)输入16*16*16维特征图像，通过Conv(3,16,2)和ReLU激活函数，得到8*8*16维特征图像；

(6)输入8*8*16维特征图像，通过输入是8*8*16维，输出是128维的全连接层和ReLU激活函数，得到128维特征向量；

(7)输入128维特征向量，通过输入输出均为128维的全连接层和ReLU激活函数，得到128维特征向量。

其中，Conv(3,16,1)表示卷积层的卷积核大小为3*3，这一卷积层的滤波器数量是16，卷积的步长为1；Conv(3,16,2)表示卷积核大小为3*3，这一层的滤波器数量是16，卷积的步长为2，全连接层每一层的输出维度均为128维。

在具体使用时，编码器可以通过一个2层的全连接层实现。例如，编码器具体可以通过如下方式由参考策略向量获得本次恢复策略信息：对第一层全连接层输入13维的上一次恢复使用的参考策略向量，输出128维的全连接层和ReLU激活函数，得到128维特征向量；对第二层全连接层输入128维特征向量，输出128维的全连接层和ReLU激活函数，得到128维特征向量，该128维特征向量为参考策略向量。其中，全连接层本质上是把所有的输入与输出连接起来的单个交换机，具有吞吐量大、可靠性高、低延时的特点。

在具体应用场景中，可以利用本发明上述实施例中提出的恢复方法对受到未知降质过程破坏的失真图像进行恢复，常见的降质图像可能包含曝光噪声，失焦模糊，压缩失真等等，常见的降质图像来源包含社交媒体上的照片，手机拍摄的照片，视频监控的影像等等。在未知失真种类和顺序的情况下，用户可以应用本发明上述实施例中提出的恢复方法快速地对图像质量进行显著提高，而且对于不同类型的降质图像，本发明上述实施例中提出的恢复方法的使用方式可以保持不变，为用户提供了极大的便利。

另外，作为本发明图像恢复方法的再一个实施例，还可以预先对策略神经网络进行训练。在该实施例中，上述各实施例中的待恢复图像具体为样本图像。

另外，作为本发明图像恢复方法的再一个实施例，还可以预先对策略神经网络进行训练。图4为本发明实施例中对策略神经网络进行训练一个实施例的流程图。如图4所示，本实施例对策略神经网络进行训练的方法包括：

步骤401，对样本图像进行特征提取，获得样本图像的特征向量。

步骤402，利用初始策略神经网络模型，根据特征向量与参考策略向量，获取对上述样本图像进行本次恢复的恢复策略向量。

步骤403，根据获取到的恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，利用确定的恢复工具对上述样本图像进行恢复。

步骤404，判断是否满足预定的停止条件。

如果满足预定的停止条件，执行操作405。否则，如果不满足预定的停止条件以本次恢复的图像(即：经步骤403恢复得到的图像)作为新的样本图像、以上述进行本次恢复的恢复策略向量作为新的参考策略向量，将样本图像的特征向量和新的参考策略向量输入初始策略神经网络模型中，重复执行上述图像恢复操作，即：再次开始执行步骤401-404或者步骤402-404。

步骤405，根据本次恢复的图像和上述样本图像对应的未失真图像，调整初始策略神经网络模型的网络参数，以获得最终的策略神经网络。

在图4所示实施例的一个具体示例中，可以采用迭代更新法对初始策略神经网络模型进行训练，即：以网络参数调整后的初始策略神经网络模型作为新的初始策略神经网络模型，重复执行步骤401～405或者步骤402～405，直到达到预设条件时，停止训练，获得用于本发明实施例图像恢复方法的策略神经网络，以便保证失真图像的恢复效果。示例性地，该预设条件例如可以是一个预设训练次数，当训练次数达到预设训练次数时，停止训练；另外也可以是一个信噪比阈值，当本次恢复的图像和上述样本图像对应的未失真图像的峰值信噪比大于或等于该信噪比阈值时，停止训练。

在图4所示实施例的另一个具体示例中，也可以采用随机梯度下降法对初始策略神经网络模型进行训练，此时，步骤405具体可以通过如下方式实现：获取本次恢复的图像和样本图像对应的未失真图像的峰值信噪比，并以峰值信噪比作为奖励信号调整初始策略神经网络模型的网络参数。

本发明实施例中的奖励信号不限于峰值信噪比，可以是任意一种评价图像质量的指标，本实施例中提出以峰值信噪比作为奖励信号，以便于本领域技术人员进行理解。

调整初始策略网络模型中所有参数值，使奖励信号达到最大值，奖励信号越大说明恢复图像与原图像越接近，获得的策略神经网络的网络性能越好，后续通过该策略神经网络得到的恢复图像的质量越好，在奖励信号达到最大时对应的策略神经网络是训练得到的最好的策略网络，将该策略神经网络应用进行失真图像的恢复，将达到更好的失真恢复效果；通过训练策略网络优化工具的选择，从而最大化奖励信号，即恢复图像的质量。

可选地，对其中的策略神经网络模型进行训练，可以包括：

采用随机梯度下降法对初始策略神经网络模型进行训练。

选择随机梯度下降法对策略神经网络模型进行训练只是一种选择，本发明并不限制具体采用哪种优化方法，其目的在于调整神经网络模型的参数，使其获得的恢复图像更接近样本图像对应的原始恢复图像。

本实施例中设计的梯度计算公式如下：

其中，J是奖励信号的期望，J＝E(r│W)是优化目标，目标是希望使其最大化；

M是图像样本数量，可理解为训练时的批大小(batch size)，具体的M＝8，M也可以取其他数值，如4,16等等；

T是停止恢复时的步长，它可能是预设的最大步长，也可能比最大步长小，取决于第i个图像实际恢复的步数；

E表示期望；

W表示策略神经网络的所有参数，开始随机初始化，训练过程中不断更新(等式左边是目标函数对W的梯度，通过这个梯度更新W)；

rⁱ是第i张图的奖励信号；即恢复图像与真实参考图像的峰值信噪比；

π是第t步恢复策略向量的分布，训练时的策略向量服从以策略网络的输出为均值，0.11为标准差的高斯分布。引入这个分布的目的是在训练的时候可以多探索一些策略(exploration)，标准差可以采用不同的值，0.11是一个经验参数；π实际上是左边描述的高斯分布，它使得恢复策略向量有一定随机性，以探索更多不同的策略(这个分布函数只在训练时引入，分布函数在训练过程中保持不变)；

p_t ⁱ是第i张图，第t步的恢复策略向量；

s_(1:t) ⁱ代表第i张图，第t步的网络输入(待恢复图像+参考策略向量)和LSTM的细胞状态。公式的含义是有了s_(1:t) ⁱ和W就可以计算出p_t ⁱ所服从的高斯分布的均值，因而前者写在条件分布的条件里。这里角标1:t是强调LSTM具有长期记忆，因为LSTM具有长时间记忆性，所以策略向量依赖于策略网络此前每一步的输入；

目标就是寻找策略网络的所有参数W，使得奖励信号的期望最大。因为奖励信号的大小代表图像质量的高低，因而将其最大化必将使得策略网络更优。策略网络权重即指策略网络的所有参数W。

上述梯度公式还存在一个变种：

若奖励信号不仅在最后一步给出，即每一步可能都有奖励信号R_t ⁱ，则目标变为

相应的梯度公式变为：

其中，

b_t是一个依赖于s_1:t ⁱ而独立于p_t ⁱ的基准，它的作用是可以减小梯度的方差，一般可以选取b_t＝E(R_t|W)。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图5为本发明图像恢复装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图5所示，该实施例的装置包括：

特征提取单元51，用于对待恢复图像进行特征提取，获得待恢复图像的特征向量。

策略神经网络52，用于根据特征向量获取对待恢复图像进行本次恢复的恢复策略向量；

恢复单元53，用于根据恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，利用确定的恢复工具对待恢复图像进行恢复；

循环单元54，用于将本次恢复的图像作为新的待恢复图像，重复执行上述图像恢复操作，直至满足预定的停止条件。

基于本发明上述实施例提供的图像恢复装置，可以预定多种分别针对各种可能的失真原因的恢复工具，进行图像恢复时，对本次输入的待恢复图像进行特征提取，获得待恢复图像的特征向量，由策略神经网络根据该特征向量获取对本次恢复的恢复策略向量，然后根据恢复策略向量在确定本次恢复需要使用的恢复工具，利用确定的恢复工具对待恢复图像进行恢复然后再以本次恢复的图像作为新的待恢复图像，继续进行下一次图像恢复操作，直至满足预定的停止条件。由于本发明实施例可以在满足预定的停止条件前对待恢复图像(如失真图像、质量较差的图像等)进行多次恢复操作，每次进行图像恢复时都基于本次输入的待恢复图像自身的特征来确定本次恢复的恢复策略向量、并选择相应的恢复工具进行图像恢复，可用于实现对任意已知或未知失真原因、失真程度和失真顺序的失真图像的恢复，改善图像恢复效果，提高图像恢复的普适性。

在本发明各图像恢复装置实施例的一个具体示例中，循环单元54中包括的停止条件包括以下之一，或者同时包括以下两个：

恢复策略向量对应的本次恢复策略为停止恢复；

已经执行的图像恢复操作达到预定的次数阈值。

在本发明各图像恢复装置实施例的一个具体示例中，恢复策略向量包括N+1维，其中，N+1维包括：分别表示预设的N种恢复工具中各恢复工具的使用概率的N维、以及表示停止恢复概率的1维，N为大于1的整数。

另外，在本发明上述各图像恢复装置实施例的另一个具体示例中，恢复单元53，具体用于根据恢复策略向量中各维度对应的恢复工具，确定最大使用概率值对应的恢复工具或者使用概率值大于设定阈值的至少一个维度对应的恢复工具，作为本次恢复需要使用的恢复工具。

本发明图像恢复装置的另一个实施例中，在上述各实施例的基础上，策略神经网络52，具体用于根据特征向量与参考策略向量，获取对待恢复图像进行本次恢复的恢复策略向量；参考策略向量为对待恢复图像对应的原始图像或其恢复图像进行上一次图像恢复操作时使用的恢复策略向量；

循环单元54，具体用于将本次恢复的图像作为新的待恢复图像、将恢复策略向量作为新的参考策略向量，重复执行上述图像恢复操作。

基于本发明上述实施例提供的图像恢复装置，可以预定多种分别针对各种可能的失真原因的恢复工具，进行图像恢复时，对本次输入的待恢复图像进行特征提取，获得待恢复图像的特征向量，并获得由对为原始图像或其恢复图像进行上一次图像恢复操作时使用的恢复策略向量，将该恢复策略向量作为参考策略向量，由策略神经网络根据该特征向量和参考特征向量获取对本次恢复的恢复策略向量，然后根据恢复策略向量在确定本次恢复需要使用的恢复工具，利用确定的恢复工具对待恢复图像进行恢复然后再以本次恢复的图像作为新的待恢复图像、以上述进行本次恢复的恢复策略向量作为新的参考策略向量，继续进行下一次图像恢复操作，直至满足预定的停止条件。由于本发明实施例可以在满足预定的停止条件前对失真图像进行多次恢复操作，每次进行图像恢复时都基于本次输入的待恢复图像自身的特征来确定本次恢复的恢复策略向量、并选择相应的恢复工具进行图像恢复，可用于实现对任意已知或未知失真原因、失真程度和失真顺序的失真图像的恢复；并且由于参考策略向量的加入，可以大大提高对已知顺序的多种失真原因的失真图像的恢复效率。

图6为本发明图像恢复装置又一个实施例的结构示意图。在上述实施例的基础上，如图6所示，策略神经网络52包括：

策略备选模块61，用于根据特征向量获取对应的候选恢复策略向量。

策略获取模块62，用于基于参考策略向量，由候选恢复策略向量获取对待恢复图像进行本次恢复的恢复策略向量。

基于本发明上述实施例提供的图像恢复装置，对于待恢复图像，采用仅基于图像的特征向量输入策略神经网络获得候选恢复策略向量，此时还获得对待恢复图像进行上一次恢复的参考策略向量，此时，为了避免重复选择一些恢复工具，在候选恢复策略向量与参考策略向量对应的恢复工具相同时，由候选恢复策略向量获取与参考策略向量对应的恢复工具不相同的恢复策略向量作为进行本次恢复的恢复策略向量；而在候选恢复策略向量与参考策略向量对应的恢复工具不相同时，就可以选择候选恢复策略向量作为进行本次恢复的恢复策略向量，避免了重复选择同一恢复工具连续对待恢复图像进行恢复。

上述图像恢复装置实施例的一个具体示例中，策略获取模块62包括：

向量相同模块，用于响应于候选恢复策略向量与参考策略向量对应的恢复工具相同，由候选恢复策略向量获取与参考策略向量对应的恢复工具不相同的恢复策略向量作为进行本次恢复的恢复策略向量；和/或，

向量不同模块，用于响应于候选恢复策略向量与参考策略向量对应的恢复工具不相同，以候选恢复策略向量作为进行本次恢复的恢复策略向量。

在本发明上述图像恢复装置实施例的一个具体示例中，向量不同模块623，具有用于将候选恢复策略向量中的最大概率值置为0或者置为小于候选恢复策略向量中其他所有概率值的任一数值，获得进行本次恢复的恢复策略向量。

在上述图像恢复装置各实施例中，策略神经网络包括但不限于循环神经网络。

循环神经网络包括但不限于长短时记忆LSTM模型。

另外，在本发明上述各图像恢复装置实施例的又一个具体示例中，预定的多种恢复工具的种类包括以下任意一项或多项：国际图像压缩标准压缩JPEG国际图像压缩标准解压、去高斯噪声、去均值模糊、去高斯模糊、去运动模糊、视频解压缩、去上采用模糊等；和/或，恢复工具的结构包括：循环神经网络、卷积神经网络或递归神经网络。

图7为本发明图像恢复装置的再一个实施例的结构示意图。如图7所示，本实施例装置还包括：

训练单元71，用于利用策略神经网络，根据特征向量，获取对待恢复图像进行本次恢复的恢复策略向量。

包括：利用初始策略神经网络模型，根据特征向量，获取对待恢复图像进行本次恢复的恢复策略向量。

参数调整单元72，用于在满足预定的停止条件之后，根据本次恢复的图像调整初始策略神经网络的网络参数，以获得策略神经网络。

本实施例装置，通过将待恢复图像作为样本图像，将该待恢复图像输入上述失真图像的恢复方法中，对其中的初始策略神经网络进行训练，直到获得训练好的策略神经网络，而训练好的条件通常为一个预设训练次数，当训练次数达到预设训练次数时，停止训练，将获得效果较好的策略神经网络，此时得到的失真图像的恢复方法的恢复效果也更佳。

在本发明上述图像恢复装置实施例的一个具体示例中，参数调整单元72，具体用于获取本次恢复的图像和样本图像对应的未失真图像的峰值信噪比，并以峰值信噪比作为奖励信号调整策略神经网络的网络参数。

本发明实施例的另一个方面，提供了一种电子设备，包括上述任意一个实施例的图像恢复装置。

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成图像恢复方法上述任意一个实施例的操作。

本发明实施例的另一个方面，提供了一种计算机存储介质，用于存储计算机可读取的指令，该指令被执行时执行图像恢复方法上述任意一个实施例的操作。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图8，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备800的结构示意图：如图8所示，计算机***800包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)801，和/或一个或多个图像处理器(GPU)813等，处理器可以根据存储在只读存储器(ROM)802中的可执行指令或者从存储部分808加载到随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。通信部812可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，

处理器可与只读存储器802和/或随机访问存储器830中通信以执行可执行指令，通过总线804与通信部812相连、并经通信部812与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，对待恢复图像进行特征提取，获得待恢复图像的特征向量；利用策略神经网络，至少根据特征向量，获取对待恢复图像进行本次恢复的恢复策略向量；根据恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，利用确定的恢复工具对待恢复图像进行恢复；将本次恢复的图像作为新的待恢复图像，重复执行上述图像恢复操作，直至满足预定的停止条件。

此外，在RAM 803中，还可存储有装置操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。在有RAM803的情况下，ROM802为可选模块。RAM803存储可执行指令，或在运行时向ROM802中写入可执行指令，可执行指令使处理器801执行上述通信方法对应的操作。输入/输出(I/O)接口805也连接至总线804。通信部812可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

需要说明的，如图8所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，对待恢复图像进行特征提取，获得待恢复图像的特征向量；利用策略神经网络，至少根据特征向量，获取对待恢复图像进行本次恢复的恢复策略向量；根据恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，利用确定的恢复工具对待恢复图像进行恢复；将本次恢复的图像作为新的待恢复图像，重复执行上述图像恢复操作，直至满足预定的停止条件。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种图像恢复方法，其特征在于，包括：

利用策略神经网络，至少根据所述特征向量，获取对所述待恢复图像进行本次恢复的恢复策略向量；所述恢复策略向量包括N+1维，其中，所述N+1维包括：分别表示预设的N种恢复工具中各恢复工具的使用概率的N维、以及表示停止恢复的概率的1维，N为大于1的整数；

根据所述恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，利用确定的恢复工具对所述待恢复图像进行恢复，包括：根据所述恢复策略向量中各维度对应的恢复工具，确定最大使用概率值对应的恢复工具或者使用概率值大于设定概率阈值的至少一个维度对应的恢复工具，作为本次恢复需要使用的恢复工具；

2.根据权利要求1所述的方法，其特征在于，所述停止条件包括以下至少之一：

所述恢复策略向量对应的本次恢复策略为停止恢复；

已经执行的图像恢复操作达到预定的次数阈值。

3.根据权利要求1或2所述的方法，其特征在于，所述至少根据所述特征向量，获取对所述待恢复图像进行本次恢复的恢复策略向量，包括：

所述将本次恢复的图像作为新的待恢复图像，重复执行上述图像恢复操作，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述特征向量与参考策略向量，获取对所述待恢复图像进行本次恢复的恢复策略向量，包括：

5.根据权利要求4所述的方法，其特征在于，基于所述参考策略向量，由所述候选恢复策略向量获取对所述待恢复图像进行本次恢复的恢复策略向量，包括：

6.根据权利要求1-2、4、5任一所述的方法，其特征在于，所述预定的多种恢复工具的种类包括以下任意一项或多项：JPEG国际图像压缩标准解压、去高斯噪声、去均值模糊、去高斯模糊、去运动模糊、视频解压缩、去上采样模糊；和/或

7.根据权利要求1-2、4、5任一所述的方法，其特征在于，所述待恢复图像具体为样本图像；

8.根据权利要求7所述的方法，其特征在于，根据所述本次恢复的图像调整所述策略神经网络的网络参数，包括：

9.一种图像恢复装置，其特征在于，包括：

策略神经网络，用于至少根据所述特征向量获取对所述待恢复图像进行本次恢复的恢复策略向量；所述恢复策略向量包括N+1维，其中，所述N+1维包括：分别表示预设的N种恢复工具中各恢复工具的使用概率的N维、以及表示停止恢复的概率的1维，N为大于1的整数；

恢复单元，用于根据所述恢复策略向量在预定的多种恢复工具中确定本次恢复需要使用的恢复工具，利用确定的恢复工具对所述待恢复图像进行恢复；所述恢复单元，具体用于根据所述恢复策略向量中各维度对应的恢复工具，确定最大使用概率值对应的恢复工具或者使用概率值大于设定阈值的至少一个维度对应的恢复工具，作为本次恢复需要使用的恢复工具；

10.根据权利要求9所述的装置，其特征在于，所述循环单元中包括的停止条件包括以下至少之一：

所述恢复策略向量对应的本次恢复策略为停止恢复；

已经执行的图像恢复操作达到预定的次数阈值。

11.根据权利要求9或10所述的装置，其特征在于，所述策略神经网络，具体用于根据所述特征向量与参考策略向量，获取对所述待恢复图像进行本次恢复的恢复策略向量；所述参考策略向量为对所述待恢复图像对应的原始图像或其恢复图像进行上一次图像恢复操作时使用的恢复策略向量；

12.根据权利要求11所述的装置，其特征在于，所述策略神经网络包括：

13.根据权利要求12所述的装置，其特征在于，所述策略获取模块包括：

14.根据权利要求9-10、12、13任一所述的装置，其特征在于，所述策略神经网络包括循环神经网络；

所述循环神经网络包括长短时记忆LSTM模型。

15.根据权利要求9-10、12、13任一所述的装置，其特征在于，所述预定的多种恢复工具的种类包括以下任意一项或多项：国际图像压缩标准压缩JPEG国际图像压缩标准解压、去高斯噪声、去均值模糊、去高斯模糊、去运动模糊、视频解压缩、去上采样模糊；和/或，

16.根据权利要求9-10、12、13任一所述的装置，其特征在于，还包括：训练单元，用于将所述待恢复图像具体为样本图像，利用初始策略神经网络模型，根据所述特征向量，获取对所述待恢复图像进行本次恢复的恢复策略向量；

17.根据权利要求16所述的装置，其特征在于，所述参数调整单元，具体用于获取本次恢复的图像与所述样本图像对应的未失真图像的峰值信噪比，并以所述峰值信噪比作为奖励信号调整所述初始策略神经网络模型的网络参数。

18.一种电子设备，其特征在于，包括权利要求9至17任意一项所述的图像恢复装置。

19.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至8任意一项所述图像恢复方法的操作。

20.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至8任意一项所述图像恢复方法的操作。