CN105793891A

CN105793891A - 用于确定高分辨率输出图像的方法和设备

Info

Publication number: CN105793891A
Application number: CN201480065403.2A
Authority: CN
Inventors: 阿纳斯特阿普·库马尔·A·乔杜里; 克里斯托弗·安德鲁·西格尔
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-11-30
Filing date: 2014-12-01
Publication date: 2016-07-20
Also published as: US9208539B2; US20170018063A1; WO2015079712A1; JP6352420B2; JP2016540307A; US9734566B2; US20150154739A1; US9460490B2; US20160093026A1

Abstract

一种用于确定高分辨率输出图像的***，包括接收低分辨率图像并确定中间高分辨率图像。该***基于输入图像检测语义特征，并基于检测出的语义特征从数据库中选择对应的语义成分。基于来自该对应的语义成分的信息修改第一中间高分辨率图像，以确定高分辨率输出图像。

Description

用于确定高分辨率输出图像的方法和设备

技术领域

本发明涉及使用基于语义技术的图像增强。

背景技术

数字图像典型地表现为像素阵列。类似地，数字视频典型地表现为一系列图像或帧，每一图像或帧均含有像素阵列。每一像素包含信息，如亮度和/或颜色信息。在许多情况下，每一像素表现为三种颜色的组合，每种颜色被定义为八位色值。

在许多情况下，图像和/或视频编码和/或传输***降级图像内容的质量以降低存储需要和/或传输所需的带宽。在编码和/或传输图像和/或视频后，对图像和/或视频使用恢复技术，以试图从低级版本恢复到高质量的原始图像内容。图像内容的降级发生的原因有很多，比如举例来说，图像传输、图像编码、采集或显示设备的限制等等。另一方面，降级后的图像增强试图改善图像和/或视频的呈现。

在其它情况下，以初始较低分辨率提供图像内容，例如逐行扫描或隔行扫描(比如，720×480像素)。图像内容可以是以非降级方式或降级方式提供的。较低分辨率图像内容可以某种方式增强以适合在具有比该较低分辨率图像内容更高分辨率的显示器上显示，比如4K显示器(比如,3840×2160像素)。

图像和/或视频的恢复和/或增强通常是图像/视频显示***，特别是大尺寸显示器中的处理步骤。目的之一可能是为了恢复和增强图像和/或视频中重要成分的视觉呈现，比如边缘、纹理和其它细节。另一个目的是限制在恢复和增强期间引入有害视觉伪影和/或放大已存在的伪影。一个具体的例子是限制引入或放大图像和/或视频中已存在的噪声，比如照相机噪音或压缩噪音。另一个例子是限制引入边缘或轮廓附近的伪影，它们被称为“光晕(halo)”、“下冲(undershoot)”和“过冲(overshoot)”。

许多不同的技术已被用于尝试进行图像(包括视频)细节增强，以恢复图像。许多这类技术基于采用拉普拉斯金字塔(Laplacianpyramid)的分层框架将图像分解为多个图层，包括一个平滑的低频图像和其它高频成分。然后每个图层被增强并结合到一起形成增强图像。在分解图像时，可以使用边缘保护技术来减小光晕影响。

另一个进行图像细节增强的技术涉及采用双边滤波器来获得图像在多重光照条件下的不同成分，并通过结合这些成分来增强图像的细节。可以修改双边滤波器的范围以同时进行细节增强和噪声去除。另一个技术包括从多个尺度上的局部极值获得图像振荡的信息，并利用这些信息来构建用于增强图像细节的层级。还有一个技术涉及使用小波来构建多分辨率分析框架，以将图像分解为平滑成分及其细节成分，其中小波是根据图像的边缘内容来具体构建以减小光晕影响。

另一个进行图像细节增强的技术采用滤波器来进行图像的多尺度分解。该滤波器是边缘保护性的，并且平滑化基于加权最小二乘法(WeightedLeastSquares，即WLS)优化框架。这在数学上表示为计算下式的最小值，

\underset{p}{Σ} ({(u_{p} - g_{p})}^{2} + λ (a_{x, p} (g) {(\frac{\partial u}{\partial x})}_{p}^{2} + a_{y, p} (g) {(\frac{\partial u}{\partial y})}_{p}^{2}))

其中g是输入图像，u是输出图像，下标p是像素的空间位置。该函数尝试使u尽可能靠近g并通过最小化u的偏导数来实现平滑。平滑权重由ax和ay确定，而λ控制平滑量。λ值越大表示越平滑。举例来说，该技术可被用在拉普拉斯金字塔框架中以获得不同图层的摘要。

如前所述，有许多不同的技术用来增强图像和提高分辨率。例如，D.Glasner,S.Bagon,M.Irani,Super-resolutionformasingleimage,ICCV2009,描述了在输入图像中使用冗余来构建具有低分辨率/高分辨率图像配对的金字塔，并使用基于学***滑度。该方法分析了每一像素周围区域的纹理特征，以在数据库中检索具有相似特征的片段。这里提及的所有参考文献的全文均被引入。

许多用于细节增强的现有技术，例如上文提及的，对于增强图像和/或视频是有效的。然而，这些技术仍然会导致图像对于观看者来说不美观。

考虑以下本发明的详细说明书，并结合说明附图，能够更容易理解前文以及其它部分提及的本发明的目的、特征和优点。

发明内容

发明要解决的问题

当观看图像或视频时，人们对于图像的不同区域的焦点是不同的，这取决于图像描绘的内容。图像内容的突出成分将人们的注意力吸引到图像的不同区域。例如，当观看者在看树的图像时，对于观看者来说，像树叶和树枝这样的语义成分是重要的。例如，当观看者在看面部的图像时，像眼睛、眉毛、鼻子和嘴这样的语义成分是重要的。现有的分辨率增强技术趋向于或者进行不同像素的插值，或者使用基于重建的方法，该方法包括向下采样时高分辨率图像应当准确重现低分辨率图像的假设，或者使用基于学习的方法，在该方法中使用低分辨率和高分辨率图像的训练数据集逐块地重建图像的高频细节。然而，为了以适合观看者的方式增强图像内容，需要以有效的方式基于图像内容的语义内容来修改增强的图像。

用于解决问题的方案

本发明的一个方面提供一种确定高分辨率输出图像的方法，包括：接收具有第一分辨率的低分辨率图像；基于所述低分辨率图像确定具有第二分辨率的第一中间高分辨率图像，其中所述第二分辨率大于所述第一分辨率；基于所述低分辨率图像确定具有第三分辨率的第二中间高分辨率图像，其中所述第三分辨率大于所述第一分辨率；检测所述第二中间高分辨率图像的语义特征，并基于所检测出的语义特征从数据库中选择对应的语义成分；基于来自所述对应的语义成分的信息修改所述第一中间高分辨率图像，以确定具有第四分辨率的所述高分辨率输出图像，其中所述第四分辨率大于所述第一分辨率。

本发明的另一个方面提供一种确定高分辨率输出图像的设备，包括：接收部，其接收具有第一分辨率的低分辨率图像；第一确定部，其基于所述低分辨率图像确定具有第二分辨率的第一中间高分辨率图像，其中所述第二分辨率大于所述第一分辨率；第二确定部，其基于所述低分辨率图像确定具有第三分辨率的第二中间高分辨率图像，其中所述第三分辨率大于所述第一分辨率；检测部，其检测所述第二中间高分辨率图像的语义特征；选择部，其基于所检测出的语义特征从数据库中选择对应的语义成分；以及修改部，其基于来自所述对应的语义成分的信息修改所述第一中间高分辨率图像，以确定具有第四分辨率的所述高分辨率输出图像，其中所述第四分辨率大于所述第一分辨率。

发明效果

本发明该方面能够以适合于观看者的方式增强图像内容，并以有效的方式基于图像内容的语义内容修改增强后的图像。

附图说明

图1示出使用语义内容的图像增强***。

图2示出使用面部语义内容的图像增强***。

具体实施方式

参见图1，该图像增强技术可以接收输入图像100，输入图像100是低分辨率图像L₁102。该低分辨率图像L₁102可以被用于采用任何合适的技术来确定中间高分辨率输出图像110。该中间高分辨率输出图像110优选具有比低分辨率图像L₁102高的分辨率。也就是说，可以基于所述低分辨率图像L₁102确定具有第二分辨率的中间高分辨率输出图像110。第二分辨率大于所述低分辨率图像L₁102的第一分辨率。而且，优选该中间高分辨率输出图像110具有与输出图像相同数量的像素。再参见作为图1的示例性实施方式的图2，采用任何适当的技术，优选采用基于字典的技术来完成中间高分辨率输出图像110。而且，优选中间高分辨率输出图像210具有与输出图像相同数量的像素。术语“高分辨率”通常用来指高质量图像和/或视频数据，例如含有高频成分的图像数据和/或含有精细的细节和纹理的图像数据和/或具有锐化边缘和轮廓的图像数据和/或比输入数据具有更多像素的数据。术语“低分辨率”通常用来指在抓拍、编码或传输过程中可能已经降级的图像和/或视频数据，并且通常较之输出数据包含较少的高频成分和/或较少的细节和/或压缩伪影和/或较少的像素。

低分辨率图像L₁102优选增加分辨率至一个预先设定的分辨率以用于后续处理。也就是说，可以基于所述低分辨率图像L₁102确定具有第三分辨率的第二中间高分辨率图像。所述第三分辨率可以大于所述低分辨率图像L₁102的所述第一分辨率。低分辨率图像L₁102在增加分辨率后，可以被用于采用任何合适的技术来检测图像的语义特征120。检测出的语义特征120标识该图像的特征，这些特征承载与图像中语义对象相对应的图像区域中的语义信息。例如，图像中的特征可以是面部、树、桌子、猫、女孩、男孩、瀑布、球等。再参见作为图1的示例性实施方式的图2，优选对增加分辨率后图像采用关键点提取220来完成语义特征检测120。关键点提取220采用任何合适的技术来标识图像中语义内容的点或区域。在检测面部图像的语义内容的情况下，关键点提取可以涉及不同的面部成分。

检测出的语义特征120可以被用于选择图像的低分辨率语义成分130。可能有一个或多个语义成分130被选择，比如语义成分1132、语义成分2134、语义成分3136至语义成分n138。再参见作为图1的示例性实施方式的图2，优选对于面部成分实施检测低分辨率语义成分230的检测技术，以选择眉毛232、眼睛234、鼻子236和嘴238。语义成分230优选是点表示或者其他方式，但不是包含语义成分的所有二维像素块。这允许增强与数据库的匹配。

来自低分辨率语义成分130的信息被提供用于高分辨率语义成分140。高分辨率语义成分140可以包括高分辨率语义成分1142、高分辨率语义成分2144、高分辨率语义成分3146至高分辨率语义成分n148。高分辨率语义成分140还从高分辨率和低分辨率图像的数据库150接收每个语义成分的对应信息。数据库150可以包括具有与高分辨率语义成分140的语义成分142、144、146、148相对应的标记语义成分的高分辨率图像的数据集。针对每个成分，分别以对于数据库150的低分辨率图像的预定匹配分辨率从数据库150中选择与低分辨率语义成分132、134、136、138相对应的优选匹配。在低分辨率图像150匹配低分辨率语义成分130的分辨率时，实现较高的计算效率和适当匹配。也就是说，可以基于所检测到的语义特征120从数据库150中选择对应的语义成分140。进一步地，所述第一语义成分130可以具有第一语义分辨率。所述对应的语义成分140可以具有第二语义分辨率。而且，所述第二语义分辨率大于所述第一语义分辨率。进一步地，所述数据库150可以包括表示所述第一语义成分130和所述对应的语义成分140的信息。而且，使用该分辨率增加处理更容易有效地处理具有不同分辨率的输入图像100。

参见作为图1的示例性实施方式的图2，来自低分辨率语义成分230的信息被提供用于高分辨率语义成分240。高分辨率语义成分240可以包括眉毛242、眼睛244、鼻子246和嘴248。高分辨率语义成分240还从高分辨率和低分辨率图像的数据库250接收每个面部成分的对应信息。数据库250可以包括具有与高分辨率语义成分240的语义成分242、244、246、248相对应的来自数据库250的标记语义成分的高分辨率图像的数据库。特别地，该数据库可以基于语义标记的面部图像，具有针对每个预期姿势构建的单独数据库(或者是它的一部分)。特别地，对于面部图像，可以包括每个标记的语义成分SC_i，例如眼睛、眉毛、鼻子和嘴，其中i是语义成分的标记。这种解构可以被用于其它语义图像内容及其成分。

参见图2，对于每个测试图像，该***可以首先确定面部姿势，然后使用与该面部姿势相对应的数据库。然后，该***可以进行2个向上采样操作。首先，可以使用朴素(naive，i是分音符)双三次插值I_l来对图像进行向上采样，然后标记不同的语义成分。随后，该***可以使用基于字典的技术对图像D_l进行向上采样。图像D₁是指已经通过基于向上采样字典技术进行了向上采样的低分辨率输入图像L₁。语义成分的梯度信息被转移到该图像，以获得最终的增强图像。该***可以在I₁中标记不同的语义成分。

对于测试图像C_i中的每个语义成分，其中i是语义成分的标记，该***可以从训练数据库中确定最佳匹配的对准成分。在对准和匹配这些成分以前，该***还可以利用具体语义内容的信息，比如关于戴眼镜的人。对于戴眼镜的人，为了对准眼睛和眉毛，该***可以使用只来自戴眼镜的人的眼睛、鼻子和眉毛的训练例子。类似地，对于不戴眼镜的人，该***可以使用只来自不戴眼镜的人的眼睛、鼻子和眉毛的训练例子。对于其它语义成分比如嘴，该***可以使用整个数据库，因为眼镜不会遮挡面部的嘴区域。对于特定的成分，使‘T’作为训练数据库所考虑的图像。训练数据库事先在线下生成。训练数据库被用来重构高分辨率输出图像。最终的高分辨率输出图像可以使用来自包括在训练数据库中的语义成分的梯度信息。需要说明的是，所述数据库可以包括与同一语义内容的不同变体有关的信息。

为了评估对准成分，该***可以在多于一个维度上对SC_i做仿射变换来确定与旋转、缩放和平移有关的参数。这可以通过对数据库中的每个图像求解下式来确定

\begin{matrix} &ForAll; \\ i \end{matrix} \begin{matrix} \arg \min \\ r, s_{x}, s_{y}, t_{x}, t_{y} \end{matrix} | | A ({SC}_{i}) - C_{i} | |^{2}

其中i表示每个语义成分的标记，A是对训练数据库中的语义成分所做的仿射变换，r是关于旋转的参数，s_x是用于在X轴方向进行缩放的参数，s_y是在Y轴方向上进行缩放的参数，t_x是在X轴方向进行平移的参数，t_y是在Y轴方向上进行平移的参数。因为该***优选对每个语义成分标记i单独进行对准，所以该***能够有效考虑成分的不同的表达和尺寸。该***可以使用这些变换参数将‘T’变换以获得‘AT’。训练数据库中的图像被称为‘T’。这些图像已将不同语义成分SC_i做了标记。假定有一个测试图像，其语义成分已被标记，该***首先确定变换参数的最优值，以将这些语义成分中的每一个与测试语义成分进行对准。通过解决上述最小化问题来确定最优参数。当这些最优变换参数被确定时，该***将其应用到‘T’，从而得到‘AT’。数学上，每个变换参数可以用矩阵来表示。变换矩阵可被称为这些矩阵的乘积。‘AT’是变换矩阵和图像‘T’的乘积。也就是说，可以使用多维度缩放操作来确定所述对应的语义成分SC_i。

当该***已经将训练数据集中的每个成分与图像的对应成分对准时，下一步可以是从这些对准成分中寻找最佳匹配成分。寻找最佳匹配成分的标准优选是梯度信息。该***可以对‘AT’的图像进行向下采样，然后通过双三次插值对这些图像进行向上缩放以获得‘UT’。对于每个成分标记i，该***可以定义一组关键点的凸包的区域。使p为语义成分的凸包中存在的像素。可以如下式确定每个成分标记i的最佳匹配

\begin{matrix} &ForAll; \\ i \end{matrix} \hat{x_{i}} = \begin{matrix} \arg \min \\ x \end{matrix} Σ_{p &Element; H (C_{i})} | | &dtri; I_{l} (p) - &dtri; {UT}_{x} (p) | |^{2}

其中是梯度运算符，H是由成分C_i定义的凸包，x是图像UT在‘UT’中的索引。这为面部图像的每个成分提供匹配的对准成分，并且可以针对每个成分检索不同的匹配

语义成分140、240优选是可以从中提取有用特征的二维图像。再参考图1，该***可以从所选语义成分142、144、146、148中获取每个成分160的信息。例如，该信息可以是基于边缘的信息(例如梯度信息)、基于颜色的信息、纹理信息或者与一个或多个语义成分相关的其他合适信息。再参见作为图1的示例性实施方式的图2，该***可以获得每个成分260的梯度信息，每个成分优选被对准并缩放。此外，每个成分240的空间位置同样被保留。

可以针对图像的所有需要的语义成分重复获取每个成分160(图1)、260(图2)的信息的处理。如果需要，该***还可以以合适的方式融合将所有信息160、260融合在一起。融合后的信息被提供用于变换处理170，变换处理170基于语义特征适合地修改中间高分辨率输出图像110以确定高分辨率输出图像180。这种方式中，根据输入图像100的语义内容进一步修改中间高分辨率输出图像，以获得更适合观看的精细化的高分辨率输出图像180,否则其就是高分辨率输出图像。

参见作为图1的示例性实施方式的图2，梯度信息260可以被融合在一起以获得变换后的梯度映射该梯度映射是包含特定图像的梯度信息的图像。然后使用方程将该梯度映射转换成对应的成分L₁，其中是梯度运算符，E_i(I_h|L_l)是图像域中的重构约束，是梯度域中的重构约束，α平衡图像域约束和梯度域约束。L₁是低分辨率图像，并且通过最小化对梯度域和图像域都施加约束的能量函数来构建高分辨率图像I_h。可以通过梯度下降技术使能量最小化，其中

\frac{\partial E (I_{h})}{\partial I_{h}} = ((I_{h} * G) &DownArrow; - D_{l}) &UpArrow; * G - α . ({&dtri;}^{2} I_{h} - {&dtri;}^{2} I_{h}^{T}) .

这是一个迭代处理，并且该***可以采用D₁作为用于I_h的初始步骤，τ是步长。在迭代处理中，步长是确定迭代表达如何快收敛的因素之一。最终强化图像I_h包括强化语义成分。G是指高斯核，↓是向下采样运算符，↑是向上采样运算符。

需要注意的是，所述用于确定高分辨率输出图像的方法的每一步骤可以由硬件逻辑来配置，或者可以由CPU执行的软件来实现。也就是说，本发明包括用于确定生成高分辨率输出图像的设备，该设备包括：接收部，其接收具有第一分辨率的低分辨率图像；第一确定部，其基于所述低分辨率图像确定具有第二分辨率的第一中间高分辨率图像，其中所述第二分辨率大于所述第一分辨率；第二确定部，其基于所述低分辨率图像确定具有第三分辨率的第二中间高分辨率图像，其中所述第三分辨率大于所述第一分辨率；检测部，其检测所述第二中间高分辨率图像的语义特征；选择部，其基于所检测出的语义特征从数据库中选择对应的语义成分；以及修改部，其基于来自所述对应的语义成分的信息修改所述第一中间高分辨率图像，以确定具有第四分辨率的所述高分辨率输出图像，其中所述第四分辨率大于所述第一分辨率。

前述说明书中采用的术语或表达在此作为描述性的措辞而不是限制行的措辞来使用，并且使用这些术语或表达并没有意图排除所示或描述特征或其部分的等同变换，应当理解，本发明的范围仅由所附权利要求定义和限制。

Claims

1.一种确定高分辨率输出图像的方法，其特征在于，包括：

接收具有第一分辨率的低分辨率图像；

基于所述低分辨率图像确定具有第二分辨率的第一中间高分辨率图像，其中所述第二分辨率大于所述第一分辨率；

基于所述低分辨率图像确定具有第三分辨率的第二中间高分辨率图像，其中所述第三分辨率大于所述第一分辨率；

检测所述第二中间高分辨率图像的语义特征，并基于所检测出的语义特征从数据库中选择对应的语义成分；

基于来自所述对应的语义成分的信息修改所述第一中间高分辨率图像，以确定具有第四分辨率的所述高分辨率输出图像，其中所述第四分辨率大于所述第一分辨率。

2.根据权利要求1所述的方法，其中所述第二分辨率与所述第四分辨率相同，并且所述第二分辨率以及所述第四分辨率与所述第一分辨率不同。

3.根据权利要求1所述的方法，其中所述确定所述第一中间高分辨率图像基于字典技术。

4.根据权利要求1所述的方法，其中所述检测语义特征基于关键点提取技术。

5.根据权利要求1所述的方法，其中所检测出的语义特征被用来选择第一语义成分。

6.根据权利要求5所述的方法，其中所述对应的语义成分基于所述第一语义成分。

7.根据权利要求6所述的方法，其中所述第一语义成分具有第一语义分辨率，所述对应的语义成分具有第二语义分辨率，其中所述第二语义分辨率大于所述第一语义分辨率。

8.根据权利要求7所述的方法，其中所述数据库包括代表所述第一语义成分和所述对应的语义成分的信息。

9.根据权利要求8所述的方法，其中所述数据库包括与相同语义内容的不同变体相关的信息。

10.根据权利要求7所述的方法，其中使用多维尺度操作来确定所述对应的语义成分。

11.根据权利要求1所述的方法，其中来自所述对应的语义成分的所述信息是基于边缘的信息。

12.根据权利要求11所述的方法，其中将多个对应的语义成分的所述信息结合。

13.根据权利要求1所述的方法，其中修改所述第一中间高分辨率图像基于减少能量函数。

14.一种确定高分辨率输出图像的设备，其特征在于，包括：

接收部，其接收具有第一分辨率的低分辨率图像；

第一确定部，其基于所述低分辨率图像确定具有第二分辨率的第一中间高分辨率图像，其中所述第二分辨率大于所述第一分辨率；

第二确定部，其基于所述低分辨率图像确定具有第三分辨率的第二中间高分辨率图像，其中所述第三分辨率大于所述第一分辨率；

检测部，其检测所述第二中间高分辨率图像的语义特征；

选择部，其基于所检测出的语义特征从数据库中选择对应的语义成分；以及

修改部，其基于来自所述对应的语义成分的信息修改所述第一中间高分辨率图像，以确定具有第四分辨率的所述高分辨率输出图像，其中所述第四分辨率大于所述第一分辨率。