CN113039576A - 图像增强***和方法 - Google Patents

图像增强***和方法 Download PDF

Info

Publication number
CN113039576A
CN113039576A CN201980075102.0A CN201980075102A CN113039576A CN 113039576 A CN113039576 A CN 113039576A CN 201980075102 A CN201980075102 A CN 201980075102A CN 113039576 A CN113039576 A CN 113039576A
Authority
CN
China
Prior art keywords
image
input image
basis functions
basis
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980075102.0A
Other languages
English (en)
Inventor
G·芬莱森
A·海耶斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of CN113039576A publication Critical patent/CN113039576A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2337Non-hierarchical techniques using fuzzy logic, i.e. fuzzy clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/36Applying a local operator, i.e. means to operate on image points situated in the vicinity of a given point; Non-linear local filtering operations, e.g. median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Fuzzy Systems (AREA)
  • Computing Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Nonlinear Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)

Abstract

本发明描述了一种图像增强方法和***。该方法包括接收输入图像和目标图像对,该输入图像和目标图像中的每一者包括表示像素强度的数据;处理该数据以确定多个基函数,每个基函数根据输入图像的内容确定,确定基函数的组合以修改输入图像的像素的强度以近似目标图像;以及将该多个基函数应用于输入图像以产生目标图像的近似。

Description

图像增强***和方法
技术领域
本发明涉及生成经修改的数字图像并且还可生成融合图像的图像增强方法和***。在某些情况下,本发明还可扩展到数字视频增强。
背景技术
图像可以数字方式表示为亮度强度I(x,y)的标量函数(x和y是具有由数字计数I(x,y)=亮度强度编码的亮度的笛卡尔坐标)。图像还可以数字方式表示为矢量函数I(x,y)(其中在空间位置处存在具有红色、绿色和蓝色值(R、G和B)的相应强度的矢量I)。应当理解,可使用其他坐标系,并且图像也可由其他强度编码模型表示(例如,诸如常用于印刷的CMYK表示)。I(x,y)可在任何域上定义,并且可以不同单位编码像素亮度,包括线性和对数编码。
图像增强以多种方式进行,通常通过操纵(经由计算处理)图像的像素,其目的在于以某种方式改善图像。在一些情况下,这导致图像的像素强度***纵——例如均衡各个颜色通道的亮度强度水平或强度。在其他情况下,可操纵图像本身的内容,例如以改变背景、移除不需要的元素或添加元素。实际改善/增强根据具体应用而变化。在一些情况下,仅产生美学上令人愉悦的图像是主要目标,而其他应用可强调再现尽可能多的图像细节、最大化图像对比度、或改变图像的部分。
下面的讨论集中于两个不同的区域:
强度操纵;和,
内容操纵。
就强度操纵而言,其目的在于在操纵像素的强度水平以实现所需效果的同时基本上保留图像的内容。应当理解,强度可指灰度或一个或多个颜色通道的强度。
在内容操纵中,通常通过替换或操纵图像中与某些内容区域对应的所选择的像素或像素分组来以取决于内容(并且可能导致内容的改变)的方式改变图像。应当指出的是,强度和内容操纵不是相互排斥的,并且可存在交叉——例如,内容操纵可包括强度操纵的元素,使得所添加的内容与图像的其余部分在上下文中拟合并且不会看起来不合适。
强度和内容操控两者中的初始阶段是选择要操控的图像分量或区域。在强度操纵中,这通常利用固定参数在算法上完成。一种类型的方法是图像分割,其中数字图像被划分为多个片段(像素组)。图像分割可以是经由强度、聚类、边缘检测、语义内容或其他方法(或方法的组合)进行的。一旦被分割,图像就可***纵——例如,在简化示例中,像素可根据阈值强度被分割,并且低于阈值的那些像素随后可被亮化。有时,随着分割性能提高,操纵的准确性和有效性也提高。然而,资源利用通常也随着分割性能的提高而增加。
内容操纵
就内容操纵而言,分割通常与实际操纵分开。图像分割技术通常用于限定引导待操纵的像素的选择的掩模。例如,在背景移除/替换的情况下,创建描绘要保留的前景的边缘的掩模,然后剩余部分、背景的像素可被移除、替换等。
掩模创建通常包括用户输入以引导选择什么是前景并且什么不是。通常在前景和背景之间将不存在清晰的颜色/强度描绘。诸如毛发和阴影的细节被认为对于在掩模内准确地捕获是特别具有挑战性的。摄影师在生成掩模时不得不细化计算机生成的掩模并拾取计算机漏掉的细节是很平常的——下面列出的内容操纵实施方案自动执行类似的作用。
强度(和颜色)操纵
在强度操纵中,图像分割对于某些方法中的准确性也可能是重要的(尽管并非所有强度操纵方法都使用分割)。
通常为直方图均衡执行的图像增强的基础工作流程在图1中示出。在图的顶行中,示出了输入图像图1a,之后是图1b中的被分割成图块的相同图像,并然后在图1c中示出了应用于每个图块的对比度增强算法的输出。每个图块的计算是简单的色调曲线:从输入亮度到输出亮度的映射。9个图像区域的色调曲线在图1d中示出。应当理解,输出1c是不可接受的,因为在输出图像中可以看到分成9个图块。
已建议避免在输出图像中出现图块划分的一种方式是进行每个每图块计算(在这种情况下封装为色调曲线)并将其应用于整个图像,在这种情况下产生9个全尺寸图像输出。然后可根据固定的插值方案对9个输入进行插值。一种这样的固定插值方案是“径向基”函数类型插值。在图1e中,示出了9个高斯函数(1a中所示的原始图像尺寸的)。在给定的x和y空间位置处,可以查找9个高斯的值,然后这可以用作内插图1d所示的9个色调映射图的输出的指导。具体地讲,在x-y位置处,9个高斯产生9个概率。将该矢量缩放为总和为一,我们可使用所得的矢量来对每个色调映射图像的贡献进行加权。使用该内插方案在图1d的色调曲线上计算然后应用于图1a的输入的所得图像在图1f中示出。
尽管与1c)相比,最终输出1f)示出图像中的每个地方的细节更好的可见性,但可见的细节级别要低得多。实际上,这是该方法的限制。通过应用固定空间插值(此处为高斯径向基函数),对计算可能的局部程度是有限制的。虽然可使用更多的径向基函数来解决这个问题,但这种方法导致更高的计算复杂性。此外,计算越“局部”,所得图像将看起来越像1c(即,“块状的”),这将是不可接受的。实际上,在现有***中,除非使用相当平滑的插值,否则最终输出图像将具有空间伪影。
上述两种方法被称为“全局”和“局部”处理。
全局处理方法将每个唯一输入亮度(无论其出现在图像中的何处)映射到对应的唯一输出。例如,假设I(x,y)是间隔[0,1]中的标量值,则I(x,y)*1.5将使所有像素更亮(50%)。全局方法的推定优点在于,因为每个唯一输入值映射到唯一输出值,所以保留了图像的空间相干性。
局部或空间处理方法——到目前为止最常见的图像处理类型。局部处理方法通常在不同位置处重复相同的操作,因此不能保证两个不同位置处的相同输入亮度将映射到相同输出。例如,假设通过局部平均模糊了图像。该操作可表示为I(x,y)->blur(I(x,y))=I’(x,y)。如果在输入图像中I(a,b)=u=I(c,d),则不一定是I’(a,b)=I’(c,d)的情况(实际上,如果是这种情况,则该方法实际上将是实施全局处理)。
局部处理的问题之一是其不保留输入图像的空间相干性。在模糊示例中,明确定义的高对比度边缘在局部平均之后将变得不太强:图像将看起来更软并且一些细纹理细节可能完全丢失。
在图2的左面板中,示出了输入图像。中间面板示出全局处理的输出,其中亮度增加50%。右面板示出了图像的模糊(局部空间处理)。
存在尝试保留全局方法的一些简单性但允许计算的一些局部性(根据图1中的工作流程)的中间方法。例如,直方图均衡是全局方法,其中输入图像亮度被映射(以一对一的方式),使得所生成的输出直方图变得均匀(或尽可能均匀)。一般来讲,直方图均衡产生输出图像,其中存在更多细节。暗图像将变得更亮——阴影中的细节可弹出——并且亮图像将变得更暗(云可看起来更好地限定)。
在图3的左边两个面板中,示出了图像及其直方图。在第3和第4面板中,分别示出了直方图均衡后的图像及其新直方图。注意,在直方图均衡后,直方图几乎是均匀的。其由于量化而不是完全平坦的(为了使其平坦,将需要使具有相同亮度的一些输入像素映射到不同的输出亮度)。使用面板5中所示的色调曲线将面板1映射到面板3。
直方图均衡处理在第5面板中可视化为色调曲线操作。该简单图简单地(并且完全地)说明了输入亮度如何映射到输出亮度。
显然,直方图均衡可改变图像的“外观”。输出图像(图2的第3面板)比输入图像更亮并且具有更高的对比度。然而,注意现在天空中存在“边缘”。这种“假轮廓”的原因能够通过查看色调曲线(第五面板)来解释。此处,许多输入亮度被映射到类似的输出亮度(在0.4至0.8范围内的输入全部被映射到约0.8的输出)。这包括天空的较暗部分,就亮度而言,该较暗部分相对于较亮部分被下推,因此形成边缘。假轮廓和“太多细节”是在使用直方图均衡时遇到的两个常见问题。
在图4中,示出了来自“对比度受限”直方图均衡方法的输出(https:// en.wikipedia.org/wiki/Adaptive_histogram_equalization)。该方法背后的想法是,当直方图均衡被视为音调曲线时,曲线的斜率应该既不太陡也不太浅。
图4的左图像示出了应用于输入(图2的左图像)的对比度受限直方图均衡的输出。图像直方图在图的中间示出。注意,直方图比输入更均匀(第2面板,图3)。对比度受限直方图均衡为色调曲线的可视化示于图4的右图像中(此处斜率被限定为大于0.5且小于2)。
可以说,与图3所示的完全直方图均衡相比,图4中的图像现在是“未经足够处理的”。虽然天空中没有伪影,但与图3(面板3)相比,输出似乎缺乏对比度。
在CLAHE(对比度受限自适应直方图平衡)中,在不同的图像图块(图像被划分成(比方说)16x16非重叠矩形区域或图块)中计算不同的色调曲线(同样具有有界斜率)。在给定像素处应用的曲线是在当前图块和周围图块中计算的色调曲线的插值。如果图5,则示出CLAHE的结果。左面板示出CLAHE输出,中间示出所得亮度直方图,并且右面板示出输入亮度(针对左,图1)与输出亮度(左面板)的关系。
输出图像当然是显著的。然而,可以说,明显进行了过多的处理。在整个图像中存在非常高的对比度。天空中的假轮廓也已返回。注意,因为CLAHE是——在这种情况下——16×16网格中256条色调曲线的插值),所以当相对于输出亮度绘制输入时,看到点的散布图而不是线。根据定义,CLAHE是局部和空间变化的图像增强算法。
许多现有的图像处理方法可视为局部/空间(取决于x和y位置)与全局(取决于输入亮度或矢量)之间的折衷。例如,在双边滤波(https://en.wikipedia.org/wiki/ Bilateral_filter)中,图像模糊,但亮度值的相对量值被考虑在内。在双边滤波中,还根据局部区域中的像素与给定x、y位置(即,中间)处的像素的相似程度对模糊进行加权。
在WO 2011/101662中,任何图像增强算法的输出(其可具有显著的空间伪影,诸如“光晕”、假轮廓或太大的对比度)通过空间变化的查找表操作来近似,其中查找表是根据优化(并且类似于其他现有技术方法,根据固定的空间变化的插值)来计算的。在图6中,示出了这种近似的输出(左,输入图像。中间,CLAHE的输出。右,使用空间变化的LUT的近似)。
更一般地讲,常见的是根据已知的空间分解来分解图像,对各个分量应用处理,然后反转分解。例如,在JPEG图像压缩标准中,根据离散余弦变换对图像中的每个16像素×16像素块进行编码。即,该块由作为2D余弦展开的一部分的“基”函数的总和表示。第一“基”函数;在该展开中为C1(x,y)=1。第二和第三为C2(x,y)=cos(x/2)和C3(x,y)=cos(y/2)。如果求出相对于这3个函数的DCT系数,则可以找到a、b、c,使得||block(x,y)-aC1(x,y)-bC2(x,y)-cC3(x,y)||尽可能小。显然,如果16×16块由3个数字-(a,b,c)近似,则实现信息的大压缩。可使用的其他基函数包括规则分布的高斯函数。
图6所示的WO 2011/101662的应用假设计算的空间变化方面(将左图像映射到中间)由离散余弦基展开中的前3项定义:每像素处理是3个计算的输出图像的线性组合,其中每像素组合由该像素位置处的DCT值定义,从而得到右所示的图像。无论输入图像如何,都使用相同的方法和参数。关于二维离散余弦变换中的前3个基图像的可视化,参见图7。注意,因为第2阶和更高阶的DCT图像在[-1,0]中具有值,所以在图7中将-1编码为“0”,将“1”编码为黑色。
发明内容
根据本发明的一个方面,提供了图像增强方法,该方法包括:
接收输入图像和目标图像对,所述输入图像和所述目标图像中的每一者包括表示像素强度的数据;
处理所述数据以确定多个基函数,每个基函数根据所述输入图像的内容来确定;
确定所述基函数的组合以修改所述输入图像的像素的所述强度以近似所述目标图像;并且,
将所述多个基函数应用于所述输入图像以产生所述目标图像的近似。
处理数据以确定多个基函数的步骤可包括处理数据的导数以确定多个基函数。
每个基函数可根据一个或多个内容类型来确定,该一个或多个内容类型包括:输入图像中的颜色、输入图像中的像素强度或输入图像中的所识别或指定的形状或元素。
当应用于输入图像时,多个基函数中的每一个基函数通过根据基函数对输入图像的每个像素进行编码来优选地将输入图像分解成对应的图像层。
图像增强函数可为预定图像处理算法的近似,目标图像包括预定图像处理算法的输出,并且确定步骤包括求解用于组合基函数的优化以近似预定图像处理算法的输出。
可根据二进制分解来确定基函数以产生k个基函数,其中在输入图像中的每个像素处,基函数中的一个基函数应用于像素,并且其他k-1个基函数不应用。
可根据非二进制分解来确定基函数,其中预定分布函数应用,并且针对输入图像中的给定像素,基函数对像素的内容与相应基函数相关联的相对概率进行编码。
可根据连续分布来确定基函数,其中每个基函数是模糊的,并且使用输入图像作为引导来对每个基函数的输出进行交叉双边滤波。
确定组合的步骤可包括求解输入图像的每通道多项式变换的优化以近似目标图像,其中多项式对应于基函数。
确定组合的步骤可包括针对每个基函数求解输入图像的完全多项式变换的优化以近似目标图像。
基函数的组合可包括基函数的加权组合。
该方法还可包括接收另外的输入图像,确定另外的输入图像的多个另外的基函数,包括确定基函数和另外的基函数的组合的确定的步骤,根据所述组合将所述基函数和另外的基函数应用于所述输入图像和另外的输入图像以融合所述输入图像和另外的输入图像的步骤。
每个基函数可从输入图像的缩略图确定和/或应用于输入图像的缩略图。
该方法还可包括针对视频的图像应用确定基函数以及将基函数应用于视频中的后续图像。
根据本发明的另一方面,提供了一种图像增强***,其包括:
输入接口,所述输入接口被配置为接收输入图像和目标图像对,所述输入图像和所述目标图像中的每一者包括表示像素强度的数据;
处理器,所述处理器被配置为执行用于处理所述数据以确定多个基函数的计算机程序代码,每个基函数根据所述输入图像的内容来确定;
所述处理器被进一步配置为执行计算机程序代码以确定所述基函数的组合从而修改所述输入图像的像素的所述强度以近似所述目标图像,并且将所述多个基函数应用于所述输入图像并在输出界面处输出包括从所述输入图像生成的所述目标图像的近似的图像。
根据本发明的另一个方面,提供了一种图像增强方法,该方法包括:
接收第一输入图像和第二输入图像,每个输入图像包括表示所述图像的像素强度的数据并且所述第二输入图像的像素的至少子集与所述第一输入图像的像素对应;
处理所述数据以确定多个基函数,每个基函数根据所述第一输入图像的内容并且从取决于所述内容的掩模确定,所述基函数被配置为应用于所述第一输入图像以生成分割图像;
将所述多个基函数应用于所述第一输入图像以生成对应的多个所述分割图像;并且,
组合所述多个分割图像和所述第二输入图像以生成输出图像。
该方法可包括以缩略图分辨率计算掩模。
该方法还可包括将语义分割神经网络应用于所述输入图像,使用从所述输入图像获得的深度估计信息或者应用另一种算法或基于传感器的方法来计算掩模。
掩模可为二进制图像分割掩模、非二进制图像分割掩模或连续分布图像分割掩模。
基函数优选地包括模糊型式的掩模、通过侵蚀掩模然后使其模糊而计算的一个或多个基函数、以及通过扩张该掩模然后使其模糊而计算的一个或多个基函数。
模糊和扩张优选地基于多个不同尺寸的内核。
该方法还可包括根据掩模精确度的估计或分析来修改内核尺寸。
优选地,基函数还包括一组反转的基函数。
组合步骤可包括求解多项式展开以确定基函数的组合。
组合步骤可包括求解基函数的每颜色通道优化以确定输出图像。
根据本发明的另一方面,提供了一种图像增强***,其包括:
输入接口,所述输入接口被配置为接收第一输入图像和第二输入图像,每个输入图像包括表示所述图像的像素强度的数据并且所述第二输入图像的像素的至少子集与所述第一输入图像的像素对应;
处理器,所述处理器被配置为执行计算机程序代码以处理所述数据来确定多个基函数,每个基函数根据所述第一输入图像的内容并且从取决于所述内容的掩模确定,所述基函数被配置为应用于所述第一输入图像以生成分割图像;
所述处理器被进一步配置为执行计算机程序代码以将所述多个基函数应用于所述第一输入图像以生成对应的多个所述分割图像;并且,
所述处理器被进一步配置为执行计算机程序代码以组合所述多个分割图像和所述第二输入图像以生成输出图像。
根据本发明的一个方面,提供了一种图像增强方法,该方法包括:
接收输入图像和目标图像对,所述输入图像和所述目标图像中的每一者包括表示像素强度的数据;
处理所述数据以确定多个基函数,每个基函数根据所述输入图像的内容来确定;
确定所述基函数的组合以修改所述输入图像的像素的所述强度以近似所述目标图像;并且,
将所述多个基函数应用于所述输入图像以产生所述目标图像的近似。
处理数据以确定多个基函数的步骤可包括处理数据的导数以确定多个基函数。
根据本发明的另一个方面,提供了一种图像增强方法,该方法包括:
接收第一输入图像和第二输入图像,每个输入图像包括表示所述图像的像素强度的数据并且所述第二输入图像的像素的至少子集与所述第一输入图像的像素对应;
处理所述数据以确定多个基函数,每个基函数根据所述第一输入图像的内容并且从取决于所述内容的掩模确定,所述掩模被配置为应用于所述第一输入图像以生成分割图像;
将所述多个基函数应用于所述第一输入图像以生成对应的多个所述分割图像;并且,
组合所述多个分割图像和所述第二输入图像以生成输出图像。
在本发明的实施方案中,内容的各个方面可以用于确定多个基函数。这可包括像素的强度值、像素的RGB颜色、图像内的指定、识别或辨别的元素或区域(这些元素或区域可在视觉上被辨别、通过强度差异或以某种其他方式被识别)。可对输入图像进行预处理,并且将导出的图像用作确定基函数的基础。有时也可使用显现在第二图像(或更一般地讲(N个图像中的)第i个图像)中的图像的内容来确定所述多个基函数(以允许元素从相关图像换入)。
本发明的实施方案试图解决图像增强中的计算成本问题,同时试图在没有空间伪影的情况下递送非常详细的输出。实施方案还试图解决在图像增强应用(诸如均衡)中使用非常平滑的固定插值方案的需要。另外,实施方案试图提供与现有技术方法相比使用更少基函数的方法和***同时试图与原始图像匹配或改善精确度和一致性。本发明的实施方案基于图像本身中的内容来选择、确定或以其他方式选择每个图像的基函数。
本发明的所选择的实施方案使用图像分割信息来执行各种图像操纵任务,而没有边界或过渡伪影。
本发明的实施方案还试图针对任何特定级别的分割性能改善输出图像质量。
使用下文所述的方法,实施方案使得能够在输出图像中保留更高级别的精细细节,而无需手动干预。
本发明的所选择的实施方案试图将输出图像计算为图像的每通道多项式变换,其中所采用的多项式随图像的内容而变化。在另一个实施方案中,针对每个内容变化的基函数求解输入图像的完全(包括交叉项)多项式变换。
在一个实施方案中,基(插值)函数与图像中的亮度成比例。在另一个实施方案中,它们取决于存在于图像中的颜色。同样,基函数可以取决于内容的其它定义,如下所述。
与使用固定基函数的现有技术相比,在本发明的实施方案中,每个图像选择、计算、导出或以其他方式确定多个基函数,每个基函数的选择、计算、导出或其他确定基于图像本身中的内容。例如,在本发明的一个实施方案中,可选择/计算/确定用于强度均衡一个图像的一组基函数,所述一组基函数基本上不同于选择/计算/确定用于强度均衡另一个图像的另一组基函数,所述基函数根据相应图像的内容选择/计算/确定。
总体而言,实施方案根据基函数如何取决于其涉及强度还是内容操纵来根据图像的内容进行选择/计算/确定而不同,并因此在下文单独描述这些。
附图说明
现在将参考附图仅以举例的方式描述本发明的实施方案。
图1至图7示出了图像增强方法;
图8为根据一个实施方案的图像增强方法的流程图;
图9为根据一个实施方案的用于从输入图像生成强度增强的输出图像的***的示意图;
图10至图17为示出本发明实施方案的图像增强方面的图像;
图18为示出实施方案的各方面的示意图;
图19为根据一个实施方案的用于从输入图像生成增强的输出图像的***的示意图;
图20示出了来自一个实施方案的示例性图像;
图21和图22示出了根据一个实施方案的产生散景效果的方法;
图23示出了来自一个实施方案的示例性图像;并且,
图24示出了根据一个实施方案的产生区域缩放效果的方法。
具体实施方式
强度操纵
图8为根据一个实施方案的图像增强方法的流程图。
在步骤10中,接收表示输入图像和目标图像的像素强度的数据。
在步骤20中,处理数据以确定多个基函数。基于图像本身中的内容来选择、计算、导出或以其他方式确定每个图像的多个基函数。每个基函数被配置为修改输入图像的像素的强度以近似目标图像。
在步骤30中,将多个基函数应用于输入图像以产生目标图像的近似(此处称为增强图像)。
增强图像可根据预期应用写入存储装置、输出到显示器、传送或以其他方式输出。
图9为用于从输入图像101生成强度增强的输出图像的***100的示意图。
输入图像101可以经由数据通信链路或在存储介质上接收,其可以是来自相机的图像馈送等。输入图像可以是灰度、彩色或多光谱的,并且也可以在逻辑上由相同场景的多个图像(单独编码/存储)、单个或相关图像馈送的分量、单个或相关图像文件的分量等组成。也可经由数据通信链路接收目标图像102。另选地,目标图像可由另一个***生成,该另一个***被提供输入图像并对其应用一些预定过程或算法。在这种情况下,目标图像被“接收”的意义是其接收自从输入图像生成其的另一个***——输入图像可以是此类布置中唯一的用户输入。
该***包括处理器110,该处理器获得表示输入图像101和目标图像102的像素强度的数据。可根据编码和应用来处理不同的强度。例如,其可为亮度或其可为特定颜色(或其他光谱)通道的强度或一些其他可确定的强度。其也可为或包括导数。
处理器110处理数据以确定多个基函数。基函数针对每个图像确定,并且根据输入图像和任选地目标图像的内容来确定。
当应用于图像时,多个基函数中的每一个基函数通过根据其强度对每个像素进行编码来将图像分解成对应的图像层。在整个输入图像上应用每个基函数。
一旦获得了基函数,就将它们应用于输入图像,并且将所得的图像层组合以生成强度修改的输出图像103,该输出图像是目标图像102的近似。其示例在下文中更详细地列出。
***100还包括处理器110以及***100操作和执行用于执行图像增强的计算机程序代码(其执行上述操作)所需的任何必要的存储器或其他部件。
输出图像可例如经由I/O设备或***输出到存储器、数据存储装置,经由网络输出到用户界面或输出到图像再现设备诸如打印机或用于产生硬拷贝的其它设备。输出图像也可用作其他***的输入。
在下文所述的本发明的实施方案中,发现“看起来”具有空间范围的N(其中N>1)个取决于图像内容的基函数,参见图10(其中基函数的数量为3)。事实上,它们实际上是强度变化的并且完全取决于图像。虽然在下面的实施方案中讨论了三个基函数,但可使用两个或更多个基函数。应当理解,可使用其他数量的基函数,但计算复杂性将随着基函数数量的增加而增大。从下面的实验结果可以看出,三个基函数可产生高度可接受的结果,并且具有比现有技术***显著更低的计算负担。
虽然基函数看起来具有空间范围,但事实上,“分解”的空间方面与原始图像中的亮度而不是基函数相关。实际上,查看图2(左面板),最亮区域是天空,最暗区域是树木,并且中间亮度界定前景区域。这种直观分解反映在图10所示的基图像中。
确定这种分解的各种方式是可能的并且在下文讨论。
最简单的方式是通过在图像中找到一组k个聚焦亮度来近似图像增强函数。这些可为均匀间隔的分位点,例如,如果k=3,则可将所选择的亮度设定为最暗像素、50%亮度像素和100%最亮像素的亮度。对于这k个聚焦像素中的每一个聚焦像素,进行特定于强度的基函数。在下面的讨论中,将k个聚焦亮度表示为b_i(i=1..k)。
二进制分解
最简单的分解将为具有k个基函数,其中在每个像素处,一个基函数为1,则其他k-1个基函数为0。这些基函数可根据以下方程定义:
Figure BDA0003064660760000131
图11中示出了3个二进制基函数。如果对应的第i个聚焦亮度最靠近输入图像(输入图像在图2的左侧示出)中的给定像素,则第i个基函数为1。
查看图11,显而易见的是,不同的亮度趋于在图像中进行空间聚类。二进制分解(粗略地)找到输入图像的3个空间“区域”。然而,存在这不真实的地方(树木出现在第一基函数和第二基函数两者中)。此外,基函数似乎受噪声的影响。这仅仅是基函数中“高频”变化的证据。
非二进制分解
优选的实施方案使用非二进制分解。下面在图12中示出的基函数以两个步骤计算。首先,对于每个聚焦亮度,计算表示为N(bii)的正态分布。此处,根据经验选择标准偏差(但如果聚焦亮度的数目为k,则例如可为1/k)。
给定“查询”亮度I(x,y),其“概率”根据正态分布计算,该“概率”表示为Pi(x,y)。给定k个概率图像Pi(x,y),强度变化的基函数可计算为
Figure BDA0003064660760000132
当然,可以使用任何合理的概率函数。对于输入图像中的给定像素,基函数对像素亮度与第i个聚焦亮度相关联的相对概率进行编码。
连续分解
与图10所示的二进制分布相比,图12所示的非二进制分解更平滑并且看起来空间相干性更高。然而,映射图不是连续的,并且语义区域之间的边缘清晰度也不是明确定义的。为了实施连续性,每个基函数在所选择的实施方案中是模糊的。边缘清晰度可通过后处理非二进制分解来施加。例如,通过模糊图11所示的基函数,然后对输出进行交叉双边滤波(使用输入图像作为引导),可产生图10所示的连续分解。图13中示出了将非二进制分解(图12中所示的图像)转换成最终强度变化的基函数的过程。
已经发现,平滑变化但在被分析的输入图像中的“语义”边缘处具有良好边缘清晰度的基函数通常提供最佳图像增强结果。然而,所讨论的所有三种强度变化的分解(二进制、非二进制和连续的)可直接使用而具有良好的效果。
在图14中,示出了来自图8的基函数的近似。此处的每个基函数根据输入亮度图像被选择为简单的全局函数。示出了三个基函数。这些图像是输入图像(左,图1)的全局函数。它们严格且仅强度变化。
在图15中,示出了图14和图10之间的绝对差。保存左上(树枝中的精细细节),仅强度变化的函数(图15)令人惊讶地类似于图10中导出和示出的那些。
在一个实施方案中,强度变化函数用于近似图像处理函数。
假设I’(x,y)=f(I(x,y)),其中f()是在空间上处理图像的算法。算法f()可被配置为例如:增加对比度(例如,对比度受限直方图自适应直方图均衡,如前所述);压缩动态范围(https://en.wikipedia.org/wiki/High-dynamic-range_imaging);或者,将细节添加到图像(https://en.wikipedia.org/wiki/Unsharp_masking)
此处的意图是以根据强度变化分解为全局变换图像的组合的方式近似图像I’(x,y)。假设第i个基函数(和第i个聚焦亮度)由函数fi()近似。该函数将输入亮度映射到输出亮度(f()可单调增加,参见图1)。求解函数fi(),其使以下方程最小化:
Figure BDA0003064660760000141
在一个实施方案中,使用标准线性优化技术求解方程3。例如,如果fi()为ai+biI(x,y)+ciI(x,y)2形式的多项式,则对于给定的图像,方程3中的优化是针对k*3系数求解的。还可将约束添加到优化。例如,约束可迫使函数fi()单调增加或迫使解正则化。
对I’(x,y)的近似J(x,y)被写为
Figure BDA0003064660760000151
图16中示出了强度变化近似(使用3个强度变化的基函数)CLAHE输出。左侧面板示出输入图像,中间面板示出来自CLAHE的输出并且右侧面板示出强度变化近似。CLAHE的强度变化近似呈现在(明显的)空间变化的对比度增强之间的良好组成,其中尚未引入伪影。
图17将左侧来自空间变化图像近似的输出(用固定离散余弦基函数)与这里讨论的强度变化的对应物(在图像的右侧)进行比较。从本发明的实施方案返回的额外细节是显而易见的。这确认了与现有方法相比,随图像内容而变化的基函数产生了有利的图像增强结果。
本发明的实施方案可有利地应用于视频序列。然而,虽然可以将方程3和方程4应用于视频的每个帧,但也可以求解给定帧(时间t)的函数fi(),然后在时间T+U(U>0)处仅使用方程4,其中在时间T+U处仅需要重新计算强度变化的基函数。
本发明的实施方案还可应用于依赖于内容的图像融合。
假设有N个输入图像要融合以形成M维输出(其中M<N)。还假设存在M维“引导”。例如,给定具有N=4个通道(R、G、B和NIR(近红外))的输入图像,图像融合的目标是制作RGB融合输出图像(M=3),其中原始RGB图像被用作引导。在David Connah、Mark S.Drew和GrahamD.Finlayson的论文“Spectral edge:gradient-preserving spectral mapping forimage fusion,”J.Opt.Soc.Am.A 32,2384-2396(2015)(美国光学学会志,A辑,光学、图像科学与视觉,第32卷,第2384-2396页,2015年)(其内容以引用方式并入本文)中,公开了一种用于生成M维目标导数图像(其融合来自输入和引导的导数)的方法。
在EP 2467823中,其内容以引用方式并入本文,公开了一种用于找到输入N通道图像的多项式函数的方法,该多项式函数最近似目标导数,诸如在上面讨论的论文中找到的那些。
该方法可被一般化,使得每个像素找到k(对应于我们的k个强度变化的基函数)个多项式映射的加权组合。待求解的优化可被写为:
Figure BDA0003064660760000161
在上述方程中,Po()为多项式展开(包括交叉项)。上标‘o’表示多项式的阶数。如果o=1,则这是一阶多项式,即,N通道输入图像本身。当o=2时,存在原始图像加每个通道的平方加所有通道对的乘积。对于o=2时的4通道输入图像,多项式展开中存在14项(或者,如果我们添加偏移,则为15项)。该
Figure BDA0003064660760000162
符号,或“Del”表示x导数和y导数。
Figure BDA0003064660760000163
表示通过导数域图像融合(例如,光谱边缘方法)发现的x导数和y导数,即要根据我们的方法近似的输出图像。矢量t j表示系数的矢量(其应用于用多项式展开中的项产生的点)。如果o=2,则每个t i为14(或15)项矢量。如果输出图像具有M个通道,则j∈[1,2,…,M],执行M个(每个通道)优化)。
I’(x,y)的近似J(x,y)被写为
Figure BDA0003064660760000164
其中j∈[1,2,…,M]。应当注意,在方程5中,我们求解导数域中的优化,但将发现的参数应用于主图像(即,不是导数)。
可使用标准线性优化技术求解方程5。作为示例,如果t j是具有15项(N=4,o=2并且我们具有偏移)的多项式,则其针对k*15系数求解。约束可任选地添加到优化,诸如系数t j是有界的或解是正则化的。
可求解方程以得到单个通道图像的导数(参见下面的方程7和8)。这里,多项式函数生成标量图像的展开,例如,P2(I(x,y))=[I(x,y)I2(x,y)1](其中1是图像中各处偏移1的图像)。
然后方程5和6分别变为方程7和8:
Figure BDA0003064660760000171
Figure BDA0003064660760000172
与先前的实施方案一样,该实施方案可应用于视频序列,但现在也可应用于视频图像融合问题(例如,其中RGB+NIR融合到RGB的监视应用)。
如前所述,方程5和6可由每帧的两个方程应用。然而,还可以求解给定帧(时间T)的系数ji,然后仅在时间T+U(U>0)处使用方程6,其中在时间T+U处,需要重新计算强度变化的基函数。
上述方法可以各种方式进一步扩展。
例如,在一个实施方案中,可根据聚类亮度来确定非二进制基函数。
非二进制强度变化的基函数可被认为是最接近聚焦亮度的一组亮度(参见二进制分解)。换句话讲,可基于亮度来定义3个像素聚类,其中“聚类中心”是先验已知的。找到聚类中心作为优化的一部分也是可能的。Bezdec,J.C.的Pattern Recognition with FuzzyObjective Function Algorithms,Plenum Press,New York,1981(美国普莱纽姆出版社,纽约,1981年)(其内容据此全文以引用方式并入本文)中所述的示例性“模糊c均值”方法优化聚类中心并且还将级分返回至每个聚类(给定图像亮度所属的聚类)。
在另一个实施方案中,可通过聚类RGB来确定非二进制基函数。
模糊c均值方法也可应用于RGB图像——可找到作为RGB矢量的k个聚类中心。获得每个图像RGB属于每个聚类的概率/程度。第i个非二进制基图像编码给定像素属于第i个聚类的概率。
应当理解,还可使用其他聚类算法。
实施方案还可以将内容与空间局部性组合。
如果RGB表示图像像素,则通过将xy位置添加到像素来获得5元组:[R G B cxcy],其中此处c为修改x y坐标的量值的标量。通过在该5元组上模糊的c均值聚类,可发现也由空间位置加权的聚类。
在上述扩展中,聚类方法的输出是一组基函数,其中每个像素的所有正矢量(总和为1)指示该像素处的颜色(或其他特征)对应于基函数的量。至于空间变化的基函数,有利的是每个基函数是连续的并且具有良好的边缘清晰度。
实施方案还可使用对应于通过图像分析发现的语义区域的基函数。
有许多方式可对特定于图像的区域进行编码。例如,可使用深度学习,诸如在Vijay Badrinarayanan、Alex Kendall和Roberto Cipolla的“SegNet:A DeepConvolutional Encoder-Decoder Architecture for Image Segmentation.”(PAMI,2017)中所述的SegNet,其内容据此全文以引用方式并入。该技术将图像点映射到k个预定义类别中的一个预定义类别。SegNet的输出可以容易地转换成二进制基(其中第i个基函数被设置为1iff,该像素被归类为属于第i个类别)。
在优选的实施方案中,通过聚类或语义分析发现的基函数以3个步骤进行后处理。首先,每个函数都是模糊的(已经发现相当小的模糊内核(比如说标准偏差为1.5像素的9×9高斯)可工作良好)。第二,再次用交叉双边滤波器执行模糊,其中“交叉”意指从引导图像(在这种情况下为原始图像)获取边缘强度。引导可为灰度或彩色的。第三,按像素缩放经处理的图像,使得该点处的基函数的总和为1。有效地应用图13中所示的工作流程(用于使用颜色或语义内容而非亮度找到的图像基函数)。
在另一个实施方案中,缩略图可用于减小计算负载。应当理解,求解用于图像融合的函数(方程3)或多项式(方程5)可以是昂贵的操作。在处理时间或利用很重要的情况下,在一个实施方案中,可基于输入和输出图像缩略图求解函数和系数。然后可将所发现的函数和多项式应用于全分辨率图像。
应当理解,方程4(方程3中发现的函数的应用)和方程6(方程5中发现的多项式的应用)需要全分辨率基函数(而在方程3和5中仅需要缩略图)。
优选地确定具有良好边缘清晰度并且平滑的基函数(例如,参见图10)。因此,在一个实施方案中,用于求解方程3和方程5的缩略图基函数可以简单地上采样(例如,使用双线性图像调整尺寸)以应用于方程4和方程6中。具有少至4K、10K或20K像素的缩略图可以良好的处理性能使用。缩略图处理汇总于图18中。
在步骤(1)中,将输入图像转换为缩略图。在步骤(2)处,处理缩略图。在步骤(3)中,使用缩略图图像,我们计算内容变化的图像分解(此处为3个基函数)。在基于(1)、(2)和(3)的步骤(4)中,我们计算一组(3)色调映射。在步骤(5)中,基于所计算的音调曲线和简单上采样型式的内容变化基(在缩略图域中计算),我们生成输出图像。
类似策略可用于图像融合应用。
内容操纵
图19是用于基于内容(例如,前景/背景、人、面部、对象、动物等)从第一输入图像和第二输入图像生成增强或改变的输出图像的***200的示意图。
第一输入图像201可经由数据通信链路或在存储介质上被接收,其可为来自相机等的图像馈送。第一输入图像可以是灰度、彩色或多光谱的,并且也可以在逻辑上由相同场景的多个图像(单独编码/存储)、单个或相关图像馈送的分量、单个或相关图像文件的分量等组成。
还接收或生成第二输入图像202。第二输入图像202包括要应用于第一输入图像201的修改。例如,其可以是缩放和裁剪(以匹配输入图像的尺寸)的第一输入图像的型式,以便提供要在第一输入图像201中替换的对象的缩放型式。在另一个替代方案中,它可以是已经用模糊内核处理以模拟光学散景效果或任何其他图案等的第一输入图像的图像。在另一个替代方案中,第二输入图像可以不直接来源于第一输入图像——其可以是例如具有相同图像尺寸和许多共同特征但人的眼睛未闭合的序列中的稍后图像,或者是替换输入图像的背景的另选背景。
需注意,哪个输入图像被掩蔽取决于应用。例如,就散景而言,可以掩蔽非散景输入图像以保持要保持对焦的区域,然后应用那些区域来替换输入图像的散景型式中的对应像素。在缩放的情况下,经缩放图像中的感兴趣的对象可被保留在掩模中,然后被应用于替换未经缩放输入图像中的对应像素。因此,应当理解,下面的术语“第一”和“第二”输入图像可以关于哪个图像被指代而变化。
该***包括处理器210,该处理器根据第一输入图像的内容获得图像分割掩模。可以全图像分辨率计算图像分割掩模或以较低的缩略图分辨率计算图像分割掩模以降低计算复杂度。掩模可使用语义分割神经网络、根据深度估计信息或根据任何其他算法和/或基于传感器的方法产生。
在下文所述的两个实施方案中,使用二进制图像分割掩模,因为其提供清晰且特定的区域轮廓。二进制表示由黑色和白色分割区域示出,其中黑色区域为一个分割区域,并且白色区域为另一个分割区域。然而,应当理解,可以使用其他类型的图像分割掩模,诸如平滑变化的灰度分割掩模——这可以表示诸如连续概率函数的属性。
选择图像分割掩模以便将第一输入图像划分成各自具有期望目标状态的区域:选择它们以掩蔽输入图像中的一个输入图像的部分,使得当与另一个输入图像组合时,修改替换原始内容,但剩余的原始内容保留。没有关于哪个掩模识别哪个区域的具体要求(因此在上述二进制掩模的情况下,黑色可以指定要不变或替换的区域)。
然后,处理器220根据分割掩模计算多个基函数——每个函数由每个像素位置X、Y的权重组成,该权重在0和1之间。如下所述,这可以在全分辨率或缩略图尺寸下完成(如果以缩略图尺寸计算,则在应用于输入图像之前放大基函数)。
第一基函数B1(x,y)通常是分割掩模的模糊型式(这可以是高斯滤波、具有用作引导/边缘图像的输入RGB图像的交叉双边滤波器或两者的组合)。N个其他基函数可通过侵蚀具有各种内核尺寸的输入掩模然后使其模糊来计算,并且M优选地通过扩张具有各种内核尺寸的输入掩模然后使其模糊来计算。N和M通常为小数字,例如N=M=3。可以根据应用并基于分割掩模精确度的估计来调整精确组的内核尺寸。在一个实施方案中,内核尺寸基于图像尺寸的倍数。例如,如果图像为1000x1000,则内核可为X*1000,如果X=0.05,则内核尺寸将为50的倍数(50,100,150,...)——如果以缩略图分辨率计算基函数,则将X乘以缩略图图像尺寸以产生内核尺寸。
然后产生该组基函数的反转(1-基)(即1-Bi(x,y)),并将其添加到该组基函数。
如下所述基于α混合来计算目标图像——这可以全分辨率或缩略图尺寸来完成。分割掩模在每个像素处乘以相关图像,然后其反转(1-掩模)在每个像素处乘以另一个图像,并且最后将两者加在一起。这是输出图像应看起来是的近似,然而,其具有清晰边界并且将可能包含伪影。将两个输入图像中的哪一个输入图像施加到掩模,并且其反转取决于掩模本身。
在下述区域缩放的情况下,如果二进制分割掩模的白色像素用于表示感兴趣的前景/对象(在经缩放的二次图像中),并且黑色像素用于表示要保留在输入图像中的背景(非对象区域),则掩模将与经修改(经缩放)的内容的输入图像按像素相乘,并且其反转与未经修改的内容的输入图像按像素相乘,并且将两者加在一起以产生目标图像。
在模拟散景的情况下,再次如下所述,如果二进制分割掩模的白色像素用于表示应该在输出图像中保持对焦的图像区域(例如前景),并且黑色像素用于表示应该在其上应用光学模糊模拟的区域(例如背景),则此处的掩模将按像素乘以未修改的输入图像,并且其反转按像素乘以具有散景效果的输入图像,并且将两者加在一起以产生目标图像。
然后针对RGB通道中的每个RGB通道计算该目标图像的X和Y梯度(应当理解,这也可应用于灰度或通道的其他表示)。这些梯度以及第一输入图像和第二输入图像融合在一起,由基函数和目标图像引导。上文结合方程5和6描述了一种融合方式。目标图像梯度对应于方程5中的
Figure BDA0003064660760000211
这产生具有平滑且改善的过渡的输出图像203。
散景
在图20a中,示出了示例性高分辨率第一输入图像,并且在图20b中示出了模糊的第二输入图像(其可作为输入或通过计算从第一输入图像生成的某物提供)。在该实施方案中,其目的在于保留人的第一输入图像区域而将输出图像中的其他地方混合在第二输入图像的模糊背景中作为模拟散景效果(在摄影中,散景通常通过使用浅景深以使得不是图像的主要对象的区域不对焦而光学地实现,以被认为在视觉上令人愉快的方式实现,因为它们之后不会分散对图像的主要对象的注意力)。
假设存在粗略的分割,并且应当理解,存在获得该分割的许多方式。这是图20c所示的二进制掩模,并且可再次提供或通过计算生成)。
如上所述,可以制作目标α混合图像,其中当掩模为1时保留第一输入图像,并且当掩模为0时使用第二输入图像。这在图20d中示出(并表示为I'(x,y))。因为掩模不是(并且不能是)精确的,所以混合输出图像看起来不自然并且掩模位置被清楚地感知。注意,毛发150和152在掩模边缘周围太过锐化,并且也存在一些光晕151。
在本发明的实施方案中,根据该分割掩模形成多个基函数。在方程5中,基于强度分解来计算多个基函数。在本发明的该实施方案中,这些可被替换为模糊、侵蚀和扩张型式的分割掩模及其反转。
如上所述,通过模糊然后交叉双边滤波(其中原始图像用作引导)使这些掩模更平滑,并且这些基函数在图20中示出(原始掩模在左手侧和右手侧上从顶部到底部示出,存在模糊的交叉双边滤波型式(B1(x,y));所述侵蚀的、模糊的、交叉双边滤波型式(B2(x,y));以及扩张的、模糊的、交叉双边滤波型式(B3(x,y))。可通过改变模糊和/或侵蚀或扩张内核的尺寸来将附加函数添加到该组中。
返回到方程5,可以看出,使用多项式展开来生成一组图像。在一个实施方案中,不需要这种展开。而是按颜色通道使用新图像Q i(i=1,2),其中Q1为原始图像,并且Q2为模糊变体(对于每个颜色通道)。然后可以求解以下优化以确定融合图像(其中Bi(x,y)表示基于分割的基函数):
Figure BDA0003064660760000221
Figure BDA0003064660760000222
最终融合图像示于图20e中。
在图21和图22中可以看到将模糊背景施加到图像以产生散景效果的本发明的实施方案的总体工作流程的各方面。
以第一(非模糊)输入图像(a)和第二(模糊)输入图像(b)的形式接收全尺寸输入。
这里,基函数基于分割掩模(d)和α混合(目标)(c)。创建三个函数:输入掩模的缩略图,以及侵蚀和扩张型式。然后使这些穿过交叉双边滤波器,在该实施方案中,原始输入图像亮度通道用作引导图像,如图21中所示。将该组与它们的反转的组进行组合以产生最终的基函数。
如上所述,然后使用等式9和10,由基函数和目标融合引导第一输入图像和第二输入图像,以产生输出图像,如图22中所示。基函数可为缩略图的形式。
应当理解,除模糊之外的图案可用于模拟其他形式的散景或图像效果。在这种情况下,背景的模糊内核是高斯和双边滤波的组合。可使用其他模糊内核,诸如被设计成更接近光学模糊的那些内核。
区域缩放
在图23a中,示出了示例性高分辨率第一输入图像,并且在图23b中示出了经缩放和裁剪的变体(第二输入图像,其可作为输入或通过计算从第一输入图像生成的某物提供)。在该实施方案中,目的在于针对背景保留第一输入图像,但是混合在来自第二输入图像的人的缩放型式中。
再次假设存在粗略的分割。这是图23c所示的二进制掩模,并且可再次提供或通过计算生成。
在本发明的实施方案中,根据该分割掩模形成多个基函数。起点同样为分割掩模及其反转。
如上所述,通过模糊然后交叉双边滤波(其中原始图像用作引导)使这些掩模更平滑,并且这些基函数在图24中示出。这些掩模被称为B1(x,y)(模糊的原始掩模)、B2(x,y)(模糊的侵蚀掩模)和B3(x,y)(模糊的扩张掩模),并且还可求解方程10的优化以获得融合图像。
在图24中可看到应用区域缩放以产生经修改图像的本发明的实施方案的工作流程的各方面。这是与图22中的过程类似的过程。接收或以其他方式获得全尺寸第一输入图像(a)和第二(缩放+裁剪)输入图像(b)。
这里,分割掩模指定输入图像中的被缩放的对象/区域。掩模可使用语义分割神经网络、根据深度估计信息或根据任何其他算法和/或基于传感器或其他方法来产生。
如上所述处理掩模以产生各种基函数,然后用来产生目标图像。如上所述,然后在基函数和目标图像的引导下融合第一输入图像和第二输入图像以产生输出图像。
分割掩模预处理
分割掩模通常可能有错误,这将影响内容操纵的性能。为了帮助克服这一点,实施方案可以预处理分割掩模。
在一个实施方案中,使用边缘敏感滤波器(例如,交叉双边滤波器)使掩模模糊,其中原始输入RGB图像亮度通道用作边缘/引导图像。
如果期望二进制分割掩模(如在散景和区域缩放的情况下),则将阈值应用于模糊掩模,高于该阈值的值被设定为1,并且等于或低于该阈值的值被设定为0。通常,这被设定为0.5,但可根据应用使用其他值。
自动区域缩放计算
区域缩放中使用的经缩放图像和掩模可通过基于用户偏好放大和裁剪输入图像和分割掩模来手动构造,但自动方法也是可能的。
首先,计算感兴趣的对象的最大尺寸(高度或宽度),以及这表示的图像尺寸的比率。然后计算基于优选图像特性(例如,“三分定律”,https://en.wikipedia.org/wiki/ Rule_of_thirds)的缩放参数。
基于该缩放参数来放大输入图像,并且对象的中心移位回到原始位置。
当叠加时,原始对象应被放大对象完全覆盖,例如原始图像中的所有对象像素应位于放大图像中对象的边界内部。如果情况并非如此,则实施方案可搜索使这种现象最小化的图像移位参数。最后,裁剪放大图像以匹配输入图像尺寸。
将相同的缩放、移位和裁剪参数应用于输入分割掩模,然后将其用于进一步计算。
如果在重叠的原始对象和经缩放对象中存在残余误差,则可将那些像素处的分割掩模设置为1(白色),以防止原始对象的不需要的元素被传输到输出图像。
其他应用
本发明的实施方案可以应用内容修改,包括:
·组合来自类似照片的面部——在许多情况下,将存在一组人的若干照片,但没有针对该组的所有成员的具有理想面部外观的单独照片。可使用所提出的算法来合并两张照片,其中掩模指定要替换的期望的面部区域。这可针对多张照片重复。图像必须正确配准(在几个像素的容差内)。
·背景替换——前景(例如,人)可与不同背景(例如,埃菲尔铁塔)组合。此处,分割掩模与散景的分割掩模类似地使用,指定前景区域。
应当理解,上述处理器对于用户而言可以是本地的、远程的或分布式的。实施方案可采取多种形式并且可以多种方式实现,包括通过固件、软件或硬件结合在智能电话、数字相机等内,由远程服务器提供为基于web的服务,提供为图像编辑软件的软件或插件等。还应当理解,本文所讨论的处理器可表示单个处理器或以同步、半同步或异步方式起作用的处理器集合。
应当理解,如上所述的本发明的某些实施方案可作为驻留在固件中和/或具有控制逻辑的计算机可用介质上的代码(例如,软件算法或程序)而并入,所述控制逻辑用于实现在具有计算机处理器的计算机***上的执行。此类计算机***通常包括存储器存储装置,该存储器存储装置被配置为提供来自执行代码的输出,该代码根据该执行配置处理器。代码可被布置为固件或软件,并且可被组织为一组模块,诸如面向对象的编程环境中的离散代码模块、函数调用、过程调用或对象。如果使用模块来实现,则代码可包括单个模块或彼此协作地操作的多个模块。
本发明的任选实施方案可理解为包括本文提及或指示的部件、元件和特征,这些部件、元件和特征单独地或共同地以两个或更多个部件、元件或特征的任何或所有组合的形式存在,并且其中本文提及了本发明所涉及领域中具有已知等同物的特定整数,认为此类已知等同物如同单独阐述一样并入本文。
尽管已描述了本发明的例示实施方案,但应当理解,在不背离本发明的情况下,本领域的普通技术人员可作出许多改变、替代和更改,本发明由权利要求书及其等同物中的详述来限定。

Claims (26)

1.一种图像增强方法,包括:
接收输入图像和目标图像对,所述输入图像和所述目标图像中的每一者包括表示像素强度的数据;
处理所述数据以确定多个基函数,每个基函数根据所述输入图像的内容来确定;
确定所述基函数的组合以修改所述输入图像的像素的所述强度以近似所述目标图像;以及,
将所述多个基函数应用于所述输入图像以产生所述目标图像的近似。
2.根据权利要求1所述的方法,其中处理所述数据以确定所述多个基函数的所述步骤包括处理所述数据的导数以确定所述多个基函数。
3.根据权利要求1或2所述的方法,其中每个基函数根据以下中的一者或多者来确定:所述输入图像中的颜色、所述输入图像中的像素强度或者所述输入图像中的所识别或指定的形状或元素。
4.根据前述权利要求中任一项所述的方法,其中当应用于所述输入图像时,所述多个基函数中的每一个基函数通过根据所述基函数对所述输入图像的每个像素进行编码来将所述输入图像分解成对应的图像层。
5.根据前述权利要求中任一项所述的方法,其中图像增强函数是预定图像处理算法的近似,所述目标图像包括所述预定图像处理算法的输出,并且确定的所述步骤包括求解用于组合所述基函数的优化以近似所述预定图像处理算法的所述输出。
6.根据任一前述权利要求所述的方法,其中所述基函数根据二进制分解来确定以产生k个基函数,其中在所述输入图像中的每个像素处,所述基函数中的一个基函数应用于所述像素,并且其他k-1个基函数不应用。
7.根据任一前述权利要求所述的方法,其中所述基函数根据非二进制分解来确定,在所述非二进制分解中应用预定分布函数,并且对于所述输入图像中的给定像素,所述基函数对所述像素的内容与相应的所述基函数相关联的相对概率进行编码。
8.根据任一前述权利要求所述的方法,其中所述基函数根据连续分布来确定,其中每个基函数是模糊的,并且使用所述输入图像作为引导来对每个基函数的所述输出进行交叉双边滤波。
9.根据任一前述权利要求所述的方法,其中确定组合的所述步骤包括求解所述输入图像的每通道多项式转换的优化以近似所述目标图像,其中所述多项式对应于所述基函数。
10.根据任一前述权利要求所述的方法,其中确定组合的所述步骤包括针对每个基函数求解所述输入图像的完全多项式变换的优化以近似所述目标图像。
11.根据权利要求1至8中任一项所述的方法,其中基函数的所述组合包括所述基函数的加权组合。
12.根据任一前述权利要求所述的方法,还包括接收另外的输入图像,确定所述另外的输入图像的多个另外的基函数,包括确定所述基函数和所述另外的基函数的组合的确定的所述步骤,根据所述组合将所述基函数和另外的基函数应用于所述输入图像和另外的输入图像以融合所述输入图像和所述另外的输入图像的所述步骤。
13.根据任一前述权利要求所述的方法,其中从所述输入图像的缩略图确定每个基函数。
14.根据任一前述权利要求所述的方法,还包括针对视频的图像应用所述确定所述基函数,以及将所述基函数应用于所述视频中的后续图像。
15.一种图像增强***,包括:
输入接口,所述输入接口被配置为接收输入图像和目标图像对,所述输入图像和所述目标图像中的每一者包括表示像素强度的数据;
处理器,所述处理器被配置为执行用于处理所述数据以确定多个基函数的计算机程序代码,每个基函数根据所述输入图像的内容来确定;
所述处理器被进一步配置为执行计算机程序代码以确定所述基函数的组合从而修改所述输入图像的像素的所述强度以近似所述目标图像,并且将所述多个基函数应用于所述输入图像并在输出界面处输出包括从所述输入图像生成的所述目标图像的近似的图像。
16.一种图像增强方法,包括:
接收第一输入图像和第二输入图像,每个输入图像包括表示所述图像的像素强度的数据并且所述第二输入图像的像素的至少子集与所述第一输入图像的像素对应;
处理所述数据以确定多个基函数,每个基函数根据所述第一输入图像的内容并且从取决于所述内容的掩模确定,所述基函数被配置为应用于所述第一输入图像以生成分割图像;
将所述多个基函数应用于所述第一输入图像以生成对应的多个所述分割图像;以及,
组合所述多个分割图像和所述第二输入图像以生成输出图像。
17.根据权利要求16所述的方法,包括以缩略图分辨率计算所述掩模。
18.根据权利要求16或17所述的方法,还包括将语义分割神经网络应用于所述输入图像,使用从所述输入图像获得的深度估计信息或者应用另一种算法或基于传感器的方法来计算所述掩模。
19.根据权利要求16、17或18所述的方法,其中所述掩模为二进制图像分割掩模、非二进制图像分割掩模或连续分布图像分割掩模。
20.根据权利要求16、17、18或19所述的方法,其中所述基函数包括模糊型式的掩模、通过侵蚀所述掩模然后使其模糊而计算的一个或多个基函数、以及通过扩张所述掩模然后使其模糊而计算的一个或多个基函数。
21.根据权利要求20中任一项所述的方法,其中所述模糊和扩张基于多个不同尺寸的内核。
22.根据权利要求21所述的方法,还包括根据掩模精确度的估计或分析来修改所述内核尺寸。
23.根据权利要求20、21或22所述的方法,其中所述基函数还包括一组反转的基函数。
24.根据权利要求16至23中任一项所述的方法,其中所述组合步骤包括求解多项式展开以确定所述基函数的所述组合。
25.根据权利要求16至23中任一项所述的方法,其中所述组合步骤包括求解所述基函数的每颜色通道优化以确定所述输出图像。
26.一种图像增强***,包括:
输入接口,所述输入接口被配置为接收第一输入图像和第二输入图像,每个输入图像包括表示所述图像的像素强度的数据并且所述第二输入图像的像素的至少子集与所述第一输入图像的像素对应;
处理器,所述处理器被配置为执行计算机程序代码以处理所述数据来确定多个基函数,每个基函数根据所述第一输入图像的内容并且从取决于所述内容的掩模确定,所述基函数被配置为应用于所述第一输入图像以生成分割图像;
所述处理器被进一步配置为执行计算机程序代码以将所述多个基函数应用于所述第一输入图像以生成对应的多个所述分割图像;并且,
所述处理器被进一步配置为执行计算机程序代码以组合所述多个分割图像和所述第二输入图像以生成输出图像。
CN201980075102.0A 2018-11-15 2019-11-15 图像增强***和方法 Pending CN113039576A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1818647.8 2018-11-15
GBGB1818647.8A GB201818647D0 (en) 2018-11-15 2018-11-15 Image enhancement system and method
PCT/GB2019/053251 WO2020099893A1 (en) 2018-11-15 2019-11-15 Image enhancement system and method

Publications (1)

Publication Number Publication Date
CN113039576A true CN113039576A (zh) 2021-06-25

Family

ID=64740136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980075102.0A Pending CN113039576A (zh) 2018-11-15 2019-11-15 图像增强***和方法

Country Status (4)

Country Link
US (1) US20210374925A1 (zh)
CN (1) CN113039576A (zh)
GB (2) GB201818647D0 (zh)
WO (1) WO2020099893A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201908514D0 (en) 2019-06-13 2019-07-31 Spectral Edge Ltd Image processing method and system
CN112700580B (zh) * 2020-12-21 2023-02-21 新疆品宣生物科技有限责任公司 智慧通行管理门禁***及智慧通行管理方法
US11449968B2 (en) * 2020-12-31 2022-09-20 Samsung Electronics Co., Ltd. System and method for synthetic depth-of-field effect rendering for videos
US11893668B2 (en) 2021-03-31 2024-02-06 Leica Camera Ag Imaging system and method for generating a final digital image via applying a profile to image information
CN116703794B (zh) * 2023-06-06 2024-04-30 深圳市歌华智能科技有限公司 一种在hsv颜色空间上的多图像融合方法
CN117333403B (zh) * 2023-12-01 2024-03-29 合肥金星智控科技股份有限公司 图像增强方法、存储介质和图像处理***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1507604A (zh) * 2001-05-02 2004-06-23 图像增强方法和设备
US20070162873A1 (en) * 2006-01-10 2007-07-12 Nokia Corporation Apparatus, method and computer program product for generating a thumbnail representation of a video sequence
US20120263377A1 (en) * 2009-08-20 2012-10-18 Graham Finlayson Image reconstruction method and system
CN102918562A (zh) * 2010-02-16 2013-02-06 苹果公司 用于生成增强图像的方法和***
CN103649990A (zh) * 2011-07-15 2014-03-19 皇家飞利浦有限公司 用于谱ct的图像处理
US20140347359A1 (en) * 2013-05-21 2014-11-27 Nvidia Corporation Cache-efficient processor and method of rendering indirect illumination using interleaving and sub-image blur
CN105657436A (zh) * 2015-12-31 2016-06-08 中国人民解放军国防科学技术大学 一种图像处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5325449A (en) * 1992-05-15 1994-06-28 David Sarnoff Research Center, Inc. Method for fusing images and apparatus therefor
EP1486915B1 (en) * 2003-06-11 2007-12-12 Agfa HealthCare NV Method and user interface for modifying at least one of contrast and density of pixels of a processed image.

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1507604A (zh) * 2001-05-02 2004-06-23 图像增强方法和设备
US20070162873A1 (en) * 2006-01-10 2007-07-12 Nokia Corporation Apparatus, method and computer program product for generating a thumbnail representation of a video sequence
US20120263377A1 (en) * 2009-08-20 2012-10-18 Graham Finlayson Image reconstruction method and system
CN102918562A (zh) * 2010-02-16 2013-02-06 苹果公司 用于生成增强图像的方法和***
CN103649990A (zh) * 2011-07-15 2014-03-19 皇家飞利浦有限公司 用于谱ct的图像处理
US20140347359A1 (en) * 2013-05-21 2014-11-27 Nvidia Corporation Cache-efficient processor and method of rendering indirect illumination using interleaving and sub-image blur
CN105657436A (zh) * 2015-12-31 2016-06-08 中国人民解放军国防科学技术大学 一种图像处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AYSUN TASYAPL CELEBI 等: "Empirical mode decomposition based visual enhancement of underwater images", 《2010 2ND INTERNATIONAL CONFERENCE ON IMAGE PROCESSING THEORY, TOOLS AND APPLICATIONS》, 27 September 2010 (2010-09-27), pages 1 - 4 *
马敏 等: "基于小波变换的 ECT 图像处理", 《中南大学学报(自然科学版)》, vol. 47, no. 6, 30 June 2016 (2016-06-30), pages 1947 - 1952 *

Also Published As

Publication number Publication date
GB201818647D0 (en) 2019-01-02
GB2579911B (en) 2023-05-03
US20210374925A1 (en) 2021-12-02
GB201916687D0 (en) 2020-01-01
GB2579911A (en) 2020-07-08
WO2020099893A1 (en) 2020-05-22

Similar Documents

Publication Publication Date Title
Galdran Image dehazing by artificial multiple-exposure image fusion
Lu et al. TBEFN: A two-branch exposure-fusion network for low-light image enhancement
CN113039576A (zh) 图像增强***和方法
US9549164B2 (en) Image processing apparatus and method, and related computer program
WO2018082185A1 (zh) 图像处理方法和装置
JP2000512833A (ja) 単眼視キューの統合による奥行き知覚の改善
WO2022133194A1 (en) Deep perceptual image enhancement
CN111489322B (zh) 给静态图片加天空滤镜的方法及装置
Kim et al. Low-light image enhancement based on maximal diffusion values
Kumar et al. An improved Gamma correction model for image dehazing in a multi-exposure fusion framework
Celebi et al. Fuzzy fusion based high dynamic range imaging using adaptive histogram separation
Lepcha et al. A deep journey into image enhancement: A survey of current and emerging trends
Wang et al. Single Underwater Image Enhancement Based on $ L_ {P} $-Norm Decomposition
KR20230074136A (ko) 세일리언시 기반 캡처 또는 이미지 프로세싱
Singh et al. Weighted least squares based detail enhanced exposure fusion
CN113284061A (zh) 一种基于梯度网络的水下图像增强方法
Lei et al. Low-light image enhancement using the cell vibration model
CN116612263B (zh) 一种感知潜视觉合成一致性动态拟合的方法及装置
Bengtsson et al. Regularized optimization for joint super-resolution and high dynamic range image reconstruction in a perceptually uniform domain
CN117611501A (zh) 一种低照度图像增强方法、装置、设备及可读存储介质
US20220398704A1 (en) Intelligent Portrait Photography Enhancement System
Zhao et al. Learning tone curves for local image enhancement
KR101468433B1 (ko) 결합된 색상 채널 변환 맵을 이용한 다이나믹 레인지 확장 장치 및 방법
CN116468636A (zh) 低照度增强方法、装置、电子设备和可读存储介质
Wang et al. Photography enhancement based on the fusion of tone and color mappings in adaptive local region

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination