CN114175091A - 利用基于上下文分割层的自适应去扭曲的最优身体或面部保护的方法 - Google Patents

利用基于上下文分割层的自适应去扭曲的最优身体或面部保护的方法 Download PDF

Info

Publication number
CN114175091A
CN114175091A CN202080056969.4A CN202080056969A CN114175091A CN 114175091 A CN114175091 A CN 114175091A CN 202080056969 A CN202080056969 A CN 202080056969A CN 114175091 A CN114175091 A CN 114175091A
Authority
CN
China
Prior art keywords
image
dewarping
layer
wide
angle image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080056969.4A
Other languages
English (en)
Inventor
P·鲁莱特
P·科宁
J·佩伦特
S·蒂博
X·达莱尔
杜晓军
E·莫塔兹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yimei Scene Co
Original Assignee
Yimei Scene Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yimei Scene Co filed Critical Yimei Scene Co
Publication of CN114175091A publication Critical patent/CN114175091A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Geometry (AREA)

Abstract

一种用于增强广角图像以改进广角图像的透视和视觉吸引力的方法使用定制的自适应去扭曲。所述方法基于图像中所识别的对象的场景图像内容、这些对象在图像中的位置、这些对象在场景中相对于其他对象的深度、以及该图像的一般上下文。

Description

利用基于上下文分割层的自适应去扭曲的最优身体或面部保 护的方法
对相关申请的交叉引用
本申请要求2019年6月11日提交的题为“Method for Adaptive Dewarping Basedon Context Segmentation Layers”的目前待决的美国临时专利申请No.62/859,861的权益,该申请的全部内容通过引用并入本文中。
背景技术
本发明的实施例涉及摄影领域,并且更具体地关于可以如何取决于图像上下文、分割层、和/或图像中可见的对象的深度来不同地校正广角图像中的图像失真。
在摄影中,在具有60°以下的全视场的窄角镜头的情况下,通常期望具有如下图像:其中对象中的直线保持笔直。这是通过使图像尽可能接近地遵循图像高度H与场角θ之间的直线H=f*tan(θ)关系来实现的,这在窄角镜头中仍然是可行的。在60°以下的非常有限的全视场的情况下,该类型的直线H=f*tan(θ)关系不会显著地影响图像的周边上的对象比例。完全遵循这种关系的图像被认为没有光学失真。对于针对所有场角θ没有完全遵循这种关系的光学镜头,从这些镜头所得到的图像被认为具有一些光学失真。该光学失真尤其存在于超过60°的全视场的广角图像中。校正广角图像的残余图像失真或有目的地对其进行修改是图像处理中的已知技术,当光学镜头本身不能够被设计成针对期望应用产生期望投影时,经常使用这些已知技术。
虽然直线投影对于使对象的直线在图像中保持笔直是理想的,但是有时它不是在摄影中创建视觉上最令人满意的图像的投影。一个这种示例是利用广角镜头的群体自拍(group selfie)、或群体照片(groupie),其中人被定位在视场的各种位置处。中心处的人看起来具有正常比例,但是朝向边缘的人看起来被拉伸和变形,这是因为该投影的快速增加的像素数/度数。关于人类面部的这种不令人满意的视觉效果不仅在具有直线投影的镜头中可见,而且在每一个没有被专门设计成使该比例保持视觉上令人满意的镜头中也是可见的。
一些图像处理算法或一些镜头被专门设计成:通过以创建弯曲线为代价来限制朝向边缘的快速增加的像素数/度数,从而限制朝向边缘的这种不合期望的效果。换句话说,即使在对镜头的完美校准以及去扭曲(dewarping)算法的情况下,该去扭曲算法也仅能够要么校正直线、要么校正面部比例,这是因为这两种校正需要不同的去扭曲投影。如果校正算法被优化以提供朝向广角图像边缘定位的人类的视觉上更令人满意的图像——被称为身体和面部保护的过程,则它们将具有这样做的不合期望的后果,这是由于在图像中添加了几何失真,并且即使原始对象场景由直线组成,所得到的图像也将具有弯曲线。相反,如果校正算法被优化以拉直(straighten)图像中的线,则它将使朝向边缘定位的人类的比例恶化。
例如,在美国专利10,204,398 B2中提出的图像失真变换方法被用于将来自成像器的原始图像的失真图像变换成经变换的图像,其中根据预先配置的或所选择的目标图像失真简档来修改图像的失真。即使该目标失真简档可能是非对称的,例如为了维持相似的视场,然而该目标失真简档也会被应用于整个图像,而不考虑图像中的对象的位置或它们的深度。因此,当使用该方法时,可能会在恶化图像中的人的外观的同时改进直线的外观,或者相反。
已经存在一些其他现有的扭曲图像几何校正方法,如在美国专利10,356,316 B2中提出的利用地平线(horizon)的透视倾斜校正(perspective tilt correction)。然而,这些方法仅能够校正整个图像的透视,而不能够对特定元素应用校正。
要克服的另一个问题是如下事实:即,由于每个光学元件的形状、位置或取向上存在公差误差(tolerancing error),因此来自大规模生产批的真实镜头全部与彼此略微不同。这些公差误差针对大规模生产批的每个镜头产生了略微不同的失真简档,并且因此,即使基于针对该大规模生产的镜头的理论失真曲线对图像进行去扭曲之后,图像中仍可能存在残余的几何失真。
为了进行身体和面部保护,即具有视觉上最具吸引力的人类比例,同时仍然使对象中的直线在图像中看起来像直线,存在一些更先进的图像处理算法,这些算法取决于图像的内容来应用特定的图像去扭曲。然而,当针对前景对象或人来应用校正时,这些算法具有破坏背景中的透视的不合期望的后果。需要新的方法来克服所有这些问题。
发明内容
为了克服先前提到的所有问题,本发明的实施例提出了一种自适应去扭曲的方法,以基于场景上下文、对象的位置、和/或图像中存在的对象的深度来应用不同的去扭曲算法。从初始输入图像开始,该方法首先应用图像分割过程来分割原始图像中可见的各种对象。然后,使用每个对象的深度,以根据所有对象的对象类型以及它们相对于相机的深度来按层对所有对象进行排序。用于分割这些层的深度值要么是绝对深度测量结果、要么是对象之间的相对深度,并且可以使用人工智能神经网络来计算,该人工智能神经网络被训练成从2D图像、从使用一对立体图像的视差计算(parallax calculation)、从深度测量特定的设备(如飞行时间传感器、结构光***、激光雷达、雷达、3D捕获传感器等)来推断出深度。将使用特定去扭曲算法或投影来对原始图像中识别的每个类别的对象进行去扭曲。例如,如果在原始图像中检测到人类面部,则将在人类上使用特定去扭曲算法,以避免拉伸人类面部并且使它们在视觉上更具吸引力,这是被称为面部保护的过程。如果相同的原始图像还包含建筑物,则该自适应去扭曲算法将在该建筑物上应用不同的去扭曲以使线保持笔直。根据本发明,对可以由自适应去扭曲方法识别的对象的类型以及被应用于其上的去扭曲没有限制。要应用的去扭曲可以被预先定义为针对特定对象类型(例如,人类面部、建筑物等)的预设,或者可以被计算以遵守(respect)对象的公知特性,诸如面部比例、人类身体比例等。在每个分割层和深度层上应用该方法,包括针对背景层来应用该方法。背景层由远离相机并且不具有预设失真去扭曲的对象组成。在根据本发明的优选实施例中,对背景进行去扭曲,以便保持场景的透视不失真。与现有技术相比,该自适应方法允许基于类型、层、深度、大小、纹理等对每个种类的对象应用不同的去扭曲。
在一些情况下,当对给定层进行变形时,该自适应去扭曲可能在后面的层中创建缺失信息的区域,这是因为后面的层被应用了不同的去扭曲。仅当这种情况发生时,才可以在所得的图像上应用附加的图像完成步骤,以进一步使其在视觉上更具吸引力。该图像完成步骤由如下操作组成:基于若干个深度层中的上下文对自适应去扭曲之后的对象进行分割。一些深度层具有缺失信息,并且其他一些深度层没有任何缺失信息。然后,在具有缺失信息的层上使用完成算法,以便填充具有缺失信息的区域。这可以通过如下方式来进行:基于缺失信息区周围的纹理和颜色来应用模糊(blur),应用渐变线——该渐变线将颜色从缺失信息区域的一侧上的颜色逐渐改变到另一侧上的颜色,使用被训练成完成图片的缺失信息的人工智能网络等等。该完成算法输出已完成的深度层,这些深度层然后可以被合并回到具有所填充的信息的单个图像中,其中应用了透视校正,校正了人的形状以避免不令人满意的拉伸,并且利用该完成算法填充了缺失的背景信息。
在根据本发明的一些实施例中,针对背景层的去扭曲投影取决于在前景对象中标识的上下文。
在根据本发明的一些实施例中,该自适应去扭曲方法被用于:与对象场景中的原始线相比最大化图像中的线的直线度、与原始图像全视场相比最大化输出图像全视场、和/或与对象场景中的真实比例相比最大化输出图像中的比例的守恒(conservation)。
在根据本发明的一些实施例中,代替于利用完成算法来完成缺失信息,而是增加前面的层的相对放大倍率(magnification)以覆盖后面的层中的缺失信息区域。在某些情况下,这种技术可能使前面的对象看起来比它们在原始图像中更大或更近。
在根据本发明的一些实施例中,针对背景层的去扭曲投影的选择取决于原始广角图像的检测到的上下文。
在根据本发明的一些实施例中,该处理包括:创建以具有扭曲几何形状的元素为中心的虚拟相机,在该虚拟相机上应用直线校正,以及将结果平移到最终图像中的正确位置。
在根据本发明的一些实施例中,基于上下文和分割层的自适应去扭曲方法包括由物理设备内部的处理器进行的处理,该物理设备还利用成像器来创建原始广角图像,并且将最终图像显示到显示屏。
附图说明
当结合附图阅读时,将更好地理解前述发明内容以及本发明的优选实施例的以下详细描述。出于说明的目的,在附图中示出了目前优选的实施例。然而,应当理解的是,本发明不限于所示的精确布置和手段。
在附图中:
图1示出了直线图像的分辨率曲线;
图2示出了与直线投影没有偏离或者具有与直线投影的小偏离的现有广角相机如何创建在视觉上不令人满意的视图;
图3示出了来自具有与直线投影的偏离的广角相机的图像的分辨率曲线;
图4示出了具有与直线投影的大偏离的现有广角相机如何也创建在视觉上不令人满意的视图;
图5示出了用于应用图像校正以使它们在视觉上更令人满意但同时影响了透视的基本方法;
图6示出了以其先前形式的自适应去扭曲方法;
图7示出了基于上下文分割和深度层的自适应去扭曲方法;
图8示出了用于在已经应用了自适应去扭曲方法之后填充缺失图像信息的方法;
图9示出了用于在已经应用了自适应去扭曲方法之后隐藏缺失图像信息的方法;
图10示出了其中背景层的去扭曲投影取决于前景中的对象的上下文的方法;
图11示出了根据针对理想面部保护的基于深度和分割层的基于上下文的自适应去扭曲方法的算法的步骤;以及
图12示出了捕获原始广角图像、对其进行处理、并且在显示屏上输出最终图像的物理设备的示例实施例。
具体实施方式
以下描述中使用的某些术语仅仅是为了方便,并且不是限制性的。词语“右”、“左”、“底部”和“顶部”标示所参考的附图中的方向。该术语包括上述词语、其派生词和类似含义的词语。附加地,在权利要求和说明书的对应部分中使用的词语“一(a和an)”意指“至少一个”。
还应当理解的是,当涉及组件的尺寸或特性时,本文中使用的术语“大约”、“近似”、“总体上”、“基本上”和类似术语指示所描述的尺寸/特性不是严格的边界或参数,并且不排除其在功能上相似的微小变化。至少,包括数值参数——该数值参数将包括使用本领域接受的数学和工业原理的变化(例如,舍入、测量或其他***误差、制造公差等)——的这种参考将不会改变最低有效位。
图1示出了分别在100处具有40°半视场并且在150处具有70°半视场的完美直线图像的理论分辨率曲线,40°半视场和70°半视场分别对应于80°和140°的全视场。针对摄影应用中的使用而设计的具有60°以下的全视场的大多数窄角成像镜头的目标是通过尽可能地遵循直线图像投影来具有尽可能低的图像失真。在直线镜头中,图像传感器上的图像高度H与对象平面中的半视场角θ之间的关系尽可能接近地遵循等式H=f*tan(θ)。具有60°以下的全视场的窄角镜头通常遵循该投影。然而,具有大于60°的全视场的广角镜头(也被称为全景镜头)通常不完全遵循该H=f*tan(θ)等式。完美遵循该H=f*tan(θ)等式的图像——该图像要么是直接来自在图像传感器上从成像镜头捕获图像,要么是在经过任何硬件或软件失真校正或去扭曲之后——被认为不具有图像失真。与该等式的任何偏离都被称为图像失真、几何失真或光学失真,并且通常要在摄影中避免。与该等式的偏离也与TV失真有关,在TV失真中,矩形对象的拐角在图像中看起来是被扩展或被压缩的,而不是完美矩形的。图解100和150示出了作为半视场的函数的分辨率曲线。该分辨率曲线是通过将位置曲线的数学导数作为半视场角θ的函数而获得的。在针对80°的全视场的情况的图解100上,值110表示在0°的半视场角θ处的视场中心处的1x放大倍率。替代地,代替于将分辨率计算为相对于中心的放大比率,还可以以毫米/度、以毫米/弧度、以像素/度、或以像素/弧度等来计算分辨率。当图像传感器由恒定尺寸的像素组成时,像素/度的值尤其有用,这是由于它是最常见的情况。针对40°的半视场角θ值,分辨率值112是针对理论直线投影的中心110处的分辨率的1.7倍,并且所得的图像看起来已经被拉伸。在针对140°的全视场的情况的图解150上,值160表示在0°的半视场角θ处的视场中心处的1x放大倍率。针对45°的半视场θ值,分辨率值162是针对理论直线投影的中心160处的分辨率的2倍,并且所得的图像看起来甚至更加被拉伸。针对更宽的半视场角θ,从中心到边缘的分辨率中的差异变得越来越大,并且图像变得甚至更加被拉伸,并且对于某些摄影应用来说是不令人满意的。例如,利用理论直线投影,在60°的半视场值处,分辨率164是分辨率160的4倍。在70°的半视场值处,分辨率166是分辨率160的8.55倍。在更大的半视场值处,分辨率保持增加,直到在90°的半视场角处达到无穷大。
图2示出了群体自拍或群体照片的示例图像,如它在由理论上完美的直线镜头捕获时将看起来的那样、或者在对图像失真进行硬件或软件校正以获得具有完美直线投影的图像之后将看起来的那样。在示例图像200中,图像的对角方向上的全视场是80°,而在示例图像250中,图像的对角方向上的全视场是140°。在具有80°对角视场的示例图像200中,我们可以看到其头部处于图像中心的人212看起来是正常的,这是因为在图像的中心区域中,分辨率是几乎恒定的。然而,对于其头部朝向边缘的人214而言,面部在远离中心的方向上被拉伸,并且它看起来是变形的。直线投影的该现象对于消费者摄影应用来说在视觉上是不令人满意的,但是需要这种拉伸来保持对象场景中的线看起来像水平线220、垂直线230或消失线(vanishing line)240一样笔直。类似地,在具有140°对角视场的示例图像250中,我们可以看到其头部处于图像中心的人262看起来是正常的,这是因为在图像的中心区域中,分辨率是几乎恒定的。然而,对于其头部朝向边缘的人264而言,面部在远离中心的方向上被拉伸,并且它看起来是变形的。对于其头部处于更接近70°拐角的半视场角处的人266而言,该拉伸甚至更加明显。同样,直线投影的该现象对于消费者摄影应用来说在视觉上是不令人满意的,但是需要这种拉伸来保持对象场景中的线看起来像水平线270、垂直线280或消失线290一样笔直。
图3示出了更令人满意的广角图像的分辨率曲线,该广角图像要么是直接从在中心与边缘之间的区域中具有最大值之后具有朝向边缘的分辨率下降的广角镜头获得的,要么是在利用硬件或软件去扭曲或校正算法有目的地修改了图像失真以避免图2的不合期望的效果之后获得的。该分辨率曲线300——其在视场的中心和边缘处具有压缩区,并且在位于图像的中心与边缘之间的图像的中间区中具有扩展区——仅仅是创建在视觉上更具吸引力的图像的示例分辨率曲线,但是存在创建在视觉上更具吸引力的图像的其他分辨率曲线。该种类的分辨率曲线300——该曲线300在中心处具有给定的分辨率值310,其平滑地增加直到最大值312,并且然后下降回到边缘值314——是一些广角镜头或超广角镜头的典型,这些镜头在半视场的中间区中创建扩展区并且在边缘处创建压缩区,以使图像在视觉上令人满意。在该示例中,最大分辨率是约45°的半视场角θ,具有大约2x的放大倍率值,如图1的直线曲线的情况那样,但是可以使用具有不同的最大放大倍率值和位置的许多类似分辨率曲线来创建在视觉上更令人满意的图像。此外,在该示例中,平均放大倍率值是约1.5x,这也是等距H=f*θ投影的放大倍率,该投影针对相同的总视场创建相同大小的图像。在该示例中,为了创建视觉上更令人满意的图像,中心处的放大倍率310低于该平均值,最大放大倍率下的放大倍率312高于该平均值,并且视场边缘处的放大倍率314低于该平均放大倍率值。然而,在根据本发明的一些其他实施例中,视场边缘处的放大倍率314也可以高于该平均放大倍率值。
图4示出了群体自拍或群体照片的两个示例图像400和450,如它分别在由具有类似于图3的分辨率曲线的镜头捕获时将看起来的那样、以及在图像扭曲校正以进行比例节省投影(也被称为身体和面部保护)以便避免或最小化图2的不合期望的效果之后将看起来的那样。在顶部图像400中,站立在中心处的人422的头部看起来仍然是正常的。分别站立在45°和70°的半视场角处的人424和426的头部也看起来比在图2中更正常,这是因为具有图3的分辨率曲线的所选投影不具有如图1的曲线的情况那样朝向边缘的大的分辨率增加。在摄影中,针对面部的该结果在视觉上更令人满意。然而,因为镜头不遵循直线投影映射等式H=f*tan(θ),所以图像中存在几何失真,并且对象场景中的直线在图像中看起来不是笔直的,如在弯曲的水平线430和垂直线435的情况下所看到的那样。然而,在该示例中,消失线440保持笔直,这是因为它们在从图像中心的径向方向上定向。在底部图像450中,进行了附加的图像处理,以得到具有完美比例节省投影(也被称为面部和身体保护)的图像。利用这种投影,分别站立在中心处、站立在45°的半视场角处和站立在70°的半视场角处的人472、474和476的头部由于身体和面部保护校正而全部具有相似的比例,这对于群体自拍图片来说也是视觉上令人满意的。然而,因为保持比例的该面部保护投影不遵循直线投影映射等式H=f*tan(θ),所以图像中存在几何失真,并且对象中的直线在图像中看起来不是笔直的,如在弯曲的水平线480和消失线490的情况下所看到的那样。在该示例投影中,垂直线485在图像中保持笔直,但是这并不始终是这种情况。
图5示出了根据本发明的简单方法,以便使对象的原始直线在图像中保持笔直、以及确保一些对象(如人的面部)在它们靠近图像边缘时不会被过度拉伸。该方法允许基于图像上下文来增强原始广角图像。在具有直线投影的原始图像500中——该图像500要么来自使用具有H=f*tan(θ)分布函数的镜头、要么在利用图像处理校正了失真之后,中心处的人522看起来是正常的,并且朝向边缘的人524和526看起来越来越被拉伸。在该原始图像的情况下,所有的水平、垂直和消失线530、535和540都是笔直的。该原始图像500类似于图2的情况。用于改进该图像的外观的一个简单方法是局部地校正被拉伸的对象周围的形状(如头部524和526),同时使线保持笔直,从而得到示例图像550。该方法开始于:接收具有至少一个元素的原始广角图像,该至少一个元素具有扭曲的几何形状。这里,扭曲的几何形状可以属于任何种类,包括不均匀的或拉伸的比例、当原始对象笔直时的弯曲线、不令人满意的光学失真、或在原始广角图像中可见的任何其他不令人满意的伪影。然后,该方法通过从原始广角图像对具有扭曲的几何形状的该至少一个元素进行分类来创建至少一个经分类的元素。这里,对元素的分类可以基于各种方法,包括但决不限于基于该至少一个元素的形状、该至少一个元素在原始广角图像中的位置、该至少一个元素与原始广角图像中的其他元素相比的深度等。然后,该方法允许通过处理原始广角图像来对扭曲的几何形状进行去扭曲,从而创建最终图像。利用校正算法的该类型的处理可以通过AI算法来完成,该AI算法使用深度学***线但是在校正图像中形成不连续的线的情况下、或者在线段585和586在对象空间中形成连续的垂直线但是在校正图像中形成不连续的线的情况下,这尤其明显。该图示出了基于分类并且没有分割层的简单校正方法的示例,但是该方法并不限于人,并且可以应用于各种其他对象,以校正其扭曲的几何形状,该扭曲的几何形状是由于该图像跨整个视场的非线性放大所致。
图6示出了使用元素分类的以其简单形式的基于图像上下文的自适应去扭曲方法的另一个示例。在图6的该示例中,原始图像600具有若干个扭曲的几何形状,包括弯曲线610、通过中心处的面部612与边缘处的面部614之间的大小差异所看到的人类面部之间的不相等比例,并且该图像具有140°的对角视场。该原始图像600仅仅是示例原始图像,该图像要么是直接从广角成像器捕获的、要么是在已经应用了一些处理之后捕获的,但是根据本发明的方法不限于该场景内容或者对角全视场的任何值。现有方法中的一些通过使用比例节省投影完全地校正了这些比例。这就像图4的先前示例中那样,在这里由图像620来表示,其中线630甚至更加弯曲,但是面部比例是相等的,如在中心处的面部632与边缘处的面部634的相等大小中所看到的那样。在该示例中,比例节省投影可以是但不限于等矩形投影、圆柱投影或任何其他定制投影。现有方法中的一些其他方法完全地拉直了图像中的线,如在图2的示例中那样,在这里由图像640来表示,其中线650是笔直的,但是面部比例甚至比在原始图像中更差,如通过在中心处的面部652与边缘处的面部654之间比在原始图像中更大的大小差异所看到的那样。在这两种现有方法中,当修改图像投影时使原始全视场守恒是不可能的。在本发明的方法的情况下,使用基于图像上下文的自适应去扭曲方法的简单形式来处理原始广角图像,以便与对象场景中的原始线相比相等地最大化最终图像中的线的直线度,与原始广角图像全视场相比最大化最终图像全视场,以及与对象场景中的真实比例相比最大化最终图像中的比例的守恒。同样,该方法开始于:接收具有元素的原始广角图像,该元素具有扭曲的几何形状。然后,该方法通过从原始广角图像对具有扭曲的几何形状的该至少一个元素进行分类来创建至少一个经分类的元素。这里,对元素的分类可以基于各种方法,包括但决不限于基于该至少一个元素的形状、该至少一个元素在原始广角图像中的位置、该至少一个元素与原始广角图像中的其他元素相比的深度等。然后,该方法允许通过处理原始广角图像来对扭曲的几何形状进行去扭曲从而创建最终图像,并且最大化最终图像的视场。可以通过对纹理网格或显示网格进行变换来进行校正。替代地,还可以通过逐像素地对图像进行去扭曲来进行校正。所得的图像660具有线670,线670比在原始图像600中更加笔直但是不如在图像640中那么笔直。所得的图像660还具有比在原始图像600中更加相等但是不如在图像620中那么相等的面部比例,如通过比较中心处的面部672与边缘处的面部674的比率所看到的那样。最后,图像660中的对角全视场保持尽可能地接近来自原始图像600的值140°,以避免在图像的拐角中或侧边上创建没有信息的区,或者避免不得不裁剪该图像以避免这种没有信息的区。在利用该简单形式的自适应去扭曲方法的情况下,这三个项之间的理想平衡的水平取决于哪种折衷对于期望应用是可接受的。在一些实施例中,要最大化的这三个项中的每一个可以被指派有可调整的校正权重,以调整在原始广角图像上进行的处理的水平。这些可调整的校正权重要么例如通过该应用的要求预先定义,要么由用户根据其偏好来选择。取决于输入原始图像内容、上下文和应用,弯曲线被拉直的水平、视场的守恒、以及被应用的对象比例的守恒可以根据依据本发明的简单形式的自适应去扭曲方法而变化。在一些实施例中,该方法的处理步骤可以通过人工智能算法来进行。
图7示出了根据本发明的基于图像上下文分割和分割层的自适应去扭曲的优选方法。该方法接收具有多个元素的原始广角图像700作为输入,每个元素处于原始广角图像的前景或背景之一中,这些元素中的一个或多个具有扭曲的几何形状。这些扭曲的几何形状可以属于任何种类,包括不均匀的或拉伸的比例、当原始对象笔直时的弯曲线、不令人满意的光学失真、或在原始广角图像中可见的任何其他不令人满意的伪影。该广角图像可以具有任何视场,但是通常图2和图4中所示的不令人满意的效果在具有超过60°的全视场的广角图像中是最明显的。在根据本发明的优选实施例中,该原始广角图像700由成像器直接捕获,该成像器具有光学***,该光学***至少包括相机模块、以及具有或不具有与直线投影的偏离的广角光学镜头。该广角镜头通常具有至少60°的对角视场。在其他实施例中,该光学***由折射透镜元件、反射镜元件、衍射元件、元表面、或帮助在相机的图像平面中形成图像的任何其他光学元件的任何组合组成。在根据本发明的一些其他实施例中,原始图像700已经由处理器所处理,以校正来自相机模块的原始失真、改进图像质量、或者应用任何其他图像处理。替代地,原始广角图像700可以在具有处理器的成像器内部通过将多个窄角图像进行组合来创建,或者完全由计算机生成。原始广角图像700具有对于人类观察者在视觉上不令人满意的元素。在该示例图中,在决不限制本发明的范围的情况下,这些元素是看起来正常的在中心处的人类702、具有被不令人满意地拉伸的面部的边缘处的人类703、变形的边缘处的树704、在边缘上的建筑物706、建筑物707、以及背景708,即使建筑物706在对象场景中是笔直的,但是它由于图像失真而看起来是弯曲的,建筑物707由于它在中心处的位置而看起来是正常笔直的,背景708由诸如山或太阳之类的各种远处的对象组成。在接收到原始广角图像之后,该方法进行对象分割和深度分析步骤710,该步骤710基于元素深度和图像上下文。用于将原始广角图像分割成多个分割层的该第一处理步骤经由软件算法、硬件算法或经训练的人工智能算法来进行、或者不经由神经网络来进行。该第一处理步骤可以在处理器、CPU、GPU、ASIC、FPGA、或被配置成执行图像分割或执行算法的任何其他设备内部执行。在一些实施例中,该处理步骤在具有广角相机模块的成像器所位于的相同物理设备内部进行。在其他实施例中,该处理步骤在不同的设备内部进行,在该不同的设备上需要自适应去扭曲来改进该图像。该分割处理步骤分析原始广角图像内容,并且将其各种元素分割在各种分割层中,每个分割层包括这些元素中的至少一个。该分割可以取决于元素分类以及还可选地取决于深度分析来进行。该深度分析步骤基于原始广角图像中的各种元素的距离来分割各种分割层。该分割步骤也可以基于各种元素在图像中的位置或形状。可以利用深度估计算法来估计元素的深度,尤其是原始广角图像的前景中的元素的深度,该深度估计算法包括:AI神经网络,其被训练成从单个图像推导出某元素与其他元素相比的相对深度;算法,其通过结合来自设备的陀螺仪信息来分析相机处于自主运动或不自主运动中时的视频序列的连续帧之间的差异,从而重建场景的3D结构;或任何其他算法,其用于估计、计算或测量场景中的元素的深度。当深度估计由神经网络进行时,该网络可以具有任何形状,包括但决不限于具有卷积层的神经网络。该网络也可以由子网络或子层组成,每个子网络或子层进行单独的任务,包括但决不限于卷积、池化(最大池化、平均池化或其他类型的池化)、跨步(striding)、填充(padding)、下采样、上采样、多特征融合、修正线性单元、级联、全连接层、展平层(flatten layer)等。在本发明的其他实施例中,可以根据从不同位置捕获以便计算由于视差所致的差异的立体图像对来计算每个对象的深度,可以从飞行时间硬件模块、从结构光***、从激光雷达***、从雷达***、从3D捕获、或通过用于估计、测量或计算图像中可见的对象的距离的任何其他手段来计算每个对象的深度。在用于评估深度的方法或***的所有上述示例的情况下,所得的深度信息可以要么是绝对的要么是相对的。在相对深度的情况下,深度不一定要精确,并且它可能仅是区别每个层的相对位置的信息。在决不限制对层的深度进行排名的可能方法的情况下,相对深度测量的一个这种示例是基于叠加的相对深度测量。在图像700中,由于该叠加,人703的头部部分地将树704隐藏,使得即使绝对距离不可获得,也允许深度估计算法将树704的相对深度排名为比人703更远。在本发明的一些实施例中,基于图像上下文和元素分类的分割算法以及深度分析两者一起执行,并且它们彼此帮助以改进它们的分析的结果。在图7的示例中,分割和深度分析算法基于对象的深度和上下文创建了五个不同的层。上下文分析可以是来自与分割算法同时执行的分类算法的结果。该分类算法用于将每个所分割的元素分类到所标识的类别中。在该示例中,第一层720和第二层725是针对人的。来自分割算法的每个层对应于预定义的距离范围。由于该原因,即使来自原始图像700的两个人类702和703是与广角相机最接近的对象,他们与彼此的距离也大于预定最小步长,并且因此他们形成了两个不同的层720和725。在层720中,人722仍然看起来被拉伸并且在视觉上不令人满意,就像原始图像700中的人703那样。在层725中,人727仍然看起来是正确的,就像来自原始图像700的人702那样。在该示例中,第三层730包括通过分割算法未识别的对象、或针对其不需要特定自适应去扭曲的所识别的对象,如树734。第四层740是针对建筑物的,其中建筑物742和744仍然像原始图像700中的建筑物706和707那样失真。这里,与预定最小距离步长相比,来自层740的两个建筑物742和744被认为处于距相机的相同距离处。因为它们来自相同的分类类型并且处于相同的深度处,所以分割和深度分析算法710将它们分类在相同的层740中。树734也被认为处于与两个建筑物742和744相同的距离处,但是因为分割算法发现它们来自两个不同的种类,所以它们在不同的层730和740中。最后,最后一层750是背景,背景由如该图像中远处的山755这样的所有对象组成,这些对象将不会受透视校正所影响。然后,该方法处理分割层中的至少一个,以至少部分地对具有扭曲几何形状的一个或多个元素中的任一个进行去扭曲,从而创建去扭曲层。这是通过取决于原始广角图像中的对象的深度和图像上下文的自适应去扭曲760来进行的。在优选实施例中,要应用在分割层上的特定去扭曲过程要么取决于原始广角图像中的分割层的位置、要么取决于分割层中的元素的分类。原始广角图像的上下文取决于这些,并且通常通过分析来自原始广角图像700的元素来自动确定。在其他情况下,也可以利用从算法710获得的来自每个层的分割和深度的信息来确定上下文。替代地,要应用的自适应去扭曲的确切信息和参数可以经由元数据、或图像中的标记、用户输入、从自适应去扭曲算法列表中的选择而被传送到自适应去扭曲算法,或者根据应用来自动选择。在该示例中,由于原始图像具有带有人的分割层,因此将在层720和725上应用专门针对人的基于上下文的利用身体和面部保护的定制去扭曲760,以分别得到去扭曲层765和770。针对人的该定制去扭曲不是试图保持对象的透视或直线,而是使人类的形状保持在视觉上令人满意,无论它们在视场中的何处。接下来,针对未知或未识别的对象的定制去扭曲被应用于层730以得到去扭曲层775。该定制去扭曲基于对象的一个边缘与另一个边缘的放大倍率差异来改进朝向图像边缘的对象的形状,就好像它们被成像在图像中心处一样,但是对于需要特定校正的已知对象(建筑物、人),不进行特定的校正。接下来,在层740上应用自适应去扭曲,以得到建筑物780的去扭曲视图。对于建筑物而言,保持直线对于该图像在视觉上令人满意是重要的,并且因此被应用在该层上的投影使线保持笔直。最后,如果需要得到期望的投影,也可以可选地对背景层750进行去扭曲,从而获得去扭曲层785。根据本发明的方法的最后步骤是:经由合并算法将至少一个去扭曲层与其他分割层合并回到一起以形成最终图像790。在该示例中,最终图像的第一层是背景,并且然后按照通过深度分析算法710计算出的距相机的距离的降序对所有层进行叠加,以形成具有自适应去扭曲的完整图像790。在根据本发明的一些实施例中,通过调整纹理网格或显示网格来进行至少一个去扭曲层与其他层的合并。替代地,也可以逐像素地进行该合并。从该示例图中可以看出,该合并的最终图像790在树上具有一些虚线部分792,在该虚线部分792中,相机最初没有捕获到信息。将利用图8来解释对这些没有信息的区域进行的校正。该缺失信息存在于该示例中,但是在根据本发明的一些其他示例中,如果通过自适应去扭曲算法使顶部上的层在大小方面增加,则可能存在没有任何缺失背景信息的输出图像,如将利用图9所解释的那样。此外,在根据本发明的一些实施例中,基于图像上下文的自适应去扭曲之后的多个层中的至少一个可以在将它们合并在一起之前被进一步处理。一个示例是当处理步骤进一步包括如下操作时:在深度层中的至少一个上添加一些主动的模糊,以便添加取决于上下文和深度的散景(bokeh)效果,而不是仅基于深度的传统散景效果。例如,在远处背景前面的人类面部的图像的上下文中,可以自动添加这种基于上下文的散景效果,以模糊背景并且保持人类面部被很好地聚焦。在本发明的其他应用中,当背景比前景更重要时,也可以进行相反的事情,其中针对反向散景效果,背景清晰聚焦并且前景对象被模糊。此外,在根据本发明的一些实施例中,在基于上下文的自适应去扭曲之后的多个分割层可以在将它们合并在一起之前被进一步处理,从而向去扭曲层中的至少一个有目的地添加一些平移、一些旋转或一些缩放,以创建主动的透视或3D效果。此外,在根据本发明的一些其他实施例中,在将多个分割层合并在一起之前对它们的进一步处理还可以包括:对分割层中的至少一个元素进行透视倾斜校正,以便关于场景中的地平线或任何目标方向来校正透视。当元素是原始广角图像中以看起来不令人满意的倾斜角度捕获的建筑物时,该透视倾斜校正尤其有用,以便校正其形状,从而使其看起来好像不是以这种倾斜角度被捕获的,但是该透视倾斜校正也可以应用于任何种类的元素。此外,在根据本发明的一些其他实施例中,在将多个分割层合并在一起之前对它们的进一步处理还可以包括:使至少一个分割层稳定化,以便避免视频序列中的帧之间的一个或多个分割层的不令人满意的移动。此外,在本发明的方法的一些实施例中,在合并这些层以创建最终合并图像之前,可以去除一些不想要的对象层。在根据本发明的一些实施例中,当多于一个对象在原始广角图像中彼此接触或彼此靠近时,如图7的示例中的人类703和树704,对分割层的特定去扭曲过程取决于可以被添加到基于上下文的自适应去扭曲的可调整校正权重。这些校正权重可以通过增加或减少去扭曲的水平来适配在这些对象上进行的去扭曲的水平,以确保不太重要的对象不会干扰附近更重要的对象。在图7的示例中,树704可以具有较低的校正权重,以避免干扰人类703的去扭曲层。这些校正权重可以在运行自适应去扭曲的设备中预设,或者根据用户偏好来手动调整或选择。这些校正权重也可以通过算法来自动调整,包括经由人工智能方法训练的算法,该算法基于该图片是如何被捕获的来自动解释用户的意图。当用户在捕获图像之前可以看到去扭曲图像的预览并且他相应地调整相机参数以获得更好看的最终去扭曲图像时,对校正权重的该调整尤其有用。
图8示出了用于在应用了基于上下文和深度层的自适应去扭曲方法期间填充缺失图像信息的可选方法,有时被称为图像修复(inpainting)。该图像修复技术用于完成原始广角图像中的缺失信息的至少一部分。在其中关于图7解释的方法的最终图像具有缺失信息的可能情况下,该进一步的步骤允许改进最终图像,以使其对于人类观察者来说在视觉上更令人满意。图像800是要么来自具有直线H=f*tan(θ)投影的镜头、要么来自其中为了获得直线投影而已经对失真进行了去扭曲的广角镜头的示例原始广角图像。在该示例图像800中,该设置是室内的,其在集体自拍(或群体照片)设置中具有五个人。该图像800只是示例,但是用于填充缺失信息的这种方法不限于任何设置,并且可以与在其上使用自适应去扭曲算法的任何图像一起使用。图像800包含来自墙壁的线802,线802保持笔直,这是因为该图像遵循直线投影。图像800还具有被人805、806、807、808和809部分地隐藏的背景墙壁纹理804。如在图7的自适应去扭曲方法的情况下那样,第一步骤是图像分割和深度分析步骤810。为了简单起见,在该示例中,该算法创建了两个层:一个层820,其中所有人站立在距相机相对相同的距离处;以及一个层825,其具有背景。分割和深度层820不具有缺失信息,这是因为对象在前景中,并且分割和深度层825具有缺失信息,这是因为它在背景中。如在图7的自适应去扭曲方法的情况下那样,下一步骤是基于上下文的自适应去扭曲830,以对扭曲的几何形状进行去扭曲。层820在其中具有人,并且因此使得人的形状在视觉上具有吸引力的利用身体和面部保护的自适应去扭曲被使用以得到去扭曲层840。在自适应去扭曲之后,如果该层如图7的方法中那样被直接合并在一起,则我们将获得具有缺失信息的图像860。与原始图像800相比,在中心处的人867并没有通过自适应去扭曲过程被移动或变形,并且因此在它后面不存在缺失信息的区。然而,人866通过自适应去扭曲过程被向左移动,并且他在背景中创建了缺失信息的区862。类似地,人868通过自适应去扭曲过程被向右移动,并且他在背景中创建了缺失信息的区。因为人865和869更靠近相机,所以与他们相应的图像805和809相比,人865和869通过校正了透视的自适应去扭曲被扩大(enlarge),并且因此在他们后面没有创建缺失信息的区。代替于将层840和850合并,可选附加步骤870是利用完成算法或图像修复算法来填充缺失信息。该完成算法可以使用各种方法来完成该图像,包括但决不限于:基于缺失信息区周围的纹理和颜色来应用模糊;应用渐变线,该渐变线通常在使这些所生成的渐变线的长度最小化的方向上将颜色从缺失信息区域的一侧上的颜色逐渐改变到另一侧上的颜色;使用被训练成完成图片的缺失信息的人工智能网络等等。根据本发明的方法,该完成算法可以在由处理单元(CPU或GPU)组成的硬件处理器上执行,该处理单元要么位于与相机相同的设备中,要么位于接收输出合并图像795的分离的设备中。替代地,该完成算法也可以与基于上下文的自适应去扭曲步骤830并行地执行。该完成算法870的输出是:已完成的层885,因为层850具有缺失信息;以及未修改的层875,因为层840不具有缺失信息。图8的示例示出了一个已完成的层885,因为仅背景具有缺失信息,但是如果存在许多具有缺失信息的层,则可以输出许多已完成的层。然后,按照从最远的层到最近的层的深度次序将没有缺失信息的层875与已完成的层885进行合并。结果是具有所填充的信息的最终图像890,其中应用了透视校正,校正了人的形状以避免不令人满意的拉伸,并且与图860相比,利用完成算法填充了缺失的背景信息,从而获得在视觉上令人满意的经填充的背景892。在本发明的一些实施例中,该算法还可以可选地使用来自任何先前帧或者甚至来自视频序列的多个先前帧的信息来完成当前帧的缺失信息。在当前帧的缺失信息在场景中的某些移动创建了缺失信息区之前的任何先前帧中可见时,这是可能的。
图9示出了图8的方法的替代可选方法,用于在应用了基于上下文和深度层的自适应去扭曲方法期间隐藏而不是填充缺失的图像信息。在该示例的情况下,通过缩放至少一个去扭曲层来隐藏原始广角图像中的缺失信息的至少一部分。在其中关于图7解释的方法的输出图像具有缺失信息的可能情况下,该替代方法允许改进该输出图像,以使其对于人类观察者来说在视觉上更令人满意。从与来自图8的图像800相同的图像900开始,该图像同样是要么来自具有直线H=f*tan(θ)投影的镜头、要么来自其中为了获得直线投影而已经对失真进行了去扭曲的广角镜头的示例原始广角图像。在该示例图像900中,该设置是室内的,其在集体自拍(或群体照片)设置中具有五个人。该图像900只是示例,但是用于隐藏缺失信息的这种方法不限于任何设置,并且可以与在其上使用自适应去扭曲算法的任何图像一起使用。图像900包含来自墙壁的线902,线902保持笔直,这是因为该图像遵循直线投影。图像900还具有被人905、906、907、808和909部分地隐藏的背景墙壁纹理904。如在图7的自适应去扭曲方法的情况下那样,第一步骤是图像分割和深度分析步骤910。为了简单起见,在该示例中,该算法创建了两个层:一个层920,其中所有人站立在距相机相对相同的距离处;以及一个层925,其具有背景。分割和深度层920不具有缺失信息,这是因为对象在前景中,并且分割和深度层925具有缺失信息,这是因为它在背景中。如在图7的自适应去扭曲方法的情况下那样,下一步骤是基于上下文的自适应去扭曲930。层920在其中具有人,并且因此使得人的形状在视觉上具有吸引力的利用身体和面部保护的自适应去扭曲被使用以得到去扭曲层940。在自适应去扭曲之后,如果该层如图7的方法中那样被直接合并在一起,则我们将获得具有缺失信息的图像960。与原始图像900相比,在中心处的人967并没有通过自适应去扭曲过程被移动或变形,并且因此在他后面不存在缺失信息的区。然而,人966通过自适应去扭曲过程被向左移动,并且他在背景中创建了缺失信息的区962。类似地,人968通过自适应去扭曲过程被向右移动,并且他在背景中创建了缺失信息的区。因为人965和969更靠近相机,所以与他们相应的图像905和909相比,人965和969通过校正了透视的自适应去扭曲被扩大,并且因此在他们后面没有创建缺失信息的区域。代替于将层940和950合并或者如图8的方法中那样填充缺失信息,可选附加步骤970是利用调整相对放大倍率的算法来隐藏缺失信息的区。该方法调整前面的层中的对象的相对放大倍率,并且将它们扩大,该扩大正好足以使得在将这些层组合在一起时背景中将不会存在缺失信息的区。根据本发明的方法,用于调整一些层上的相对放大倍率的该算法可以在由处理单元(CPU或GPU)组成的硬件处理器上执行,该处理单元要么位于与相机相同的设备中,要么位于接收输出合并图像795的分离的设备中。替代地,通过调整相对放大倍率的算法对缺失信息的隐藏也可以与基于上下文的自适应去扭曲步骤930并行地执行。用于调整相对放大倍率的算法970的输出是:经放大的层975,因为层940具有被移动从而在合并图像960中创建缺失信息的区的对象;以及未修改的层985,因为层950在背景中并且不需要改变放大倍率。在该示例中,在中心处的人943并没有通过自适应去扭曲算法930被调整,并且因此没有创建缺失信息的区。由于此原因,人978在层975中保持不变。对于通过自适应去扭曲算法930分别被向左移动和向右移动的人942和944而言,他们需要通过算法970被放大,以隐藏当他们被移动时所创建的缺失信息的区,并且因此所得的层中的人977和979被扩大。此外,在该示例中,人941和945也被分别扩大成人976和980,即使在他们后面没有缺失信息的区。这种特定情况是为了示出:用于调整相对放大倍率的算法970甚至可以调整在它们附近没有缺失信息的对象或层,以便保持图像的总体比例被遵守。图9的示例示出了具有经调整的放大倍率的一个层975,但是如果存在具有需要进行扩大以隐藏缺失信息区的对象的许多层,则可以输出具有经调整的放大倍率的许多层。然后,按照从最远的层到最近的层的深度次序将具有经调整的放大倍率的层975与背景层985进行合并。结果是具有被扩大的一些前景对象的图像990,其中应用了透视校正,校正了人的形状以避免不令人满意的拉伸,并且与图960相比,通过调整相对放大倍率的算法隐藏了缺失的背景信息。在所得的图像990中,与缺失信息的区962相比,区域992周围不存在缺失的背景,这在视觉上是令人满意的。
在根据本发明的一些其他实施例中,图8的完成方法以及图9的通过调整相对放大倍率的隐藏方法可以一起使用,以最小化它们对图像的相对影响。
图10示出了根据本发明的一些实施例的方法,其中背景层的去扭曲投影可以取决于前景中的对象的检测到的上下文。在该示例中,对分割层的处理使用针对背景层的去扭曲投影,该去扭曲投影取决于原始广角图像的检测到的上下文。该图示出了两个示例图像1000和1050,如它们在被具有类似于图3的分辨率曲线的镜头捕获时将看起来的那样。由于失真简档,背景线1010和1060对于水平线和垂直线两者具有可见的弯曲线,如先前在图4处所解释的那样。对于图像1000的特定示例,由于在该图片内部存在人类1015、1016、1017、1018和1019,因此用于基于上下文的背景去扭曲的算法1020将检测到这些人类处于群体自拍或群体照片场景中,并且理想的背景去扭曲将是圆柱投影。去扭曲算法1020的输出是背景层1030,其中背景线1040示出了:对象中的垂直线在图像中是笔直的,但是对象中的水平线在图像中是弯曲的,如在圆柱投影中那样。在背景层由于它被前景对象隐藏而具有一些缺失信息时的情况下,如果对于最终输出需要的话,则可以使用可选的图像修复技术来完成该图像,如虚线1045所表示的那样。接下来,在示例图像1050中,与先前背景1010相同的背景1060是可见的,但是这一次在前景中没有任何人类在前面。在这种情况下,用于基于上下文的背景去扭曲的算法1070将检测到:因为它是室内场景,所以将场景中的直线在该图像中保持为直线是优选的,并且输出投影应当是直线的。去扭曲算法1070的输出是背景层1080,其中背景线1090在图像中是笔直的,如在直线投影中那样。该图中的圆柱投影和直线投影的理想输出仅仅是对于给定上下文而言可能理想的背景投影的示例,但是根据本发明的方法不限于任何特定投影,并且可以是立体投影、等距投影、等立体(equisolid)投影、正交投影、墨卡托(Mercator)投影或任何其他定制投影中的任一个。
图11示出了根据针对理想面部保护的基于深度和分割层的基于上下文的自适应去扭曲方法的算法的一个示例实现方式。在该算法的该示例实现方式中,对至少一个分割层进行处理以创建至少一个去扭曲层包括:创建以具有扭曲几何形状的元素为中心的虚拟相机;在该虚拟相机上应用直线校正;以及将结果平移到最终图像中的正确位置。该示例算法从原始广角图像1100开始。该原始广角图像可以具有任何视场,但是通常图2和图4中所示的扭曲几何形状在具有超过60°全视场的广角图像中是最明显的。在根据本发明的实施例中,该原始广角图像1100是利用具有广角镜头——其具有或不具有与直线投影的偏离——的相机模块直接捕获的。在根据本发明的一些其他实施例中,原始图像1100已经由处理器处理,以校正来自相机模块的原始失真、改进图像质量、或应用任何其他图像处理。替代地,原始广角图像1100可以在处理器内部从多个窄角图像被组合,或者完全由计算机生成。在该示例中,在决不限制本发明的范围的情况下,该原始广角图像具有由山景观组成的背景1110、以及前景中作为对象的人类面部1115。因为人类面部靠近拐角,所以该面部被拉伸,并且原始对象比例没有被保持。如图4中已经解释的那样,原始广角图像1100在视觉上是不令人满意的。基于上下文的自适应去扭曲方法进行对人类面部1115的分割和分类。该示例算法中的下一步骤1120是创建虚拟相机1130,该虚拟相机1130具有在其中居中的人类面部1135。该虚拟相机1130具有窄视场,并且被旋转,好像它在原始图像的中心处,从而将该拉伸修复,这是因为在图像中心处的窄视场中保持了原始比例。这是通过在该示例中表示理想比例的圆形头部形状来表示的。在数学上,旋转该虚拟相机的该示例步骤1120被描述如下。原始广角图像的分割层中的每个点Pin被指派了原始广角图像中的坐标(x, y)。
Figure 603558DEST_PATH_IMAGE002
原始广角图像中的面部的中心位置是Pin0,其具有坐标(x0, y0)。
Figure 786277DEST_PATH_IMAGE004
使用函数F根据光学失真从中心位置Pin0来计算欧拉角
Figure DEST_PATH_IMAGE006AA
Figure 159490DEST_PATH_IMAGE008
针对每个输入点Pin,利用被称为P相机的转换函数来计算具有坐标(x', y', z')的3D空间中的虚拟相机投影位置Pin3d
Figure 757962DEST_PATH_IMAGE010
Figure 837913DEST_PATH_IMAGE012
接下来,在该示例算法中,通过乘以旋转矩阵M来进行对虚拟相机的旋转,该旋转矩阵M将3D空间中的每个输入点Pin3d上的欧拉角反转(invert),以获得具有坐标(u', v',w')的位置Pout3d
Figure 112905DEST_PATH_IMAGE014
Figure 848780DEST_PATH_IMAGE016
然后,使用反函数P-1 显示器将3D空间中的该位置Pout3d转换成具有坐标(u, v)的2D空间中的位置Pout。
Figure 313260DEST_PATH_IMAGE018
Figure 185401DEST_PATH_IMAGE020
该示例算法的下一步骤1140是:将来自虚拟相机1130的结果平移回到虚拟相机旋转之前的该图像中的原始位置,从而给出帧1150,在帧1150中,人类面部1155具有理想比例,但是对于与背景完美匹配而言可能仍然被旋转或具有错误的大小。在数学上,我们使用平移向量T =(tx, ty)来计算分割层的每个点的位置Pout'。
Figure 444344DEST_PATH_IMAGE022
该示例算法的下一步骤1160是可选的,并且它包括由虚拟相机1170的自适应去扭曲算法进行的任何进一步处理以便改进人类面部1175的最终投影,包括旋转、缩放、或用于理想面部保护的任何其他变换。在数学上,我们将可选的旋转矩阵R和缩放矩阵S应用到Pout',以便计算分割层的每个点的最终位置Pout''。
Figure 401935DEST_PATH_IMAGE024
该示例算法的最后步骤1180是:将所分割的人类面部层1195合并回到其他层,该其他层在这里由具有山脉1190的背景层来表示。当这些层被合并回到一起时,可以根据需要针对所合并的层之间的最佳拟合来调整纹理网格或显示网格。作为示例示出了用于面部保护的该方法,但是根据本发明,该方法可以应用于任何种类的对象保护。在该图11中描述的算法仅仅是示例实现方式,而不是限制性的。在符合本发明的精神的情况下,可以使用其他算法来实现相同的结果。
图12示出了物理设备1230的示例实施例,该物理设备1230捕获原始广角图像,根据本发明的方法对其进行处理以基于图像上下文来增强该图像,并且在显示屏上输出最终图像。对象场景1200对于物理设备1230是可见的,这意味着来自对象场景的一些光线(这里由定义了成像器的视场的两个极端光线1210和1212示出)正在到达物理设备1230的成像器1220。在该示例中,成像器1220是具有通常大于60°的视场的广角镜头,并且利用通常位于广角镜头的图像平面处的图像传感器在图像平面中形成光学图像,并且将来自光学图像的光线变换成表示原始广角图像1240的数字图像文件。该原始广角图像文件在前景或背景中具有多个元素,其中至少一个元素具有扭曲的几何形状,该扭曲的几何形状例如通过人1245的被拉伸的面部而可见。在其他实施例中,成像器可以由创建数字图像的任何其他方式组成,包括具有镜头、镜子、衍射元件、元表面等的其他光学***或从任何源来创建或生成数字图像文件的任何处理器。该实施例仅仅是根据本发明的这种物理设备的示例,并且该示例不限制本发明的范围。该物理设备可以是包括用于接收原始广角图像1240、处理它并显示它的方式的任何设备,如智能电话、平板电脑、膝上型或台式个人计算机、便携式相机等。在该示例中,物理设备1230还包括处理器1250,处理器1250能够执行用于将原始广角图像1240处理成最终图像的算法,包括分割、分类、至少部分地去扭曲、对层进行合并、其他各种图像质量处理和增强等。在该示例中,处理器1250是中央处理单元(CPU),但是在其他实施例中,处理可以由任何种类的处理器来完成,包括CPU、GPU、TPU、ASIC、FPGA、或被配置成执行用于实行所述功能的软件算法或能够处理数字图像文件的任何其他硬件处理器。处理器1250然后将最终图像1270输出到显示器1260。最终图像1270具有去扭曲的几何形状,该去扭曲的几何形状例如通过人类1275的面部的正确比例而可见。在该示例中,显示器1260是物理设备1230的一部分,类似于智能电话等的屏幕,但是在其他实施例中,最终图像文件可以替代地被传送到任何其他设备,以用于通过另一算法进行显示或分析。包括成像器1220、处理器1250和显示器1260的单个物理设备1230的该示例仅是根据本发明的示例实施例,但是这三个特征也可以是多个物理设备的一部分,其中数字图像文件经由任何通信链路在它们之间交换以共享数字图像文件,该通信链路包括但不限于:计算机主总线、硬盘驱动器、固态驱动器、USB驱动器、经由Wi-Fi在空中进行传送、或在多个物理设备之间传送数字图像文件的任何其他方式。
在根据本发明的一些实施例中,基于分割和深度层的自适应去扭曲方法被用于:与对象场景中的原始线相比最大化图像中的线的直线度、与原始图像全视场相比最大化输出图像全视场、和/或与对象场景中的真实比例相比最大化输出图像中的比例的守恒。当该方法用于与原始图像文件相比最大化图像中的线的直线度时,基于上下文的自适应去扭曲方法760在优先使得对象场景中的直线在合并图像790中尽可能笔直的情况下,对各种分割和深度层进行变换。当该方法用于与原始图像全视场相比最大化输出图像全视场时,将特殊去扭曲的目标用于原始图像的拐角,以便确保输出合并图像对角全视场保持尽可能接近原始图像对角全视场。这样做是为了通过如下方式来避免丢失图像中的信息:减小迫使将拐角裁剪的视场,或者避免创建没有信息的黑色拐角或没有信息的输出图像的黑色侧边。为了在原始图像与输出图像之间保持视场尽可能接近,拐角中的特殊去扭曲可以忽略分割或深度层,并且不基于图像拐角中的该区的上下文来应用特定去扭曲。根据本发明,不基于该区或图像的另一个区中的上下文和深度层来应用特定自适应去扭曲、或者出于任何其他原因不在特定层上应用特定自适应去扭曲的选择也是可能的。当该方法用于与对象场景中的真实比例相比最大化输出图像中的比例的守恒时,基于上下文的自适应去扭曲方法760在优先考虑比例的情况下对各种分割和深度层进行变换。在这种情况下,输出合并图像790中的比例全部看起来类似于当人类在图像中可见时将需要的真实对象场景中的比例。在根据本发明的一些实施例中,一起最大化所有这三种情况。
在根据本发明的所有实施例中,该自适应去扭曲算法可以可选地使用来自视频序列中的任何先前帧的信息来进行时间滤波。利用时间滤波,来自该自适应去扭曲的最终输出可以通过如下方式而更加平滑:即,通过支持时间一致性而不是与先前帧具有较大偏离的结果来去除可能由特定帧上的算法的较差解释所产生的潜在伪影。在其中相机或对象场景的一部分的某些抖动将会以其他方式产生伪影的情况下,时间滤波也是有用的。
以上全部内容是示出了该自适应去扭曲方法的图和示例。在所有这些示例中,成像仪、相机或镜头可以具有任何视场,从非常窄的角度到极其广的角度。这些示例不意图是穷尽的列表或者不意图限制本发明的范围和精神。本领域技术人员将领会,在不脱离其宽泛发明概念的情况下,可以对上面描述的实施例进行改变。因此,要理解的是,本发明不限于所公开的特定实施例,而是意图覆盖由所附权利要求限定的本发明的精神和范围内的修改。

Claims (20)

1.一种用于基于图像上下文和分割层来增强广角图像的方法,所述方法包括:
a. 由处理器接收原始广角图像,所述原始广角图像由成像器创建并且具有多个元素,每个元素处于所述原始广角图像的前景或背景之一中,所述元素中的一个或多个具有扭曲的几何形状;
b. 由所述处理器将所述原始广角图像分割成多个分割层,所述分割层中的每一个包括所述元素中的至少一个,所述分割基于以下各项中的至少一个:所述元素中的一个或多个的形状、所述元素中的一个或多个在所述原始广角图像中的位置、或所述元素中的一个或多个与其他元素相比的深度;
c. 由所述处理器来处理所述分割层中的至少一个,以至少部分地对所述至少一个分割层中的具有所述扭曲的几何形状的所述一个或多个元素中的任一个进行去扭曲,从而创建至少一个去扭曲层;以及
d. 由所述处理器将所述至少一个去扭曲层与其他分割层进行合并以形成最终图像。
2.根据权利要求1所述的方法,其中所述原始广角图像由所述成像器来捕获,所述成像器是至少包括相机和广角镜头的光学***。
3.根据权利要求2所述的方法,其中所述广角镜头的对角视场至少超过60°。
4.根据权利要求1所述的方法,其中所述元素中的至少一个处于所述原始广角图像的前景中,并且对至少一个前景元素的分割基于与其他元素相比的相对深度,所述相对深度由人工智能神经网络来计算。
5.根据权利要求1所述的方法,其中对所述至少一个分割层的特定去扭曲过程要么取决于所述原始广角图像中的所述至少一个分割层的位置,要么取决于所述至少一个分割层中的所述元素中的至少一个的分类。
6.根据权利要求1所述的方法,其中所述扭曲的几何形状包括以下各项中的至少一个:被拉伸的比例、弯曲线、或具有光学失真的图像。
7.根据权利要求1所述的方法,其中对所述至少一个分割层的特定去扭曲过程取决于可调整的校正权重,所述校正权重要么是根据用户偏好来选择的、要么是预设的。
8.根据权利要求1所述的方法,其中所述处理步骤进一步包括以下操作中的至少一个:使所述至少一个去扭曲层模糊、旋转所述至少一个去扭曲层、平移所述至少一个去扭曲层、缩放所述至少一个去扭曲层、校正所述至少一个去扭曲层的透视倾斜、或者使所述至少一个去扭曲层稳定化。
9.根据权利要求1所述的方法,其中使用图像修复技术来完成所述原始广角图像中的缺失信息的至少一部分。
10.根据权利要求1所述的方法,其中通过缩放所述至少一个去扭曲层来隐藏所述原始广角图像中的缺失信息的至少一部分。
11.根据权利要求1所述的方法,其中对所述至少一个分割层的处理使用针对背景层的去扭曲投影,所述去扭曲投影取决于所述原始广角图像的检测到的上下文。
12.根据权利要求1所述的方法,其中对所述至少一个分割层进行处理以创建所述至少一个去扭曲层包括:创建以具有所述扭曲的几何形状的元素为中心的虚拟相机;在所述虚拟相机上应用直线校正;以及将结果平移到最终图像中的正确位置。
13.根据权利要求1所述的方法,其中通过调整纹理或显示网格来进行所述至少一个去扭曲层与其他层的合并。
14.一种用于基于图像上下文来增强广角图像的方法,所述方法包括:
a. 由处理器接收原始广角图像,所述原始广角图像由成像器创建并且具有至少一个元素,所述至少一个元素具有扭曲的几何形状;
b. 由所述处理器通过从所述原始广角图像对具有所述扭曲的几何形状的所述至少一个元素进行分类来创建至少一个经分类的元素,所述分类基于以下各项中的至少一个:所述至少一个元素的形状、所述至少一个元素在所述原始广角图像中的位置、或所述至少一个元素与所述原始广角图像中的其他元素相比的深度;以及
c. 由所述处理器通过处理所述原始广角图像来创建最终图像,以平衡对所述至少一个经分类的元素的所述扭曲几何形状的同时校正以及对最终图像的视场的最大化。
15.根据权利要求14所述的方法,其中根据可调整的校正权重来进行对所述原始广角图像的处理。
16.根据权利要求15所述的方法,其中所述可调整的校正权重要么根据应用、要么根据用户偏好来调整。
17.根据权利要求14所述的方法,其中使用人工智能算法来进行对所述原始广角图像的处理。
18.根据权利要求14所述的方法,其中所述原始广角图像的对象场景中的连续线在最终图像中是不连续的。
19.根据权利要求14所述的方法,其中对所述原始广角图像的处理包括对纹理或显示网格进行变换。
20.一种用于基于图像上下文和分割层来增强广角图像的设备,所述设备包括:
a. 成像器,其创建具有多个元素的原始广角图像,每个元素处于所述原始广角图像的前景或背景之一中,所述元素中的一个或多个具有扭曲的几何形状;以及
b. 处理器,其被配置成:
i. 将所述原始广角图像分割成多个分割层,所述分割层中的每一个包括所述元素中的至少一个,所述分割基于以下各项中的至少一个:所述元素中的一个或多个的形状、所述元素中的一个或多个在所述原始广角图像中的位置、或所述元素中的一个或多个与其他元素相比的深度,
ii. 处理所述分割层中的至少一个,以至少部分地对所述至少一个分割层中的具有所述扭曲的几何形状的所述一个或多个元素中的任一个进行去扭曲,从而创建至少一个去扭曲层,以及
iii. 将所述至少一个去扭曲层与其他分割层进行合并以形成最终图像。
CN202080056969.4A 2019-06-11 2020-06-11 利用基于上下文分割层的自适应去扭曲的最优身体或面部保护的方法 Pending CN114175091A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962859861P 2019-06-11 2019-06-11
US62/859861 2019-06-11
PCT/IB2020/055495 WO2020250175A1 (en) 2019-06-11 2020-06-11 Method for optimal body or face protection with adaptive dewarping based on context segmentation layers

Publications (1)

Publication Number Publication Date
CN114175091A true CN114175091A (zh) 2022-03-11

Family

ID=73745103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080056969.4A Pending CN114175091A (zh) 2019-06-11 2020-06-11 利用基于上下文分割层的自适应去扭曲的最优身体或面部保护的方法

Country Status (3)

Country Link
US (3) US11475546B2 (zh)
CN (1) CN114175091A (zh)
WO (1) WO2020250175A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3495771A1 (en) * 2017-12-11 2019-06-12 Hexagon Technology Center GmbH Automated surveying of real world objects
WO2020250175A1 (en) * 2019-06-11 2020-12-17 Immervision Inc. Method for optimal body or face protection with adaptive dewarping based on context segmentation layers
KR102454167B1 (ko) * 2019-06-27 2022-10-14 한국전자통신연구원 가상 시점 영상 생성 방법 및 장치
US11087435B1 (en) * 2019-11-04 2021-08-10 Facebook, Inc. Adaptive dewarping of wide angle video frames
US20210274092A1 (en) * 2020-02-28 2021-09-02 Weta Digital Limited Reconstruction of obscured views in captured imagery using pixel replacement from secondary imagery
US11508147B2 (en) * 2020-03-06 2022-11-22 Google Llc Streaming object detection within sensor data
CN112258418A (zh) * 2020-10-29 2021-01-22 黑芝麻智能科技(上海)有限公司 图像畸变校正方法、装置、电子设备和存储介质
KR20230039351A (ko) * 2021-09-14 2023-03-21 삼성전자주식회사 이미지에 보케 효과를 적용하는 전자 장치 및 그 동작 방법
US20230245330A1 (en) * 2022-01-31 2023-08-03 Samsung Electronics Co., Ltd. System and method for facial un-distortion in digital images using multiple imaging sensors

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4859061B2 (ja) * 2007-03-07 2012-01-18 公立大学法人大阪府立大学 画像の補正方法、補正プログラムおよび画像歪み補正装置
CA2763649A1 (fr) 2012-01-06 2013-07-06 9237-7167 Quebec Inc. Camera panoramique
US9092657B2 (en) * 2013-03-13 2015-07-28 Microsoft Technology Licensing, Llc Depth image processing
US9247129B1 (en) * 2013-08-30 2016-01-26 A9.Com, Inc. Self-portrait enhancement techniques
TWI504252B (zh) * 2013-10-30 2015-10-11 Vivotek Inc 連續顯示畫面局部的方法與電腦可讀取媒體
MX2016012455A (es) * 2014-03-25 2017-07-28 6115187 Canada Inc D/B/A Immervision Inc Definicion automatizada del comportamiento del sistema o experiencia del usuario mediante grabacion, intercambio y procesamiento de la informacion asociada con imagen gran angular.
CN105450900B (zh) 2014-06-24 2019-01-18 佳能株式会社 用于文档图像的畸变校正方法和设备
WO2017141102A1 (en) 2016-02-16 2017-08-24 6115187 Canada, d/b/a ImmerVision, Inc. Image distortion transformation method and apparatus
US10958834B2 (en) * 2016-07-22 2021-03-23 Immervision, Inc. Method to capture, store, distribute, share, stream and display panoramic image or video
US10523918B2 (en) * 2017-03-24 2019-12-31 Samsung Electronics Co., Ltd. System and method for depth map
US11049218B2 (en) * 2017-08-11 2021-06-29 Samsung Electronics Company, Ltd. Seamless image stitching
US10572982B2 (en) 2017-10-04 2020-02-25 Intel Corporation Method and system of image distortion correction for images captured by using a wide-angle lens
US10503966B1 (en) * 2018-10-11 2019-12-10 Tindei Network Technology (Shanghai) Co., Ltd. Binocular pedestrian detection system having dual-stream deep learning neural network and the methods of using the same
WO2020250175A1 (en) * 2019-06-11 2020-12-17 Immervision Inc. Method for optimal body or face protection with adaptive dewarping based on context segmentation layers
US11087435B1 (en) * 2019-11-04 2021-08-10 Facebook, Inc. Adaptive dewarping of wide angle video frames

Also Published As

Publication number Publication date
WO2020250175A1 (en) 2020-12-17
US11790495B2 (en) 2023-10-17
US20240037719A1 (en) 2024-02-01
US20220414846A1 (en) 2022-12-29
US11475546B2 (en) 2022-10-18
US20200394770A1 (en) 2020-12-17

Similar Documents

Publication Publication Date Title
US11790495B2 (en) Method for optimal body or face protection with adaptive dewarping based on context segmentation layers
US10762606B2 (en) Image processing apparatus and method for generating high quality image
US9729787B2 (en) Camera calibration and automatic adjustment of images
US10609282B2 (en) Wide-area image acquiring method and apparatus
US9361680B2 (en) Image processing apparatus, image processing method, and imaging apparatus
US9300946B2 (en) System and method for generating a depth map and fusing images from a camera array
KR101816449B1 (ko) 다시점 카메라의 통합 노출 제어 장치, 그를 포함한 시스템 및 그 방법
KR20200023651A (ko) 미리보기 사진 블러링 방법 및 장치 및 저장 매체
TW201618531A (zh) 影像擷取裝置及其數位變焦方法
US9807372B2 (en) Focused image generation single depth information from multiple images from multiple sensors
US10878265B2 (en) Image processing device and image processing method for setting important areas in an image
CN109191506B (zh) 深度图的处理方法、***及计算机可读存储介质
CN111866523B (zh) 全景视频合成方法、装置、电子设备和计算机存储介质
JP2022515517A (ja) 画像深度推定方法および装置、電子機器、ならびに記憶媒体
CN112132769A (zh) 图像融合方法、装置以及计算机设备
US10154241B2 (en) Depth map based perspective correction in digital photos
CN117058183A (zh) 一种基于双摄像头的图像处理方法、装置、电子设备及存储介质
WO2023023960A1 (zh) 图像处理及神经网络的训练方法和装置
EP3229106A1 (en) Efficient determination of optical flow between images
CN118096604A (zh) 人脸图像的校正方法、人脸图像的校正装置、终端及存储介质
CN115209035A (zh) 基于视频的畸变校正方法、装置、拍照设备以及存储介质
CN118096603A (zh) 人脸图像的校正方法、人脸图像的校正装置、终端及存储介质
CN114820289A (zh) 一种基于径向对称投影模型的鱼眼图像矫正方法
CN115205127A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070254

Country of ref document: HK