CN102509327B - 一种图像空洞填补的多尺度全局采样方法 - Google Patents

一种图像空洞填补的多尺度全局采样方法 Download PDF

Info

Publication number
CN102509327B
CN102509327B CN 201110299739 CN201110299739A CN102509327B CN 102509327 B CN102509327 B CN 102509327B CN 201110299739 CN201110299739 CN 201110299739 CN 201110299739 A CN201110299739 A CN 201110299739A CN 102509327 B CN102509327 B CN 102509327B
Authority
CN
China
Prior art keywords
graph
image
node
label
solution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110299739
Other languages
English (en)
Other versions
CN102509327A (zh
Inventor
陈小武
赵沁平
周彬
徐舫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN 201110299739 priority Critical patent/CN102509327B/zh
Publication of CN102509327A publication Critical patent/CN102509327A/zh
Application granted granted Critical
Publication of CN102509327B publication Critical patent/CN102509327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种图像空洞填补的多尺度全局采样方法,主要包括以下步骤:将输入图像划分为几何层和纹理层,利用张量投票恢复出图像空洞区域的几何层;对图像空洞区域进行多尺度的网格划分,形成空洞区域的多尺度图结构,在多尺度图结构上定义针对空洞填补问题的后验概率模型,并通过基于模拟退火的马尔科夫链蒙特卡罗方法,求解该后验概率模型的全局最优解;根据全局最优解对应的空洞区域整体采样集,合成图像空洞区域的缺失图像信息。本发明可以寻找到一个全局的最好图像块贴到空洞区域,填补或者修复虚拟场景对象提取和场景编辑过程中产生的“空洞”,克服空洞填补过程不可逆而造成的对复杂图像或者空洞区域面积较大情况的填补效果不佳问题。

Description

一种图像空洞填补的多尺度全局采样方法
技术领域
本发明涉及计算机视觉、图像处理和虚拟现实技术领域,具体地说是一种图像空洞填补的多尺度全局采样方法,修复场景对象提取和场景编辑过程中产生的“空洞”,保证填补后图像场景在视觉上的合理性。
背景技术
图像虚拟场景生成是虚拟现实和虚拟场景生成的重要组成部分。在图像虚拟场景生成的整个过程中,可能会出现如下情形:在图像场景中提取某些场景对象形成场景对象素材后,原有的图像场景会出现“空洞”现象;在虚拟场景添加不同来源的场景对象以前,有可能需要从场景中去除某些不需要的对象或者物体;在场景对象的编辑与融合过程中,可能会产生新的空洞区域。为了确保图像虚拟场景的完整性,需要填补或者修复图像虚拟场景中存在的“空洞”。
目前按照图像空洞填补问题的求解方式来划分,可分为贪婪方法和全局优化方法。微软亚洲研究院的孙坚等人为了更好的修复图像受损区域中的结构信息,提出了一种交互式的图像空洞填补方法,该方法直接由用户给定受损区域内的边结构,首先完成整个受损区域内的边结构修复后,再利用纹理合成技术填充剩余区域。但是该方法并非全自动的空洞填补方法,需要用户的手动参与。而且该方法的本质是贪婪方法,每次在局部找一个最好图像块贴到空洞区域,并且空洞填补的过程不可逆,对于复杂图像或者空洞区域面积较大的情况,效果往往不佳。
以色列魏茨曼科学研究所计算机科学与应用数学系的Wexler等人通过期望值最大算法进行图像修复,该方法利用期望值最大算法求解全局优化问题,保证空洞区域整体上与边界处图像信息融合最好。但由于期望值最大算法对于初始化相当敏感,它很容易得到很差的局部最优解,此外,期望值最大算法中用到的最小二乘法会导致模糊的修复结果。
美国麻省理工学院计算机科学与人工智能实验室的Cho等人提出图像块转移算法用于图像空洞填补,该算法将图像划分为不重叠的图像块区域,在图像块之间增加约束,重建空洞区域的所有图像信息。所有的图像块形成一个高阶的马尔科夫随机场,空洞区域内相邻的图像块之间要无缝的融合,从已知图像区域的每个图像块样例仅能够使用一次。算法中的整个马尔科夫随机场使用信任传播算法求解一个近似的最优解。
以色列耶路撒冷希伯来大学计算机科学与工程系的Pritch等人提出ShiftMap算法。图像所有像素点形成一个马尔科夫随机场,图结构的节点为每个像素点,图结构的标签为x,y方向上的偏移量,将图像空洞填补问题转化为一个图着色问题,空洞区域每个节点需要贴一个已知区域的像素点的颜色值,整个问题采用图像图分割算法求解。
希腊克里特大学计算机科学系的Komodakis等人提出一种新的基于样例的全局空洞填补算法,统一的对待图像空洞填补以及纹理合成,为了避免计算出视觉上不连续的结果,该方法将图像空洞填补问题建模为一个离散全局优化问题,定义一个全局的目标函数或能量函数,利用改进的信任传播的算法优化一个离散化的马尔可夫随机场的能量。面向图像空洞填补问题,该算法主要对标准的信任传播算法进行了有两个重要的扩展:“基于优先级的消息调度”和“动态标签剪枝”。这两个扩展,能够大大减少全局优化算法中标签量较大造成的计算成本。
在计算机视觉和图像处理中,各向异性分布均匀的纹理一般用马尔科夫随机场来建模,图像的形成是一个随机过程。基于像素点采样的纹理合成方法随机变量是每个像素点,它的局限性在于无法确定马尔科夫随机场邻域关系的阶数,即采样窗口的大小。当窗口取得太小时,无法捕捉到该纹理的主要模式,也就无法采样合成出与原图像感知一致的纹理。
发明内容
根据场景生成中图像空洞填补的实际需求和关键问题,本发明的目的是提出了一种图像空洞填补的多尺度全局采样方法,寻找到一个全局的最好图像块贴到空洞区域,填补或者修复场景对象提取和场景编辑过程中产生的“空洞”,克服空洞填补过程不可逆而造成的对复杂图像或者空洞区域面积较大情况的填补效果不佳问题,确保图像虚拟场景的完整性,保证填补后图像场景在视觉上的合理性。
为完成本发明的目的,本发明采用的技术方案是:
一种图像空洞填补的多尺度全局采样方法,包括以下步骤:
(1)首先计算出输入图像的主要简约图表达,将输入图像划分为几何层和纹理层,接着检测出主要简约图表达中结构部分与图像空洞区域相交的连接点,包括T型和Y型的连接点,然后根据连接点之间的弹性能量和张量投票恢复出图像空洞区域的结构线,最后利用信任传播恢复出图像空洞区域中曲线上的图像块即结构信息。
(2)然后对图像空洞区域进行多尺度的网格划分,形成空洞区域的多尺度图结构,在多尺度图结构上定义针对空洞填补问题的后验概率模型,并通过基于模拟退火的马尔科夫链蒙特卡罗方法,求解该后验概率模型的全局最优解;
图像空洞区域的多尺度图结构由图节点构成。图节点以空洞区域多尺度网格划分后的图像块为基本单元。在每个尺度上,图节点的赋值来源于对图像已知区域多尺度稠密采样得到的标签字典集合。图节点的状态信息包括:图节点标号、是否包含已知图像数据、是否存在邻居图节点及邻居图节点标号、图节点当前赋值标签的编号、图节点当前状态的代价值。
在各个尺度上,稠密采样图形已知区域,提取图像块作为标签,提取标签的上、下、左、右四个方向的矩形图像块作为邻居标签。在每个尺度上,标签的大小与图节点的大小相同。标签和矩形邻居标签共同组成标签字典。标签字典集合利用KD树组织,存放于内存中,用于快速的图像块搜索。
根据多尺度图结构,空洞填补问题的直观描述是为每一个图节点赋值一个标签,标签采样于标签字典集合。其中任何一个图节点的赋值只与它邻近的图节点有关,即图节点的邻居图节点决定该图节点的外观。通过计算多尺度图结构中每个图节点状态,形成一个多尺度的马尔科夫随机场。在此基础上,利用马尔科夫随机场对多尺度图结构建模,定义针对空洞填补问题的后验概率模型。
后验概率模型是一个最优化过程-最大化贝叶斯后验概率,包括似然概率和先验概率两个部分。似然概率是求解与已知图像区域有重叠的图节点赋值的概率,需考虑填充标签和图节点所包含已知图像之间的相容程度,使得恢复之后的图像与原图像保持一致。先验概率是求解与已知图像区域完全没有重叠的图节点赋值的概率,利用马尔科夫随机场进行建模,并且只考虑相邻两个图节点之间的关系,以及相邻图节点与填充标签的融合程度,以保证图像空洞区域内部图像块之间的平滑性。图像空洞区域已恢复的结构信息指导后验概率模型的优化,以保证恢复之后图像的结构稳定或纹理丰富。
利用基于模拟退火的马尔科夫链蒙特卡罗方法,在后验概率模型的解空间做采样,通过接受概率控制解在解空间的随机游走,最终收敛到全局最优解,达到后验概率最大化。该过程能够对解空间进行有效的遍历,能够保证得到全局最优解,并与初始解无关,即不管在遍历之处选择任何解作为初始解,都不会对最后收敛到全局最优解产生阻碍作用。
后验概率模型全局最优解的采样求解过程是在一个尺度上首先随机选择一个图节点,在当前解状态下利用四个邻居图节点提取该图节点的四个矩形邻居标签,根据这四个邻居标签在标签字典集合中搜索到具有相似邻居的标签,形成候选标签集合,从候选标签集合中随机选择一个标签,根据定义好的状态跳转概率(接收概率)翻动一个图节点的赋值状态,得到一个新的解。以上求解过程重复迭代,直到达到所定义的终止条件。
后验概率模型全局最优解的采样求解过程是在多个尺度上进行的一个由粗到精的过程,在最大尺度上的初始解为随机赋值的标签集合,大尺度上的解作为较小尺度上的初始解,最小尺度上的采样迭代结束后得到最终全局最优解。
(3)最后根据全局最优解对应的空洞区域整体采样集,合成图像空洞区域的缺失图像信息。最终的全局最优解是一个赋值的标签集合,通过将所选标签对应的图像块粘贴到相应的图节点,实现图像空洞填补,合成图像空洞区域的缺失图像信息。
根据本发明提出的图像空洞填补多尺度全局采样方法与场景生成的应用需求,本发明设计和实现了图像空洞填补多尺度全局采样软件工具。该工具主要包括用户交互输入、图结构建立、初始解给定、全局采样和填补。用户交互输入为用户提供画刷功能,允许用户指定空洞区域掩码图。图结构建立能够在三个尺度上建立输入图像的图结构和标签字典集合。初始解给定能够给定图结构和标签字典集合的初始状态,并给定随机初始解。全局采样和填补能够在三个尺度上迭代地进行基于模拟退火机制的采样,每次迭代采样形成的采样集对应需要填补在空洞区域的图像块集合。
本发明与现有的技术相比,其有益的特点是:本发明的图像空洞填补多尺度全局采样方法具有可重复性(即可进行多次采样)、初始解无关性、可逆性(即当在整个解空间进行遍历并陷入局部最优时,能够跳出局部极大值,继续向全局最优解靠近)、渐近收敛性。根据本发明的图像空洞填补多尺度全局采样方法及其软件工具,可以快速寻找到一个全局的最好图像块贴到空洞区域,填补或者修复场景对象提取和场景编辑过程中产生的“空洞”,克服空洞填补过程不可逆而造成的对复杂图像或者空洞区域面积较大情况的填补效果不佳问题,确保图像虚拟场景的完整性,保证填补后图像场景在视觉上的合理性。
附图说明:
图1是本发明的图像空洞填补多尺度全局采样方法总体示意图;
图2是本发明的多尺度标签字典集合构建过程示意图;
图3是本发明的图像空洞填补后验概率模型单尺度求解过程示意图;
图4是本发明的相邻两个图节点之间赋值的匹配代价计算;
图5是本发明的空洞边界上图节点赋值与已知图像之间的匹配代价计算;
图6是本发明的图像空洞填补多尺度全局采样工具总体设计图。
具体实施方式:
下面结合附图对本发明的具体实施方式进行描述,以便更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
本发明是一种图像空洞填补的多尺度全局采样方法,包括以下步骤:
步骤1:将输入图像划分为几何层和纹理层,利用张量投票恢复出空洞区域的几何层。
首先利用主要简约图算法,计算输入图像的主要简约图表达,划分输入图像为结构区域和纹理区域。接着利用边缘检测方法,自动跟踪主要简约图表达中空洞区域周围长而连续的结构线,并利用连接点检测算法检测空洞区域边界与边结构线的交点,即连接点,包括T型和Y型的连接点。然后利用直线回归计算已知区域结构线上每个离散采样点的切线和法线方向,将结构线的几何信息转化为张量表示,并根据弹性能量函数、连接点之间的曲率相容性等求解一系列的连接点对,即确定空洞区域边界上哪两个连接点相连。其次利用投票能量函数计算局部张量投票场,根据局部张量投票场,以及空洞区域每个接受点受到若干已知结构线上投票点的影响,累加投票能量形成投票累积显著性图,并利用非极大值抑制,自动连接缺失的连接点,得到空洞区域的结构线。最后利用信任传播,在已知区域的结构部分采样图像块填补空洞区域的结构信息,恢复出空洞区域曲线上的图像块即结构信息。
步骤2:对空洞区域进行多尺度的网格划分,形成空洞区域的多尺度图结构,在多尺度图结构上定义针对空洞填补问题的后验概率模型,并通过基于模拟退火的马尔科夫链蒙特卡罗方法,求解该后验概率模型的全局最优解。
如图1本发明的图像空洞填补多尺度全局采样方法总体示意图所示:在多个尺度上,对空洞区域进行网格划分,通过计算每个节点的状态,形成空洞区域的多尺度图结构。同时,在各个尺度上,通过稠密采样提取图像块及其矩形邻居,构建多尺度的标签字典集合。在为每个节点赋值一个标签字典集合中的标签时,根据该节点的四个矩形邻居在标签字典集合中搜索具有最相似邻居的标签。利用基于模拟退火的马尔科夫链蒙特卡罗方法判断是否接受当前节点赋值及节点状态的改变。本发明的图像空洞填补多尺度全局采样方法将空洞区域作为一个整体采样,合成出缺失的图像信息,使得填补后的图像在视觉上保持合理和连续。
首先,对空洞区域进行多尺度的网格划分后,形成空洞区域的多尺度图结构。该多尺度图结构由图节点构成。图节点是空洞区域多尺度网格划分后的正方形节点即图像块为基本单元。在每个尺度上,图节点的赋值来源于对已知区域多尺度稠密采样得到的标签字典集合。图节点具有相应的状态信息,包括:(1)图节点标号:按照行遍历的方式,对多尺度划分的网格节点进行编号,主要是为了索引图节点;(2)是否包含已知图像数据:包含已知图像信息的图节点一般是空洞区域边界上的图节点,不包含已知图像信息的图节点一般存在于空洞区域内部;(3)是否存在邻居图节点及邻居图节点标号:记录是否存在上、下、左、右的邻居节点以及邻居节点的编号;(4)图节点当前赋值标签的编号:当前状态下,该图节点与标签字典集合中图像块的对应关系。(5)图节点当前状态的代价值:当前状态下,该图节点与标签字典集合中图像块相对应所花费的代价。
如图2本发明的多尺度标签字典集合构建过程示意图所示:在各个尺度上,每隔两个像素稠密采样图像已知区域,提取正方形图像块作为标签,同时提取该标签的上、下、左、右四个方向的矩形图像块作为矩形邻居标签。图2中的深色正方形块表示稠密采样得到的标签,每个正方形块周围浅色的矩形区域表示该标签的矩形邻居标签。标签与其四个矩形邻居标签共同组成标签字典。在每个尺度上,标签的大小与图节点的大小相同,本发明选用了三种尺度大小:在尺度一上,标签(节点)大小为40像素×40像素,矩形邻居大小为40像素×3像素;在尺度二上,标签(节点)大小为20像素×20像素,矩形邻居大小为20像素×3像素;在尺度三上,标签(节点)大小为10像素×10像素,矩形邻居大小为10像素×3像素。如图2右侧所示,标签字典的存储包括:每个标签的矩形邻居标签按照上、下、左、右的固定顺序排列;每个矩形邻居标签根据其对应图像块的所有像素点的RGB颜色值展开成一个向量;对于三个尺度,标签字典向量的维度分别是40×3×4×3=1440、720和360;由上述高维向量构成的标签字典集合利用KD树组织,存放于内存中,用于快速的图像块近邻搜索。图像块近邻搜索即图节点的矩形邻居与标签的矩形邻居之间的距离度量,包括:首先,每个图节点同样具有对应的四个矩形邻居,并且矩形邻居的提取方法与标签相同;其次,图节点四个矩形邻居同样按照上、下、左、右的固定顺序排列,并按照同样的规则展开成高维向量;最后,根据图节点的矩形邻居向量,利用KD树的最近邻搜索和Kullback-Leibler divergence距离度量,搜索到与图节点具有相似矩形邻居的标签。
其次,根据以上所建立的多尺度图结构,本发明将空洞填补问题直观描述为:为每一个图节点赋值一个标签,标签采样于标签字典集合,并且任何一个图节点的赋值只与它邻近的图节点有关,图节点的邻居图节点决定该图节点的外观,即多尺度图结构满足马尔科夫性,且仅考虑马尔科夫性的1阶邻域关系。本发明采用马尔科夫随机场对多尺度图结构及空洞填补问题进行建模。
给定一幅存在空洞的图像I,整个图像域记为Ω,图像空洞区域记为Ωm,图像已知区域记为
Figure BDA0000095179980000071
待填补的多尺度图节点记为X={x1,x2,...,xn}(如图1中黑色线框所示),图像块标签字典集合记为L={l1,l2,...,lk}(如图1中白色线框所示),L采样于图像已知区域依据空洞填补的目标,即给每个图节点赋值一个图像块标签,则空洞填补问题的解W可表示为:并且空洞填补问题可转化为最优化问题-最大化贝叶斯后验概率或者最小化能量,其表示为:
W * = arg max W { P ( W | I ) } W * = arg min W { ϵ ( W | I ) }
其中ε(W|I)表示能量。空洞填补问题的求解过程就是通过优化方法求解此方程的过程。根据后验概率公式,则图像空洞填补后验概率模型可以通过如下的形式表示:
W * = arg max W { P ( W | I ) } = arg max W { P ( I | W ) P ( W ) }
基于以上公式,空洞填补问题的求解包括似然概率P(I|W)和先验概率P(W)两个部分。
似然概率P(I|W)是与图像已知区域有重叠的图节点赋值的概率。对空洞区域进行网格划分后,与已知区域有重叠的多尺度图节点能够利用已存在的信息指导图节点的赋值,这一部分解的概率即为似然概率,具体的概率形式定义为:
P ( I | W ) = 1 Z cxp { - Σ x i ∈ Ω m ‾ D ( L ( x i ) , I ( x i ) ) 2 σ ( x i ) 2 }
其中D(L(xi),I(xi))表示为存在已知图像的图节点赋值时,填充标签L(xi)与已知图像I(xi)之间的相容程度。σ(xi)2为方差,在很小的正数范围内取值。通过D(L(xi),I(xi))和σ(xi)2两个参数的调节,可迫使填充标签上的图像块与原图像基本无差别,保持恢复之后的图像与原图像的一致性。
先验概率是与已知图像区域完全没有重叠的图节点赋值的概率。与已知图像区域完全没有重叠的图节点不能利用已有的任何信息来指导图节点的赋值,需完全依靠先验来定义这一部分解的概率形式。根据多尺度图结构的马尔科夫性和Hammersley-Clifford定理,并在仅考虑马尔科夫性的1阶邻域关系的基础上,先验概率函数可利用马尔科夫随机场进行建模,其概率分布可以表示为吉布斯分布形式:
P ( W ) = Π x i , x j ∈ N P ( x i , x j ) = 1 Z exp { - Σ x i , x j ∈ N D ( L ( x i ) , L ( x j ) ) 2 σ ( x i , x j ) 2 }
先验概率函数是一个二阶的马尔科夫随机场,仅考虑相邻两个图节点之间的关系。其中,N为马尔科夫随机场的相邻***,由于只考虑1阶邻域关系,任意两个相邻的图节点xi,xj构成相邻***的团。D(L(xi),L(xj))是定义在相邻两个图节点之间的能量函数,或者称为赋值代价函数,表示相邻两个图节点(xi,xj)所对应的标签L(xi)与L(xj)之间的融合程度。当相邻两个图节点之间赋值代价D(L(xi),L(xj))降到最低时,先验概率就越大。σ(xi,xj)是正态分布函数N(0,σ2)中的标准差,称为方差或者温度,取值控制在均值0点附近的分布范围。σ(xi,xj)的调节能够控制代价函数的影响。当σ(xi,xj)较高时,能够容忍的代价就较大。当σ(xi,xj)较低时,能够容忍的代价就比较小,这时概率分布就会趋于平稳。为了更好地控制σ(xi,xj)的取值,本发明设计了上下文敏感参数T。该参数的主要目的是通过空洞区域周围图像的中层视觉特性,指导空洞区域内形成结构型的整体模式。该参数利用了图像空洞区域已恢复的结构信息指导模型的优化。当图节点区域有几何结构穿过时,该参数取得一个很小的正数时来迫使此区域附近形成稳定的结构。而当图节点区域无几何结构穿过时,即图节点区域为无结构的区域时,该参数取得一个相对比较大的方差来构成相对丰富的合成图像。通过D(L(xi),L(xj))、σ(xi,xj)和T三个参数的调节,可保证空洞区域内部图像块之间的平滑性,保证恢复之后图像的结构稳定或纹理丰富。
根据以上对似然概率和先验概率的建模,图像空洞填补问题的后验概率模型可进一步表示为:
P ( W | I ) ∝ 1 Z exp { - Σ x i , x j ∈ N D ( L ( x i ) , L ( x j ) ) 2 σ ( x i , x j ) 2 - Σ x i ∈ Ω m ‾ D ( L ( x i ) , I ( x i ) ) 2 σ ( x i ) 2 }
然后,图像空洞填补后验概率模型的最大化过程需要针对每个尺度为n个图节点在k个标签中选择一个赋值集合W。该问题的解空间非常大,数量级达到O(nk),其中k远大于n,而且满足要求的解在空间中分布很稀疏。由于缺乏唯一的求解路径,图像空洞填补后验概率模型的求解过程需要在多个尺度上对解空间做采样,使得后验概率最大化。本发明在单个尺度上利用基于模拟退火的马尔科夫链蒙特卡罗方法,对图像空洞填补后验概率模型的解空间做采样,通过接受概率控制解在解空间的随机游走,多步迭代后最终收敛到该尺度上的全局最优解,达到后验概率最大化。多个尺度上的图像空洞填补后验概率模型的求解过程是一个由粗到精的过程,最大尺度上的模型初始解为随机赋值的标签集合,大尺度上的解为较小尺度上的初始解,最小尺度上的解为最终全局最优解。本发明的求解过程能够对解空间进行有效的遍历,能够保证得到全局最优解,并且得到的全局最优解与初始解无关,即不管在遍历之处选择任何解作为初始解,都不会对最后收敛到全局最优解产生阻碍作用。综上所述,图像空洞填补后验概率模型的求解过程包括单尺度求解和多尺度求解两个方面,其中多尺度求解是在单尺度求解的基础上进行的。
如图3所示,图像空洞填补后验概率模型的单尺度求解过程是在一个尺度上首先随机选择一个图节点,在当前解状态W′下利用四个邻居图节点提取该图节点的四个矩形邻居,根据这四个矩形邻居在标签字典集合中搜索到具有相似邻居的标签,形成候选标签集合,从候选标签集合中随机选择一个标签,根据定义好的接收概率翻动一个图节点的赋值状态,得到一个新的解W″。以上求解过程重复迭代,直到达到所定义的终止条件。该求解过程包括三个部分:图节点近邻标签搜索、基于模拟退火的马尔科夫链蒙特卡罗随机采样、接受概率计算。
图节点近邻标签搜索的依据是:在概率上,根据图结构的马尔科夫性,标签的邻居决定了标签的外观,图节点的邻居决定了图节点的外观,四个矩形邻居对标签和图节点的图像内容有建议概率。当采样过程在解空间中随机游走,并为某个图节点寻找新的解时,根据该图节点相邻的四个矩形邻居在标签字典中搜索近邻,即搜索出标签的四个矩形邻居与图节点的四个矩形邻居相似,则将该标签赋值给当前图节点的概率就很大。图节点近邻标签搜索的过程是利用快速图像块近邻搜索方法,首先提取该图节点的四个矩形邻居,然后根据图节点矩形邻居与标签矩形邻居之间的距离度量,以及基于KD树的多尺度图结构,搜索到与图节点具有相似矩形邻居的标签。
基于模拟退火的马尔科夫链蒙特卡罗随机采样通过在解空间{Wi}中随机采样形成一系列解的马尔科夫链样本:W0→W1→...→Wn→W*,利用该马尔科夫链样本对不变分布或样本空间非常大的离散分布等作采样,实现随机模拟,达到图像空洞填补后验概率模型P(W|I)的最大化,其中,解空间中每个解可以看做是热力学中的空气分子,解空间中每个点像空气分子一样带有能量,该能量反映了该解到最优解的接近程度。该随机采样过程需要产生一个平稳分布π(ψ)的马尔科夫链来得到π(ψ)的样本,并基于该样本作统计推断,实现从后验分布中间接产生样本。但由于从构造的概率分布中直接采样较困难,本发明的随机采样过程基于Metropolis-Hastings算法实现,通过产生一个马尔科夫链,有效的获取随机样本,通过随机产生的样本逐渐逼近真实分布π(ψ)。在产生的马尔科夫链中,状态ψt+1仅仅依赖于前一个时刻的状态ψt(这里的状态就是采样过程中各个时刻的解)。该随机采样过程的核心是利用一个建议分布q(ψ,ψ′),根据当前状态ψ产生一个新的样本,也就是新的状态ψ′,其中的状态转移核是通过模拟退火机制中的温度来调节,能保证快速收敛到全局最优解。温度由两个参数控制:上下文敏感参数和迭代次数。该采样过程的特点是:(1)采样过程具有可重复性,可进行多次采样;(2)从状态ψ跳转到状态ψ′只取决于当前状态ψ,与初始解无关;(3)采样过程具有可逆性,当在整个解空间进行遍历并陷入局部最优时,能够跳出局部极大值,继续向全局最优解靠近;(4)该采样过程具有渐近收敛性,并可从理论上被证明能以概率p收敛于全局最优解。
接受概率α(ψ,ψ′)是表示当前状态ψ到候选状态ψ′的接受程度,其计算公式如下:
α ( ψ , ψ ′ ) = min [ π ( ψ ′ ) q ( ψ ′ , ψ ) π ( ψ ) q ( ψ , ψ ′ ) , 1 ] , π ( ψ ) q ( ψ , ψ ′ ) > 0 ; 1 , otherwise .
其中,π(ψ)表示状态ψ的概率,根据数据驱动的马尔科夫链蒙特卡罗算法,本发明利用数据驱动的后验概率来表示某时刻状态的概率π(ψ),则新旧状态概率比π(ψ′)/π(ψ)的计算公式具有如下形式:
π ( ψ ′ ) π ( ψ ) = P ( W ′ | I ) P ( W | I ) = P ( W ′ ) P ( I | W ′ ) P ( W ) P ( I | W )
= exp { - Σ x i , x j ∈ N D ( L ′ ( x i ) , L ( x j ) ) T 1 - Σ x i ∈ Ω m ‾ D ( L ′ ( x i ) , I ( x i ) ) T 2 } exp { - Σ x i , x j ∈ N D ( L ( x i ) , L ( x j ) ) T 1 - Σ x i ∈ Ω m ‾ D ( L ( x i ) , I ( x i ) ) T 2 }
在当前解为W的情况下,基于模拟退火的马尔科夫链蒙特卡罗随机采样过程每次仅翻动多尺度图结构中一个图节点xi的状态,产生一个新解W′,因此,对上述公式取对数即得到新旧状态概率比π(ψ′)/π(ψ)的另一种表述形式:
log π ( ψ ′ ) π ( ψ ) = Σ x j ∈ N i D ( L ( x i ) , L ( x j ) ) - D ( L ′ ( x i ) , L ( x j ) ) T 1
+ D ( L ( x i ) , I ( x i ) ) - D ( L ′ ( x i ) , I ( x i ) ) T 2
从以上公式可以看出,如果此节点xi所选得的新的图像块L′(xi)比原图像块具有更小的距离,则新旧状态概率比π(ψ′)/π(ψ)就会比较大,同时新解的接收概率也会比较大。
同时,q(ψ,ψ′)是表示从当前状态ψ到候选状态ψ′的状态转移概率,即建议概率。由于使用了KD树搜索近邻来压缩候选标签集合的数量,本发明可简化转移概率为:q(ψ,ψ′)=qc(ψ,{ψ′})qs({ψ′}ψ′)。其中,qc(ψ,{ψ′})为根据当前的解(状态)ψ,利用KD树在标签字典集合中搜索候选近邻标签的集合{ψ′},且候选标签的集合中包含状态ψ′的概率。qs({ψ′},ψ′)表示从候选标签的集合{ψ′}中选择标签形成状态ψ的概率。由于利用当前状态ψ查询新状态ψ′和利用新状态ψ′查询当前状态ψ的概率是近似相等的,即qc(ψ,ψ′)≈qc(ψ′,ψ),本发明设置qs=1/K为均匀分布,即从K个候选标签中随机选择一个。因此,得到如下公式:
q ( ψ ′ , ψ ) q ( ψ , ψ ′ ) = q c ( ψ ′ , { ψ } ) q s ( { ψ } , ψ ) q c ( ψ , { ψ ′ } ) q s ( { ψ ′ } , ψ ′ ) ≈ 1
基于以上定义和描述,从状态ψ跳转到状态ψ′的接受概率α(ψ,ψ′)可用如下公式表示:
α ( ψ , ψ ′ ) = min [ π ( ψ ′ ) π ( ψ ) , 1 ] , π ( ψ ) q ( ψ , ψ ′ ) > 0 ; 1 , otherwise .
log π ( ψ ′ ) π ( ψ ) = Σ x j ∈ N i D ( L ( x i ) , L ( x j ) ) - D ( L ′ ( x i ) , L ( x j ) ) T 1
+ D ( L ( x i ) , I ( x i ) ) - D ( L ′ ( x i ) , I ( x i ) ) T 2
接受概率α(ψ,ψ′)的计算主要是在新旧状态概率比π(ψ′)/π(ψ)的计算中,度量相邻两个图节点之间赋值的匹配代价D(L(xi),L(xj)),以及空洞边界上图节点的赋值与已知图像之间的匹配代价D(L(xi),I(xi))。最优解求解的过程就是要最小化所有节点匹配代价之和。相邻两个图节点之间赋值的匹配代价D(L(xi),L(xj))的计算如图4所示,节点xi的赋值标签为L(xi),L(xi)的右侧存在邻居区域
Figure BDA0000095179980000114
节点xj的赋值标签为L(xj),L(xj)的左侧存在邻居区域
Figure BDA0000095179980000115
将L(xj)放置在L(xi)的右侧,
Figure BDA0000095179980000116
与L(xj)会有重叠的区域,同时
Figure BDA0000095179980000117
与L(xi)也会有重叠的区域,
Figure BDA0000095179980000118
Figure BDA0000095179980000119
会形成如图4上部分所示重叠区域。则相邻两个图节点之间赋值的匹配代价定义为:
D ( L ( x i ) , L ( x j ) ) = Σ p ∈ overlap αColorDiff ( p ) + βGradDiff ( p )
其中ColorDiff(p)表示重叠区域像素点p上两个图像块RGB颜色值的差异,GradDiff(p)表示重叠区域像素点p上两个图像块梯度值的差异,α和β是调节颜色值和梯度值的权重,并且α和β的取值均为1.0,保证图像在颜色和梯度上都取得较好的融合效果。空洞边界上图节点的赋值与已知图像之间匹配代价D(L(xi),I(xi))的计算如图5所示。根据图像空洞填补后验概率模型中的描述,空洞边界上的图节点中存在已知图像,在为其赋值时,需要考虑填充标签L(xi)与已知图像I(xi)之间的相容程度。因此,D(L(xi),I(xi))的计算公式定义为:
D ( L ( x i ) , L ( x j ) ) = Σ p ∈ strip αColorDiff ( p ) + βGradDiff ( p )
其中,重叠区域定义在空洞边界处的窄带上(如图5中黑色框所示),具体的颜色和梯度差异,以及权重的设置同上。
图像空洞填补后验概率模型的多尺度求解过程是一个由粗到精的过程。在最大的尺度上,图节点数量较小,模型初始解为随机赋值的标签集合,此时,在单尺度求解的过程中,需要将模拟退火的温度调低,即以较大的概率接受状态的改变,保证最后解的丰富性。在较大尺度上得到粗略的解之后,小尺度将较大尺度上的解作为自身的初始解,并且在小尺度上对模型进行单尺度求解的过程中,需要将模拟退火的温度调高,即使得能够接受的方差波动较小,以较小的概率接受状态的改变。最小尺度上的解为最终全局最优解。
步骤3:根据全局最优解对应的空洞区域整体采样集,合成图像空洞区域的缺失图像信息。
经过多个尺度上由粗到精的采样后,得到最终的全局最优解W*。全局最优解W*是一个赋值的标签集合。本发明通过将所选标签对应的图像块粘贴到相应的图节点上,合成图像空洞区域的缺失图像信息,实现图像空洞填补效果。
图6是本发明的图像空洞填补多尺度全局采样工具总体设计。该工具主要包括用户交互输入、图结构建立、初始解给定、全局采样和填补。用户交互输入为用户提供画刷功能,允许用户指定空洞区域掩码图。图结构建立能够在三个尺度上建立输入图像的图结构和标签字典集合。初始解给定能够给定图结构和标签字典集合的初始状态,并能给定随机初始解。全局采样和填补能够在三个尺度上迭代进行基于模拟退火机制的采样,每次迭代采样形成的采样集对应着需要填补在空洞区域的图像块集合。
图像空洞填补多尺度全局采样工具的使用和处理流程是:首先用户指定图像中需要去除的区域,即指定空洞区域,形成空洞区域的掩码图;然后根据输入图像和空洞区域的掩码做数据准备工作,包括根据空洞区域设置待填补图像和输出图像、计算图像的梯度信息、确定空洞区域的边界、根据输入参数决定采样图像块的大小和采样步长等,为后续的计算做初始化工作;其次计算空洞区域矩形包围盒,根据空洞区域矩形包围盒对空洞区域进行规则的网格划分,从而构建多尺度图结构;再次在已知图像区域采样标签构建标签字典集合,并且只保存了三个尺度的采样图像块左上角坐标以及图像块的宽高等信息;最后将建立好的多尺度图结构和标签字典集合作为多尺度全局采样方法的输入,经过三个尺度的迭代采样,每次迭代采样形成的采样集对应着需要填补在空洞区域的图像块集合。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种图像空洞填补的多尺度全局采样方法,其特征在于包括以下步骤:
(1)将输入图像划分为几何层和纹理层,利用张量投票恢复出图像空洞区域的几何层;接着检测出主要简约图表达中结构部分与图像空洞区域相交的连接点,包括T型和Y型的连接点,然后根据连接点之间的弹性能量和张量投票恢复出图像空洞区域的结构线,最后利用信任传播恢复出图像空洞区域中曲线上的图像块即结构信息;
(2)对图像空洞区域进行多尺度的网格划分,形成空洞区域的多尺度图结构,在多尺度图结构上定义针对空洞填补问题的后验概率模型,并通过基于模拟退火的马尔科夫链蒙特卡罗方法,求解该后验概率模型的全局最优解;
其中,图像空洞区域的多尺度图结构由图节点构成;图节点以空洞区域多尺度网格划分后的图像块为基本单元;在每个尺度上,图节点的赋值来源于对图像已知区域多尺度稠密采样得到的标签字典集合;图节点的状态信息包括:图节点标号、是否包含已知图像数据、是否存在邻居图节点及邻居图节点标号、图节点当前赋值标签的编号、图节点当前状态的代价值;
根据多尺度图结构,空洞填补问题的直观描述是为每一个图节点赋值一个标签,标签采样于标签字典集合;其中任何一个图节点的赋值只与它邻近的图节点有关,即图节点的邻居图节点决定该图节点的外观;通过计算多尺度图结构中每个图节点状态,形成一个多尺度的马尔科夫随机场;在此基础上,利用马尔科夫随机场对多尺度图结构建模,定义针对空洞填补问题的后验概率模型;
利用基于模拟退火的马尔科夫链蒙特卡罗方法,在后验概率模型的解空间做采样,通过接受概率控制解在解空间的随机游走,最终收敛到全局最优解,达到后验概率最大化;该过程与初始解无关;
(3)根据全局最优解对应的空洞区域整体采样集,合成图像空洞区域的缺失图像信息;最终的全局最优解是一个赋值的标签集合,通过将所选标签对应的图像块粘贴到相应的图节点,合成图像空洞区域的缺失图像信息,实现图像空洞填补;
其中,所述后验概率模型全局最优解的采样求解过程是在多个尺度上进行的一个由粗到精的过程,在最大尺度上的初始解为随机赋值的标签集合,大尺度上的解作为较小尺度上的初始解,最小尺度上的采样迭代结束后得到最终全局最优解。
2.如权利要求1所述的一种图像空洞填补的多尺度全局采样方法,其特征在于:在各个尺度上,稠密采样图像已知区域,提取图像块作为标签,提取标签的上、下、左、右四个方向的矩形图像块作为邻居标签;在每个尺度上,标签的大小与图节点的大小相同;标签和矩形邻居标签共同组成标签字典;标签字典集合利用KD树组织。
3.如权利要求1所述的一种图像空洞填补的多尺度全局采样方法,其特征在于:所述的后验概率模型包括似然概率和先验概率两个部分;似然概率是求解与已知图像区域有重叠的图节点赋值的概率,考虑填充标签和图节点所包含已知图像之间的相容程度;先验概率是求解与已知图像区域完全没有重叠的图节点赋值的概率,利用马尔科夫随机场进行建模,并且只考虑相邻两个图节点之间的关系,以及相邻图节点与填充标签的融合程度;图像空洞区域已恢复的结构信息指导后验概率模型的优化。
4.如权利要求1所述的一种图像空洞填补的多尺度全局采样方法,其特征在于:所述后验概率模型全局最优解的采样求解过程是在一个尺度上首先随机选择一个图节点,在当前解状态下利用四个邻居图节点提取该图节点的四个矩形邻居标签,根据这四个邻居标签在标签字典集合中搜索到具有相似邻居的标签,形成候选标签集合,从候选标签集合中随机选择一个标签,根据定义好的状态接收概率翻动一个图节点的赋值状态,得到一个新的解;以上求解过程重复迭代,直到达到终止条件。
CN 201110299739 2011-09-30 2011-09-30 一种图像空洞填补的多尺度全局采样方法 Active CN102509327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110299739 CN102509327B (zh) 2011-09-30 2011-09-30 一种图像空洞填补的多尺度全局采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110299739 CN102509327B (zh) 2011-09-30 2011-09-30 一种图像空洞填补的多尺度全局采样方法

Publications (2)

Publication Number Publication Date
CN102509327A CN102509327A (zh) 2012-06-20
CN102509327B true CN102509327B (zh) 2013-10-30

Family

ID=46221404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110299739 Active CN102509327B (zh) 2011-09-30 2011-09-30 一种图像空洞填补的多尺度全局采样方法

Country Status (1)

Country Link
CN (1) CN102509327B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103337072B (zh) * 2013-06-19 2016-02-10 北京航空航天大学 一种基于纹理与几何属性联合模型的室内对象解析方法
CN103500176B (zh) * 2013-09-06 2016-08-31 清华大学 片网模型及其构建方法
CN103714420B (zh) * 2013-12-11 2017-01-11 深圳先进技术研究院 物体的三维重建方法和装置
CN106228245B (zh) * 2016-07-21 2018-09-04 电子科技大学 基于变分推断和张量神经网络的知识库补全方法
CN107067476A (zh) * 2017-05-11 2017-08-18 重庆市劢齐医疗科技有限责任公司 一种基于高阶拉普拉斯算子的快速网格补洞方法
CN108364276B (zh) * 2018-03-13 2021-12-03 重庆大学 基于标签数据库的纹理图像合成方法
CN109579844B (zh) * 2018-12-04 2023-11-21 电子科技大学 定位方法及***
CN113012803A (zh) * 2019-12-19 2021-06-22 京东方科技集团股份有限公司 计算机设备、***、可读存储介质及医学数据分析方法
CN113254596B (zh) * 2021-06-22 2021-10-08 湖南大学 基于规则匹配和深度学习的用户质检需求分类方法及***
CN116702337B (zh) * 2023-08-07 2023-11-07 南京航空航天大学 一种基于差分进化的全局采样方法

Non-Patent Citations (12)

* Cited by examiner, † Cited by third party
Title
A Multi-scale Image Inpainting Algorithm Based on GMRF Model;Rui Wang et al;《Proceedings of the 2009 IEEE International Conference on Robotics and Biomimetics》;20091223;全文 *
AUTOMATIC IMAGE COMPLETION WITH STRUCTURE PROPAGATION AND TEXTURE SYNTHESIS;XIAOWU CHEN et al;《International Journal of Software Engineering and Knowledge Engineering》;20101231;第20卷(第8期);全文 *
Cheng-Shian Lin et al.Image Inpainting Using Multiscale Salient Structure Propagation.《2011 International Conference on Multimedia and Signal Processing》.2011,全文.
Image Inpainting by Global Structure and Texture Propagation;Ting Huang et al;《Proceedings of the 15th international conference on Multimedia》;20070928;全文 *
Image Inpainting Using Multiscale Salient Structure Propagation;Cheng-Shian Lin et al;《2011 International Conference on Multimedia and Signal Processing》;20110515;全文 *
Rui Wang et al.A Multi-scale Image Inpainting Algorithm Based on GMRF Model.《Proceedings of the 2009 IEEE International Conference on Robotics and Biomimetics》.2009,全文.
Ting Huang et al.Image Inpainting by Global Structure and Texture Propagation.《Proceedings of the 15th international conference on Multimedia》.2007,全文.
XIAOWU CHEN et al.AUTOMATIC IMAGE COMPLETION WITH STRUCTURE PROPAGATION AND TEXTURE SYNTHESIS.《International Journal of Software Engineering and Knowledge Engineering》.2010,第20卷(第8期),全文.
基于数据融合的SRTM数据空洞填补方法;阚瑷珂 等;《地理空间信息》;20070630;第5卷(第3期);全文 *
屈磊 等.综合自适应阈值与多尺度的TV图像修复方法.《计算机工程》.2007,第33卷(第22期),全文.
综合自适应阈值与多尺度的TV图像修复方法;屈磊 等;《计算机工程》;20071130;第33卷(第22期);全文 *
阚瑷珂 等.基于数据融合的SRTM数据空洞填补方法.《地理空间信息》.2007,第5卷(第3期),全文.

Also Published As

Publication number Publication date
CN102509327A (zh) 2012-06-20

Similar Documents

Publication Publication Date Title
CN102509327B (zh) 一种图像空洞填补的多尺度全局采样方法
Wen et al. A deep learning framework for road marking extraction, classification and completion from mobile laser scanning point clouds
Liao et al. Kitti-360: A novel dataset and benchmarks for urban scene understanding in 2d and 3d
Yu et al. Automatic 3D building reconstruction from multi-view aerial images with deep learning
Wang et al. Lidar point clouds to 3-D urban models $: $ A review
Zhang et al. A multilevel point-cluster-based discriminative feature for ALS point cloud classification
Xiong et al. Flexible building primitives for 3D building modeling
Li et al. Feature-preserving 3D mesh simplification for urban buildings
US8699787B2 (en) Method and system for generating a 3D model from images
Brédif et al. Extracting polygonal building footprints from digital surface models: A fully-automatic global optimization framework
Lee et al. Perceptual organization of 3D surface points
CN105654492A (zh) 基于消费级摄像头的鲁棒实时三维重建方法
CN103198479B (zh) 基于语义信息分类的sar图像分割方法
Jemison et al. Filament capturing with the multimaterial moment-of-fluid method
CN103065354A (zh) 点云优化方法及其装置
US11443481B1 (en) Reconstructing three-dimensional scenes portrayed in digital images utilizing point cloud machine-learning models
CN109242019B (zh) 一种水面光学小目标快速检测与跟踪方法
Han et al. Urban scene LOD vectorized modeling from photogrammetry meshes
CN107506792A (zh) 一种半监督的显著对象检测方法
CN104036550A (zh) 基于形状语义的建筑立面激光雷达点云解译与重建的方法
Sainju et al. A hidden Markov contour tree model for spatial structured prediction
CN105590327A (zh) 运动估计方法及装置
CN106407978A (zh) 一种结合似物度的无约束视频中显著物体检测方法
CN110363178B (zh) 基于局部和全局深度特征嵌入的机载激光点云分类方法
CN112241676A (zh) 一种地形杂物自动识别的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant