CN107111866A - 用于基于对象检测生成外推图像的方法和装置 - Google Patents
用于基于对象检测生成外推图像的方法和装置 Download PDFInfo
- Publication number
- CN107111866A CN107111866A CN201580070298.6A CN201580070298A CN107111866A CN 107111866 A CN107111866 A CN 107111866A CN 201580070298 A CN201580070298 A CN 201580070298A CN 107111866 A CN107111866 A CN 107111866A
- Authority
- CN
- China
- Prior art keywords
- image
- extrapolated
- extrapolated image
- notable
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 title description 8
- 238000013213 extrapolation Methods 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 11
- 230000004048 modification Effects 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000007493 shaping process Methods 0.000 claims 4
- 238000007654 immersion Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 239000012634 fragment Substances 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 230000033001 locomotion Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000005043 peripheral vision Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
- XOOUIPVCVHRTMJ-UHFFFAOYSA-L zinc stearate Chemical compound [Zn+2].CCCCCCCCCCCCCCCCCC([O-])=O.CCCCCCCCCCCCCCCCCC([O-])=O XOOUIPVCVHRTMJ-UHFFFAOYSA-L 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
一种用于根据现有影片或视频内容生成外推图像的方法和装置,该外推图像可以显示在现有文件或视频内容的边界之外,以增加观看者的沉浸感。本原理提供了生成其中不包括显著对象(即,可能使观看者从主图像分心的对象)的外推图像。这样的外推图像通过确定显著区域并生成具有包含在其位置中的较少的显著对象的外推图像而生成。替换地,显著对象可以在外推图像中检测并且移除。此外,可以将选择的显著对象添加到外推图像。
Description
技术领域
本发明涉及一种用于处理图像的装置和方法,并且具体地,涉及一种用于生成延伸到现有影片或视频的边界之外的外推图像的装置和方法,其中外推图像基于对现有影片或视频中的对象的检测。
背景技术
本部分意图向读者介绍可能与以下描述和/或要求保护的本公开的许多方面有关的各方面的技术。相信这种讨论有助于向读者提供背景信息以便于更好地理解本发明的各个方面。因此,应当理解,这些说明要以这样的角度来阅读,而不作为对现有技术的承认。
参考文档
[1]METHOD OF AND SYSTEM FOR CONTROLLING AN AMBIENT LIGHT AND LIGHTINGUNIT,WO2004006570(A1)―2004-01-15
[2]DOMINANT COLOR EXTRACTION USING PERCEPTUAL RULES TO PRODUCEAMBIENT LIGHT DERIVED FROM VIDEO CONTENT,WO2006003600(A1)―2006-01-12
[3]P.Mills,A.Sheikh,G.Thomas,and P.Debenham.BBC research&development,white paper WHP 208-surround video.page 34.2011.
[4]D.E.Novy.Computational immersive display.2013.
[5]Jones,Brett R;Benko,Hrvoje;Ofek,Eyal;Wilson,Andrew D(2013)."IllumiRoom:Peripheral Projected Illusions for Interactive Experiences".2013.
[6]A.Aides,T.Avraham,and Y.Schechner.Multiscale ultrawide foveatedvideo extrapolation.In 2011IEEE International Conference on ComputationalPhotography(ICCP),pages 1-8.2011.
[7]Sam Roweis&Lawrence Saul.Nonlinear dimensionality reduction bylocally linear embedding.Science,v.290no.5500,Dec.22,2000.pp.2323--2326.
[8]Jun Yu,MD Srinath,An efficient method for scene cut detection,Pattern Recognition Letters,2001,pp1379-1391.
[9]Paul L.Rosin,A simple method for detecting salient regions,PatternRecognition 42(2009),pp2363—2371.
[10]S.Hare,A.Saffari,and P.H.S.Torr.Struck:Structured Output Trackingwith Kernels.In ICCV,2011.
[11]W.Zhong,H.Lu,and M.-H.Yang.Robust Object Tracking via Sparsity-based Collaborative Model.In CVPR,2012.
[12]Patrick Perez,Michel Gangnet,Andrew Blake,“Poisson imageediting”,ACM Transactions on Graphics(SIGGRAPH),2003.
[13]Michael Kalloniatis and Charles Luu,2007,Visual Acuity.
图像外推技术可用于生成处于现有影片或视频图像的边界之外的图像,以改善观众在观看影片或视频内容时的沉浸感。可以基于要延伸的图像中的内容执行图像外推。这种延伸寻求通过在屏幕周围投影内容以利用延伸的图像以及影片或视频的主图像围绕观众来增加视野。在图1中示出用于显示这种外推图像的示例布置。来自影片或视频内容的主图像被显示在主屏幕110上,而外插图像被显示在处于主屏幕110的边界之外的显示区域120、130和/或140上以提供沉浸感。
可以使用包括图2和图3所示的布置的不同布置将图像投影到各种显示区域上。在图2中,在主屏幕210上显示单个投影250,而在屏幕220、230和/或240上显示投影250的各部分。在图3中,布置310包括将影片或视频内容投影到中心显示屏幕上的中心投影,而320包括将外推图像投影到左显示屏幕上的左投影,并且330包括将外推图像投影到右侧显示屏幕上的右投影。尽管未示出,但是也可以为上述显示屏提供投影。
已经提出了用于将特定显示或图像投影在影片或视频的边界周围的各种***。
在由Philips Corporation开发的Ambilight***[1]中,研究了图像中色彩的分布[2],并且使用安装在电视边缘的RGB LED在屏幕周围投影所选择的主色彩。可以将智能灯泡添加到可以根据显示在屏幕上的图像而改变色彩的设置。光线投影在有限区域中的电视周围进行,而不提供背景、形状和运动印记的细节。
由Mills等人提出的***[3]包括对于使用2个相机获得的内容的投影***。但是,该***不关注内容创建,并且不将图像外插应用于现有内容。
由MIT媒体实验室开发的Infinity-by-nine[4]目标是产生电视的沉浸式显示。该***使用三台投影仪和3个屏幕(在天花板上和在房间的两侧上)以增强显示在电视屏幕上的节目。根据电视内容实时地计算附加屏幕上的内容。在场景变化时创建内容,并且根据估计的相机运动来更新内容。由于该技术依赖于运动估计,所以对于快速变化的场景、具有闪光的场景或具有大运动的场景,该技术可能无法很好地发挥作用。
由Microsoft提出的IllumiRoom[5]使用Kinect传感器和投影仪来通过将图像投影在电视显示器周围以增强电视内容。它主要被开发用于沉浸式游戏,以产生游戏中所发生的事也发生在玩家的房间中的错觉。该***将图像直接投影到电视显示器周围的家具和墙壁上,以在屏幕上传达在主图像之外所发生的事件。但是,该***没有通过图像外推(基于图像的内容进行外推)解决内容创建。内容主要是由游戏呈现器生成计算的。
Ultrawide Foveated Video Extrapolation[6]技术将视频内容外推在中心图像周围。该算法的主要思想是在空间和时间维度中使用碎片匹配(Patch-Match)算法(使用视频立方体来代替图像块)来将视频外推在其边界外部。当选取正确的碎片时,他们也惩罚可能导致分心(distraction)的碎片(即,在视频外部添加许多边缘的碎片)。还在具有相似成本的少量碎片中随机地选择使用的碎片,以避免相同碎片的不自然的重复。为了限制计算,对于拟合碎片的搜索被限制在原始输入视频中的某个区域,靠近正被填充的像素,并且如果必要的话,延伸搜索区域。该算法需要几分钟来外推一帧,因此可能难以实时地实现。该算法使用多尺度方法以粗分辨率开始外推,并在进一步的步骤中改善分辨率。该技术确保了平滑外推,但计算上非常密集。此外,边缘区域的惩罚没有考虑到人类视觉***以确定边缘是否使人分心。外推视频可能缺失一些相关的结构。
发明内容
本原理针对用于根据原始影片和视频内容外推图像的装置和方法的改进。
在一方面,本原理提供了一种生成延伸到图像边界之外的外推图像的方法,包括:获取图像;并且,根据图像的部分生成外推图像(617),其中所述生成包括基于视觉注意力模型识别显著对象,并且响应于所述识别,修改所述生成步骤使得所述显著对象不包括在修改后的外推图像中。
在另一方面,本原理提供了一种生成延伸到图像边界之外的外推图像的方法,包括:获取图像;根据图像的部分生成外推图像;基于视觉注意力模型生成外推图像的显著图,并且从中识别显著对象;修改外推图像,使得显著对象不包括在修改后的外推图像中。
在另一方面,本原理提供了一种用于生成延伸到图像边界之外的外推图像的装置,包括:输入处,被配置为获取图像;以及处理器,耦接到输入处,并且被配置为:根据图像的部分生成外推图像,其中所述生成包含基于视觉注意力模型识别显著对象,并且响应于所述识别,修改所述生成过程使得所述显著对象不包括在修改后的外推对象中;以及输出处,被配置为输出修改后的外推图像。
在另一方面,本原理提供了一种用于生成延伸到图像边界之外的外推图像的装置,包括:输入处,被配置为获取图像;处理器,被配置为根据图像的部分生成外推图像,基于视觉注意力模型生成外推图像的显著图,从中识别显著对象,并且修改外推图像,使得显著对象不包括在修改后的外推图像中;以及输出处,被配置为输出修改后的外推图像。
此外,本原理提供存储在非暂时计算机可读存储介质中的计算机程序产品,其包括用于实现上述方法的计算机可执行指令。
另外,上述实施例可以包括应用空间滤波、时间滤波以及将所选择的对象添加到外推图像中的特征。
附图说明
通过参考结合附图对本发明的实施例的以下描述,本发明的上述和其它特征及优点、以及实现它们的方式将变得更加明显,并且本发明将更好理解,其中:
图1示出了用于在影片和/或视频显示器的边界之外显示外推图像的示例性布置;
图2示出了用于将图像投影到各种显示屏幕上的示例性布置;
图3示出了用于将图像投影到各种显示屏幕上的示例性布置;
图4示出了包括原始图像以及生成并显示在原始图像的左边界和右边界之外的外推图像的示例性图像;
图5示出了包括原始图像以及生成并显示在原始图像的左边界和右边界之外的外推图像的示例性图像,其中使用了来自原始视频的多个帧;
图6示出了根据本原理生成外推图像的一方面;
图7示出了根据本原理的图像中的对象检测的一方面;
图8示出了根据本原理生成外推图像的示例性过程;以及
图9示出了根据本原理生成和/或处理外推图像的示例性装置;
本文所述的描述示出了用于实现本原理的各个方面的示例性实施例。这样的示例不被解释为以任何方式限制权利要求的范围。
具体实施方式
所描述的实施例寻求提供一种改进的图像外推装置和方法:
-通过使用视觉注意力模型,避免外推过程中视频的分心(distracting)部分,具体地,检测原始影片或视频中潜在分心对象,使得这些潜在分心对象不包括在外推图像中,其中可以在没有分心对象的情况下生成外推图像,或者可以修改外推图像以移除分心对象;
-使用多个参考和长期参考作为用于外推的输入内容;
-使用时空滤波来确保平滑外推,同时允许更粗糙的外推过程;
-使用跟踪和轨迹估计在后处理步骤中添加运动的对象;
-考虑人类视觉***(Human Visual System)属性来创建与HVS兼容而且不打扰观看者的图像。具体地,将利用对***视觉中的运动对象的敏感度。
图4示出了具有基于原始图像410生成的外推图像420和430的示例图像显示。可以看出,相应的外推图像是不同的并且是采用将原始图像延伸到原始图像410的左边界和右边界这两者之外的方式生成的。
觉知显著性的外推
根据本原理,惩罚原始图像的显著部分(即,如果这些部分被包括在外推或***的图像中,则这些部分可能对观看者而言是分心的),在这种意义上,这些部分可能被隐藏或者不被包括在外推图像中,以避免在外推图像上出现具有不连贯运动的分心区域。显著性可以指代对象可以吸引观看者的注视的特性,这可能无意中发生,从而使观看者的注意力分心。在本原理的另一方面,识别出的显著对象可以随后以如下进一步描述的适当轨迹添加到外推图像。
A(x,t)是在0和1之间归一化的显著图,其表示帧t的像素x的显著的程度。可以使用视觉注意力模型(例如,Le Meur等人在2004年12月14日提交的EP专利1 695 288B1中提出的模型,在此通过引用将其公开内容全部并入)计算显著性。
根据本原理,实施例确定将会出现显著对象的外推图像的区域,并且生成其中不包括显著对象的外推图像。例如可以使用在关于Urban等人、代理案案号为PF140347的标题为“Apparatus and Method for Generating an Extrapolated Image using aRecursive Hierarchical Process”的专利申请中描述的技术生成重构的具有缺失区域的外推图像,其公开内容通过引用整体并入本文。
在实施例中,Urban等人描述的外推技术被修改为在块匹配处理期间惩罚原始图像中的显著区域,使得生成其中不包括显著对象的外推图像。因此,如果没有使用显著区域来对图像进行外推,则外推图像上将不存在使人分心的部分。
块匹配或碎片匹配搜索中使用的匹配测量(或得分)包括如下说明的显著性。因此,图像的显著部分被惩罚为块匹配的参考,并且较不分心的区域出现在外推图像中。
碎片匹配技术可以用于重构缺失区域。为了构建包含来自S的现有像素和新像素的块M,将成本r进行最小化:
r(S)=SSD(Sa,Ma)+λ×A(S)
其中,SSD是例如Lab色彩空间或RGB色彩空间中的绝对差的和,Ma是块的已计算出的部分,Sa是与Ma的形状对应的现有块S的部分,λ是控制显著性的影响的权重(λ=100)。
所选取的块S是对前面等式进行最小化的一个块:
其中,Ω是现有图像中的搜索窗口。
作为算法的延伸,可以从混合在一起的n个匹配块Si中构建块M。使用上面的等式(即,最小化r(S),Si∈Ω)来构造最佳匹配Si的排序列表。通过块Si的组合获得块M:
块Si的组合也可以被加权
M=∑biSi
其中,通过LLE优化[7]了解权重bi。
作为改进,为了确保仅使用相干的块,可以拒绝具有过高(r(Si)≥q)得分r(S)的块S:
多个参考帧
为了重构在前后帧中完全出现的图像的边界中的对象的部分,可以使用上述技术将搜索空间Ω延伸到几个邻近帧。
在慢运动的情况下,对于要完整出现的对象,许多邻近帧可以是必要的。为了减少搜索时间,可以使用下面的算法适当地选取Ω,其中选择参考帧以避免完全搜索,并且在碎片匹配方案中使用所选择的帧:
-该算法包括拍摄检测的步骤,其中按场景对帧进行分组。场景由两个场景切割(cut)之间的连续帧定义[8]。
-通过选取均匀间隔的图像,在场景中选择至多n个图像。
-改进在于只保留足够地不同的图像。在2个候选图像之间计算SSD。如果SSD低于阈值,则意味着图像彼此太接近,只保留一个。这允许减少搜索图像列表,以加速不必要的计算。
时空平滑
在视野的***,人类视觉***对运动和闪烁效果是敏感的。然而,对色彩和分辨率具有非常低的灵敏度。
由于前面提出的觉知显著性的滤波,所以已经避免了分心的不想要的运动对象。此外,使用时间滤波器减少闪烁的伪像。时间滤波器是例如在时间维度上应用的高斯平滑。从前后帧中的并置像素的线性组合中计算出得到的像素,权重由中心像素周围的高斯分布定义。
此外,并且为了避免外推图像太令人分心,还可以在空间维度中应用空间平滑滤波器。当观察者将他的注意力保持在前屏幕上时,由于观察者没有看到视野***的细节,所以平滑是不可察觉的,但它防止侧面投影引起用户的注意力。
假设在偏心距20°处的视觉敏锐度是中心视力的1/10[13]。这对应于位于3米宽屏幕前面4米处的观察者的屏幕的边缘。这意味着***屏幕上的分辨率应当为中心分辨率的1/10。因此空间滤波中使用的高斯滤波器应当具有像素的标准偏差,考虑到得到的延伸物的分辨率及其投影与中心视图相同,其中最大频率是每像素1/2周期。如果得到的延伸物和投影从中心视图改变,则必须调整这些参数。
在替换的实施例中,Urban等人的外推技术用于初始生成外推图像。然后分析外推图像以确定显著对象是否包括在外推图像中,例如使用显著图。如果发现外推图像包括显著对象,则可以移除显著对象,并且可以使用Urban等人的修复(inpainting)或修改技术填充外推图像的缺失区域。这可以看作是对已计算出的外推图像的后处理。
对象***和轨迹外推
一旦通过任何编辑器自动或手动地生成具有平滑背景的外推图像或侧面内容,则可能期望添加具有进入或离开前面屏幕的适当轨迹的运动对象。该部分描述如何完全自动地或利用用户输入进行这一操作。
可以通过在对象周围定义矩形或闭合轮廓来手动选择感兴趣的对象。例如,通过使用图7中的显著图进行感兴趣对象的检测。图7中的对象710对应于图像部分615中的对象650,图像部分615与外推图像部分617相邻。具有图像部分605和外推图像部分607的图像600示出了包括在如附图标记620指示的外推图像中的对象650。可以手动地或使用斑点(blob)检测器(诸如[9]中所述的一个)来选择对象650。
为了估计对象的轨迹,随后使用***,该***在选择步骤中定义的区域上进行初始化。可以使用任何***,例如[10][11]中描述的那些***。***用来估计帧t中的对象中心位置p:p(t)。跟踪在向前和向后的方向上执行,以便能够对离开或进入前屏幕的对象轨迹进行外推。对于向后的方向,将帧次序进行反转,并且以下等式仍然适用于变量改变。因此,下面将仅介绍离开前屏幕的对象的示例。
第一步是对所跟踪的对象中心位置p(t)=(x(t),y(t))的参数轨迹进行建模。所使用的参数模型可以是线性(恒定速度)、抛物线(恒定加速度)或更复杂的轨迹。例如,如果使用抛物线轨迹:p(t)=(at2+bt+c,dt2+et+f),其中t代表帧数,a、b、c、d、e、f参数通过使用估计的位置的回归进行估计。估计的位置的数目必须大于3以估计参数,而较高的数目允许减少噪声的影响。但是,为了保持运动模型,观察帧的数目必须保持在一定数目以下(实际上,通过丢弃最先前的估计,估计的位置的数目必须保持在30以下)。针对每个帧估计轨迹。
下一步是检测对象是否正离开屏幕。这可以通过观察下一个对象中心位置p(t0+1)来进行。如果x(t0+1)在图像边界外部,则估计出对象正离开屏幕。然后可以使用估计的参数方程针对每个后续帧估计对象位置。
为了更加鲁棒,必须确保估计的轨迹是连续的。在以下情况下停止对象***:
-水平速度太低:abs(2at+b)<v0,其中最小初始速度v0=5像素每帧,以避免静态对象显示在延伸物上,
-y(t)落在垂直图像边界的外部,
-水平运动变为零(null):如果a≠0,则b≠0,否则反之,
-水平位置x(t)落在图像边界的外部。
对象最终在外推位置处被***在后续帧中。这种出现可以仅仅是在它所出现的最后一帧中的对象切割,或者是最后出现的组合(使用一些混合技术)。想要无缝地***,可以使用克隆技术,诸如[12]中所述使用泊松编辑(Poisson editing)。还可以使用计算上较少的密集型技术,诸如在***之后使用alpha掩模(mask)混合或模糊。
图8示出了根据本原理的示例性过程。过程800开始于在步骤820中接收要延伸的图像。在步骤830中,可以选择多个参考帧以用于在生成外推图像时的分析,然而,如果需要的话,可以使用单个参考帧。在步骤840中,使用觉知显著性的外推来产生外推图像,例如通过修改Urban等人的块匹配技术以惩罚原始图像中的显著区域来生成其中不存在分心部分的外推图像。可以在步骤850中执行时空平滑。最后,如果需要的话,在步骤860中,可以手动地或自动地选择并且基于轨迹外推***所检测到的显著对象。
图9示出了可以实现本原理的示例性实施例的各个方面的示例性***的框图。***900可以被具体化为包括下面描述的各种组件并且被配置为执行上述过程的设备。这样的设备的示例包括但不限于个人计算机、膝上型计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视接收机、个人视频记录***、联网的家用电器和服务器。***900可以通信地耦接到其它组件,例如,信号接收设备、投影***、显示***等,以接收影片和视频数据、如上所述地处理影片和视频数据,并且使用接收的影片和视频数据投影或显示外推图像以提供沉浸式的观看者体验。
***900可以包括至少一个处理器940,其被配置为运行其中加载的用于实现如上所述的各种过程的指令。处理器940可以包括嵌入式存储器、输入输出接口以及本领域已知的各种其它电路。***900还可以包括至少一个存储器950(例如,易失性存储设备、非易失性存储设备)。***900可以附加地包括存贮器设备960,其可以包括非易失性存储器,包括但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、快闪、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存贮器设备960可以包括内部存贮器设备、附接的存贮器设备和/或网络可访问的存贮器设备。要加载到处理器940上以执行上述各种过程的程序代码可以存储在存贮器设备960中,并且随后被加载到存储器950上以供处理器940运行。***900还可以包括解密模块920,被配置为接收和解密已加密的影片和/或视频数据。由处理器940生成的图像数据可以经由输出端口输出到显示设备,或者可替代地,***900可以与显示器集成,其中输出信号被直接应用以将图像显示在***900的显示器上。
***900可以包括解码器930,其根据需要解码所接收的输入信号,所接收的输入信号可以是按照任何已知的压缩格式(例如,MPEG2或H.264)进行压缩的形式。解码器930可以被实现为***900内的单独组件,或者可以被并入作为本领域已知的处理器940的一部分。
解密模块920表示可以包括在设备中用于执行解密功能的模块。众所周知,设备可以包括加密模块和解密模块中的一者或两者,例如,加密可以在普通PC上进行,这是因为加密不涉及秘密密钥,使得PC不需要包括用于存储输入参数的安全存储器(即,公共***参数和用户身份)。但是,解密需要秘密密钥(即,解密密钥),并且在安全设备(例如智能卡)中进行。此外,解密模块920可以被实现为***900的单独元件,或者可以作为本领域技术人员已知的硬件和软件的组合被并入在处理器940内。
***900还可以包括使能经由有线或无线的通信信道与其它设备通信的通信接口910。通信接口910可以包括但不限于被配置为发送和接收来自通信信道的数据的收发机。通信接口可以包括但不限于调制解调器或网卡,并且通信信道可以实现在有线和/或无线介质内。***900的各种组件可以使用各种合适的连接(包括但不限于内部总线、电线和印刷电路板)来连接或通信地耦接在一起。
本发明的示例性实施例可以由处理器940实现的计算机软件或硬件或硬件和软件的组合来执行。作为非限制性示例,本发明的示例性实施例可以由一个或多个集成电路来实现。作为非限制性示例,存储器950可以是适合于技术环境的任意类型存储器,并且可以使用任何适当的数据存储技术(诸如光学存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器)实现。作为非限制性示例,处理器940可以是适合于技术环境的任何类型处理器,并且可以包括微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一个或多个。
上述内容通过示例性实施例和非限制性示例提供了本发明人所设想的方法和***的描述。清楚地是,鉴于本说明书,各种修改和调整对于本领域的技术人员来说是显而易见的。但是,这样的各种修改和调整落在上述各种实施例的教导的范围内。
这里描述的实施例可以例如以方法或过程、装置、软件程序、数据流或信号实现。即使仅在单一形式的实现的上下文中讨论(例如,仅作为方法讨论),上述特征的实现也可以以其它形式(例如,装置或程序)来实现。装置可以例如以适当的硬件、软件和固件实现。方法可以例如在诸如例如处理器的装置中实现,其中处理器一般是指例如包括计算机、微处理器、集成电路或可编程逻辑器件的处理设备。处理器还包括诸如例如计算机、蜂窝电话、便携式/个人数字助理(“PDA”)的通信设备以及促进终端用户之间的通信信息的其它设备。
提及本原理的“一个实施例”或“一实施例”或“一个实现”或“一实现”及其其它变型,意味着结合实施例描述的特定特征、结构、特性等被包括在本原理的至少一个实施例中。因此,在整个说明书的各个位置出现的“在一个实施例中”或“在一实施例中”或“在一个实现中”或“在一实现中”以及任何其它变型不一定都指向同一实施例。
此外,本申请或其权利要求可能提及“确定”各种信息。确定信息可以包括例如估计信息、计算信息、预测信息或者从存储器取回信息中的一个或多个。
进一步,本申请或其权利要求可能提及“访问”各种信息。访问信息可以包括例如接收信息、取回信息(例如,从存储器取回)、存储信息、处理信息、发送信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息中的一个或多个。
此外,本申请或其权利要求可能提及“接收”各种信息。正如“访问”一样,接收意图是一个广义的术语。接收信息可以包括例如访问信息或取回信息(例如,从存储器取回)中的一个或多个。进一步,通常在诸如例如存储信息、处理信息、发送信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间以这种或那种方式涉及“接收”。
正如对本领域技术人员而言显而易见的,实现可以产生被格式化以携带例如可被存储或传输的信息的各种信号。信息可以包括例如用于执行方法的指令,或者由所描述的实现之一所产生的数据。例如,可以格式化信号以携带所描述的实施例的比特流。这样的信号可以例如被格式化作为电磁波(例如,使用频谱的射频部分)或作为基带信号。格式化可以包括例如对数据流进行编码并且利用编码的数据流来调制载波。信号携带的信息可以例如是模拟或数字信息。众所周知,信号可以在各种不同的有线和/或无线链路上传输。信号可以存储在处理器可读介质上。
尽管本文已描述和示出了几个实施例,但是本领域普通技术人员将容易地想出用于执行功能和/或获得结果和/或本文所述的一个或多个优点的各种其它部件和/或结构,并且这样的变化和/或修改中的每个被视为在本实施例的范围内。
Claims (16)
1.一种生成延伸到图像的边界之外的外推图像的方法(800),包括:
获取(820)所述图像(615);以及
响应于所述识别,根据所述图像的部分生成(830-860)外推图像(617),其中所述生成包括基于视觉注意力模型识别(820-850)所述图像的所述部分中的显著对象(650),并且修改(860)所述生成步骤,使得所述显著对象不包括在所述外推图像中。
2.根据权利要求1所述的方法,其中所述生成包括使用递归分层处理来渐进地生成更高分辨率的外推图像。
3.根据权利要求2所述的方法,其中所述递归分层处理基于使用预测以及对前一分辨率级别中的重叠块的加权来生成下一分辨率级别的块。
4.一种生成延伸到图像的边界之外的外推图像的方法(800),包括:
获取(820)所述图像;
根据所述图像的部分生成(830-860)外推图像;
基于视觉注意力模型生成(830-850)所述外推图像的显著图,并且从中识别显著对象;
修改(860)所述外推图像,使得所述显著对象不包括在修改后的外推图像中。
5.根据权利要求1至4中的任一项所述的方法,还包括对所述外推图像应用空间滤波。
6.根据权利要求1至5中的任一项所述的方法,还包括选择感兴趣的对象并且将所述感兴趣的对象***到所述外推图像中。
7.根据权利要求6所述的方法,其中根据多个图像估计所述感兴趣的对象的轨迹,以基于所估计的轨迹将所述感兴趣的对象***到所述外推图像中。
8.一种用于生成延伸到图像的边界之外的外推图像的装置(900),包括:
输入处(910),被配置为获取所述图像(615);
至少一个处理器(940),耦接到所述输入处,并且被配置为响应于所述识别,根据所述图像的部分生成(830-860)外推图像(617),其中所述生成包括基于视觉注意力模型识别(820-850)所述图像的所述部分中的显著对象(650),并且修改(860)所述生成步骤,使得所述显著对象不包括在所述外推图像中;以及
输出处(910),被配置为输出所述外推图像。
9.根据权利要求8所述的装置,其中所述处理器(940)被配置为使用递归分层处理生成所述外推图像,以渐进地生成更高分辨率的外推图像。
10.根据权利要求9所述的装置,其中所述递归分层处理基于使用预测以及对前一分辨率级别中的重叠块的加权来生成下一分辨率级别的块。
11.一种用于生成延伸到图像的边界之外的外推图像的装置(900),包括:
输入处(910),被配置为获取所述图像(615);
至少一个处理器(940),被配置为根据所述图像的部分生成外推图像(617),基于视觉注意力模型生成(830-860)所述外推图像的显著图,从中识别(830-850)显著对象(650),并且修改(860)所述外推图像,使得所述显著对象不包括在修改后的外推图像中;以及
输出处,被配置为输出修改后的外推图像。
12.根据权利要求8至11中的任一项所述的装置,其中所述处理器(940)还被配置为对修改后的外推图像应用空间滤波。
13.根据权利要求8至12中的任一项所述的装置,其中所述处理器(940)还被配置为选择感兴趣的对象并且将所述感兴趣的对象***到所述外推图像中。
14.根据权利要求14所述的装置,其中所述处理器(940)还被配置为根据多个图像估计所述感兴趣的对象的轨迹,并且基于所估计的轨迹将所述感兴趣的对象***到所述外推图像中。
15.一种存储在非暂时计算机可读存储介质(960)中的计算机程序产品,包括用于执行以下操作的计算机可执行指令:
获取(820)图像(615)的部分;
响应于所述识别,根据所述图像的部分生成(830-860)外推图像(617),其中所述生成包括基于视觉注意力模型识别(820-850)所述图像的所述部分中的显著对象(650),并且修改(860)所述生成步骤使得所述显著对象不包括在所述外推图像中。
16.一种存储在非暂时计算机可读存储介质(960)中的计算机程序产品,包括用于执行以下操作的计算机可执行指令:
获取(820)所述图像(615);
根据所述图像的部分生成(830-860)外推图像(617);
基于视觉注意力模型生成(830-850)所述外推图像的显著图,并且从中识别显著对象(650);以及
修改(860)所述外推图像,使得所述显著对象不包括在修改后的外推图像中。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14307147.0 | 2014-12-22 | ||
EP14307147 | 2014-12-22 | ||
PCT/EP2015/080487 WO2016102365A1 (en) | 2014-12-22 | 2015-12-18 | Method and apparatus for generating an extrapolated image based on object detection |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107111866A true CN107111866A (zh) | 2017-08-29 |
CN107111866B CN107111866B (zh) | 2021-01-05 |
Family
ID=52394857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580070298.6A Active CN107111866B (zh) | 2014-12-22 | 2015-12-18 | 用于基于对象检测生成外推图像的方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10672104B2 (zh) |
EP (1) | EP3238213B1 (zh) |
JP (2) | JP6672305B2 (zh) |
KR (1) | KR20170098232A (zh) |
CN (1) | CN107111866B (zh) |
WO (1) | WO2016102365A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256562A (zh) * | 2018-01-09 | 2018-07-06 | 深圳大学 | 基于弱监督时空级联神经网络的显著目标检测方法及*** |
CN114257759A (zh) * | 2020-09-22 | 2022-03-29 | 丰田自动车株式会社 | 用于图像补全的*** |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10460704B2 (en) | 2016-04-01 | 2019-10-29 | Movidius Limited | Systems and methods for head-mounted display adapted to human visual mechanism |
US10277943B2 (en) * | 2017-03-27 | 2019-04-30 | Microsoft Technology Licensing, Llc | Selective rendering of sparse peripheral displays based on user movements |
US10216260B2 (en) * | 2017-03-27 | 2019-02-26 | Microsoft Technology Licensing, Llc | Selective rendering of sparse peripheral displays based on element saliency |
JP6841345B2 (ja) * | 2017-12-06 | 2021-03-10 | 日本電気株式会社 | 画像認識モデル生成装置、画像認識モデル生成方法および画像認識モデル生成プログラム |
US10949947B2 (en) | 2017-12-29 | 2021-03-16 | Intel Corporation | Foveated image rendering for head-mounted display devices |
CN111527465A (zh) * | 2017-12-29 | 2020-08-11 | 德国弗劳恩霍夫应用研究促进协会 | 预测对象运动的方法、校准运动模型的方法、获得预定义量的方法和生成虚拟现实视图的方法 |
US11587208B2 (en) * | 2021-05-26 | 2023-02-21 | Qualcomm Incorporated | High quality UI elements with frame extrapolation |
WO2023166138A1 (en) * | 2022-03-04 | 2023-09-07 | Sony Europe B.V. | Image processing devices, electronic device and image processing methods |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1894721A (zh) * | 2003-12-18 | 2007-01-10 | 汤姆森许可贸易公司 | 用于创建图像的显著图的设备和方法 |
CN101437170A (zh) * | 2007-11-13 | 2009-05-20 | 学校法人东京电机大学 | 多眼视图像生成***以及多眼视图像生成方法 |
CN101919255A (zh) * | 2007-12-10 | 2010-12-15 | 高通股份有限公司 | 用于视频内插或外推的参考选择 |
EP2669868A1 (en) * | 2012-05-31 | 2013-12-04 | Sony Computer Entertainment Europe Limited | Apparatus and method for augmenting a video image |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2253760B (en) | 1991-02-01 | 1994-07-27 | British Broadcasting Corp | Video image processing |
EP1522187B1 (en) | 2002-07-04 | 2010-03-31 | Koninklijke Philips Electronics N.V. | Method of and system for controlling an ambient light and lighting unit |
CN1977542B (zh) * | 2004-06-30 | 2010-09-29 | 皇家飞利浦电子股份有限公司 | 利用感知规律提取主色以产生来自视频内容的环境光 |
US7424218B2 (en) * | 2005-07-28 | 2008-09-09 | Microsoft Corporation | Real-time preview for panoramic images |
US8374462B2 (en) * | 2008-11-14 | 2013-02-12 | Seiko Epson Corporation | Content-aware image and video resizing by anchor point sampling and mapping |
EP2680219A1 (en) | 2012-06-29 | 2014-01-01 | Thomson Licensing | Method for reframing images of a video sequence, and apparatus for reframing images of a video sequence |
JP2014016688A (ja) | 2012-07-06 | 2014-01-30 | Kddi Corp | 顕著性マップを利用した非写実変換プログラム、装置及び方法 |
JP2014093694A (ja) | 2012-11-05 | 2014-05-19 | Toshiba Corp | 画像処理装置、及び画像処理方法 |
JP2014215604A (ja) | 2013-04-30 | 2014-11-17 | ソニー株式会社 | 画像処理装置および画像処理方法 |
WO2016102355A1 (en) | 2014-12-22 | 2016-06-30 | Thomson Licensing | Apparatus and method for generating an extrapolated image using a recursive hierarchical process |
EP3067857A1 (en) * | 2015-03-13 | 2016-09-14 | Thomson Licensing | Method and device for processing a peripheral image |
CN108605148B (zh) * | 2016-02-09 | 2022-02-11 | 索尼互动娱乐股份有限公司 | 视频显示*** |
-
2015
- 2015-12-18 WO PCT/EP2015/080487 patent/WO2016102365A1/en active Application Filing
- 2015-12-18 JP JP2017531507A patent/JP6672305B2/ja not_active Expired - Fee Related
- 2015-12-18 CN CN201580070298.6A patent/CN107111866B/zh active Active
- 2015-12-18 KR KR1020177017100A patent/KR20170098232A/ko not_active Application Discontinuation
- 2015-12-18 US US15/538,366 patent/US10672104B2/en active Active
- 2015-12-18 EP EP15817262.7A patent/EP3238213B1/en active Active
-
2020
- 2020-03-04 JP JP2020037323A patent/JP2020115351A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1894721A (zh) * | 2003-12-18 | 2007-01-10 | 汤姆森许可贸易公司 | 用于创建图像的显著图的设备和方法 |
CN101437170A (zh) * | 2007-11-13 | 2009-05-20 | 学校法人东京电机大学 | 多眼视图像生成***以及多眼视图像生成方法 |
CN101919255A (zh) * | 2007-12-10 | 2010-12-15 | 高通股份有限公司 | 用于视频内插或外推的参考选择 |
EP2669868A1 (en) * | 2012-05-31 | 2013-12-04 | Sony Computer Entertainment Europe Limited | Apparatus and method for augmenting a video image |
Non-Patent Citations (1)
Title |
---|
TAMAR AVRAHAM,ET AL: "Ultrawide Foveated Video Extrapolation", 《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256562A (zh) * | 2018-01-09 | 2018-07-06 | 深圳大学 | 基于弱监督时空级联神经网络的显著目标检测方法及*** |
CN108256562B (zh) * | 2018-01-09 | 2022-04-15 | 深圳大学 | 基于弱监督时空级联神经网络的显著目标检测方法及*** |
CN114257759A (zh) * | 2020-09-22 | 2022-03-29 | 丰田自动车株式会社 | 用于图像补全的*** |
CN114257759B (zh) * | 2020-09-22 | 2024-05-10 | 丰田自动车株式会社 | 用于图像补全的*** |
Also Published As
Publication number | Publication date |
---|---|
JP2020115351A (ja) | 2020-07-30 |
EP3238213A1 (en) | 2017-11-01 |
WO2016102365A1 (en) | 2016-06-30 |
CN107111866B (zh) | 2021-01-05 |
KR20170098232A (ko) | 2017-08-29 |
JP2018506198A (ja) | 2018-03-01 |
US20180012333A1 (en) | 2018-01-11 |
JP6672305B2 (ja) | 2020-03-25 |
US10672104B2 (en) | 2020-06-02 |
EP3238213B1 (en) | 2023-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107111866A (zh) | 用于基于对象检测生成外推图像的方法和装置 | |
US11217006B2 (en) | Methods and systems for performing 3D simulation based on a 2D video image | |
US11918910B1 (en) | System and method for synthetic interaction of objects | |
US11019283B2 (en) | Augmenting detected regions in image or video data | |
CN103793925B (zh) | 融合时空特征的视频图像视觉显著程度检测方法 | |
KR102319423B1 (ko) | 컨텍스트 기반 증강 광고 | |
US9959903B2 (en) | Video playback method | |
EP2428036B1 (en) | Systems and methods for the autonomous production of videos from multi-sensored data | |
US10861159B2 (en) | Method, system and computer program product for automatically altering a video stream | |
Johnston et al. | A review of digital video tampering: From simple editing to full synthesis | |
Sanches et al. | Mutual occlusion between real and virtual elements in augmented reality based on fiducial markers | |
WO2010033312A1 (en) | Countermeasures against original background retrieval | |
Turban et al. | Extrafoveal video extension for an immersive viewing experience | |
CN107636728A (zh) | 用于确定图像的深度图的方法和装置 | |
François | Real-time multi-resolution blob tracking | |
CN107112038A (zh) | 使用递归分级处理生成外推图像的装置和方法 | |
Dittrich et al. | Saliency detection for stereoscopic video | |
JP6396932B2 (ja) | 画像合成装置、画像合成装置の動作方法およびコンピュータプログラム | |
Kim et al. | A study on the possibility of implementing a real-time stereoscopic 3D rendering TV system | |
Lin et al. | Video exhibition with adjustable augmented reality system based on temporal psycho-visual modulation | |
Chamaret et al. | Video retargeting for stereoscopic content under 3D viewing constraints | |
CN113570730A (zh) | 视频数据采集方法、视频创作方法及相关产品 | |
CN113805824A (zh) | 电子装置以及在显示设备上显示图像的方法 | |
KR20050008246A (ko) | 스포츠 비디오에서 카메라 모션 분석을 통한 그래픽 영상객체 합성 구현 장치 및 방법 | |
Lie et al. | Semi-automatic 2D-to-3D video conversion based on background sprite generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190604 Address after: France Applicant after: Interactive Digital CE Patent Holding Company Address before: I Si Eli Murli Nor, France Applicant before: Thomson Licensing SA |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |