CN111862098B - 基于光场语义的个体匹配方法、装置、设备和介质 - Google Patents
基于光场语义的个体匹配方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111862098B CN111862098B CN201910361188.5A CN201910361188A CN111862098B CN 111862098 B CN111862098 B CN 111862098B CN 201910361188 A CN201910361188 A CN 201910361188A CN 111862098 B CN111862098 B CN 111862098B
- Authority
- CN
- China
- Prior art keywords
- individual
- focusing
- semantic segmentation
- semantic
- light field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000011218 segmentation Effects 0.000 claims abstract description 140
- 238000004458 analytical method Methods 0.000 claims abstract description 38
- 230000000007 visual effect Effects 0.000 claims abstract description 22
- 238000013507 mapping Methods 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/557—Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
- G06T7/596—Depth or shape recovery from multiple images from stereo images from three or more stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10052—Images from lightfield camera
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
本申请提供的一种基于光场语义的个体匹配方法、装置、设备和介质,通过获取包含不同视角的光场图像集;选取任一视角的光场图像进行重对焦以形成对焦图像集,对各对焦图像进行语义分析得到不同个体的对焦语义分割;依据各所述对焦语义分割的结果对属于同类的所述个体进行聚类以获得各所述个体于不同所述对焦图像上的深度值范围;对其他视角下的所述光场图像进行语义分析,以得到各视角下各对应不同所述个体的原始语义分割;依据所述深度值范围通过重投影获得各视角下各所述个体的对应关系。本申请获得多视角下的语义个体对应关系,在立体匹配时将搜索范围限制在相同的区域内,大大缩短了匹配计算时间。
Description
技术领域
本发明涉及计算机视觉处理技术领域,特别是涉及一种基于光场语义的个体匹配方法、装置、设备和介质。
背景技术
立体匹配多基于整张图片进行,优化目标也仅仅考虑图片的色彩信息。因此,在场景具有重复图案时常会出现匹配失败的情况,从而影响结果精度。基于深度学习的语义分析一定程度上可以帮助解决这种仅仅考虑色彩的情况下匹配失败的情况。
语义分割是计算机视觉的基础任务之一。该任务以二维图像为输入,通过视觉算法分割出图像中不同的对象区域,并识别其中的内容(语义值),也即,在保证图像域连续性的同时为图片的每个像素点确定所属语义类别。传统分割方法多基于条件随机场、随机森林等统计学方法构建分类器,深度学习之后,运用卷积神经网络实现高效图片分类的同时,在分割问题上也取得了重大进展。同时,随着多视几何的发展,越来越多的研究者将立体视觉信息融合到传统单目视觉算法流程中,往往能够取得更好的算法表现,但对于多帧采却难以做到实时采集,并且多相机***又存在同步设定等复杂的***问题。另外,当场景中存在严重遮挡时,语义分割往往不能得到令人满意的结果。
光场相机作为多视几何的一种特殊情况,相机排布按照一定的规则进行,与多相机***相比,光场相机可以将多视几何与单目算法优点相结合,可以有效去除遮挡,并实现在一次曝光中收集多视角信息。
但是对于该多视角信息还存在一个问题,即难以获得多视角下的语义个体对应关系,进而在立体匹配过程中,对每个像素寻找匹配像素时,不能有效限制其搜索范围,因此大大增加了匹配运算的时间。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于光场语义的个体匹配方法、装置、设备和介质,以解决现有技术中难以获得多视角下的语义个体对应关系的问题。
为实现上述目的及其他相关目的,本申请提供一种基于光场语义的个体匹配方法,所述方法包括:获取包含不同视角的光场图像集;选取任一视角的光场图像进行不同深度的重对焦以形成对焦图像集,对各对焦图像进行语义分析得到不同个体的对焦语义分割;依据各所述对焦语义分割的结果对属于同类的所述个体进行聚类以获得各所述个体于不同所述对焦图像上的深度值范围;对其他视角下的所述光场图像进行语义分析,以得到各视角下各对应不同所述个体的原始语义分割;依据所述对焦图像集上各所述个体对应的所述深度值范围通过重投影将各所述个体对应的所述对焦语义分割的结果映射到各视角下以形成映射语义分割;通过所述原始语义分割与所述映射语义分割的相似度对比获得各视角下各所述个体的对应关系。
于本申请一实施例中,所述光场图像集是由相机阵列对应一场景拍摄得到的多视角图像组成。
于本申请一实施例中,所述重对焦中依据均值等分选取不同对焦深度。
于本申请一实施例中,所述对各对焦图像进行语义分析得到不同个体的对焦语义分割的方法包括:依据目标检测找到各所述个体,并通过边界框对各所述个体进行语义标记与分割;计算各所述个体对应的语义置信度、及聚焦度,据以得到对应所述对焦图像的对焦语义分割的质量分布。
于本申请一实施例中,所述依据各所述对焦语义分割的结果对属于同类的所述个体进行聚类的方法包括:任选两个所述个体,依据各所述个体对应的所述边界框之间差距、及深度值之间差距粗估两个所述个体的相似度,以判断两个所述个体是否属于同类。
于本申请一实施例中,所述方法还包括:依据各所述个体于不同所述对焦图像上的深度值范围作为聚类后所述个体的深度值范围;选取各所述个体的聚类中所述质量分布最高的个体、通过语义分析得到所述个体对应的语义信息、及对应所述个体的深度值范围作为各所述个体的所述对焦语义分割的结果。
于本申请一实施例中,所述依据所述对焦图像集上各所述个体对应的所述深度值范围通过重投影将各所述个体对应的所述对焦语义分割的结果映射到各视角下以形成映射语义分割的方法包括:针对其他目标视角下所述光场图像中每一个像素找到其在重对焦视角下所述对焦图像集中不同对焦深度下的像素;选取对焦深度最小且不属于背景的所述语义信息作为目标视角下当前像素的语义信息。
于本申请一实施例中,所述通过所述原始语义分割与所述映射义分割的相似度对比获得各视角下所述个体的对应关系的方法包括:将所述原始语义分割与所述映射义分割的相似度对比值与预设值比较;若小于所述预设值,则选择所述映射语义分割的结果表示各视角下所述个体对应的语义分割结果;依据各视角下各所述个体的语义分割结果,以获得各视角下各所述个体的对应关系。
于本申请一实施例中,各所述个体的所述深度值范围对应有视差范围,所述视差范围能够作为立体匹配时的视差搜索区间,以缩减所述立体匹配的计算时间。
为实现上述目的及其他相关目的,本申请提供一种电子装置,所述装置包括:获取模块,用于获取包含不同视角的光场图像集;处理模块,用于选取任一视角的光场图像进行不同深度的重对焦以形成对焦图像集,对各对焦图像进行语义分析得到不同个体的对焦语义分割;依据各所述对焦语义分割的结果对属于同类的所述个体进行聚类以获得各所述个体于不同所述对焦图像上的深度值范围;对其他视角下的所述光场图像进行语义分析,以得到各视角下各对应不同所述个体的原始语义分割;依据所述对焦图像集上各所述个体对应的所述深度值范围通过重投影将各所述个体对应的所述对焦语义分割的结果映射到各视角下以形成映射语义分割;通过所述原始语义分割与所述映射语义分割的相似度对比获得各视角下各所述个体的对应关系。
为实现上述目的及其他相关目的,本申请提供一种电子设备,所述设备包括:存储器、处理器、及通信器;所述存储器用于存储计算机指令;所述处理器用于运行计算机指令以实现如上所述的方法;所述通信器通信连接的外部设备。
为实现上述目的及其他相关目的,本申请提供一种非暂时的计算机可读存储介质,存储有计算机指令,所述计算机指令被运行时执行如上所述的方法。
综上所述,本申请的一种基于光场语义的个体匹配方法、装置、设备和介质,通过获取包含不同视角的光场图像集;选取任一视角的光场图像进行不同深度的重对焦以形成对焦图像集,对各对焦图像进行语义分析得到不同个体的对焦语义分割;依据各所述对焦语义分割的结果对属于同类的所述个体进行聚类以获得各所述个体于不同所述对焦图像上的深度值范围;对其他视角下的所述光场图像进行语义分析,以得到各视角下各对应不同所述个体的原始语义分割;依据所述对焦图像集上各所述个体对应的所述深度值范围通过重投影将各所述个体对应的所述对焦语义分割的结果映射到各视角下以形成映射语义分割;通过所述原始语义分割与所述映射语义分割的相似度对比获得各视角下各所述个体的对应关系。
具有以下有益效果:
获得多视角下的语义个体对应关系,在立体匹配时将搜索范围限制在相同的区域内,大大缩短了匹配计算时间。
附图说明
图1显示为本申请于一实施例中的基于光场语义的个体匹配方法的场景示意图。
图2显示为本申请于一实施例中的基于光场语义的个体匹配方法的流程示意图。
图3显示为本申请于一实施例中的光场的概念示意图。
图4显示为本申请于一实施例中的光场相机阵列的结构示意图。
图5显示为本申请于一实施例中的光场相机应用及光场图像集的场景示意图。
图6显示为本申请于一实施例中的电子装置的模块示意图。
图7显示为本申请于一实施例中的电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面以附图为参考,针对本申请的实施例进行详细说明,以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限定于此处说明的实施例。
为了明确说明本申请,省略与说明无关的部件,对于通篇说明书中相同或类似的构成要素,赋予了相同的参照符号。
在通篇说明书中,当说某部件与另一部件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。
当说某部件在另一部件“之上”时,这可以是直接在另一部件之上,但也可以在其之间伴随着其它部件。当对照地说某部件“直接”在另一部件“之上”时,其之间不伴随其它部件。
虽然在一些实例中术语第一、第二等在本文中用来描述各种元件,但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第二接口等描述。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
此处使用的专业术语只用于言及特定实施例,并非意在限定本申请。此处使用的单数形态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化,并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。
表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一部件相对于另一部件的关系而使用。这种术语是指,不仅是在附图中所指的意义,还包括使用中的装置的其它意义或作业。例如,如果翻转附图中的装置,曾说明为在其它部件“下”的某部件则说明为在其它部件“上”。因此,所谓“下”的示例性术语,全部包括上与下方。装置可以旋转90°或其它角度,代表相对空间的术语也据此来解释。
虽然未不同地定义,但包括此处使用的技术术语及科学术语,所有术语均具有与本申请所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的内容相符的意义,只要未进行定义,不得过度解释为理想的或非常公式性的意义。
为解决立体匹配过程中,传统单目视觉算法无法做到多帧采集,遮挡问题,以及同步设定复杂等问题,本申请所述方法是在光场技术基础上提出的,而本申请所述方法所要解决的技术问题时,基于光场所采集的数据,难以获得多视角下的语义个体对应关系。
为便于理解本申请所述的方法,参见图1所示。如图所示,本方法主要涉及对焦图像语义分割,以及正常光场语义分割。
所述对焦语义分割是针对一视角下(光场数据包含多个视角)的光场图像,通过不同深度的重对焦形成对焦图像集,对焦图像集是一组与固定视点有不同焦距的图像。在重聚焦过程中,可以通过不同的深度设置从光场输入产生一个焦点叠加。然后结合语义分析对各对焦图像进行个体的语义分割,在通过计算各个体的语义置信度和聚焦度,得到对焦图像的质量评价,并且通过聚类获得各所述个体于不同所述对焦图像上的深度值范围,从而形成对焦语义分割的结果。
在通过对其他视角下的光场图像进行语义分析,并得到针对各检测出的个体对应的原始光场语义分割的结果。
再各所述个体对应的所述深度值范围通过重投影将各所述个体对应的所述对焦语义分割的结果映射到各视角下以形成映射语义分割。
最后通过所述原始语义分割与所述映射语义分割的相似度对比获得各视角下各所述个体的对应关系。
另外,结合图1所示,还需说明的是,各所述个体的所述深度值范围对应有视差范围,所述视差范围能够作为立体匹配时的视差搜索区间,以缩减所述立体匹配的计算时间。
如图2所示,展示为本申请于一实施例中的基于光场语义的个体匹配方法的流程示意图。如图所示,所述方法包括:
步骤S301:获取包含不同视角的光场图像集。
于本申请的一实施例中,所述光场图像集是由相机阵列对应一场景拍摄得到的多视角图像组成。
于本实施例中,本申请所述方法以及最终用于的立体匹配算法,都是基于光场相机真累进行的。
光场具有很好的去遮挡特性。基于深度学习的语义分割模型多针对单张图片进行,难以获得多视角下的语义个体对应关系,且当场景中存在严重遮挡时,语义分割往往不能得到令人满意的结果。
通常光场是指一束光在传播过程中所包含的信息涵盖光线强强度、位置、方向等信息。如图3所示,L是光的强度,(u,v)平面是在空间中光的位置,(s,t)平面是在空间中光线的散布方向,所示光场实际是一个四维的参数化表示,是空间中同时包含位置和方向信息的思维光辐射常。简单来说,其涵盖了光线在传播中的所有信息。也即为光线携带二维位置信息(u,v)和二维方向信息(s,t)在广场中传递。
光场是光线在空间传播中四维的概念,光场是空间中同时包含位置和方向信息的四维光辐射场的参数化表示,是空间中所有光线辐射函数的总体。在空间内任意的角度,任意的位置都可以获得整个空间环境的真实信息,用光场获得的图像信息更全面,品质更好。
光场是一个4D矢量,它通过与两个平行平面uv和st相交指定每条射线,其中[s,t]是表示每个光场像机位置的摄像机平面,[u,v]表示所需渲染相机的像素坐标。
如图4所示,展示为光场相机阵列的结构示意图,如图所示,一个光场相机阵列由M×N个相机组成,其中,M,N>0,光场中的相机均匀地排列在间距为b的网格中。相机数量及间距可由具体使用场景确定。如图5所示,展示为光场相机应用及光场图像集的场景示意图。通过光场相机阵列以获取一场景的包含多个视角的光场图像集。
需要说明的是,这里提到光场相机阵列并非代表执行本方法必须要用到光场相机阵列,本方法的关键在于所获取的光场图像集,与采集光场图像设备的相关参数(内外参数),以及在获得这些输入后如何优化深度。光场相机阵列与本方法所应用的设备并非为一整体。
例如,本方法应用于一电子设备,而这一电子设备只需要接收光场图像集进行后续处理即可,其可以连接光场相机阵列组成***,也可以是独立设备,能够与任意地点或任意型号或任意相机数量的光场相机阵列形成组合,而并不是绑定的关系。
步骤S302:选取任一视角的光场图像进行不同深度的重对焦以形成对焦图像集,对各对焦图像进行语义分析得到不同个体的对焦语义分割。
于本申请的一实施例中,所述重对焦中依据均值等分选取不同对焦深度。
具体来说,所述重对焦中选取的不同对焦深度依据如下公式:
其中,N为像素大小,i∈[1,…,N];di为对焦深度;dsmax为最大深度值;dsmin为最小深度值。
于本实施例中,所述选取任一视角优选为中心视角。
于本申请的一实施例中,所述对各对焦图像进行语义分析得到不同个体的对焦语义分割的方法包括:
A、依据目标检测找到各所述个体,并通过边界框对各所述个体进行语义标记与分割;
B、计算各所述个体对应的语义置信度、及聚焦度,据以得到对应所述对焦图像的对焦语义分割的质量分布。
于本实施例中,所述语义分割为图像语义分割,根据语义特征将图像中每一像素标记为相应的类别,对所述目标场景进行语义分割为把场景中的各个体实例从场景中分割出来。
举例来说,所述语义分割依据预先构建的基于卷积神经网络的分割模型,将样本场景的深度图像和彩色图像作为所述语义分割模型的输入,对样本场景的图像进行人工语义分割的结果作为输出,对所述语义分割模型进行训练,确定所述语义分割模型每一层的最优参数。
具体的,将所述目标场景的场景深度图作为预设语义分割模型的输入,得到所述目标场景的语义分割结果。并在基于语义分割结果的基础上,为每个个体匹配或划分对应的像素区域(P)和对应的位置框(边界框)。
于本实施例中,对于对焦图像Si上的个体为k,记其检测框为分割图为/>对应的语义置信度为/>聚焦度为/>对应的对焦图像Si的对焦语义分割的质量分布Qi为:
其中,P为对焦图片Si中属于实例k的图像区域。为k所对应的掩模以0,1的二值矩阵表示;⊙代表逐像素的模取操作。
其中,(s0,t0)为s-t平面上预设视角的视点,(si,ti)为其他视角的视点,是(s0,t0)视角下像素p在其他视角对应的像素集。
其中,defocus(p)是为针对光场重对焦中的鬼影或散焦等现象而提出的,以评价在不同视角下所取像素的像素值差异,以辨别是否出现鬼影等现象。
在一或多个实施例中,优选可以是通过与预设视角的像素值与其最接近的分视角对应像素值的差异。其通过在重对焦过程中,在不同视角下所取像素的像素值差异,即受像素值差异的约束,重新定义的重对焦过程。具体来说为,重对焦的视角像素值及与最接近的分视角中的对应像素值之间的方差。
需要说明的是,上述defocus(p)公式可以通过meanshift(均值偏移)聚类算法,因为事先并不知道有几类个体,也就是说K是未知的。
所述meanshift算法的核心是,将数据集中的每一个点,根据某给定邻域范围,将其不断移动向给定范围的密度中心。最后合并相近的密度中心得到最后的分类,好处在于不用预先给定类别数。
后续判断两个个体是否属于同类也会用到该meanshift算法。
另外,需要说明的是,实例语义分割或个体语义分割,是语义分割的子类型,是同时对每个目标个体进行定位和语义分割,每个目标即为独立的实例或个体,该任务最终以每个实例的分割准确度进行评估。举例来说,在语义分割的基础上,会将所有人类标记同一的人类。而在实例语义分割或个体语义分割基础上,对于空间中的不同个体有且仅有唯一的分类,如两个不同的人,也会被标记为不同的个体。
举例来说,所述实例分割的方法可以包括:Mask R-CNN、SDS、Hyper Columns、CFM、Deep&Sharp Mask、MNC、ISFCN、FCIS、SIS及PAN中的任意一种。
对比于传统单目语义分析,对焦光场语义分析可以解决复杂遮挡情况下语义分析不准确或出现严重错误的问题。我们的对焦光场语义分析建立在个体层面时,即,对于空间中的不同个体有且仅有唯一的分类。
步骤S303:依据各所述对焦语义分割的结果对属于同类的所述个体进行聚类以获得各所述个体于不同所述对焦图像上的深度值范围。
于本申请的一实施例中,所述依据各所述对焦语义分割的结果对属于同类的所述个体进行聚类的方法包括:
A、任选两个所述个体,依据各所述个体对应的所述边界框之间差距、及深度值之间差距粗估两个所述个体的相似度,以判断两个所述个体是否属于同类。
于本实施例中,由于各个对焦图像的语义分析是单独进行的,在语义分析之后我们通过均值飘移(meanshift)聚类对不同对焦图片上的检出个体进行聚类。
具体来说,个体的相似度定义为:
其中,di表示该个体所在对焦图像的深度。对焦图像Si上的检测框为。
于本申请的一实施例中,所述方法还包括:
B、依据各所述个体于不同所述对焦图像上的深度值范围作为聚类后所述个体的深度值范围。
C、选取各所述个体的聚类中所述质量分布最高的个体、通过语义分析得到所述个体对应的语义信息、及对应所述个体的深度值范围作为各所述个体的所述对焦语义分割的结果
进一步地,由于同一个个体可能出现在不同对焦图像上并表示出来一定程度的失焦,本方法以高斯距离来建模不同个体之间的深度差异。
即每个聚类代表同一个体,记为其深度范围/>为该聚类所包含的深度范围,在每个聚类中选取质量分布Q(k,Si)最高的个体,将其语义信息及深度di包含到对对焦语义分割对应结果的集合中。
步骤S304:对其他视角下的所述光场图像进行语义分析,以得到各视角下各对应不同所述个体的原始语义分割。
于本实施例中,对其他视角下的光场图像进行语义分析,其内容与步骤S302中的语义分析的原理及过程类似,故这里不再赘述。
于本实施例中,对其他视角下的所述光场图像进行语义分析,得到视角V(s,t)下个体i的语义分割的集合
步骤S305:依据所述对焦图像集上各所述个体对应的所述深度值范围通过重投影将各所述个体对应的所述对焦语义分割的结果映射到各视角下以形成映射语义分割。
于本申请的一实施例中,所述步骤S305具体方法包括:
A、针对其他目标视角下所述光场图像中每一个像素找到其在重对焦视角下所述对焦图像集中不同对焦深度下的像素。
于本实施例中,由步骤S302中所述的对焦语义分析,本方法可以获得场景中具有语义信息个体的大致深度di及粗略位置关系,从而根据个体深度di通过重投影获取不同视角下的语义对应关系。定义对焦视角(优选中心视角)到其余视角的重投影变换为H,则目标视角下的像素所对应中心视角的像素为:
B、选取对焦深度最小且不属于背景的所述语义信息作为目标视角下当前像素的语义信息。
重投影的过程即为对于目标视角中的每一个像素找到其中心视角在表示集合中不同对焦深度下所对应的像素pd,我们取对焦深度最小且语义不属于背景分类的对焦图片上的语义值作为当前像素的语义值。即
按照表示集合中对焦图片的深度通过重投影将对焦语义分析结果映射到各个视角下记为
步骤S306:通过所述原始语义分割与所述映射语义分割的相似度对比获得各视角下各所述个体的对应关系。
于本实施例汇总,通过原始语义分割集合与映射语义分割集合/>的相似度对比获得各个视角下的对应关系。
于本申请的一实施例中,所述步骤S306具体方法包括:
A、将所述原始语义分割与所述映射义分割的相似度对比值与预设值比较;
B、若小于所述预设值,则选择所述映射语义分割的结果表示各视角下所述个体对应的语义分割结果;
C、依据各视角下各所述个体的语义分割结果,以获得各视角下各所述个体的对应关系。
所述相似度对比值为:
若则将/>标记为/>所代表的个体/>
其中,SIMthresh为预设值。
于本申请的一实施例中,所述步骤S306具体还方法包括:各所述个体的所述深度值范围对应有视差范围,所述视差范围能够作为立体匹配时的视差搜索区间,以缩减所述立体匹配的计算时间。
于本实施例中,将不同视角下的个体按照归类,即可得到个体在不同视角下的对关系。并将聚类深度范围/>所对应的视差范围作为立体匹配时所使用的视差搜索区间。
综上所述,本申请所述的基于光场语义的个体匹配方法,主要利用光对焦语义分割及光场语义,以获得多视角下的语义个体对应关系,在立体匹配时将搜索范围限制在相同的区域内,大大缩短了匹配计算时间。
如图6所示,展示为本申请于一实施例中的电子装置的模块示意图。如图所示,所述装置600包括:
获取模块601,用于获取包含不同视角的光场图像集;
处理模块602,用于选取任一视角的光场图像进行不同深度的重对焦以形成对焦图像集,对各对焦图像进行语义分析得到不同个体的对焦语义分割;依据各所述对焦语义分割的结果对属于同类的所述个体进行聚类以获得各所述个体于不同所述对焦图像上的深度值范围;对其他视角下的所述光场图像进行语义分析,以得到各视角下各对应不同所述个体的原始语义分割;依据所述对焦图像集上各所述个体对应的所述深度值范围通过重投影将各所述个体对应的所述对焦语义分割的结果映射到各视角下以形成映射语义分割;通过所述原始语义分割与所述映射语义分割的相似度对比获得各视角下各所述个体的对应关系。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请所述方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
还需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块602可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块602的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,简称SOC)的形式实现。
如图7所示,展示为本申请于一实施例中的电子设备的结构示意图。如图所示,所述电子设备700包括:存储器701、处理器702、及通信器703;所述存储器701用于存储计算机指令;所述处理器702运行计算机指令实现如图2所述的化方法。
在一些实施例中,所述电子设备700中的所述存储器701的数量均可以是一或多个,所述处理器702的数量均可以是一或多个,所述通信器703的数量均可以是一或多个,而图7中均以一个为例。
于本申请一实施例中,所述电子设备700中的处理器702会按照如图2所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器701中,并由处理器702来运行存储在存储器702中的应用指令,从而实现如图2所述的方法。
在一些实施例中,所述通信器703通信连接的外部设备可以是光场相机阵列。
所述存储器701可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。所述存储器701存储有操作***和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作***可包括各种***程序,用于实现各种基础业务以及处理基于硬件的任务。
所述处理器702可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
所述通信器703用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信连接。所述通信器703可包含一组或多组不同通信方式的模块,例如,与CAN总线通信连接的CAN通信模块。所述通信连接可以是一个或多个有线/无线通讯方式及其组合。通信方式包括:互联网、CAN、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字用户线(DSL)网络、帧中继网络、异步传输模式(ATM)网络、虚拟专用网络(VPN)和/或任何其它合适的通信网络中的任何一个或多个。例如:WIFI、蓝牙、NFC、GPRS、GSM、及以太网中任意一种及多种组合。
在一些具体的应用中,所述电子设备700的各个组件通过总线***耦合在一起,其中总线***出包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见,在图7中将各种总线都成为总线***。
于本申请的一实施例中,本申请提供一种非暂时的计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如图2所述的方法。
所述计算机可读存储介质,本领域普通技术人员可以理解:实现上述***及各单元功能的实施例可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述***及各单元功能的实施例;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供的一种基于光场语义的个体匹配方法、装置、设备和介质,通过获取包含不同视角的光场图像集;选取任一视角的光场图像进行不同深度的重对焦以形成对焦图像集,对各对焦图像进行语义分析得到不同个体的对焦语义分割;依据各所述对焦语义分割的结果对属于同类的所述个体进行聚类以获得各所述个体于不同所述对焦图像上的深度值范围;对其他视角下的所述光场图像进行语义分析,以得到各视角下各对应不同所述个体的原始语义分割;依据所述对焦图像集上各所述个体对应的所述深度值范围通过重投影将各所述个体对应的所述对焦语义分割的结果映射到各视角下以形成映射语义分割;通过所述原始语义分割与所述映射语义分割的相似度对比获得各视角下各所述个体的对应关系。
本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (9)
1.一种基于光场语义的个体匹配方法,其特征在于,所述方法包括:
获取包含不同视角的光场图像集;
选取任一视角的光场图像进行不同深度的重对焦以形成对焦图像集,对各对焦图像进行语义分析得到不同个体的对焦语义分割;包括:依据目标检测找到各所述个体,并通过边界框对各所述个体进行语义标记与分割;计算各所述个体对应的语义置信度、及聚焦度,据以得到对应所述对焦图像的对焦语义分割的质量分布;
依据各所述对焦语义分割的结果对属于同类的所述个体进行聚类以获得各所述个体于不同所述对焦图像上的深度值范围,其包括:任选两个所述个体,依据各所述个体对应的所述边界框之间差距、及深度值之间差距粗估两个所述个体的相似度,以判断两个所述个体是否属于同类;依据各所述个体于不同所述对焦图像上的深度值范围作为聚类后所述个体的深度值范围;选取各所述个体的聚类中所述质量分布最高的个体、通过语义分析得到所述个体对应的语义信息、及对应所述个体的深度值范围作为各所述个体的所述对焦语义分割的结果;
对其他视角下的所述光场图像进行语义分析,以得到各视角下各对应不同所述个体的原始语义分割;
依据所述对焦图像集上各所述个体对应的所述深度值范围通过重投影将各所述个体对应的所述对焦语义分割的结果映射到各视角下以形成映射语义分割;
通过所述原始语义分割与所述映射语义分割的相似度对比获得各视角下各所述个体的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述光场图像集是由相机阵列对应一场景拍摄得到的多视角图像组成。
3.根据权利要求1所述的方法,其特征在于,所述重对焦中依据均值等分选取不同对焦深度。
4.根据权利要求1所述的方法,其特征在于,所述依据所述对焦图像集上各所述个体对应的所述深度值范围通过重投影将各所述个体对应的所述对焦语义分割的结果映射到各视角下以形成映射语义分割的方法包括:
针对其他目标视角下所述光场图像中每一个像素找到其在重对焦视角下所述对焦图像集中不同对焦深度下的像素;
选取对焦深度最小且不属于背景的语义信息作为目标视角下当前像素的语义信息。
5.根据权利要求1所述的方法,其特征在于,所述通过所述原始语义分割与所述映射语义分割的相似度对比获得各视角下各所述个体的对应关系的方法包括:
将所述原始语义分割与所述映射语义分割的相似度对比值与预设值比较;
若小于所述预设值,则选择所述映射语义分割的结果表示各视角下所述个体对应的语义分割结果;
依据各视角下各所述个体的语义分割结果,以获得各视角下各所述个体的对应关系。
6.根据权利要求5所述的方法,其特征在于,各所述个体的所述深度值范围对应有视差范围,所述视差范围能够作为立体匹配时的视差搜索区间,以缩减所述立体匹配的计算时间。
7.一种电子装置,其特征在于,所述装置包括:
获取模块,用于获取包含不同视角的光场图像集;
处理模块,用于选取任一视角的光场图像进行不同深度的重对焦以形成对焦图像集,对各对焦图像进行语义分析得到不同个体的对焦语义分割;包括:依据目标检测找到各所述个体,并通过边界框对各所述个体进行语义标记与分割;计算各所述个体对应的语义置信度、及聚焦度,据以得到对应所述对焦图像的对焦语义分割的质量分布;
依据各所述对焦语义分割的结果对属于同类的所述个体进行聚类以获得各所述个体于不同所述对焦图像上的深度值范围,其包括:任选两个所述个体,依据各所述个体对应的所述边界框之间差距、及深度值之间差距粗估两个所述个体的相似度,以判断两个所述个体是否属于同类;依据各所述个体于不同所述对焦图像上的深度值范围作为聚类后所述个体的深度值范围;选取各所述个体的聚类中所述质量分布最高的个体、通过语义分析得到所述个体对应的语义信息、及对应所述个体的深度值范围作为各所述个体的所述对焦语义分割的结果;
对其他视角下的所述光场图像进行语义分析,以得到各视角下各对应不同所述个体的原始语义分割;依据所述对焦图像集上各所述个体对应的所述深度值范围通过重投影将各所述个体对应的所述对焦语义分割的结果映射到各视角下以形成映射语义分割;通过所述原始语义分割与所述映射语义分割的相似度对比获得各视角下各所述个体的对应关系。
8.一种电子设备,其特征在于,所述设备包括:存储器、处理器、及通信器;所述存储器用于存储计算机指令;所述处理器用于运行计算机指令以实现如权利要求1至6中任意一项所述的方法;所述通信器通信连接的外部设备。
9.一种非暂时的计算机可读存储介质,其特征在于,存储有计算机指令,所述计算机指令被运行时执行如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910361188.5A CN111862098B (zh) | 2019-04-30 | 2019-04-30 | 基于光场语义的个体匹配方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910361188.5A CN111862098B (zh) | 2019-04-30 | 2019-04-30 | 基于光场语义的个体匹配方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111862098A CN111862098A (zh) | 2020-10-30 |
CN111862098B true CN111862098B (zh) | 2023-11-24 |
Family
ID=72965696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910361188.5A Active CN111862098B (zh) | 2019-04-30 | 2019-04-30 | 基于光场语义的个体匹配方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111862098B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116721222B (zh) * | 2023-08-10 | 2023-10-31 | 清华大学 | 大范围光场语义驱动智能表征与实时重建方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2887642A2 (en) * | 2013-12-23 | 2015-06-24 | Nokia Corporation | Method, apparatus and computer program product for image refocusing for light-field images |
US9454819B1 (en) * | 2015-06-03 | 2016-09-27 | The United States Of America As Represented By The Secretary Of The Air Force | System and method for static and moving object detection |
CN106101522A (zh) * | 2015-04-30 | 2016-11-09 | 汤姆逊许可公司 | 使用非光场成像设备获得光场数据的方法和设备 |
CN106768325A (zh) * | 2016-11-21 | 2017-05-31 | 清华大学 | 多光谱光场视频采集装置 |
CN107862698A (zh) * | 2017-11-29 | 2018-03-30 | 首都师范大学 | 基于k均值聚类的光场前景分割方法及装置 |
WO2018072817A1 (en) * | 2016-10-18 | 2018-04-26 | Photonic Sensors & Algorithms, S.L. | A device and method for obtaining distance information from views |
US10057498B1 (en) * | 2013-03-15 | 2018-08-21 | Cognex Corporation | Light field vision system camera and methods for using the same |
CN108596965A (zh) * | 2018-03-16 | 2018-09-28 | 天津大学 | 一种光场图像深度估计方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014043641A1 (en) * | 2012-09-14 | 2014-03-20 | Pelican Imaging Corporation | Systems and methods for correcting user identified artifacts in light field images |
ITUB20153277A1 (it) * | 2015-08-28 | 2017-02-28 | St Microelectronics Srl | Procedimento per ricerche visuali, sistema, apparecchiatura e prodotto informatico corrispondenti |
-
2019
- 2019-04-30 CN CN201910361188.5A patent/CN111862098B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10057498B1 (en) * | 2013-03-15 | 2018-08-21 | Cognex Corporation | Light field vision system camera and methods for using the same |
EP2887642A2 (en) * | 2013-12-23 | 2015-06-24 | Nokia Corporation | Method, apparatus and computer program product for image refocusing for light-field images |
CN106101522A (zh) * | 2015-04-30 | 2016-11-09 | 汤姆逊许可公司 | 使用非光场成像设备获得光场数据的方法和设备 |
US9454819B1 (en) * | 2015-06-03 | 2016-09-27 | The United States Of America As Represented By The Secretary Of The Air Force | System and method for static and moving object detection |
WO2018072817A1 (en) * | 2016-10-18 | 2018-04-26 | Photonic Sensors & Algorithms, S.L. | A device and method for obtaining distance information from views |
CN106768325A (zh) * | 2016-11-21 | 2017-05-31 | 清华大学 | 多光谱光场视频采集装置 |
CN107862698A (zh) * | 2017-11-29 | 2018-03-30 | 首都师范大学 | 基于k均值聚类的光场前景分割方法及装置 |
CN108596965A (zh) * | 2018-03-16 | 2018-09-28 | 天津大学 | 一种光场图像深度估计方法 |
Non-Patent Citations (5)
Title |
---|
Adaptive Affinity Fields for Semantic Segmentation;Tsung-Wei Ke等;ECCV 2018: Computer Vision;605–621 * |
Matching Features Correctly through Semantic Understanding;N. Kobyshev 等;International Conference on 3D Vision;472-479 * |
光场成像技术及其在计算机视觉中的应用;张驰;刘菲;侯广琦;孙哲南;谭铁牛;;中国图象图形学报(第03期);5-23 * |
基于卷积神经网络的光场图像深度估计技术研究;罗姚翔;中国优秀硕士学位论文全文数据库 (信息科技辑)(第(2019)01期);I138-4267 * |
自适应成本量的抗遮挡光场深度估计算法;熊伟;张骏;高欣健;张旭东;高隽;;中国图象图形学报(第12期);91-104 * |
Also Published As
Publication number | Publication date |
---|---|
CN111862098A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6798183B2 (ja) | 画像解析装置、画像解析方法およびプログラム | |
US9147265B2 (en) | System and method for rapid cluster analysis of hyperspectral images | |
CN111753698A (zh) | 一种多模态三维点云分割***和方法 | |
CN113486887B (zh) | 三维场景下的目标检测方法和装置 | |
Hambarde et al. | Single image depth estimation using deep adversarial training | |
Wang et al. | Mv-fcos3d++: Multi-view camera-only 4d object detection with pretrained monocular backbones | |
US10567635B2 (en) | Three dimensional moving pictures with a single imager and microfluidic lens | |
CN111914938A (zh) | 一种基于全卷积二分支网络的图像属性分类识别方法 | |
RU2608239C1 (ru) | Способ и система определения пригодности изображения документа для оптического распознавания символов и других операций по обработке изображений | |
CN109064444B (zh) | 基于显著性分析的轨道板病害检测方法 | |
Junayed et al. | HiMODE: A hybrid monocular omnidirectional depth estimation model | |
CN111862098B (zh) | 基于光场语义的个体匹配方法、装置、设备和介质 | |
CN111382753B (zh) | 光场语义分割方法、***、电子终端及存储介质 | |
Ma et al. | STSRNet: Self-texture transfer super-resolution and refocusing network | |
Farhood et al. | 3D point cloud reconstruction from a single 4D light field image | |
CN116051736A (zh) | 一种三维重建方法、装置、边缘设备和存储介质 | |
CN111862106B (zh) | 基于光场语义的图像处理方法、计算机装置、及存储介质 | |
Ke et al. | Scale-aware dimension-wise attention network for small ship instance segmentation in synthetic aperture radar images | |
Zhang et al. | Light field salient object detection via hybrid priors | |
CN116228850A (zh) | 物体姿态估计方法、装置、电子设备及可读存储介质 | |
CN111508063A (zh) | 一种基于图像的三维重建方法及*** | |
CN117315438B (zh) | 基于兴趣点的图像色彩美学评估方法、装置及设备 | |
Xie et al. | Automated co-superpixel generation via graph matching | |
CN115564778B (zh) | 缺陷的检测方法、装置、电子设备及计算机可读存储介质 | |
Xu et al. | Depth estimation algorithm based on data-driven approach and depth cues for stereo conversion in three-dimensional displays |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |