CN111862106B

CN111862106B - 基于光场语义的图像处理方法、计算机装置、及存储介质

Info

Publication number: CN111862106B
Application number: CN201910360375.1A
Authority: CN
Inventors: 刘睿洋
Original assignee: Yaoke Intelligent Technology Shanghai Co ltd
Current assignee: Yaoke Intelligent Technology Shanghai Co ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2023-09-29
Anticipated expiration: 2039-04-30
Also published as: CN111862106A

Abstract

本申请的基于光场语义的图像处理方法、计算机装置、及存储介质，根据原始光场数据建立原始光场中一预设视角下的焦点图像堆栈；其中，所述焦点图像堆栈由一组不同深度的焦点图片组成；分析焦点图像堆栈中每个焦点图片所包含每个实例的语义信息，以形成语义焦点图像堆栈；根据所述语义焦点图像堆栈中属于同一实例在不同焦点图片的质量，选择其中质量最高的目标焦点图片来代表所述实例，以形成目标焦点图片集；将所述目标焦点图片集中的实例的语义信息传播至所述原始光场；本申请的方案能实现对实例语义的高效表示，提升商业应用价值。

Description

基于光场语义的图像处理方法、计算机装置、及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及基于光场语义的图像处理方法、计算机装置、及存储介质。

背景技术

图像语义分割是计算机视觉的基础任务之一。该任务以二维图像为输入，通过视觉算法分割出图像中的对象区域，并识别其中的内容，也即，在保证图像域连续性的同时为图片的每个像素点确定所属语义类别。传统分割方法多基于条件随机场、随机森林等统计学方法构建分类器，深度学习之后，运用卷积神经网络实现高效图片分类的同时，在分割问题上也取得了重大进展。同时，随着多视几何的发展，越来越多的研究者将立体视觉信息融合到传统单目视觉算法流程中。

但是，现有的图像语义分割算法，尤其是进一步的实例分割算法(InstanceSegmentation)，其能实现对同类型的不同目标物体的区分，算法较一般的语义分割更为复杂，因此如何提升运算效率，已成为业界亟待解决的技术问题。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供基于光场语义的图像处理方法、计算机装置、及存储介质，通过算法优化解决现有技术的问题。

为实现上述目标及其他相关目标，本申请提供一种基于光场语义的图像处理方法，包括：根据原始光场数据建立原始光场中一预设视角下的焦点图像堆栈；其中，所述焦点图像堆栈由一组不同深度的焦点图片组成；分析焦点图像堆栈中每个焦点图片所包含每个实例的语义信息，以形成语义焦点图像堆栈；根据所述语义焦点图像堆栈中属于同一实例在不同焦点图片的质量，选择其中质量最高的目标焦点图片来代表所述实例，以形成目标焦点图片集；将所述目标焦点图片集中的实例的语义信息传播至所述原始光场。

于本申请的一实施例中，所述原始光场数据是由相机阵列对应一场景在一或多个时间点同时拍摄得到的一或多个图像组所得到的。

于本申请的一实施例中，各所述焦点图片是在所述原始光场输入数据所对应场景的光场模型中沿深度平均采样得到的。

于本申请的一实施例中，所述分析焦点图像堆栈中每个焦点图片所包含每个实例的语义信息，包括：对应每个焦点图片进行实例分割以得到其中每个实例的实例语义图像区域及相应的语义置信度。

于本申请的一实施例中，所述实例分割的方法包括：Mask R-CNN、SDS、HyperColumns、CFM、Deep&Sharp Mask、MNC、ISFCN、FCIS、SIS及PAN中的任意一种。

于本申请的一实施例中，判断不同焦点图片中的实例属于同一物体的方法，包括：根据每个同一实例在不同焦点图片中边界框之间的相似度、以及每个同一实例所在的不同焦点图片间的深度差异，对实例所属物体的类别进行聚类分析。

于本申请的一实施例中，所述深度差异通过高斯距离度量。

于本申请的一实施例中，所述根据所述语义焦点图像堆栈中属于同一实例在不同焦点图片的质量，选择其中质量最高的目标焦点图片来代表所述实例，包括：获取每个实例在每个所述焦点图片的质量分数；其中，每个质量分数是根据每个实例语义图像区域分别在各焦点图片中的语义置信度和清晰度综合评价得到的。

于本申请的一实施例中，所述清晰度中包含对所取实例语义图像区域中像素的像素值在不同视角下差异的评价。

于本申请的一实施例中，所述不同视角包括所述预设视角同其最接近的其它视角。

于本申请的一实施例中，还包括：关联存储每个目标焦点图片集的深度信息及实例的语义信息至一语义表示集合，所述语义信息关联有语义掩模；所述将所述目标焦点图片集中的实例的语义信息传播至所述原始光场，包括：根据所述深度信息将各目标焦点图片集中的各实例语义图像区域相应的语义掩模重投影至目标视角下的对应实例。

于本申请的一实施例中，所述重投影包括：对于目标视角中的每一个当前像素，找到其在所述预设视角下在所述语义表示集中不同深度目标焦点图片集上所对应的像素，选择其中深度信息最小且语义不属于背景分类的目标焦点图片上的像素的语义掩模值作为该当前像素的语义掩模值。

为实现上述目标及其他相关目标，本申请提供一种计算机装置，包括：一或多个存储器，用于存储计算机程序指令；一或多个处理器，用于运行所述计算机程序指令，以执行包括：根据原始光场数据建立原始光场中一预设视角下的焦点图像堆栈；其中，所述焦点图像堆栈由一组不同深度的焦点图片组成；分析焦点图像堆栈中每个焦点图片所包含每个实例的语义信息，以形成语义焦点图像堆栈；根据所述语义焦点图像堆栈中属于同一实例在不同焦点图片的质量，选择其中质量最高的目标焦点图片来代表所述实例，以形成目标焦点图片集；将所述目标焦点图片集中的实例的语义信息传播至所述原始光场。

于本申请的一实施例中，装置还执行包括：判断不同焦点图片中的实例属于同一物体的方法，包括：根据每个同一实例在不同焦点图片中边界框之间的相似度、以及每个同一实例所在的不同焦点图片间的深度差异，对实例所属物体的类别进行聚类分析。

于本申请的一实施例中，所述深度差异通过高斯距离度量。

为实现上述目标及其他相关目标，本申请提供一种非暂时的计算机存储介质，用于存储计算机程序指令，所述计算机程序指令被一或多个处理器运行时，执行包括：根据原始光场数据建立原始光场中一预设视角下的焦点图像堆栈；其中，所述焦点图像堆栈由一组不同深度的焦点图片组成；分析焦点图像堆栈中每个焦点图片所包含每个实例的语义信息，以形成语义焦点图像堆栈；根据所述语义焦点图像堆栈中属于同一实例在不同焦点图片的质量，选择其中质量最高的目标焦点图片来代表所述实例，以形成目标焦点图片集。

如上所述，本申请的基于光场语义的图像处理方法、计算机装置、及存储介质，根据原始光场数据建立原始光场中一预设视角下的焦点图像堆栈；其中，所述焦点图像堆栈由一组不同深度的焦点图片组成；分析焦点图像堆栈中每个焦点图片所包含每个实例的语义信息，以形成语义焦点图像堆栈；根据所述语义焦点图像堆栈中属于同一实例在不同焦点图片的质量，选择其中质量最高的目标焦点图片来代表所述实例，以形成目标焦点图片集；将所述目标焦点图片集中的实例的语义信息传播至所述原始光场；本申请的方案能实现对实例语义的高效表示，提升商业应用价值。

附图说明

图1显示为光场4D模型的原理示意图。

图2显示为本申请一实施例中相机阵列实现的光场相机的结构示意图。

图3显示为本申请一实施例中图像处理***的模块示意图。

图4显示为本申请一实施例中计算机装置的结构示意图。

图5显示为本申请一实施例中基于光场语义的图像处理方法的流程示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用***，本说明书中的各项细节也可以基于不同观点与应用***，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面以附图为参考，针对本申请的实施例进行详细说明，以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现，并不限定于此处说明的实施例。

为了明确说明本申请，省略与说明无关的部件，对于通篇说明书中相同或类似的构成要素，赋予了相同的参照符号。

在通篇说明书中，当说某部件与另一部件“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部件“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素排除在外，而是意味着可以还包括其它构成要素。

当说某部件在另一部件“之上”时，这可以是直接在另一部件之上，但也可以在其之间伴随着其它部件。当对照地说某部件“直接”在另一部件“之上”时，其之间不伴随其它部件。

虽然在一些实例中术语第一、第二等在本文中用来描述各种元件，但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如，第一接口及第二接口等描述。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

此处使用的专业术语只用于言及特定实施例，并非意在限定本申请。此处使用的单数形态，只要语句未明确表示出与之相反的意义，那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化，并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。

表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一部件相对于另一部件的关系而使用。这种术语是指，不仅是在附图中所指的意义，还包括使用中的装置的其它意义或作业。例如，如果翻转附图中的装置，曾说明为在其它部件“下”的某部件则说明为在其它部件“上”。因此，所谓“下”的示例性术语，全部包括上与下方。装置可以旋转90°或其它角度，代表相对空间的术语也据此来解释。

虽然未不同地定义，但包括此处使用的技术术语及科学术语，所有术语均具有与本申请所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的内容相符的意义，只要未进行定义，不得过度解释为理想的或非常公式性的意义。

光场顾名思义，就是关于光的某个物理量在空间内的分布。

如图1所示，光场模型可以简化地可以通过与两个平行平面(TPP)即u-v和s-t相交的射线来表示。

其中，光线同两个平面交点的坐标分别为(s，t)和(u，v)，也就是说，每个四维数据u，v，s，t就能唯一表示一条光线，则光场又由空间内的各条光线形成，则可以表示为LF(u，v，s，t)。

从而，光线依次穿过的任意两个平行的光学器件都可以使用双平面法来表征。

为了重建光场，那么就需要进行光场数据采集，进行光场数据采集的设备有例如光场相机(LF Camera)，光场相机的结构有几种实现方式，例如在相机的主镜头与成像传感器之间设置微透镜阵列，或者相机阵列等，而相应的st平面和uv平面，比如光场相机中的主镜头与微透镜阵列、主镜头与传感器像面、相机镜头阵列和成像传感器阵列等。

如图2所示，展示一实施例中相机阵列的结构示意图。

相机阵列，顾名思义，是将多个相机按阵列形式如M×N(M，N大于0)排列；多个相机可以同时采集一场景的不同图像，而这些图像的集合可以分析出光场数据。

举例来说，图中展示的相机阵列200是3×3的，当然并非以此为限。其中，每行中相邻相机镜头201中间的间距被称为基线(baseline)，基线越宽就越能采集到障碍物后的物体图像，也就是说，宽基线的相机阵列能加强去遮挡的能力。

当然，需要说明的是，基线宽度、相机阵列结构均可以根据需进行图像采集的场景(scene)的实际尺寸要求来设置。

结合上述，相机阵列中的各相机镜头可以位于(s,t)平面，而各相机的成像传感器就位于(u,v)平面。

如图3所示，展示本申请一实施例中图像处理***的结构示意图。

在该应用场景中，设置摄像装置301、及计算机装置302。

其中，所述摄像装置301可以通过前述实施例中的光场相机的结构实现，例如，包括一或多个相机阵列，所述相机阵列的结构可以如前述实施例中所描述，每个相机阵列包括多个相机；所述摄像装置301中的相机阵列采集光场数据(例如其中多个相机采集的一或多组图片)；所述计算机装置302与所述摄像装置301通信连接，以令摄像装置301能向计算机装置302传输光场数据，和/或计算机装置302向摄像装置301发送控制指令。

在一些示例中，所述通信连接可以是通过电性线路的有线连接，例如通过对端的USB接口、HDMI接口等进行对应标准线路的连接。

在一些示例中，所述通信连接也可以是无线连接，例如通过对端的无线通信器，如WiFi、蓝牙、移动通信模块(2G/3G/4G/5G)等进行连接。

在一些示例中，所述通信连接也可以是网络连接，即通过局域网和/或互联网进行远距离的通信连接。

所述计算机装置302，能用于以光场数据作为输入，以进行图像处理而输出所需要的图像结果。

所述计算机装置302可以根据以上各种实施例所应用场景的不同而在其具体实现上发生变化，例如在一些示例中，所述计算机装置302可以作为一部件而与所述摄像装置301集成在同一设备中；或者，在一些示例中，所述计算机装置302也可以作为与摄像装置301位于不同设备，例如所述计算机装置302可以实现于台式机、服务器/服务器组、笔记本电脑、平板电脑、或智能手机等电子设备，通过有线或无线通信方式与所述摄像装置301通信连接。

如图4所示，展示本申请实施例中计算机装置的结构示意图。

所述计算机装置400包括：一或多个通信器401、一或多个存储器402、及一或多个处理器403。

需说明的是，在本实施例中，图中展示的部件数量仅为例举，并非以此为限。

所述通信器401，用于外部设备(例如前述实施例中的摄像装置或其它能提供光场数据的设备)通信的通信器，其可采用例如有线连接(如USB、HDMI)方式、或无线连接(如WiFi、2G/3G/4G/5G)方式进行通信的接口电路实现。

所述存储器402，用于存储计算机指令；

所述处理器403，耦合所述通信器401和存储器402，用于运行所述计算机程序指令，以实现所需的图像处理功能。

所述存储器402可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。

所述处理器403可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需说明的是，在一些实施例中，如果所述计算机装置400中已预先存储有光场数据，则其也可以不包含通信器，而离线工作。

所述计算机装置能通过运行计算机程序指令以实现基于光场语义的图像处理方法。

如图5所示，展示本申请实施例中基于光场语义的图像处理方法的流程示意图。

所述方法可以通过软件实现，例如可以通过图4实施例中存储在存储器的计算机程序指令，被处理器运行时实现。

所述方法包括：

步骤S501：根据原始光场数据建立原始光场中一预设视角下的焦点图像堆栈。

在一或多个实施例中，所述预设视角例如为相机阵列中任一相机的视角，如中心视角等；所述焦点图像堆栈是根据原始光场数据在该预设视角下重聚焦形成的一组不同深度的焦点图片组成。

可选的，所述焦点图像堆栈中的各焦点图片间的深度间隔可以相同，也就是说各所述焦点图片是在所述原始光场输入数据所对应场景的光场模型中沿深度平均采样得到的。

假设焦点图像堆栈包含N个焦点图片，则所述焦点图像堆栈的尺寸为N，在预先定义的粗场景深度范围[d_smin，d_smax]内，我们使用平均采样产生N个等距的焦点图片S_i∈[S₀，S₁…，S_N]。而焦点图片的深度可以通过下式(1)表示：

步骤S502：分析焦点图像堆栈中每个焦点图片所包含每个实例的语义信息，以形成语义焦点图像堆栈。

在一或多个实施例中，由于每个焦点图片只对应于一个深度，因此可以视为无遮挡，而且由于不正确深度的物体可以被移除、模糊、或者不规则地混合，从而就可以在混合后得到每个检测对象的有语义意义的部分；否则，如果来自场景的不同对象，则重新聚焦的像素将是语义结构被破坏的不同对象的不规则混合，实例(instance)用于表示物体在图像中的呈现。

在每个焦点图片中，我们需要将其中的对应于一实例的部分分割出来，而分割出来的对应实例的图像部分，可以成为实例语义图像区域。

例如，图像内的行人A和行人B，虽然都是行人，但属于不同个体即实例，我们要将其区分地从图像中分割出来。

具体的，可以使用实例分割方法来执行实例分割过程。

在一或多个实施例中，所述实例分割的方法包括：Mask R-CNN、SDS、HyperColumns、CFM、Deep&Sharp Mask、MNC、ISFCN、FCIS、SIS及PAN中的任意一种。

可选的，对应每个焦点图片进行实例分割以得到其中每个实例的实例语义图像区域及相应的语义置信度。

举例来说，假设从每个焦点图片S_i对应K个实例获取的实例语义图像区域P及相应的掩模为M_i表示为/>的集合，并为每个实例k∈K生成语义置信度/>表示为集合C_i，具体可表示为下式(2)：

步骤S503：根据所述语义焦点图像堆栈中属于同一实例在不同焦点图片的质量，选择其中质量最高的目标焦点图片来代表所述实例，以形成目标焦点图片集。

由于纯语义无法识别不同焦点图片中实例间的相关性，因此需要判断判断焦点图片之间的相关性，也即是说，需要先判断不同焦点图片中的实例是否属于同一物体。

在一或多个实施例中，可以根据每个同一实例在不同焦点图片中边界框之间的相似度、以及每个同一实例所在的不同焦点图片间的深度差异，对实例所属物体的类别进行聚类分析，而聚类得到的各种类别即对应一种物体。

举例来说，聚类是对不同对焦图片上的检出物体进行聚类，非监督聚类方式如谱聚类；并可以通过下式(3)进行上述实例相关性的判断：

其中，d表示该物体所在焦点图片堆栈的深度。其中第一项是评价根据焦点图片的实例对应边界框间的相似度，如果相似，则说明可能是属于同一实例；并且，由于同一个物体可能出现在不同焦点图片上并表示出来一定程度的失焦，所以第二项是通过高斯距离来建模不同物体之间的深度差异。

认为每个聚类代表同一实例，记为可选的，如果经上述处理，得到两个或两个以上的实例位于非常接近的深度，即两者的深度差值小于一深度阈值，则可以对将它们的深度设置为相互深度之和的平均值。

另外，为以最小的数据量就能表达实例的语义，可以通过计算每个焦点图片中实例的质量得分，然后选择质量得分最高的焦点图片以用于描述该实例的语义。

对于焦点图片S_i上的实例k，记目标检测出实例k的边界框(bounding box)为而对应的S_i中实例k的语义掩模/>对应的语义置信度为/>该实例在该对焦栈上的质量由结合其语义置信度及聚焦程度的Q(k,S_i)衡量：

其中，W_s和W_f是可调的权重，表示实例语义图像区域的清晰程度。

在一实施例中，的计算公式如下所示：

其中，

其中，P为焦点图片S_i中属于实例k的图像区域；为k所对应的掩膜以0，1的二值矩阵表示，⊙代表逐像素的模取操作。而针对光场重聚焦中的鬼影等现象，从而引入defocus(p)，以评价在不同视角下所取像素的像素值差异，以辨别是否出现鬼影等现象。

在一或多个实施例中，优选可以是通过预设视角的像素值及与其最接近的分视角对应像素的差异。

举例来说，可以通过例如mean shift聚类等非监督聚类算法来排除像素差异较大的不一致样本。

在一实施例中，defocus(p)的计算方式如下式所示：

其中，(s₀，t₀)为s-t平面上预设视角的视点，(s_i，t_i)为其它视角的视点，是(s₀，t₀)视角下像素p在其它视角对应的像素集。

在前述聚类得到的代表各物体的结果中，选择包含质量Q最高即峰值的目标焦点图片来代表对应实例k，而该目标实例焦点图片的焦点深度d_i及语义信息就可加以保存，该深度即可作为对应实例的深度。

保存每个实例的深度d_i就得到了焦点图像堆栈的k个实例的实例深度集合D_opt＝[d₁,…,d_k]，根据D_opt就能生成目标焦点图像集S_opt，其中，如果是基于MASK R-CNN的算法，则S_opt包含在各深度d_k的焦点图片S_k以及相应实例的语义掩模M_k，表示为例如

步骤S504：将所述目标焦点图片集中的实例的语义信息传播至所述原始光场。

通过上述过程，我们可以获得预设视角下具有语义信息的实例的大致深度d_i及粗略位置关系，从而，可以根据深度d_i通过重投影获取不同视角下该实例的语义对应关系。

在已知预设视角和目标视角的虚拟相机的参数(内参和外参矩阵，或仅外参等)，以及深度信息，就能得到预设视角(例如中心视角)到目标视角的重投影变换矩阵为H，则目标视角下的像素所对应预设视角的像素的转换关系为：

预设视角即(s₀，t₀)，目标视角即(s_i，t_i)，和p_(u,v)即分别为预设视角和目标视角下相关的像素。

将重投影过程是对应预设视角的掩模M_opt(设为包含该预设视角下各个实例的语义掩模的合并)中的每个实例，将属于该实例掩模的像素投影回目标视角得到该实例在目标视角下的语义掩模，再在目标视角下合并所有语义掩模M_(s,t)，表示为下式：

其中，S_opt数量即i对应于实例数量，表示的是在目标视角(s,t)下的每个实例的语义掩模，M_(s,t)则表示为目标视角(s,t)下的每个实例的语义掩模的合并。

经过聚类之后，每一类实例会有各自的深度值d_k，若以深度值作为自变量且以焦点图片的质量得分Q作为因变量，结果应该会近似一个单峰值函数；这样在设置一个质量得分阈值的情况下，可以通过对应质量得分阈值到质量得分峰值之间的质量得分区间，从而可在质量得分峰值所对应深度的周围划定一个深度范围，而在进行预设视角到目标视角的重投影作业时，通过深度范围可以限制预设视角到目标视角间实例匹配的搜索量。

再进一步的可选的，还可以通过上述方法同样在目标视角也得到焦点图片堆栈，进而进行预设视角下焦点图片堆栈相似的语义分析过程得到每个实例的对应深度、语义信息等，并与从预设视角重投影过去的相似深度的语义掩模进行相似程度的比对，从而确定每个实例在不同视角下的准确的映射关系。

由于通过上述的根据质量分数进行目标焦点图像的选择过程，能实现对光场实例语义的高效表示，提升商业应用的价值。

综上所述，本申请的基于光场语义的图像处理方法、计算机装置、及存储介质，根据原始光场数据建立原始光场中一预设视角下的焦点图像堆栈；其中，所述焦点图像堆栈由一组不同深度的焦点图片组成；分析焦点图像堆栈中每个焦点图片所包含每个实例的语义信息，以形成语义焦点图像堆栈；根据所述语义焦点图像堆栈中属于同一实例在不同焦点图片的质量，选择其中质量最高的目标焦点图片来代表所述实例，以形成目标焦点图片集；将所述目标焦点图片集中的实例的语义信息传播至所述原始光场；本申请的方案能实现对实例语义的高效表示，提升商业应用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于光场语义的图像处理方法，其特征在于，包括：

根据原始光场数据建立原始光场中一预设视角下的焦点图像堆栈；其中，所述焦点图像堆栈由一组不同深度的焦点图片组成；

分析焦点图像堆栈中每个焦点图片所包含每个实例的语义信息，以形成语义焦点图像堆栈，包括：对应每个焦点图片进行实例分割以得到其中每个实例的实例语义图像区域及相应的语义置信度；

根据所述语义焦点图像堆栈中属于同一实例在不同焦点图片的质量，选择其中质量最高的目标焦点图片来代表所述实例，以形成目标焦点图片集，包括：获取每个实例在每个所述焦点图片的质量分数；其中，每个质量分数是根据每个实例语义图像区域分别在各焦点图片中的语义置信度和清晰度综合评价得到的；

将所述目标焦点图片集中的实例的语义信息传播至所述原始光场，包括：关联存储每个目标焦点图片集的深度信息及实例的语义信息至一语义表示集合，所述语义信息关联有语义掩模；根据所述深度信息将各目标焦点图片集中的各实例语义图像区域相应的语义掩模重投影至目标视角下的对应实例。

2.根据权利要求1所述的方法，其特征在于，各所述焦点图片是在所述原始光场输入数据所对应场景的光场模型中沿深度平均采样得到的。

3.根据权利要求1所述的方法，其特征在于，所述实例分割的方法包括：Mask R-CNN、SDS、HyperColumns、CFM、Deep&Sharp Mask、MNC、ISFCN、FCIS、SIS及PAN中的任意一种。

4.根据权利要求1所述的方法，其特征在于，判断不同焦点图片中的实例属于同一物体的方法，包括：

根据每个同一实例在不同焦点图片中边界框之间的相似度、以及每个同一实例所在的不同焦点图片间的深度差异，对实例所属物体的类别进行聚类分析。

5.根据权利要求4所述的方法，其特征在于，所述深度差异通过高斯距离度量。

6.根据权利要求1所述的方法，其特征在于，所述清晰度中包含对所取实例语义图像区域中像素的像素值在不同视角下差异的评价。

7.根据权利要求6所述的方法，其特征在于，所述不同视角包括所述预设视角同其最接近的其它视角。

8.根据权利要求1所述的方法，其特征在于，所述重投影包括：对于目标视角中的每一个当前像素，找到其在所述预设视角下在所述语义表示集中不同深度目标焦点图片集上所对应的像素，选择其中深度信息最小且语义不属于背景分类的目标焦点图片上的像素的语义掩模值作为该当前像素的语义掩模值。

9.一种计算机装置，其特征在于，包括：一或多个存储器，用于存储计算机程序指令；一或多个处理器，用于运行所述计算机程序指令，以执行包括：

10.根据权利要求9所述的装置，其特征在于，所述原始光场数据是由相机阵列对应一场景在一或多个时间点同时拍摄得到的一或多个图像组所得到的。

11.根据权利要求9所述的装置，其特征在于，所述实例分割的方法包括：Mask R-CNN、SDS、HyperColumns、CFM、Deep&Sharp Mask、MNC、ISFCN、FCIS、SIS及PAN中的任意一种。

12.根据权利要求9所述的装置，其特征在于，还执行包括：判断不同焦点图片中的实例属于同一物体的方法，包括：

13.根据权利要求12所述的装置，其特征在于，所述清晰度中包含对所取实例语义图像区域中像素的像素值在不同视角下差异的评价。

14.根据权利要求9所述的装置，其特征在于，所述重投影包括：对于目标视角中的每一个当前像素，找到其在所述预设视角下在所述语义表示集中不同深度目标焦点图片集上所对应的像素，选择其中深度信息最小且语义不属于背景分类的目标焦点图片上的像素的语义掩模值作为该当前像素的语义掩模值。

15.一种非暂时的计算机存储介质，其特征在于，用于存储计算机程序指令，所述计算机程序指令被一或多个处理器运行时，执行包括：

根据原始光场数据建立原始光场中一预设视角下的焦点图像堆栈；其中，所述焦点图像堆栈由一组不同深度的焦点图片组成，包括：对应每个焦点图片进行实例分割以得到其中每个实例的实例语义图像区域及相应的语义置信度；

分析焦点图像堆栈中每个焦点图片所包含每个实例的语义信息，以形成语义焦点图像堆栈，包括：获取每个实例在每个所述焦点图片的质量分数；其中，每个质量分数是根据每个实例语义图像区域分别在各焦点图片中的语义置信度和清晰度综合评价得到的；

根据所述语义焦点图像堆栈中属于同一实例在不同焦点图片的质量，选择其中质量最高的目标焦点图片来代表所述实例，以形成目标焦点图片集，包括：关联存储每个目标焦点图片集的深度信息及实例的语义信息至一语义表示集合，所述语义信息关联有语义掩模；根据所述深度信息将各目标焦点图片集中的各实例语义图像区域相应的语义掩模重投影至目标视角下的对应实例。