CN112837321A

CN112837321A - 一种基于光场的场景语义分割***及方法

Info

Publication number: CN112837321A
Application number: CN202110178871.2A
Authority: CN
Inventors: 盛浩; 杨达; 赵昱欣; 崔正龙; 周建伟
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-05-25
Anticipated expiration: 2041-02-09
Also published as: CN112837321B

Abstract

本发明涉及一种基于光场的场景语义分割***及方法，由光场图像预处理模块、图像特征提取模块、场景语义分割模块、数据存储模块、显示模块和***管理模块组成。本发明利用光场图像在场景三维信息提取的优势，实现高准确性的场景语义分割。

Description

一种基于光场的场景语义分割***及方法

技术领域

本发明属于图像技术领域，具体涉及一种基于光场的场景语义分割***及方法。

背景技术

场景语义分割技术在自动驾驶、人机交互、图像搜索等领域被广泛应用，准确的场景语义分割方法对场景理解及其应用有着重要意义。当前的语义分割方法大体上分为两类。一类是仅依靠单图像进行语义分割，例如Zhang等人提出的基于上下文编码模块的单图像语义分割方法[1]，采用扩张卷积策略，在结构简单的图像上可以实现比较好的语义分割效果，但这些基于单图像的语义分割算法普遍难以在存在遮挡、高光、透明物体等特殊情况的复杂场景中取得良好的语义分割效果；另一类则是基于单图像和准确深度信息的语义分割算法，例如Qian等人提出了一个统一而有效的跨模态引导的编码器[2]，并利用它来融合单图像的图像信息和深度信息，从而实现更加准确的语义分割，但实际应用中通常难以获得单图像准确的深度信息，因此这类方法具有较强的局限性。面对这一现状，基于光场实现图像特征引导的场景语义分割方法成为一个可能选项。本发明通过设计一种基于光场的场景语义分割***，充分利用光场图像在场景三维信息提取的优势，实现高准确性的场景语义分割。

[1]Zhang H,Dana K,Shi J,et al.Context encoding for semanticsegmentation[C]//Proceedings of the IEEE conference on Computer Vision andPattern Recognition.2018:7151-7160.

[2]Qian C,Li H,Zeng G.Bi-directional Cross-Modality FeaturePropagation with Separation-and-Aggregation Gate for RGB-D SemanticSegmentation[J].2020.

发明内容

为了克服现有场景语义分割***准确率不足的问题，本发明提供了一种基于光场的场景语义分割***及方法，充分利用光场图像在场景三维信息提取的优势，实现高准确性的场景语义分割。

本发明采用如下的技术方案：

一种基于光场的场景语义分割***，其特征在于包括：光场图像采集模块、光场图像预处理模块、图像特征提取模块、场景语义分割模块、数据存储模块、显示模块和***管理模块。

光场图像采集模块，负责采集需要进行语义分割的光场图像；该模块由包含9×9个分布在规则网格上且镜头光轴平行排列的相机组成相机阵列，根据用户设置的目标场景位置，对9行9列的相机阵列进行同步曝光控制，获取某一时刻的角度分辨率为9×9的光场图像，用于语义分割。

光场图像预处理模块，将不同格式的光场图像转换为图像特征提取模块和场景语义分割模块支持的图像格式；本***支持外部输入的光场图像，这类图像格式不同于使用光场图像采集模块直接获取的图像，需要经光场图像预处理模块进行图像格式转换，转换为视角图像方式来表示光场图像；对于角度分辨率大于9×9的光场图像，只取其中心9×9个视角图像；对于角度分辨率小于9×9的光场图像，则无法通过本***获得准确的光场图像语义分割结果；本***通过光场图像采集模块直接获取的光场图像，则无需进行预处理。

图像特征提取模块，采用一种独创的光场图像中心视角特征提取卷积神经网络，利用光场9×9个不同视角图像，获取其中最中心的一个视角图像中的场景特征信息，用于语义分割。光场图像中心视角特征提取卷积神经网络实现如下：

(1)光场图像中心视角特征提取卷积神经网络，采用多路网络结构分别从每个输入视角提取图像信息；其中，中心视角为特征提取的基础视角，综合使用全局残差结构与局部残差结构，其余80个视角为辅助视角，均只使用局部残差结构；卷积神经网络的全局残差结构完整保留中心视角图像中频率低于w/2的信息，其中w表示图像的最大频率；而卷积神经网络的局部残差结构则由残差模块实现；81条分路的输出通过拼接形成一组特征图，经过另外的两层卷积，得到最终一张完整的中心视角特征图。

(2)残差模块中，输入经过两层卷积运算得到的结果再与输入相加得到输出。

(3)光场图像特征提取卷积神经网络的全部卷积层的卷积核大小均为3×3，步长为1，特征图边缘填充0以保证卷积过后特征图尺寸不会发生变化；网络的全部卷积层均搭配整流线性单位函数ReLU(Rectified Linear Unit)，除了最后一个卷积层的卷积核数为1外，其他层的卷积核数均为128。

(4)各个网络分支的输入分别为输入光场图像的对应视角图像。

场景语义分割模块，采用一种独创的特征信息辅助的图像语义分割卷积神经网络，借助于图像特征提取模块获取的中心视角图像中的场景特征信息完成光场中心视角图像语义分割。特征信息辅助的图像语义分割卷积神经网络实现如下：

(1)特征信息辅助的图像语义分割卷积神经网络，采用残差结构分别从输入的中心视角RGB图像和特征图中提取信息，并使用注意力辅助模块ACM(AttentionComplementary Modules)融合RGB图像残差结构和特征图残差结构的输出信息；网络通过上采样将得到表示图像语义分割结果的同尺寸2D图像。

(2)用于处理RGB图像和用于处理特征图的两个残差结构都由一层卷积和五个残差模块构成；其中，残差模块的输入经过两层卷积运算得到的结果再与输入相加得到输出。

(3)注意力辅助模块ACM中，输入经过全局平均池化、卷积以后得到的结果再与输入相加得到输出。

(4)上采样使用双三次插值；共进行五次上采样。

(5)特征信息辅助的图像语义分割卷积神经网络的全部卷积层的卷积核大小均为3×3，残差模块中卷积的步长为2以实现下采样，其余卷积的步长均为1，特征图边缘填充0；网络的全部卷积层均搭配整流线性单位函数ReLU(Rectified Linear Unit)，除了最后一个卷积层的卷积核数为1外，其他层的卷积核数均为128。

数据存储模块，管理数据库并储存光场图像数据及其语义分割结果，提供光场图像及其语义分割结果数据的添加、删除和查询接口。

显示模块，连接数据存储模块，用于显示被用户查询的光场图像和该光场图像对应的场景语义分割结果。

***管理模块，连接数据存储模块，支持对数据库中的光场图像及其语义分割数据进行查询、添加和删除；***管理模块连接用户数据库，将用户分为***管理员与普通用户，允许***管理员查询、添加与删除任何光场图像及语义分割信息，普通用户仅允许添加光场图像或查询和删除本人添加的光场图像及语义分割信息。

本发明的一种基于光场的场景语义分割方法，其特征在于：

(1)通过9×9个分布在规则网格上且镜头光轴平行排列的相机采集光场图像数据，相邻视角图像保证最大视差不超过15，采集得到的光场图像数据，输入到数据存储模块；外部输入的光场图像通过光场图像预处理模块进行数据预处理后输入到数据存储模块。

(2)从数据存储模块中读取需要进行语义分割的符合格式要求的光场图像数据，通过图像特征提取模块得到光场图像中心视角的场景特征信息；将光场图像和中心视角的场景特征信息输入到场景语义分割模块，得到光场中心视角图像的语义分割结果，用中心视角的语义分割结果表示整个场景的语义分割结果，该结果也输入到数据存储模块中。

(3)从数据存储模块中读取需要展示的光场图像和对应的语义分割结果，输入到显示模块中，呈现给用户。

本发明与现有技术相比的优点在于：

(1)本发明本面向图像技术领域，采用独创的光场图像特征提取卷积神经网络和特征信息辅助的图像语义分割卷积神经网络，利用光场图像在场景三维信息提取的优势，在不显著增加成本的前提下，实现高准确性的场景语义分割。

(2)基于本发明所述光场图像特征提取卷积神经网络和特征信息辅助的图像语义分割卷积神经网络，在大量光场图像数据中取得了良好的语义分割效果，具备充分的可靠性。本发明所述光场图像特征提取卷积神经网络和特征信息辅助的图像语义分割卷积神经网络，计算时间在可接受范围内，具备充分的实用性。

附图说明

图1为本发明的***整体运行结构示意图；

图2为本发明的光场图像中心视角特征提取卷积神经网络示意图；

图3为本发明的特征信息辅助的图像语义分割卷积神经网络示意图；

图4为本发明的卷积神经网络中残差模块结构图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。

在图1本发明的整体结构示意图中，本发明***包括光场图像采集模块，光场图像预处理模块、图像特征提取模块、场景语义分割模块、数据存储模块、显示模块和***管理模块。

光场图像采集模块，负责采集需要进行语义分割的光场图像。模块仅与数据存储模块单向连通，即允许采集的光场图像输入到数据存储模块中。该模块由包含9×9个分布在规则网格上且镜头光轴平行排列的相机组成相机阵列，相邻视角图像保证最大视差不超过15，根据用户设置的目标场景位置，对9行9列的相机阵列进行同步曝光控制，获取某一时刻的角度分辨率为9×9的光场图像，采集得到的光场图像数据发送至数据存储模块，用于语义分割。

光场图像预处理模块，将不同格式的光场图像转换为***的图像特征提取模块和场景语义分割模块支持的图像格式。模块仅与数据存储模块单向连通，即允许预处理后的光场图像输入到数据存储模块中。本发明***支持外部输入的光场图像，这类图像格式不同于使用光场图像采集模块直接获取的图像，需要经光场图像预处理模块进行图像格式转换，转换为视角图像方式来表示光场图像。对于角度分辨率大于9×9的光场图像，只取其中心9×9个视角图像；对于角度分辨率小于9×9的光场图像，则无法通过本***获得准确的光场图像语义分割结果。本***通过光场图像采集模块直接获取的光场图像，则无需进行预处理。

图像特征提取模块，采用一种独创的光场图像中心视角特征提取卷积神经网络，利用光场9×9个不同视角图像，获取其中最中心的一个视角图像中的场景特征信息，用于语义分割。模块与数据存储模块单向相连，获取需要进行语义分割的光场图像。模块与场景语义分割模块单向相连，将提取的光场中心视角特征图发送至场景语义分割模块。光场图像中心视角特征提取卷积神经网络如图2所示。网络采用多路网络结构分别从每个输入视角提取图像信息；其中，中心视角为特征提取的基础视角，综合使用全局残差结构与局部残差结构(通过残差模块实现)，其余80个视角为辅助视角，均只使用局部残差结构；卷积神经网络的全局残差结构完整保留中心视角图像中频率低于w/2的信息，其中w表示图像的最大频率；而卷积神经网络的局部残差结构则由如图4所示残差模块实现；81条分路的输出通过拼接形成一组特征图，经过另外的两层卷积，得到最终一张完整的中心视角特征图。残差模块如图4所示，输入经过两层卷积运算得到的结果再与输入相加得到输出。每个网络分支中都包含18个残差模块。光场图像特征提取卷积神经网络的全部卷积层的卷积核大小均为3×3，步长为1，特征图边缘填充0以保证卷积过后特征图尺寸不会发生变化；网络的全部卷积层均搭配整流线性单位函数ReLU(Rectified Linear Unit)，除了最后一个卷积层的卷积核数为1外，其他层的卷积核数均为128。各个网络分支的输入分别为输入光场图像的对应视角图像，输出就是光场图像中心视角特征图。

场景语义分割模块，采用一种独创的特征信息辅助的图像语义分割卷积神经网络，借助于图像特征提取模块获取的中心视角特征信息完成光场中心视角图像语义分割。模块与数据存储模块双向相连，获取需要进行语义分割的光场中心视角图像，并将场景语义分割结果送回到数据存储模块。模块与图像特征提取模块相连，获取光场中心视角特征图。特征信息辅助的图像语义分割卷积神经网络如图3所示。网络采用残差结构分别从输入的中心视角RGB图像和特征图中提取信息，并使用注意力辅助模块ACM(AttentionComplementary Modules)融合RGB图像残差结构和特征图残差结构的输出信息；网络通过上采样将得到表示图像语义分割结果的同尺寸2D图像。用于处理RGB图像和用于处理特征图的两个残差结构都由一层卷积和五个残差模块构成；其中，残差模块的输入经过两层卷积运算得到的结果再与输入相加得到输出。注意力辅助模块ACM中，输入经过全局平均池化、卷积以后得到的结果再与输入相加得到输出。上采样使用双三次插值；共进行五次上采样。特征信息辅助的图像语义分割卷积神经网络的全部卷积层的卷积核大小均为3×3，残差模块中卷积的步长为2以实现下采样，其余卷积的步长均为1，特征图边缘填充0；网络的全部卷积层均搭配整流线性单位函数ReLU(Rectified Linear Unit)，除了最后一个卷积层的卷积核数为1外，其他层的卷积核数均为128。

数据存储模块，管理数据库并储存光场图像数据及其语义分割结果，提供光场图像及其语义分割结果数据的添加、删除和查询接口。模块与图像数据库和其他所有模块(包括光场图像采集模块，光场图像预处理模块、图像特征提取模块、场景语义分割模块、显示模块和***管理模块)相连，接收来自光场图像采集模块和光场图像预处理模块的光场图像数据输入，向图像特征提取模块和场景语义分割模块发送需要进行语义分割的光场图像。数据存储模块在***管理模块的支持下，对图像数据库中光场图像数据及其语义分割结果的添加和删除，对于查询请求，则将图像数据库中对应数据发送至显示模块。

显示模块，单向连接数据存储模块，用于显示被查询的光场图像和该光场图像对应的场景语义分割结果。

***管理模块，连接数据存储模块，支持对数据库中的光场图像及其语义分割数据进行查询、添加和删除。***管理模块连接用户数据库，将用户分为***管理员与普通用户，允许***管理员查询、添加与删除任何光场图像及语义分割信息，普通用户则仅允许添加光场图像或查询和删除本人添加的光场图像及语义分割信息。

Claims

1.一种基于光场的场景语义分割***，其特征在于，包括：光场图像采集模块、光场图像预处理模块、图像特征提取模块、场景语义分割模块、数据存储模块、显示模块和***管理模块；

光场图像采集模块，负责采集需要进行语义分割的光场图像；该模块由包含9×9个分布在规则网格上且镜头光轴平行排列的相机组成相机阵列，根据用户设置的目标场景位置，对9行9列的相机阵列进行同步曝光控制，获取某一时刻的角度分辨率为9×9的光场图像，用于语义分割；

光场图像预处理模块，将不同格式的光场图像转换为图像特征提取模块和场景语义分割模块支持的图像格式；本***支持外部输入的光场图像，这类图像格式不同于使用光场图像采集模块直接获取的图像，需要经光场图像预处理模块进行图像格式转换，转换为视角图像方式来表示光场图像；对于角度分辨率大于9×9的光场图像，只取其中心9×9个视角图像；对于角度分辨率小于9×9的光场图像，则无法通过本***获得准确的光场图像语义分割结果；本***通过光场图像采集模块直接获取的光场图像，则无需进行预处理；

图像特征提取模块，采用一种独创的光场图像中心视角特征提取卷积神经网络，利用光场9×9个不同视角图像，获取其中最中心的一个视角图像中的场景特征信息，用于语义分割；

场景语义分割模块，采用一种独创的特征信息辅助的图像语义分割卷积神经网络，借助于图像特征提取模块获取的中心视角图像中的场景特征信息完成光场中心视角图像语义分割；

数据存储模块，管理数据库并储存光场图像数据及其语义分割结果，提供光场图像及其语义分割结果数据的添加、删除和查询接口；

显示模块，连接数据存储模块，用于显示被用户查询的光场图像和该光场图像对应的场景语义分割结果；

***管理模块，连接数据存储模块，支持对数据库中的光场图像及其语义分割数据进行查询、添加和删除；***管理模块连接用户数据库，将用户分为***管理员与普通用户，允许***管理员查询、添加与删除任何光场图像及语义分割信息，普通用户仅允许添加光场图像或查询和删除本人添加的光场图像及语义分割信息；

所述独创的光场图像中心视角特征提取卷积神经网络实现如下：

(1)光场图像中心视角特征提取卷积神经网络，采用多路网络结构分别从每个输入视角提取图像信息；其中，中心视角为特征提取的基础视角，综合使用全局残差结构与局部残差结构，其余80个视角为辅助视角，均只使用局部残差结构；卷积神经网络的全局残差结构完整保留中心视角图像中频率低于w/2的信息，其中w表示图像的最大频率；而卷积神经网络的局部残差结构则由残差模块实现；81条分路的输出通过拼接形成一组特征图，经过另外的两层卷积，得到最终一张完整的中心视角特征图；

(2)残差模块中，输入经过两层卷积运算得到的结果再与输入相加得到输出；

(3)光场图像特征提取卷积神经网络的全部卷积层的卷积核大小均为3×3，步长为1，特征图边缘填充0以保证卷积过后特征图尺寸不会发生变化；网络的全部卷积层均搭配整流线性单位函数ReLU(Rectified Linear Unit)，除了最后一个卷积层的卷积核数为1外，其他层的卷积核数均为128；

(4)各个网络分支的输入分别为输入光场图像的对应视角图像；

所述独创的特征信息辅助的图像语义分割卷积神经网络实现如下：

(1)特征信息辅助的图像语义分割卷积神经网络，采用残差结构分别从输入的中心视角RGB图像和特征图中提取信息，并使用注意力辅助模块ACM(Attention ComplementaryModules)融合RGB图像残差结构和特征图残差结构的输出信息；网络通过上采样将得到表示图像语义分割结果的同尺寸2D图像；

(2)用于处理RGB图像和用于处理特征图的两个残差结构都由一层卷积和五个残差模块构成；其中，残差模块的输入经过两层卷积运算得到的结果再与输入相加得到输出；

(3)注意力辅助模块ACM中，输入经过全局平均池化、卷积以后得到的结果再与输入相加得到输出；

(4)上采样使用双三次插值；共进行五次上采样；

2.根据权利要求1所述的基于光场的场景语义分割***，其特征在于：所述图像特征提取模块采用一种独创的光场图像中心视角特征提取卷积神经网络，充分利用光场不同视角图像，获取中心视角图像中的场景特征信息，以实现更加准确的场景语义分割；

所述独创的光场图像中心视角特征提取卷积神经网络的实现在权利要求1中已提供相应说明。

3.根据权利要求1所述的基于光场的场景语义分割***，其特征在于：所述场景语义分割模块，采用一种独创的特征信息辅助的图像语义分割卷积神经网络，借助于图像特征提取模块获取的中心视角特征信息完成光场中心视角图像语义分割；

所述独创的特征信息辅助的图像语义分割卷积神经网络的实现在权利要求1中已提供相应说明。

4.一种基于光场的场景语义分割方法，其特征在于：

(1)通过9×9个分布在规则网格上且镜头光轴平行排列的相机采集光场图像数据，相邻视角图像保证最大视差不超过15，采集得到的光场图像数据，输入到数据存储模块；外部输入的光场图像通过光场图像预处理模块进行数据预处理后输入到数据存储模块；

(2)从数据存储模块中读取需要进行语义分割的符合格式要求的光场图像数据，通过图像特征提取模块得到光场图像中心视角的场景特征信息；将光场图像和中心视角的场景特征信息输入到场景语义分割模块，得到光场中心视角图像的语义分割结果，用中心视角的语义分割结果表示整个场景的语义分割结果，该结果也输入到数据存储模块中；