CN113658189A - 一种跨尺度特征融合的实时语义分割方法和*** - Google Patents

一种跨尺度特征融合的实时语义分割方法和*** Download PDF

Info

Publication number
CN113658189A
CN113658189A CN202111021027.5A CN202111021027A CN113658189A CN 113658189 A CN113658189 A CN 113658189A CN 202111021027 A CN202111021027 A CN 202111021027A CN 113658189 A CN113658189 A CN 113658189A
Authority
CN
China
Prior art keywords
module
convolution
output
stage
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111021027.5A
Other languages
English (en)
Other versions
CN113658189B (zh
Inventor
许庭兵
魏振忠
罗启峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202111021027.5A priority Critical patent/CN113658189B/zh
Publication of CN113658189A publication Critical patent/CN113658189A/zh
Application granted granted Critical
Publication of CN113658189B publication Critical patent/CN113658189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种跨尺度特征融合的实时语义分割方法和***。该方法包括:采用训练数据集训练语义分割网络模型,得到训练好的语义分割网络模型;将待分割图像数据集输入至训练好的语义分割网络模型得到语义分割图。本发明通过设置网络架构包含骨干网络和特征融合网络的语义分割网络模型对待分割图像数据集中的待分割图像进行处理,可以在提高分割精度的同时,提高推理速度。

Description

一种跨尺度特征融合的实时语义分割方法和***
技术领域
本发明涉及语义分割领域,特别是涉及一种跨尺度特征融合的实时语义分割方法和***。
背景技术
语义分割是对图像逐像素的分类技术,广泛应用于虚拟现实、自动驾驶和机器人技术中。近些年基于深度学***衡。因此实时语义分割仍然是一个具有挑战性的问题。
高精度语义分割模型通过构建一个参数量巨大的深度模型来获得更好的分割效果,但是这也导致了模型计算复杂度大、处理速度低,因此不能满足实际场景的应用需求。近些年来对轻量、实时的语义分割模型的研究日益增加,双路径结构和轻量级编解码结构是主要的两种模型结构。双路径结构:一条路径逐步的下采样聚合上下文语义信息,另一条路径始终保持高分辨率,以维持空间细节。这种结构虽然取得了分割精度和速度的较好平衡,但是高分辨率特征路径会导致较高的时间复杂性和空间复杂性,限制了实时语义分割性能的提升。有一条下采样路径提取深层语义信息,一条对称的上采样路径把深层语义特征传播到浅层。编解码结构的单向特征传递并不能有效的融合细节信息和语义信息。
综上所述,现有的语义分割模型都存在分割精度不高或推理速度低的缺陷。
发明内容
本发明的目的是提供一种跨尺度特征融合的实时语义分割方法和***,能够在提高分割精度的同时,提高推理速度。
为实现上述目的,本发明提供了如下方案:
一种跨尺度特征融合的实时语义分割方法,包括:
采用训练数据集训练语义分割网络模型,得到训练好的语义分割网络模型;所述训练数据集为cityscape数据集;所述语义分割网络模型包括:骨干网络和特征融合网络;所述骨干网络包括:卷积层、残差模块、最大池化层和基于所述残差模块设计的下采样模块;所述特征融合网络包括3条融合路径;
将待分割图像数据集输入至训练好的语义分割网络模型得到语义分割图。
优选地,所述采用训练数据集训练语义分割网络模型,得到训练好的语义分割网络模型,之后还包括:
采用测试集对所述训练好的语义分割网络模型进行测试;所述测试集为cityscape数据集。
优选地,所述采用训练数据集训练语义分割网络模型,得到训练好的语义分割网络模型,具体包括:
初始化所述语义分割网络模型的网络参数得到初始化网络模型;
对训练数据集中的图像进行处理后,输入至所述初始化网络模型中,迭代第一预设次数后得到第一训练网络模型;对训练数据集中的图像进行处理包括图像压缩和图像增大;
将训练数据集中的图像输入所述第一训练网络模型中,迭代第二预设次数后得到第二训练网络模型;所述第二训练网络模型即为训练好的语义分割网络模型。
优选地,所述骨干网络的第1阶段包含2个标准卷积;所述标准卷积的输入为待分割图像;
所述骨干网络的第2阶段、第3阶段和第4阶段均包括相同结构的卷积模块;所述卷积模块为1个下采样模块跟随2个级联的残差模块;所述第2阶段中下采样模块的输入为所述第1阶段中所述标准卷积的输出;所述第3阶段中下采样模块的输入为所述第2阶段中第二个残差模块的输出;所述第4阶段中下采样模块的输入为所述第3阶段中第二个残差模块的输出;所述第2阶段、所述第3阶段和所述第4阶段中第一个残差模块的输入均为与其对应的下采样模块的输出;所述第2阶段、所述第3阶段和所述第4阶段中第一个残差模块的输出均为与其对应的第二个残差模块的输入;
所述骨干网络的第5阶段和第6阶段均为最大池化层;所述第5阶段中最大池化层的输入为所述第4阶段中残差模块的输出;所述第6阶段中最大池化层的输入为所述第5阶段中最大池化层的输出;
所述特征融合网络中3条融合路径均包括第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块;所述第1条融合路径中第一卷积模块的输入为所述第5阶段中最大池化层的输出和所述第6阶段中最大池化层的输出;所述第1条融合路径中第二卷积模块的输入为第1条融合路径中第一卷积模块的输出和第4阶段中第二个残差模块的输出;所述第1条融合路径中第三卷积模块的输入为第1条融合路径中第二卷积模块的输出和第3阶段中第二个残差模块的输出;所述第1条融合路径中第四卷积模块的输入为第1条融合路径中第三卷积模块的输出和第2阶段中第二个残差模块的输出;所述第2条融合路径中第一卷积模块的输入为所述第1条融合路径中第四卷积模块的输出和所述第1条融合路径中第三卷积模块的输出;所述第2条融合路径中第二卷积模块的输入为所述第2条融合路径中第一卷积模块的输出和所述第1条融合路径中第二卷积模块的输出;所述第2条融合路径中第三卷积模块的输入为所述第2条融合路径中第二卷积模块的输出和所述第1条融合路径中第一卷积模块的输出;所述第2条融合路径中第四卷积模块的输入为所述第2条融合路径中第三卷积模块的输出和所述第6阶段中最大池化层的输出;所述第3条融合路径的第一卷积模块的输入为所述第2条融合路径中第四卷积模块的输出、所述第2条融合路径中第三卷积模块的输出和所述第5阶段中最大池化层的输出;所述第3条融合路径的第二卷积模块的输入为所述第3条融合路径的第一卷积模块的输出、所述第2条融合路径中第二卷积模块的输出和第4阶段中第二个残差模块的输出;所述第3条融合路径的第三卷积模块的输入为所述第3条融合路径的第二卷积模块的输出、所述第2条融合路径中第一卷积模块的输出和第3阶段中第二个残差模块的输出;所述第3条融合路径的第四卷积模块的输入为所述第3条融合路径的第三卷积模块的输出和所述第1条融合路径中第四卷积模块的输出;
所述分割网络中分割头的输入为所述第3条融合路径的第四卷积模块的输出;所述分割头对所述第3条融合路径的第四卷积模块输出的特征图进行8倍的上采样后,通过softmax函数取极大值后得到语义分割图。
优选地,2个级联的残差模块均为轻量级残差模块;
所述轻量级残差模块沿特征图像传输方向上依次设置有:第一1x1卷积、第一3x3逐通道卷积、第二1x1卷积、第二3x3逐通道卷积和第三1x1卷积;所述第一1x1卷积、所述第一3x3逐通道卷积、所述第二1x1卷积、所述第二3x3逐通道卷积和所述第三1x1卷积卷积后均进行批处理归一化操作;
在所述第一逐通道卷积后设置有SE模块;在第三1x1卷积批处理归一化操作后设置残差连接相加操作;在所述残差连接相加操作以及第二1x1卷积批处理操作后设置ReLU激活函数。
优选地,所述轻量级残差模块中加入有核为2、4和8的空洞卷积。
优选地,所述最大池化层的核的大小为3,最大池化层的步长为2。
优选地,所述2个标准卷积的步长均为2。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的跨尺度特征融合的实时语义分割方法,通过设置网络架构包含骨干网络和特征融合网络的语义分割网络模型对待分割图像数据集中的待分割图像进行处理,可以在提高分割精度的同时,提高推理速度。
对应于上述提供的跨尺度特征融合的实时语义分割方法,本发明还提供如下实施***:
一种跨尺度特征融合的实时语义分割***,包括:
训练模块,用于采用训练数据集训练语义分割网络模型,得到训练好的语义分割网络模型;所述训练数据集为cityscape数据集;所述语义分割网络模型包括:骨干网络和特征融合网络;所述骨干网络包括:卷积层、残差模块、最大池化层和基于所述残差模块设计的下采样模块;所述特征融合网络包括3条融合路径;
语义分割模块,用于将待分割图像数据集输入至训练好的语义分割网络模型得到语义分割图。
因本发明提供的跨尺度特征融合的实时语义分割***达到的技术效果与上述提供的跨尺度特征融合的实时语义分割方法达到的技术效果相同,故在此不再进行赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的跨尺度特征融合的实时语义分割方法的流程图;
图2为本发明实施例提供的语义分割网络模型的结构示意图;
图3为本发明实施例提供的轻量残差模块的结构示意图;
图4为本发明实施例提供的下采样模块的结构示意图;
图5为本发明实施例提供的特征融合网络的结构示意图;
图6为本发明实施例提供的分割效果对比图;
图7为本发明实施例提供的特征融合网络采用的卷积模块的结构示意图;
图8为本发明提供的跨尺度特征融合的实时语义分割***的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种跨尺度特征融合的实时语义分割方法和***,能够在提高分割精度的同时,提高推理速度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的跨尺度特征融合的实时语义分割方法,包括:
步骤100:采用训练数据集训练语义分割网络模型,得到训练好的语义分割网络模型。训练数据集为公开数据集cityscape数据集,例如,在该数据集中可以选取来自50个不同城市的街道场景共5000幅精细标注的街道场景图像,5000幅图像分为训练集2975幅图像,测试集500幅图像,验证集1525幅图像。语义分割网络模型包括:骨干网络和特征融合网络。骨干网络包括:卷积层(例如标准卷积)、残差模块、最大池化层和基于所述残差模块设计的下采样模块(如图4所示)。特征融合网络包括3条融合路径,如图5所示,第1条路径从上至下融合骨干网络第6到第2阶段的特征。第2条路径从下至上融合第一条路径各卷积模块的输出的特征。第3条路径从上至下融合第二条路径各卷积模块的输出特征,其中卷积模块的具体结构如图7所示。同时增加了从骨干网络输入的特征到第3条路径的横向跳跃连接。在融合特征时,首先对输入的各尺度特征重整为相同大小,然后拼接为一个张量,拼接之后的特征经过1×1卷积降维、3×3逐通道卷积和1×1卷积之后输出到下一层。
在具体实施过程中,该步骤100的具体实施方式可以为:
初始化语义分割网络模型的网络参数得到初始化网络模型。此处的初始化为随机初始化。
对训练数据集中的图像进行处理后,输入至初始化网络模型中,迭代第一预设次数(例如150次)后得到第一训练网络模型。对训练数据集中的图像进行处理包括图像压缩和图像增大、例如对训练图像进行2倍的尺寸压缩和增大批处理。
将训练数据集中的图像输入第一训练网络模型中,迭代第二预设次数(例如100次)后得到第二训练网络模型。第二训练网络模型即为训练好的语义分割网络模型。
步骤101:将待分割图像数据集输入至训练好的语义分割网络模型得到语义分割图。
在本发明中,所采用的语义分割网络模型的具体结构如图2所示,其中,骨干网络的第1阶段包含2个标准卷积。标准卷积的输入为待分割图像。
骨干网络的第2阶段、第3阶段和第4阶段均包括相同结构的卷积模块。卷积模块为1个下采样模块跟随2个级联的残差模块。第2阶段中下采样模块的输入为第1阶段中标准卷积的输出。第3阶段中下采样模块的输入为第2阶段中第二个残差模块的输出。第4阶段中下采样模块的输入为第3阶段中第二个残差模块的输出。第2阶段、第3阶段和第4阶段中第一个残差模块的输入均为与其对应的下采样模块的输出。第2阶段、第3阶段和第4阶段中第一个残差模块的输出均为与其对应的第二个残差模块的输入。
骨干网络的第5阶段和第6阶段均为最大池化层。第5阶段中最大池化层的输入为第4阶段中残差模块的输出。第6阶段中最大池化层的输入为第5阶段中最大池化层的输出。
特征融合网络中3条融合路径均包括第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块。第1条融合路径中第一卷积模块的输入为第5阶段中最大池化层的输出和第6阶段中最大池化层的输出。第1条融合路径中第二卷积模块的输入为第1条融合路径中第一卷积模块的输出和第4阶段中第二个残差模块的输出。第1条融合路径中第三卷积模块的输入为第1条融合路径中第二卷积模块的输出和第3阶段中第二个残差模块的输出。第1条融合路径中第四卷积模块的输入为第1条融合路径中第三卷积模块的输出和第2阶段中第二个残差模块的输出。第2条融合路径中第一卷积模块的输入为第1条融合路径中第四卷积模块的输出和第1条融合路径中第三卷积模块的输出。第2条融合路径中第二卷积模块的输入为第2条融合路径中第一卷积模块的输出和第1条融合路径中第二卷积模块的输出。第2条融合路径中第三卷积模块的输入为第2条融合路径中第二卷积模块的输出和第1条融合路径中第一卷积模块的输出。第2条融合路径中第四卷积模块的输入为第2条融合路径中第三卷积模块的输出和第6阶段中最大池化层的输出。第3条融合路径的第一卷积模块的输入为第2条融合路径中第四卷积模块的输出、第2条融合路径中第三卷积模块的输出和第5阶段中最大池化层的输出。第3条融合路径的第二卷积模块的输入为第3条融合路径的第一卷积模块的输出、第2条融合路径中第二卷积模块的输出和第4阶段中第二个残差模块的输出。第3条融合路径的第三卷积模块的输入为第3条融合路径的第二卷积模块的输出、第2条融合路径中第一卷积模块的输出和第3阶段中第二个残差模块的输出。第3条融合路径的第四卷积模块的输入为第3条融合路径的第三卷积模块的输出和第1条融合路径中第四卷积模块的输出。
分割网络中分割头的输入为第3条融合路径的第四卷积模块的输出。分割头对第3条融合路径的第四卷积模块输出的特征图进行8倍的上采样后,通过损失函数取极大值后得到语义分割图。
其中,为了能够进一提高图像语义分割的精确性和时效性,本发明基于深度可分离卷积将2个级联的残差模块均设计为轻量残差模块。轻量残差模块的结构如图3所示,沿特征图像传输方向上依次设置有:第一1x1卷积、第一3x3逐通道卷积、第二1x1卷积、第二3x3逐通道卷积和第三1x1卷积。第一1x1卷积、第一3x3逐通道卷积、第二1x1卷积、第二3x3逐通道卷积和第三1x1卷积卷积后均进行批处理归一化操作。基于设计的轻量残差结构,通过增加支路1x1卷积-步长为2的逐通道卷积-1x1卷积构成下采样模块。
根据设计的轻量级残差模块和下采样模块构成骨干网络后,在该骨干网络中,首先使用2个3x3、步长为2的常规卷积处理输入图像。因为输入图像具有较大的分辨率,通道数量较少,常规卷积的性能要更好。随后3个阶段(第2阶段、第3阶段和第4阶段)结构相同,即均包括1个下采样模块和2个轻量级残差模块。在每个阶段的第2个轻量级残差模块分别加入核为2、4和8空洞卷积,并在第1个逐通道卷积后增加SE模块。骨干网络的最后2层为最大池化层,池化核大小为3,步长为2。最终的特征图尺寸大小是输入图像的1/128。骨干网络中各个结构的具体参数如表1所示。
表1
Figure BDA0003241383440000081
Figure BDA0003241383440000091
基于上述提供的语义分割网络模型的具体结构,在对训练好的语义分割网络模型进行测试过程中,是选用cityscape数据集作为测试集,具体测试过程为:
测试数据集中的图像输入语义分割网络模型,骨干网络分为6个阶段对输入图像进行处理。骨干网络的第1阶段包含2个标准卷积,步长均为2,在对输入图像进行处理的同时进行下采样操作,缩小特征图尺寸。第2到第4阶段具有相同的卷积模块,即1个下采样模块跟随两个轻量级残差模块。每个下采样模块压缩前一模块输出的特征图尺寸并把特征通道数扩大2倍。轻量级残差模块采用深度可分离卷积构成,能够兼顾网络的处理速度和精度。骨干网络的最后2个阶段为最大池化层,最大池化层核大小为3,步长为2,最终的特征图尺寸大小是输入图像的1/128,具有足够大的感受野,能够获得局部最大响应。随后骨干卷积网路的第2到第6阶段的输入分别送入跨尺度特征融合模块。跨尺度特征融合模块经过由上至下、由下至上和由上至下的三条路径后输出融合特征,经过最后分割头进行8倍的上采样,通过softmax函数取极大值获得相应的标签类别信息得到语义分割图。
下面采用公开数据集Cityscapes分别作为评价数据集为例,对本发明上述提供的跨尺度特征融合的实时语义分割方法的具体实施过程进行说明。
步骤1:对于大尺寸图像的训练分为两步:第一步,随机初始化网络参数,对训练图像进行2倍的尺寸压缩,增大批处理,迭代150K次,获得卷积网络的训练结果。第二步,采用原始图像尺寸,小批次进行训练,迭代100K次,获得最终的卷积网络训练结果。
步骤2:3通道的彩色图像输入语义分割网络模型,骨干网络分为6个阶段对输入图像进行处理。骨干网络的第1阶段包含2个标准卷积,步长均为2,在对输入图像进行处理的同时进行下采样操作,缩小特征图尺寸。第2到第4阶段具有相同的卷积模块,即1个下采样模块跟随两个轻量级残差模块。每个下采样模块压缩前一模块输出的特征图尺寸并把特征通道数扩大2倍。轻量级残差残差模块采用深度可分离卷积构成,能够兼顾网络的处理速度和精度。骨干网络的最后2个阶段为最大池化层,最大池化层的核大小为3、步长为2,最终的特征图尺寸大小是输入图像的1/128,具有足够大的感受野,能够获得局部最大响应。随后骨干卷积网路的第2到第6阶段的输入分别送入跨尺度特征融合模块。跨尺度特征融合模块经过由上至下、由下至上和由上至下的三条路径后输出融合特征,经过最后的分割模块进行8倍的上采样,通过softmax函数取极大值获得相应的标签类别信息得到语义分割图。
在本实例中,采用上述标注的飞机数据集和公开数据集Cityscapes分别作为评价数据集。所有实验结果都是在单NVIDIAGeforce RTX 2080Ti GPU运行。
本实例中采用最常用的实时语义分割指标:分割精度用均值交并比(mIoU)衡量和推理速度用每秒处理多少帧图像来衡量(FPS),同时参数量和计算量也会作为指标参与比较。对于实时语义分割模型来说推理速度至少30FPS,在此基础上上,分割精度越高,推理速度越快,参数量和计算量越小则模型的整体性能越好。
为了证明本发明提供的跨尺度特征融合的实时语义分割方法是一种性能和速度都很优良的方法,与近期公开发表的一些实时语义分割同时在Cityscapes数据集上进行比较。
表2展示了本发明与其他实时语义分割方法的在Cityscapes数据集上测试结果。可以看到,本发明的分割精度是最优的,同时满足实时语义分割至少30帧/秒的要求,达到了46.5fps。虽然模型SFNet、CABiNet的处理速度要快于本发明,但是分割精度、参数量和计算量都要逊于本发明,而其他模型虽然参数量和计算量要比本发明的少,推理速度快,但是分割精度无法与本发明相提并论,可见,本发明在速度和精度上达到了最佳的平衡。
表2Cityscapes数据集上比较结果表
Figure BDA0003241383440000111
轻量残差模块比较:
在本发明设计的语义分割网络模型结构上比较了设计的轻量残差模块与MobilenetV2中的设计倒置残差模块的性能,即分别用轻量残差模块和倒置残差模块构建模型中的骨干网络,在相同超参数配置下训练相同的轮次,对两个模型的分割精度MIoU、计算量GFLOPs、参数量和推理速度的比较结果如表3所示,相比较倒置残差模块,轻量残差模块具有更少的计算量和参数量,但是分割精度和推理速度都要优于倒置残差模块构建的模型。
表3
Figure BDA0003241383440000112
跨尺度特征融合模块的有效性:
跨尺度特征融合模块的主要特点是有从输入到第3条由上至下路径的跳跃连接。针对此结构,与无跳跃连接、只有到第2条的跳跃连接、包含到第2和第3条的跳跃连接结构进行比较,如表4所示,设计的跨尺度特征融合模块在只包含到第3条的跳跃连接(所采用的)具有最优性能。
表4
Figure BDA0003241383440000121
基于本发明提供的跨尺度特征融合的实时语义分割方法得到的分割效果,如图6所示,其中图6第1列为输入图像,第2列为跨尺度特征融合网络输出结果,第3列为无跨尺度连接的网络输出结果,第4列为标注的分割图像。
综上,本发明提供的技术方案采用轻量级实时语义分割卷积神经网络模型,由深度可分离卷积和线性瓶颈层构成的轻量化的残差模块以及跨尺度特征融合模块。本发明在对城市街道场景和大飞机的大尺寸图像的语义分割任务具有实时高精度的特点。
此外,对应于上述提供的跨尺度特征融合的实时语义分割方法,本发明还提供一种跨尺度特征融合的实时语义分割***,如图8所示,该***包括:训练模块1和语义分割模块2。
其中,训练模块1用于采用训练数据集训练语义分割网络模型,得到训练好的语义分割网络模型。训练数据集为cityscape数据集。语义分割网络模型包括:骨干网络和特征融合网络。骨干网络包括:卷积层、残差模块、最大池化层和基于所述残差模块设计的下采样模块。特征融合网络包括3条融合路径。
语义分割模块2用于将待分割图像数据集输入至训练好的语义分割网络模型得到语义分割图。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种跨尺度特征融合的实时语义分割方法,其特征在于,包括:
采用训练数据集训练语义分割网络模型,得到训练好的语义分割网络模型;所述训练数据集为cityscape数据集;所述语义分割网络模型包括:骨干网络和特征融合网络;所述骨干网络包括:卷积层、残差模块、最大池化层和基于所述残差模块设计的下采样模块;所述特征融合网络包括3条融合路径;
将待分割图像数据集输入至训练好的语义分割网络模型得到语义分割图。
2.根据权利要求1所述的跨尺度特征融合的实时语义分割方法,其特征在于,所述采用训练数据集训练语义分割网络模型,得到训练好的语义分割网络模型,之后还包括:
采用测试集对所述训练好的语义分割网络模型进行测试;所述测试集为cityscape数据集。
3.根据权利要求1所述的跨尺度特征融合的实时语义分割方法,其特征在于,所述采用训练数据集训练语义分割网络模型,得到训练好的语义分割网络模型,具体包括:
初始化所述语义分割网络模型的网络参数得到初始化网络模型;
对训练数据集中的图像进行处理后,输入至所述初始化网络模型中,迭代第一预设次数后得到第一训练网络模型;对训练数据集中的图像进行处理包括图像压缩和图像增大;
将训练数据集中的图像输入所述第一训练网络模型中,迭代第二预设次数后得到第二训练网络模型;所述第二训练网络模型即为训练好的语义分割网络模型。
4.根据权利要求1所述的跨尺度特征融合的实时语义分割方法,其特征在于,所述骨干网络的第1阶段包含2个标准卷积;所述标准卷积的输入为待分割图像;
所述骨干网络的第2阶段、第3阶段和第4阶段均包括相同结构的卷积模块;所述卷积模块为1个下采样模块跟随2个级联的残差模块;所述第2阶段中下采样模块的输入为所述第1阶段中所述标准卷积的输出;所述第3阶段中下采样模块的输入为所述第2阶段中第二个残差模块的输出;所述第4阶段中下采样模块的输入为所述第3阶段中第二个残差模块的输出;所述第2阶段、所述第3阶段和所述第4阶段中第一个残差模块的输入均为与其对应的下采样模块的输出;所述第2阶段、所述第3阶段和所述第4阶段中第一个残差模块的输出均为与其对应的第二个残差模块的输入;
所述骨干网络的第5阶段和第6阶段均为最大池化层;所述第5阶段中最大池化层的输入为所述第4阶段中残差模块的输出;所述第6阶段中最大池化层的输入为所述第5阶段中最大池化层的输出;
所述特征融合网络中3条融合路径均包括第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块;所述第1条融合路径中第一卷积模块的输入为所述第5阶段中最大池化层的输出和所述第6阶段中最大池化层的输出;所述第1条融合路径中第二卷积模块的输入为第1条融合路径中第一卷积模块的输出和第4阶段中第二个残差模块的输出;所述第1条融合路径中第三卷积模块的输入为第1条融合路径中第二卷积模块的输出和第3阶段中第二个残差模块的输出;所述第1条融合路径中第四卷积模块的输入为第1条融合路径中第三卷积模块的输出和第2阶段中第二个残差模块的输出;所述第2条融合路径中第一卷积模块的输入为所述第1条融合路径中第四卷积模块的输出和所述第1条融合路径中第三卷积模块的输出;所述第2条融合路径中第二卷积模块的输入为所述第2条融合路径中第一卷积模块的输出和所述第1条融合路径中第二卷积模块的输出;所述第2条融合路径中第三卷积模块的输入为所述第2条融合路径中第二卷积模块的输出和所述第1条融合路径中第一卷积模块的输出;所述第2条融合路径中第四卷积模块的输入为所述第2条融合路径中第三卷积模块的输出和所述第6阶段中最大池化层的输出;所述第3条融合路径的第一卷积模块的输入为所述第2条融合路径中第四卷积模块的输出、所述第2条融合路径中第三卷积模块的输出和所述第5阶段中最大池化层的输出;所述第3条融合路径的第二卷积模块的输入为所述第3条融合路径的第一卷积模块的输出、所述第2条融合路径中第二卷积模块的输出和第4阶段中第二个残差模块的输出;所述第3条融合路径的第三卷积模块的输入为所述第3条融合路径的第二卷积模块的输出、所述第2条融合路径中第一卷积模块的输出和第3阶段中第二个残差模块的输出;所述第3条融合路径的第四卷积模块的输入为所述第3条融合路径的第三卷积模块的输出和所述第1条融合路径中第四卷积模块的输出;
所述分割网络中分割头的输入为所述第3条融合路径的第四卷积模块的输出;所述分割头对所述第3条融合路径的第四卷积模块输出的特征图进行8倍的上采样后,通过softmax函数取极大值后得到语义分割图。
5.根据权利要求4所述的跨尺度特征融合的实时语义分割方法,其特征在于,2个级联的残差模块均为轻量级残差模块;
所述轻量级残差模块沿特征图像传输方向上依次设置有:第一1x1卷积、第一3x3逐通道卷积、第二1x1卷积、第二3x3逐通道卷积和第三1x1卷积;所述第一1x1卷积、所述第一3x3逐通道卷积、所述第二1x1卷积、所述第二3x3逐通道卷积和所述第三1x1卷积卷积后均进行批处理归一化操作;
在所述第一逐通道卷积后设置有SE模块;在所述第二1x1卷积批处理归一化操作后设置残差连接相加操作;在所述残差连接相加操作以及第二1x1卷积批处理操作后设置ReLU激活函数。
6.根据权利要求5所述的跨尺度特征融合的实时语义分割方法,其特征在于,所述轻量级残差模块中加入有核为2、4和8的空洞卷积。
7.根据权利要求4所述的跨尺度特征融合的实时语义分割方法,其特征在于,所述最大池化层的核的大小为3,最大池化层的步长为2。
8.根据权利要求4所述的跨尺度特征融合的实时语义分割方法,其特征在于,所述2个标准卷积的步长均为2。
9.一种跨尺度特征融合的实时语义分割***,其特征在于,包括:
训练模块,用于采用训练数据集训练语义分割网络模型,得到训练好的语义分割网络模型;所述训练数据集为cityscape数据集;所述语义分割网络模型包括:骨干网络和特征融合网络;所述骨干网络包括:卷积层、残差模块、最大池化层和基于所述残差模块设计的下采样模块;所述特征融合网络包括3条融合路径;
语义分割模块,用于将待分割图像数据集输入至训练好的语义分割网络模型得到语义分割图。
CN202111021027.5A 2021-09-01 2021-09-01 一种跨尺度特征融合的实时语义分割方法和*** Active CN113658189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111021027.5A CN113658189B (zh) 2021-09-01 2021-09-01 一种跨尺度特征融合的实时语义分割方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111021027.5A CN113658189B (zh) 2021-09-01 2021-09-01 一种跨尺度特征融合的实时语义分割方法和***

Publications (2)

Publication Number Publication Date
CN113658189A true CN113658189A (zh) 2021-11-16
CN113658189B CN113658189B (zh) 2022-03-11

Family

ID=78481649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111021027.5A Active CN113658189B (zh) 2021-09-01 2021-09-01 一种跨尺度特征融合的实时语义分割方法和***

Country Status (1)

Country Link
CN (1) CN113658189B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120154A (zh) * 2021-11-23 2022-03-01 宁波大学 一种高层建筑玻璃幕墙破损的自动检测方法
CN114612456A (zh) * 2022-03-21 2022-06-10 北京科技大学 一种基于深度学习的钢坯自动语义分割识别方法
CN114943835A (zh) * 2022-04-20 2022-08-26 西北工业大学 一种黄河冰凌无人机航拍图像实时语义分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062395A (zh) * 2019-11-27 2020-04-24 北京理工大学 一种实时的视频语义分割方法
CN111080648A (zh) * 2019-12-02 2020-04-28 南京理工大学 基于残差学习的实时图像语义分割算法
CN111666948A (zh) * 2020-05-27 2020-09-15 厦门大学 一种基于多路聚合的实时高性能语义分割方法和装置
CN112381097A (zh) * 2020-11-16 2021-02-19 西南石油大学 一种基于深度学习的场景语义分割方法
CN113256649A (zh) * 2021-05-11 2021-08-13 国网安徽省电力有限公司经济技术研究院 一种基于深度学习的遥感图像选站选线语义分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062395A (zh) * 2019-11-27 2020-04-24 北京理工大学 一种实时的视频语义分割方法
CN111080648A (zh) * 2019-12-02 2020-04-28 南京理工大学 基于残差学习的实时图像语义分割算法
CN111666948A (zh) * 2020-05-27 2020-09-15 厦门大学 一种基于多路聚合的实时高性能语义分割方法和装置
CN112381097A (zh) * 2020-11-16 2021-02-19 西南石油大学 一种基于深度学习的场景语义分割方法
CN113256649A (zh) * 2021-05-11 2021-08-13 国网安徽省电力有限公司经济技术研究院 一种基于深度学习的遥感图像选站选线语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ERIC KE WANG 等: "Multi-Path Dilated Residual Network for Nuclei Segmentation and Detection", 《CELLS》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120154A (zh) * 2021-11-23 2022-03-01 宁波大学 一种高层建筑玻璃幕墙破损的自动检测方法
CN114120154B (zh) * 2021-11-23 2022-10-28 宁波大学 一种高层建筑玻璃幕墙破损的自动检测方法
CN114612456A (zh) * 2022-03-21 2022-06-10 北京科技大学 一种基于深度学习的钢坯自动语义分割识别方法
CN114612456B (zh) * 2022-03-21 2023-01-10 北京科技大学 一种基于深度学习的钢坯自动语义分割识别方法
CN114943835A (zh) * 2022-04-20 2022-08-26 西北工业大学 一种黄河冰凌无人机航拍图像实时语义分割方法
CN114943835B (zh) * 2022-04-20 2024-03-12 西北工业大学 一种黄河冰凌无人机航拍图像实时语义分割方法

Also Published As

Publication number Publication date
CN113658189B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN113658189B (zh) 一种跨尺度特征融合的实时语义分割方法和***
CN107704866B (zh) 基于新型神经网络的多任务场景语义理解模型及其应用
CN110782462A (zh) 一种基于双流特征融合的语义分割方法
CN111259983B (zh) 基于深度学习的图像语义分割方法及存储介质
CN111598183B (zh) 一种多特征融合图像描述方法
CN110569851B (zh) 门控多层融合的实时语义分割方法
CN113870422B (zh) 一种点云重建方法、装置、设备及介质
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
CN111899169B (zh) 一种基于语义分割的人脸图像的分割网络的方法
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN116721334B (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN114359297A (zh) 基于注意力金字塔的多分辨率语义分割方法及装置
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
KR102128789B1 (ko) 심층 합성곱 뉴럴 네트워크를 위한 효율적인 팽창 합성곱 기법을 제공하는 방법 및 장치
CN111160378A (zh) 基于单张图像的多任务增强的深度估计***
CN112418235A (zh) 一种基于膨胀最近邻特征增强的点云语义分割方法
CN116485860A (zh) 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法
CN110633706A (zh) 一种基于金字塔网络的语义分割方法
CN112989843B (zh) 意图识别方法、装置、计算设备及存储介质
Yu et al. A review of single image super-resolution reconstruction based on deep learning
WO2020093210A1 (zh) 基于上下文信息指导的场景分割方法和***
CN113255675B (zh) 基于扩张卷积和残差路径的图像语义分割网络结构及方法
CN111553921B (zh) 一种基于通道信息共享残差模块的实时语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant