CN114693967B - 基于二分类张量增强的多分类语义分割方法 - Google Patents
基于二分类张量增强的多分类语义分割方法 Download PDFInfo
- Publication number
- CN114693967B CN114693967B CN202210274049.0A CN202210274049A CN114693967B CN 114693967 B CN114693967 B CN 114693967B CN 202210274049 A CN202210274049 A CN 202210274049A CN 114693967 B CN114693967 B CN 114693967B
- Authority
- CN
- China
- Prior art keywords
- classification
- tensors
- network
- features
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000008093 supporting effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于二分类张量增强的多分类语义分割方法,包括步骤:将需要将分类的图片输入至原始分割网络中;由原始分割网络的特征提取部分进行特征提取,将提取的特征并行输入至N个二分类头以及中转部分;N个二分类头对输入的特征分别进行二分类处理输出N个二分类张量,中转部分输出待分类特征;将N个二分类前景分数图与待分类特征进行级联,级联张量最后送入多分类头,多分类头对输入的级联张量进行N分类处理并输出N分类张量作为最终的多分类结果。本发明可以简单地加入到多数分割网络结构中,仅带来少量的网络参数量增加。相较于直接用CE损失优化多分类头结果的方法,本发明方法能在增加少量参数消耗的情况下提升分割网络的分类性能。
Description
技术领域
本发明涉及多分类技术,特别涉及一种基于二分类张量增强支援多分类分割的技术。
背景技术
随着硬件算力与深度学习的不断发展,对图像的高精度像素级处理的需求愈加普遍。图像分割作为计算机视觉中最为常见的视觉任务,依托深度神经网络可以实现对图像的像素级分类。在许多应用场景中,图像分割是处理流程中不可或缺的一环,如自动驾驶、增强现实等,分割的结果直接影响了下游处理的效果。本发明主要致力于增强分割网络的分类环节,从而提升分割效果。
多数实现语义分割的网络最终仅通过交叉熵(CE)损失优化最终输出的多分类张量,在多数任务中取得了相对较好的分割结果。然而由于CE损失仅激励正确类别上的预测分数,容易忽略对相似类别分数的抑制,进而容易导致网络在分辨相似类别时产生混淆。尤其是在人体解析等具体下属任务中,混淆类别带来的误分类对网络的影响显得不可忽视。使用二分类头支援多分类头可以增加分割网络的分类能力,但各个类别的二分类预测之间的关系难以通过BCE损失得到反映,故二分类头的输出张量可以再进一步通过新的损失约束,实现对最终结果更好的支援。
发明内容
本发明所要解决的技术问题是,提供一种新型损失对二分类张量进行优化,使得二分类张量可以更好支援语义分割网络的最终结果,实现到多分类结果更好的支援的方法。本方法旨在减少二分类张量中不正确类别的预测在各个真值区域的二分类分数,以及进一步加强各个真值区域内正确预测的分数。另外,本发明旨在进一步提高分割网络对相似类别的分类能力。通过对已有网络结构增加简单的二分类头,对损失进行优化,从而提升二分类张量对最终结果的支持效果,进一步提升最终分割结果的平均交并比。
本发明为解决上述技术问题所采用的技术方案是,基于二分类张量增强的多分类语义分割方法,包括步骤:
1)将需要将分类的图片输入至原始分割网络中;原始分割网络包括特征提取部分与一个多分类头;
2)由原始分割网络的特征提取部分进行特征提取,将提取的特征并行输入至N个二分类头以及中转部分;
3)N个二分类头对输入的特征分别进行二分类处理输出N个二分类张量,中转部分保持输入特征的维度并进行简单的特征转换,输出待分类特征;
4)将N个二分类前景分数图与待分类特征进行级联,级联张量最后送入多分类头,多分类头对输入的级联张量进行N分类处理并输出N分类张量作为最终的多分类结果。
进一步的,训练过程实现多分类方法的整个网络采用的损失函数L为:L=LCE+α·LBCE+β·LB2M;其中,LCE与LBCE分别是多分类头和二分类头的交叉熵损失,α和β是超参数;
LB2M为强化二分类张量支援属性的损失,LB2M=Loverlap+Lmissing;Loverlap为反映二分类中不合理交叠的损失项,Lmissing为反映二分类中缺失预测的损失项。
本发明的有益效果是,可以简单地加入到多数分割网络结构中,仅带来少量的网络参数量增加,改进策略可以提高分割网络结果的平均交并比,通过设计的B2M损失对简易二分类头的输出张量进一步约束。相较于直接用CE损失优化多分类头结果的方法,本发明方法能在增加少量参数消耗的情况下提升分割网络的分类性能。
附图说明
图1:本发明多分类示意图;
图2:发明中使用的网络示意图;
图3:二分类头的结构图。
具体实施方式
由于语义分割任务可视为逐个像素的分类任务。设标签种类有N类,常规的语义分割网络最终通过多分类头对每个像素进行N分类。考虑到二分类头能够协助N分类头进行分类,申请人提出了一种通过强化二分类张量的特性进而提升分割效果的改进策略。结构上通过设计一个简单的二分类头与一个中转部分;损失上设计了一种强化二分类张量支援属性的损失,名为B2M(Binary to Multiple)损失。
如图1所示,我们选择HRNetV2作为实施改进策略的baseline网络。首先,我们将原分割网络中要通过多分类头的张量同时送进多个并行二分类头和一个中转部分,多个并行二分类头用于N分类问题转化为N个二分类问题并输出N个二分类结果,中转部分用于保持待分类张量的通道数,输出待分类的特征,再将N个二分类结果与待分类的特征级联,级联张量最后送入多分类头,多分类头用于输出最终的N分类结果。多分类头结构在原网络设计的基础上增加N个输入通道以配合级联中加入的二分类张量。
对于网络的训练,网络的最终结果仍然使用CE损失优化;二分类张量的优化除了采用BCE损失外,还需要使用提出的B2M损失。
我们通过将N分类问题转化为N个二分类问题,进而从多分类真值标签得到二分类头的真值标签g1,g2...gN。输入一张图片,二分类头会输出N张二分类前景分数图(N个二分类张量),每张前景分数图对应一个类别,其中第k张记为pk,pk∈[0,1]H×W,k=1,2...N,H和W分别是分数图的高和宽,其对应真值gk∈{0,1}H×W。pk中前景分数大于0.5的区域为前景区域,记输入图片中实际存在的标签类别的序号为l1,l2...lC,C为一张图片中所含真值类别的数目。由于仅靠BCE损失优化,二分类张量中各个类别的分数图相互独立,这使得该张量在不同类别上预测的前景区域可能存在交叠或缺失,即二进制张量上的某些像素在一类以上的预测分数高于0.5或所有类别上都小于0.5。这种各类前景区域的交叠与缺失会弱化对相应位置多分类结果的支援。
对于第li类的预测,我们通过如下公式计算出其他类别在其对应的真值区域的交叠程度Overlap(li),其中“sum”表示对所有元素求和,“*”表示对应位置元素相乘:
得到交叠程度Overlap(li)后,将其通过如下的非线性映射,其中“σ”表示Sigmoid函数,k和b为超参数:
f(x)=σ(k·x+b)-σ(b) (2)
依次对C个类别的交叠程度映射后,在类别上取平均,我们得到了B2M损失的第一项,记为Loverlap,该损失项主要针对二分类预测中不合理交叠的抑制:
对于缺失预测的区域,我们采用类似计算交并比的方法进一步增强真值区域的正确分数。记该项损失为Lmissing,计算方式如下:
由此可计算所提出的B2M损失,即LB2M:
LB2M=Loverlap+Lmissing (5)
整个网络的损失函数如下,LCE与LBCE分别是多分类头和二分类头的交叉熵损失,α和β是超参数:
L=LCE+α·LBCE+β·LB2M (6)
本发明在含有8个TITAN X PASCAL的服务器上进行实现,网络采用HRNetV2作为baseline,如图2所示。网络整体主要包含了主干网络backbone,二分类环节binaryclassitication head和多分类环节multi-classitication head。主干网络为HRNetV2-W48,用于提取特征;二分类头结构如图3所示,中转部分transformation part与二分类头的结构相似,都是由2个1×1卷积层、一个批标准化Batch Normalization层和一个激活函数Relu层构成,二者仅在末尾卷积层的输出通道数上有区别;多分类头结构与baseline类似。设计策略的主要步骤体现在:利用轻量二分类头获得二分类张量,计算各真值类别对应的交叠程度并在类别上取均值,计算各真值类别在真值区域的平均分数并在类别上取均值,利用这两个均值对二分类张量进行优化。
下面结合实验结果说明本发明的效果,语义分割中人体解析任务的数据集有较多的相似类别,故选择如下三个数据集用于实验。baseline和采用策略改进后的网络在训练和测试都使用了相同的实验条件:
表1在三个数据集上的mIoU(百分数)对比实验
本方法(ours)在三个数据集(LIP,ATR,PPSS)上较原分割网络(baseline)都对mIoU有较为明显的提升,由此可见该策略对网络性能提高的有效性。
Claims (2)
1.基于二分类张量增强的多分类语义分割方法,其特征在于,包括步骤:
1)将需要将分类的图片输入至原始分割网络中;原始分割网络包括特征提取部分与一个多分类头;
2)由原始分割网络的特征提取部分进行特征提取,将提取的特征并行输入至N个二分类头以及中转部分;
3)N个二分类头对输入的特征分别进行二分类处理输出N个二分类张量,中转部分保持输入特征的通道数,输出待分类特征;
4)将N个二分类前景分数图与待分类特征进行级联,级联张量最后送入多分类头,多分类头对输入的级联张量进行N分类处理并输出N分类张量作为最终的多分类结果;
其中,训练过程实现多分类方法的整个网络采用的损失函数L为:L=LCE+α.LBCE+β.LB2M;
其中,LCE与LBCE分别是多分类头和二分类头的交叉熵损失,α和β是超参数;LB2M为强化二分类张量支援属性的损失,LB2M=Loverlap+Lmissing;Loverlap为反映二分类中不合理交叠的损失项,Lmissing为反映二分类中缺失预测的损失项;
反映二分类中不合理交叠的损失项Loverlap的具体计算方法为:
其中,C表示当前输入图片中所含真值类别的数目;对于所含的第i个真值类别,li对应表示该类别标签的序号,f(x)表示对输入x的非线性映射,f(x)=δ(k·x+b)-δ(b),δ表示Sigmoid函数,k和b为超参数;Overlap(li)为其他类别在第li个类别对应的真值区域的交叠程度;
反映二分类中缺失预测的损失项Lmissing的具体计算方法为:
其中,sum表示对所有元素求和,*表示对应位置元素相乘,表示第li个类别对应的二分类预测分数,/>表示二分类真实标签。
2.如权利要求1所述方法,其特征在于,原始分割网络为HRNetV2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210274049.0A CN114693967B (zh) | 2022-03-20 | 2022-03-20 | 基于二分类张量增强的多分类语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210274049.0A CN114693967B (zh) | 2022-03-20 | 2022-03-20 | 基于二分类张量增强的多分类语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114693967A CN114693967A (zh) | 2022-07-01 |
CN114693967B true CN114693967B (zh) | 2023-10-31 |
Family
ID=82138917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210274049.0A Active CN114693967B (zh) | 2022-03-20 | 2022-03-20 | 基于二分类张量增强的多分类语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114693967B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268870A (zh) * | 2018-01-29 | 2018-07-10 | 重庆理工大学 | 基于对抗学习的多尺度特征融合超声图像语义分割方法 |
CN109509192A (zh) * | 2018-10-18 | 2019-03-22 | 天津大学 | 融合多尺度特征空间与语义空间的语义分割网络 |
CN111462163A (zh) * | 2020-01-03 | 2020-07-28 | 华中科技大学 | 一种弱监督语义分割方法及其应用 |
WO2020192469A1 (zh) * | 2019-03-26 | 2020-10-01 | 腾讯科技(深圳)有限公司 | 图像语义分割网络的训练方法、装置、设备及存储介质 |
CN111860514A (zh) * | 2020-05-21 | 2020-10-30 | 江苏大学 | 一种基于改进DeepLab的果园场景多类别实时分割方法 |
CN112465844A (zh) * | 2020-12-29 | 2021-03-09 | 华北电力大学 | 一种用于图像语义分割的多类别损失函数及其设计方法 |
CN112801104A (zh) * | 2021-01-20 | 2021-05-14 | 吉林大学 | 基于语义分割的图像像素级伪标签确定方法及*** |
WO2021097055A1 (en) * | 2019-11-14 | 2021-05-20 | Nec Laboratories America, Inc. | Domain adaptation for semantic segmentation via exploiting weak labels |
CN113191392A (zh) * | 2021-04-07 | 2021-07-30 | 山东师范大学 | 一种乳腺癌图像信息瓶颈多任务分类和分割方法及*** |
CN114092818A (zh) * | 2022-01-07 | 2022-02-25 | 中科视语(北京)科技有限公司 | 语义分割方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11188799B2 (en) * | 2018-11-12 | 2021-11-30 | Sony Corporation | Semantic segmentation with soft cross-entropy loss |
-
2022
- 2022-03-20 CN CN202210274049.0A patent/CN114693967B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268870A (zh) * | 2018-01-29 | 2018-07-10 | 重庆理工大学 | 基于对抗学习的多尺度特征融合超声图像语义分割方法 |
CN109509192A (zh) * | 2018-10-18 | 2019-03-22 | 天津大学 | 融合多尺度特征空间与语义空间的语义分割网络 |
WO2020192469A1 (zh) * | 2019-03-26 | 2020-10-01 | 腾讯科技(深圳)有限公司 | 图像语义分割网络的训练方法、装置、设备及存储介质 |
WO2021097055A1 (en) * | 2019-11-14 | 2021-05-20 | Nec Laboratories America, Inc. | Domain adaptation for semantic segmentation via exploiting weak labels |
CN111462163A (zh) * | 2020-01-03 | 2020-07-28 | 华中科技大学 | 一种弱监督语义分割方法及其应用 |
CN111860514A (zh) * | 2020-05-21 | 2020-10-30 | 江苏大学 | 一种基于改进DeepLab的果园场景多类别实时分割方法 |
CN112465844A (zh) * | 2020-12-29 | 2021-03-09 | 华北电力大学 | 一种用于图像语义分割的多类别损失函数及其设计方法 |
CN112801104A (zh) * | 2021-01-20 | 2021-05-14 | 吉林大学 | 基于语义分割的图像像素级伪标签确定方法及*** |
CN113191392A (zh) * | 2021-04-07 | 2021-07-30 | 山东师范大学 | 一种乳腺癌图像信息瓶颈多任务分类和分割方法及*** |
CN114092818A (zh) * | 2022-01-07 | 2022-02-25 | 中科视语(北京)科技有限公司 | 语义分割方法、装置、电子设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
Lian Xu 等.Multi-Class Token Transformer for Weakly Supervised Semantic Segmentation.《Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 》.2022,4310-4319. * |
Longrong Yang等.Learning with Noisy Class Labels for Instance Segmentation.《Computer Vision – ECCV 2020》.2020,38–53. * |
Rosario Delgado 等.Enhancing Confusion Entropy (CEN) for binary and multiclass classification.《PLOS ONE》.2019,1-30. * |
张宏钊 等.基于加权损失函数的多尺度对抗网络图像语义分割算法.《计算机应用与软件》.2020,(第01期),290-297. * |
王珊.基于多尺度卷积对核磁图像分割的研究.《中国优秀硕士学位论文全文数据库医药卫生科技辑》.2021,(第05期),E060-49. * |
Also Published As
Publication number | Publication date |
---|---|
CN114693967A (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11537873B2 (en) | Processing method and system for convolutional neural network, and storage medium | |
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
Simo-Serra et al. | Mastering sketching: adversarial augmentation for structured prediction | |
CN109886121B (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
Zhao et al. | Document image binarization with cascaded generators of conditional generative adversarial networks | |
CN112507777A (zh) | 一种基于深度学习的光学遥感图像舰船检测与分割方法 | |
CN111046962A (zh) | 基于稀疏注意力的卷积神经网络模型的特征可视化方法及*** | |
Lopes et al. | Automatic histogram threshold using fuzzy measures | |
CN110163286B (zh) | 一种基于混合池化的领域自适应图像分类方法 | |
CN110555060A (zh) | 基于成对样本匹配的迁移学习方法 | |
CN112802039B (zh) | 一种基于全局边缘注意力的全景分割方法 | |
CN111126115A (zh) | 暴力分拣行为识别方法和装置 | |
CN110929099B (zh) | 一种基于多任务学习的短视频帧语义提取方法及*** | |
CN113837366A (zh) | 一种多风格字体生成方法 | |
Fu et al. | A two-stage attention aware method for train bearing shed oil inspection based on convolutional neural networks | |
CN108932715B (zh) | 一种基于深度学习的冠状动脉造影图分割的优化方法 | |
Xu et al. | RGB-T salient object detection via CNN feature and result saliency map fusion | |
Guo et al. | Global context and boundary structure-guided network for cross-modal organ segmentation | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
CN114445620A (zh) | 一种改进Mask R-CNN的目标分割方法 | |
Li et al. | Exposing low-quality deepfake videos of social network service using spatial restored detection framework | |
CN114693967B (zh) | 基于二分类张量增强的多分类语义分割方法 | |
CN117152438A (zh) | 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法 | |
Huang et al. | Expression-targeted feature learning for effective facial expression recognition | |
CN115797642A (zh) | 基于一致性正则化与半监督领域自适应图像语义分割算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |