CN115019039A - 一种结合自监督和全局信息增强的实例分割方法及*** - Google Patents
一种结合自监督和全局信息增强的实例分割方法及*** Download PDFInfo
- Publication number
- CN115019039A CN115019039A CN202210582668.6A CN202210582668A CN115019039A CN 115019039 A CN115019039 A CN 115019039A CN 202210582668 A CN202210582668 A CN 202210582668A CN 115019039 A CN115019039 A CN 115019039A
- Authority
- CN
- China
- Prior art keywords
- network
- global information
- supervision
- global
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000002708 enhancing effect Effects 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 230000003993 interaction Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 12
- 238000005065 mining Methods 0.000 claims description 9
- 239000000654 additive Substances 0.000 claims description 8
- 230000000996 additive effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 7
- 238000010276 construction Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种结合自监督和全局信息增强的实例分割方法及***,其中的构建方法首先通过基于ResNet网络和FPN模块的特征提取网络来得到特征金字塔以及进行特征图融合;然后采用基于Fastformer的全局信息增强网络来对特征图进行像素之间的交互关系进行建模,提取全局信息;接着通过预测网络进行实例分割,其中,类别预测网络用于对感兴趣的实例进行多标签分类,掩码预测网络用于对实例所在区域进行像素值分类,生成实例掩码;此外还加入了一个自监督学习网络,用于对图中实例之间进行对比学习,加强模型对图片的理解能力以增强泛化性。本发明的方法能够解决对遮挡以及不完整物体检测性能不高的问题,同时加强模型的泛化能力,提高在噪声较多的场景中的分割性能。
Description
技术领域
本发明涉及人工智能和计算机视觉技术领域,更具体地,涉及一种结合自监督和全局信息增强的实例分割方法及***。
背景技术
实例分割是计算机视觉领域中一项相对于目标检测更具有挑战性的任务,包含了目标检测和语义分割的工作。它首先将图像中感兴趣的物体进行定位和分类操作,然后对于实例进行语义分割分离出前景和背景。随着智能驾驶和医学图像分割等技术的高速发展,实例分割算法的性能和实时性也被提出了更高的要求。但是传统的自上而下的基于目标检测的实例分割方法及***和自下而上的基于语义分割的方法在实时性和性能上仍然难以达到目前智能驾驶等领域对于实例分割算法的要求。
如何增强实例分割算法的性能,缩短前向推理时间就具有重大意义。近年来,一些优秀的单阶段实例分割算法被提出,缓解了这些问题,达到了较为理想的效果。尽管如此,这些算法仍存在着一些缺陷:基于卷积的特征提取网络在信息提取的时候缺乏全局信息,导致对于不完整或有遮挡的物体的检测效果较差;此外,有监督的训练方式导致训练出来的模型泛化能力较差,对于噪声较大的场景便难以发挥出算法的性能。
发明内容
针对现有技术的缺陷,本发明的目的是提供一种结合自监督和全局信息增强的实例分割方法及***,旨在解决现有实例分割方法及***存在特征提取阶段缺乏全局信息,且泛化能力较差,对于噪声较大场景分割效果差的问题。
为实现上述目的,本发明提供了一种结合自监督和全局信息增强的实例分割方法及***,包括:
步骤S1:建立实例分割模型;
所述实例分割模型包括特征提取网络、全局信息增强网络、自监督学习网络、类别预测网络和掩码预测网络;
所述特征提取网络包括ResNet网络和FPN网络,ResNet用于通过叠加多个卷积层、Relu层和normalization层以及残差连接,得到图片金字塔。FPN用于结合特征金字塔中上层特征图丰富的语义信息和下层特征图精确的位置信息,进行特征融合;
所述全局信息增强网络由Fastformer模块构成,用于对特征图中每一像素点之间的交互关系进行建模,提取上下文信息,增强特征图的全局信息;
所述自监督学习网络,用于对图片中的实例进行对比学习,加强对图片的理解能力,增强模型泛化能力;
所述类别预测网络,用于对感兴趣的实例进行多标签分类,得到每一实例的对应类别;
所述掩码预测网络,用于对选取的实例区域中的像素点进行二分类,区分前景和背景,生成实例的掩码。
步骤S2:实例分割模型训练;
输入选取的训练数据集,包括图片数据和对应的标签文件。首先提取特征图,再进行特征图融合。然后增强全局信息,输入到预测网络进行预测,与标签文件比对得出损失函数,通过损失函数进行反向传播,引导模型训练方向。
步骤S3:实例分割
将图片分成S×S个网络,每个网格负责预测中心点落在该位置的实例。即以该网格为中心,预测对应实例的类别和掩码。
可选的,所述特征提取网络为ResNet-50和FPN网络。
进一步地,所述全局信息增强模块为基于加性注意力的Fastformer网络。
所述加性注意力根据输入的特征序列E∈RN×d(N为序列长度,d为隐藏维数)进行线性变换分别得出查询矩阵、键矩阵和值矩阵,记为Q,K,V∈RN×d。
对所述的查询矩阵Q采用加性注意力生成权重矩阵,与Q相加得到全局查询矩阵。然后将全局查询向量Q与键向量K进行点乘,对它们的相互关系进行建模。
进一步地,采用相同的操作生成全局键向量,与值向量V进行交互建模,最后得出包含丰富全局语义信息的特征向量。
所述的自监督学习网络首先利用bounding box标签信息得到所有实例特征表示,对于随机选取的样本实例A,其余实例作为候选池,计算它与候选池的相似度得分。
可选的,所述相似度得分计算过程如下:
进一步地,按照相似度得分对实例进行排序,取top-k作为查询集Q,然后利用查询集在候选池中挖掘伪正例。
所述挖掘伪正例过程包括:
(1)计算Q中每个实例与候选池中实例之间的相似度。候选池每个实例I都得到N个相似度得分(N为查询集Q中实例个数)。
(2)将这些相似度得分进行聚合操作,排序,取top-k且超过阈值的实例作为伪正例,加入查询集Q中。
(3)继续利用更新后的查询集Q进行伪正例挖掘,直至挖掘到的伪正例低于阈值。将查询集作为伪正例集,候选池中剩余实例作为负例集。
(4)利用softmax函数得到样本A与伪正例集中每个实例的相似度得分:
其中,pi为伪正例集中实例,Nn为负样本数量,ni为负例集中实例。
可选的,对上述相似度得分取负对数,得到对比学习损失函数:
进一步地,所述类别预测网络采用Focal loss,通过预测每个实例属于某一类别的概率得到损失函数。
掩码预测网络用于对选取的实例区域中的像素点进行二分类,区分前景和背景,生成实例的掩码。
可选的,掩码预测网络损失函数为:
可选的,对于dmask,选用Dice Loss:
LDice=1-D(p,q)
其中,Px,y表示(x,y)处单元格的预测像素值,qx,y表示(x,y)处单元格的真实像素值。
通过本发明所述的以上技术方案,与现有技术相比,能够取得以下有益效果:
(1)本发明在单阶段实例分割算法的基础上,通过加入基于加性注意力的Fastformer模块,对特征图中进行像素级的全局语义信息建模,提高模型对于遮挡、不完整的物体的分割效果。
(2)本发明在预测网络中加入自监督学习模块,通过对图片中所有实例进行对比学习,来加强模型对于图片的理解能力,增强模型的泛化能力。
附图说明
图1是本发明实施例提供的实例分割模型流程图;
图2是本发明实施例提供的实例分割模型框架图;
图3是实施例提供的待测图像;
图4(a)是原始单阶段实例分割方法及***得到的分割结果;
图4(b)是采用本发明的方法得到的实例分割结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供的结合自监督和全局信息增强的实例分割方法及***,包括:
步骤S1:建立实例分割模型;
如图1所示,实例分割模型包括特征提取网络、全局信息增强网络、自监督学习网络、类别预测网络和掩码预测网络;
特征提取网络包括ResNet-50网络和FPN网络,ResNet用于通过叠加多个卷积层、Relu层和normalization层以及残差连接,得出四层不同尺度的图片金字塔。FPN用于结合特征金字塔中上层特征图丰富的语义信息和下册层特征图精确的位置信息,进行特征融合;
全局信息增强网络为Fastformer模块,用于对特征图中每一像素点之间的交互关系进行建模,提取上下文信息,增强特征图的全局信息。
根据输入的特征序列E∈RN×d(N为序列长度,d为隐藏维数)进行线性变换分别得出查询矩阵、键矩阵和值矩阵,记为Q,K,V∈RN×d:Q=[q1,q2,...,qN],K=[k1,k2,...,kN],V=[v1,v2,...,vN]。
对查询矩阵Q采用加性注意力生成权重矩阵,与Q相加得到全局查询矩阵:
其中,αi为查询矩阵Q中某一向量qi的注意力权重值,wq∈Rd为可学习的参数向量。然后将全局查询向量Q与键向量K进行点乘,对它们的相互关系进行建模。
采用相同的操作生成全局键向量,与值向量V进行交互建模,最后得出包含丰富全局语义信息的特征向量。
自监督学习网络,用于对图片中的实例进行对比学习,加强对图片的理解能力,增强模型泛化能力;
首先利用bounding box标签信息得到所有实例特征表示,对于随机选取的样本实例A,其余实例作为候选池,计算它与候选池的相似度得分,计算公式为:
按照相似度得分对实例进行排序,取top-k作为查询集Q,然后利用查询集在候选池中挖掘伪正例,挖掘过程包括:
(1)计算Q中每个实例与候选池中实例之间的相似度。候选池每个实例I都得到N个相似度得分(N为查询集Q中实例个数):
S(I,Q)=(S(I,q1),S(I,q2),...,S(I,qN))
(2)将这些相似度得分进行聚合操作,排序,取top-k且超过阈值的实例作为伪正例,加入查询集Q中。
(3)继续利用更新后的查询集Q进行伪正例挖掘,直至挖掘到的伪正例低于阈值。将查询集作为伪正例集,候选池中剩余实例作为负例集。
(4)利用softmax函数得到样本A与伪正例集中每个实例的相似度得分:
其中,pi为伪正例集中实例,Nn为负样本数量,ni为负例集中实例。
对上述相似度得分取负对数,得到对比学习损失函数:
类别预测网络,用于对感兴趣的实例进行多标签分类,得到每一实例的对应类别;
掩码预测网络,用于对选取的实例区域中的像素点进行二分类,区分前景和背景,生成实例的掩码。掩码预测网络损失函数为:
对于dmask,选用Dice Loss:
LDice=1-D(p,q)
步骤S2:实例分割模型训练;
输入选取的训练数据集,包括图片数据和对应的标签文件。首先提取特征图,再进行特征图融合。然后增强全局信息,输入到head网络进行预测,得出损失函数,通过损失函数来影响反向传播的方向,引导模型训练。
本发明使用城市道路街景数据集Cityscapes来进行模型的训练,该数据集采用了不同城市的街景图像。包含2975张训练集,500个验证集和1525张具有高质量注释的测试图像。
步骤S3:实例分割
首先将图片分成S×S个网络,每个网格负责预测中心点落在该位置的实例。即以该网格为中心,预测对应实例的类别和掩码。
图2为输入图像,图3是实施例提供的待测图像,使用原始单阶段实例分割方法及***的分割结果如图4(a)所示,可以看出第一张图片对右边的摩托车生成的掩码吻合度较差,第二张图片中由于右半部分光线较差,噪声较多,便将围墙识别成了卡车,第三张图片对于不完整的实例:摩托车和骑行者没有很好地分离。使用本发明方法的实例分割结果如图4(b)所示,对于上述情况都有了很好的改善。
本发明在一定程度上改善了原始单阶段实例分割算法对有遮挡或不完整的物体检测效果不佳的问题,此外,对于模型的泛化能力有了较大的提升,在光照不足或曝光过强、雨天等场景中的分割效果取得了较大的提升。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种结合自监督和全局信息增强的实例分割方法,其特征在于,包括:
步骤S1:建立实例分割模型;
所述实例分割模型包括特征提取网络、全局信息增强网络、自监督学习网络、类别预测网络和掩码预测网络;
所述特征提取网络包括ResNet网络和FPN网络,ResNet用于通过叠加多个卷积层、Relu层和normalization层以及残差连接,得到图片金字塔;FPN用于结合特征金字塔中上层特征图丰富的语义信息和下层特征图精确的位置信息,进行特征融合;
所述全局信息增强网络由Fastformer模块构成,用于对特征图中每一像素点之间的交互关系进行建模,提取上下文信息,增强对特征图的全局信息提取能力;
所述自监督学习网络,用于对图片中的实例进行自监督对比学习,加强对图片的理解能力,增强模型泛化能力;
所述类别预测网络,用于对感兴趣的实例进行多标签分类,得到每一实例的对应类别;
所述掩码预测网络,用于对选取的实例区域中的像素点进行二分类,区分前景和背景,生成实例的掩码;
步骤S2:实例分割模型训练;
输入选取的训练数据集,包括图片数据和对应的标签文件;首先提取特征图,再进行特征图融合;然后增强全局信息,输入到head网络进行预测,得出损失函数,通过损失函数进行反向传播来优化模型训练的方向;
步骤S3:实例分割
首先将图片分成S×S个网络,每个网格负责预测中心点落在该位置的实例;即以该网格为中心,预测对应实例的类别和掩码。
2.根据权利要求1所述的一种结合自监督和全局信息增强的实例分割方法,其特征在于,所述特征提取网络为ResNet-50和FPN网络。
3.根据权利要求1所述的一种结合自监督和全局信息增强的实例分割方法,其特征在于,所述全局信息增强模块为基于加性注意力的Fastformer网络。
4.根据权利要求3所述的一种结合自监督和全局信息增强的实例分割方法,其特征在于,所述加性注意力根据输入的特征序列E∈RN×d(N为序列长度,d为隐藏维数)进行线性变换分别得出查询矩阵、键矩阵和值矩阵,记为Q,K,V∈RN×d。
5.根据权利要求4所述的一种结合自监督和全局信息增强的实例分割方法,其特征在于,对所述的查询矩阵Q采用加性注意力生成权重矩阵,与Q相加得到全局查询矩阵;然后将全局查询向量Q与键向量K进行点乘,对它们的相互关系进行建模。
6.根据权利要求5所述的一种结合自监督和全局信息增强的实例分割方法,其特征在于,采用上述相同的操作生成全局键向量,与值向量V进行交互建模,最后得出包含丰富全局语义信息的特征向量。
7.根据权利要求1所述的一种结合自监督和全局信息增强的实例分割方法,其特征在于,所述的自监督学习网络首先利用bounding box标签信息得到所有实例特征表示,对于随机选取的样本实例A,其余实例作为候选池,计算它与候选池的相似度得分。
9.根据权利要求8所述的一种结合自监督和全局信息增强的实例分割方法,其特征在于,所述挖掘伪正例过程包括:
(1)计算Q中每个实例与候选池中实例之间的相似度。候选池每个实例I都得到N个相似度得分(N为查询集Q中实例个数);
(2)将这些相似度得分进行聚合操作,排序,取top-k且超过阈值的实例作为伪正例,加入查询集Q中;
(3)继续利用更新后的查询集Q进行伪正例挖掘,直至挖掘到的伪正例低于阈值。将查询集作为伪正例集,候选池中剩余实例作为负例集;
(4)利用softmax函数得到样本A与伪正例集中每个实例的相似度得分:
其中,pi为伪正例集中实例,Nn为负样本数量,ni为负例集中实例;
(5)对上述相似度得分取负对数,得到对比学习损失函数:
10.根据权利要求1所述的一种结合自监督和全局信息增强的实例分割方法,其特征在于,所述类别预测网络采用Focal loss,通过预测每个实例属于某一类别的概率得到损失函数;所述掩码预测网络用于对选取的实例区域中的像素点进行二分类,区分前景和背景,生成实例的掩码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210582668.6A CN115019039B (zh) | 2022-05-26 | 2022-05-26 | 一种结合自监督和全局信息增强的实例分割方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210582668.6A CN115019039B (zh) | 2022-05-26 | 2022-05-26 | 一种结合自监督和全局信息增强的实例分割方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115019039A true CN115019039A (zh) | 2022-09-06 |
CN115019039B CN115019039B (zh) | 2024-04-16 |
Family
ID=83071360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210582668.6A Active CN115019039B (zh) | 2022-05-26 | 2022-05-26 | 一种结合自监督和全局信息增强的实例分割方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019039B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664845A (zh) * | 2023-07-28 | 2023-08-29 | 山东建筑大学 | 基于块间对比注意力机制的智慧工地图像分割方法及*** |
CN117853732A (zh) * | 2024-01-22 | 2024-04-09 | 广东工业大学 | 一种自监督可重数化太赫兹图像危险品实例分割方法 |
WO2024103380A1 (en) * | 2022-11-18 | 2024-05-23 | Robert Bosch Gmbh | Method and apparatus for instance segmentation |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
CN112927245A (zh) * | 2021-04-12 | 2021-06-08 | 华中科技大学 | 一种基于实例查询的端到端实例分割方法 |
CN113392711A (zh) * | 2021-05-19 | 2021-09-14 | 中国科学院声学研究所南海研究站 | 一种基于高层语义与噪声抑制的烟雾语义分割方法及*** |
US20210319236A1 (en) * | 2020-04-14 | 2021-10-14 | Toyota Research Institute, Inc. | Semantically aware keypoint matching |
CN113837205A (zh) * | 2021-09-28 | 2021-12-24 | 北京有竹居网络技术有限公司 | 用于图像特征表示生成的方法、设备、装置和介质 |
CN114387454A (zh) * | 2022-01-07 | 2022-04-22 | 东南大学 | 一种基于区域筛选模块和多层次对比的自监督预训练方法 |
US20220156592A1 (en) * | 2020-11-16 | 2022-05-19 | Salesforce.Com, Inc. | Systems and methods for contrastive attention-supervised tuning |
-
2022
- 2022-05-26 CN CN202210582668.6A patent/CN115019039B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
US20210319236A1 (en) * | 2020-04-14 | 2021-10-14 | Toyota Research Institute, Inc. | Semantically aware keypoint matching |
US20220156592A1 (en) * | 2020-11-16 | 2022-05-19 | Salesforce.Com, Inc. | Systems and methods for contrastive attention-supervised tuning |
CN112927245A (zh) * | 2021-04-12 | 2021-06-08 | 华中科技大学 | 一种基于实例查询的端到端实例分割方法 |
CN113392711A (zh) * | 2021-05-19 | 2021-09-14 | 中国科学院声学研究所南海研究站 | 一种基于高层语义与噪声抑制的烟雾语义分割方法及*** |
CN113837205A (zh) * | 2021-09-28 | 2021-12-24 | 北京有竹居网络技术有限公司 | 用于图像特征表示生成的方法、设备、装置和介质 |
CN114387454A (zh) * | 2022-01-07 | 2022-04-22 | 东南大学 | 一种基于区域筛选模块和多层次对比的自监督预训练方法 |
Non-Patent Citations (2)
Title |
---|
ASSEM SADEK ET AL.: "Self-Supervised Attention Learning for Depth and Ego-motion Estimation", 《2020 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS)》, 24 January 2021 (2021-01-24) * |
WANG X ET AL.: "Advances in Neural information processing systems", 《SOLOV2: DYNAMIC AND FAST INSTANCE SEGMENTATION》, vol. 33, 31 December 2020 (2020-12-31), pages 17721 - 17732 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024103380A1 (en) * | 2022-11-18 | 2024-05-23 | Robert Bosch Gmbh | Method and apparatus for instance segmentation |
CN116664845A (zh) * | 2023-07-28 | 2023-08-29 | 山东建筑大学 | 基于块间对比注意力机制的智慧工地图像分割方法及*** |
CN116664845B (zh) * | 2023-07-28 | 2023-10-13 | 山东建筑大学 | 基于块间对比注意力机制的智慧工地图像分割方法及*** |
CN117853732A (zh) * | 2024-01-22 | 2024-04-09 | 广东工业大学 | 一种自监督可重数化太赫兹图像危险品实例分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115019039B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Weakly supervised adversarial domain adaptation for semantic segmentation in urban scenes | |
CN111275688A (zh) | 基于注意力机制的上下文特征融合筛选的小目标检测方法 | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
CN110929577A (zh) | 一种基于YOLOv3的轻量级框架改进的目标识别方法 | |
CN110598029A (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN115019039A (zh) | 一种结合自监督和全局信息增强的实例分割方法及*** | |
Li et al. | Detection-friendly dehazing: Object detection in real-world hazy scenes | |
CN113159120A (zh) | 一种基于多尺度跨图像弱监督学习的违禁物检测方法 | |
CN111738055B (zh) | 多类别文本检测***和基于该***的票据表单检测方法 | |
Wang et al. | An advanced YOLOv3 method for small-scale road object detection | |
CN110956158A (zh) | 一种基于教师学生学习框架的遮挡行人再标识方法 | |
Yang et al. | Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics | |
CN112434723B (zh) | 一种基于注意力网络的日/夜间图像分类及物体检测方法 | |
CN112329771B (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
Zhang et al. | Local–global attentive adaptation for object detection | |
Han et al. | A method based on multi-convolution layers joint and generative adversarial networks for vehicle detection | |
CN113971764B (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
Liu et al. | Progressive context-dependent inference for object detection in remote sensing imagery | |
Lv et al. | Contour deformation network for instance segmentation | |
US11954917B2 (en) | Method of segmenting abnormal robust for complex autonomous driving scenes and system thereof | |
Zhang et al. | Small target detection based on squared cross entropy and dense feature pyramid networks | |
CN116385876A (zh) | 基于yolox的光学遥感影像地物检测方法 | |
Qin et al. | The application of attention mechanism in semantic image segmentation | |
CN115035442A (zh) | 基于改进的YOLOv3网络的垃圾分类收运监管方法 | |
CN114299328A (zh) | 一种环境自适应感知的小样本濒危动物检测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |