CN116071628B - 图像处理方法、装置、电子设备和存储介质 - Google Patents

图像处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116071628B
CN116071628B CN202310114092.5A CN202310114092A CN116071628B CN 116071628 B CN116071628 B CN 116071628B CN 202310114092 A CN202310114092 A CN 202310114092A CN 116071628 B CN116071628 B CN 116071628B
Authority
CN
China
Prior art keywords
feature
processing
map
feature map
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310114092.5A
Other languages
English (en)
Other versions
CN116071628A (zh
Inventor
刘军伟
杨叶辉
曹星星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310114092.5A priority Critical patent/CN116071628B/zh
Publication of CN116071628A publication Critical patent/CN116071628A/zh
Application granted granted Critical
Publication of CN116071628B publication Critical patent/CN116071628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种图像处理方法,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉和图像处理技术领域。具体实现方案为:提取待处理图像的特征,得到初始特征图,其中,待处理图像包括目标对象;对初始特征图分别进行最具判别性特征的压制处理以及无关特征的压制处理,得到第一特征处理图和第二特征处理图;对第一特征处理图和第二特征处理图进行融合,得到融合特征图;对融合特征图进行特征选择,得到输出特征图;以及根据输出特征图,确定待处理图像中目标对象的类别和位置。本公开还提供了一种图像处理装置、电子设备和存储介质。

Description

图像处理方法、装置、电子设备和存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习、计算机视觉和图像处理技术领域。更具体地,本公开提供了一种图像处理方法、装置、电子设备和存储介质。
背景技术
在计算机视觉技术领域中,目标分类、目标检测、图像分割等任务都离不开图像中目标对象的定位。图像中的目标对象的定位一般采取基于深度学习的目标定位方法。
发明内容
本公开提供了一种图像处理方法、装置、设备以及存储介质。
根据第一方面,提供了一种图像处理方法,该方法包括:提取待处理图像的特征,得到初始特征图,其中,待处理图像包括目标对象;对初始特征图分别进行最具判别性特征的压制处理以及无关特征的压制处理,得到第一特征处理图和第二特征处理图;对第一特征处理图和第二特征处理图进行融合,得到融合特征图;对融合特征图进行特征选择,得到输出特征图;以及根据输出特征图,确定待处理图像中目标对象的类别和位置。
根据第二方面,提供了一种图像处理装置,该装置包括:提取模块,用于提取待处理图像的特征,得到初始特征图,其中,待处理图像包括目标对象;处理模块,用于对初始特征图分别进行最具判别性特征的压制处理以及无关特征的压制处理,得到第一特征处理图和第二特征处理图;融合模块,用于对第一特征处理图和第二特征处理图进行融合,得到融合特征图;选择模块,用于对融合特征图进行特征选择,得到输出特征图;以及确定模块,用于根据输出特征图,确定待处理图像中目标对象的类别和位置。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现根据本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开的一个实施例的可以应用图像处理方法和装置的示例性***架构示意图;
图2是根据本公开的一个实施例的图像处理方法的流程图;
图3是根据本公开的一个实施例的图像处理方法的示意图;
图4是根据本公开的一个实施例的第一分支下不同曲率的非线性曲线示意图;
图5是根据本公开的一个实施例的图像处理装置的框图;
图6是根据本公开的一个实施例的图像处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
基于深度学习的目标定位方法包括强监督的目标定位方法和弱监督的目标定位方法。
强监督的目标定位方法需要在准备阶段对图像中的目标对象进行像素级的标注或定位框级的标注。像素级的标注包括像素级掩膜,例如将图像中属于目标对象的像素置为1,将图像中不属于目标对象的像素置为0。定位框级的标注例如使用包围框将目标对象在图像中所在区域的边界进行标记。
弱监督的目标定位方法在准备阶段只需要图像级的标注,图像级的标注例如包括标注图像的类别。与像素级或定位框级的细粒度标注不同,图像级标注只需要标注人员给出图像中是否包含某种对象的信息,而不需要标注目标对象在图像中的具***置或者轮廓。
相比于强监督的目标定位方法,弱监督的目标定位方法在网络训练过程中使用图像级的类别标注信息来代替精确的目标位置标注信息进行监督训练,使模型可以推理出图像中目标对象的位置信息。
像素级的标注和定位框级的标注,会消耗大量的人工标注成本。特别是对一些专业领域的图像进行标注非常耗时,如医学影像中的病灶位置相对分散,而且医学影像标注具有很强的专业性,需要专业医学专家进行标注,病灶级标注(如像素级掩膜或者定位框标注)面临难度大和成本高的问题尤为突出。而图像级标注在速度和成本上相对来说会小很多,能够相对快速地获得更多的标注样本。
因此,通过对图像级标注数据进行学习建模,让模型可以推理出图像中目标对象的位置信息的弱监督的目标定位方法越来越受到关注。
目前,弱监督的目标定位方法主要包括基于类别激活图(CAM,Class ActivationMap)的方法。CAM方法利用基于深度学习的图像分类模型的最后一个卷积特征图(例如卷积网络最后一个卷积层的输出)的加权和来进行目标对象的定位。加权的权重来自图像分类模型的最后一个全连结层中与对象所属类别相关的权重参数。
但是,CAM方法倾向于关注图像中最具判别性的区域,导致弱监督目标定位只能获取目标对象的部分区域,目标定位不完整。例如仅获得猫头区域,遗漏了猫身体的区域。此外,目标对象经常与某些无关的物体共现,在弱监督定位时,可能会将这些无关物体也误定位成目标物体。例如,将与目标“狗”经常一起出现的“人”也定位成目标。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图1是根据本公开一个实施例的可以应用图像处理方法和装置的示例性***架构示意图。需要注意的是,图1所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,根据该实施例的***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105进行交互,以接收或发送消息等。终端设备101、102、103可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机等等。
本公开实施例所提供的图像处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的图像处理装置一般可以设置于服务器105中。本公开实施例所提供的图像处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的图像处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
图2是根据本公开的一个实施例的图像处理方法的流程图。
如图2所示,该图像处理方法200包括操作S210~操作S250。
在操作S210,提取待处理图像的特征,得到初始特征图。
待处理图像中包含目标对象,目标对象可以是猫、狗等对象,可以是病灶等对象。
例如,使用基于深度学习模型的图像分类模型提取待处理图像的特征,得到初始特征图。图像分类模型可以包括卷积网络,卷积网络可以包括多个卷积层(例如16层)。初始特征图可以是卷积网络的任一层卷积层输出的特征图。示例性地,初始特征图可以是卷积网络第7层、第10层或者第13层的输出等。
初始特征图中特征的特征值(也可以称为激活值)表示该特征与目标对象的类别的相关性。特征的激活值越大,表示该特征对分类结果越重要,该特征越具有判别性。特征的激活值越小,表示该特征对分类结果越不重要(或者与分类结果越无关),该特征越不具有判别性。
在操作S220,对初始特征图分别进行最具判别性特征的压制处理以及无关特征的压制处理,得到第一特征处理图和第二特征处理图。
例如,可以对初始特征图进行两个分支的处理。第一个分支用于对初始特征图中最具判别性的特征进行压制,例如将初始特征图中激活值大于第一阈值的区域的激活值强制压制为0,得到第一特征处理图。第一分支的处理能够使得模型关注除最具判别性的特征以外的特征,能够避免仅关注最具判别性的特征造成的目标定位不完整的问题。
第二个分支用于对初始特征图中最不具有判别性的特征(或者无关特征)进行压制,例如将初始特征图中激活值小于第二阈值的区域(例如背景区域)的激活值强制压制为0,得到第二特征处理图。第二分支的处理能够使得模型充分关注除无关特征以外的具有信息量的特征,能够去除不相关的干扰,提升模型对于所有与类别相关的信息的关注能力,避免将无关物体也误定位成目标对象的问题。
第一阈值可以是根据初始特征图中最大激活值确定的,例如将最大激活值的80%作为第一阈值。第二阈值也可以是根据初始特征图中最大激活值确定的,例如将最大激活值的40%作为第二阈值。
在操作S230,对第一特征处理图和第二特征处理图进行融合,得到融合特征图。
由于第一特征处理图中压制了最具判别性的区域,第二特征处理图中压制了与目标对象无关的区域,因此,第一特征图和第二特征图都存在信息缺失。
为了解决信息丢失的问题,可以将第一特征处理图和第二特征处理图进行融合,得到融合特征图。例如,初始特征图为F∈Rc×H×W,H和W分别为初始特征图的高和宽,C为初始特征图的通道数(通道维度)。那么第一特征处理图可以为D∈RC×H×W,第二特征处理图可以为S∈RC×H×W。将第一特征处理图和第二特征处理图按照通道维度进行堆叠,可以得到融合特征图M∈R2C×H×W
在操作S240,对融合特征图进行特征选择,得到输出特征图。
对于图像分类模型来说,融合特征图M中的信息是相对冗余的。因此,可以对融合特征图M进行特征选择,来减少冗余。
例如,可以对融合特征图M的2C个通道进行加权,通过学习的方式获得每个通道中的特征的权重,从而可以从融合特征图M中更加有倾向性地选择出具有信息量的特征,得到加权特征图。再将加权特征图的2C个通道维度转换为C个通道维度,得到输出特征图,使得输出特征图和初始特征图通道数一致。由此,针对上述初始特征图的两个分支的处理步骤,以及将融合特征图处理为输出特征图的步骤(上述操作S220~操作S240)可以作为***到图像分类模型的组件,该组件可以兼容各种分类网络,实现即插即用。
在操作S250,根据输出特征图,确定待处理图像中目标对象的类别和位置。
例如,可以将输出特征图输入图像分类模型的后续网络,最后输入图像分类模型的全连接网络,全连接网络可以输出目标对象的目标类别。例如,全连接网络以将图像分类为类别1、类别2、类别3中的之一,如果全连接网络将当前图像分类为类别1,那么类别1为目标对象的目标类别。
全连接网络还可以输出与各个类别相关的权重,包括与类别1相关的权重、与类别2相关的权重以及与类别3相关的权重。如果类别1为目标对象的目标类别,那么可以将与类别1相关的权重作为输出特征图中特征的权重。
接下来,根据输出特征图中特征的权重,对输出特征图进行加权处理,得到类别激活图。根据类别激活图对目标对象进行定位。例如,可以将类别激活图中激活值较大的区域确定为目标对象所在的区域,从而得到目标对象的定位框。还可以将类别激活图中的激活值进行二值化处理,得到像素级的掩膜图。
本公开的实施例对待处理图像的初始特征图分别进行最具判别性特征的压制以及无关特征的压制两个分支的处理,将两分支处理后的特征处理图进行融合,再对融合特征图进行特征选择,根据特征选择后的输出特征图进行弱监督定位,能够避免相关技术中仅关注最具判别性的特征造成的目标定位不完整的问题,以及避免无关特征造成的误定位问题,使得图像分类模型充分利用待处理图像中所有与类别相关的信息,提高目标对象的定位准确性。
下面结合图3对本公开提供的图像处理方法进行详细说明。
图3是根据本公开的一个实施例的图像处理方法的示意图。
如图3所示,初始特征图F∈RC×H×W例如是图像分类模型的卷积网络的某一个卷积层(例如第10层)输出的。对初始特征图F分别进行两个分支的特征处理,得到第一特征处理图D∈RC×H×W和第二特征处理图S∈RC×H×W
根据本公开的实施例,第一分支用于将初始特征图中特征值小于第一阈值的特征进行非线性化的增强处理,以及将初始特征图中特征值不小于第一阈值的特征去除,得到第一特征处理图。
例如,可以通过如下公式(1)将初始特征图F处理为第一特征处理图D。
其中,F(c,i,j)表示初始特征图中第c个通道的第i行第j列位置的特征值,D(c,i,j)表示第一特征处理图中第c个通道的第i行第j列位置的特征值,max(F(c))表示第c个通道中的最大特征值,cr*max(F(c))表示第一阈值,cr为超参数,0≤cr≤1,α为用于控制非线性化曲线的曲率的参数。
当初始特征图中的特征值F(c,i,j)属于范围F(c,i,j)<cr*max(F(c))时,根据公式(1)将该特征值在0~max(F(c)之间进行非线性化处理,且公式(1)会将该特征值增大,即在F(c,i,j)<cr*max(F(c))时,D(c,i,j)≥F(c,i,j)恒成立。因此,公式(1)的非线性化映射关系相比于线性映射关系(线性映射关系指D(c,i,j)=F(c,i,j)的映射关系)能够引入更大的网络注意力。
当初始特征图中的特征值F(c,i,j)属于范围为cr*max(F(c)≤F(c,i,j)≤max(F(c)时,根据公式(1)将该特征值强制压制为0,使得网络关注到除最大激活区域以外的区域,即F(c,i,j)<cr*max(F(c))对应的区域。
其中,控制非线性化曲线的曲率的参数α可以通过以下公式(2)表示。
通过公式(2)设置参数α,能够使得不同cr值下,公式(1)的非线性映射曲线与线性映射曲线(线性映射关系指D(c,i,j)=F(c,i,j)的映射关系)的交点为F(c,i,j)=cr*max(F(c))。由此,在交点之前的特征值(即初始特征图中F(c,i,j)<cr*max(F(c))对应的区域的特征值)会非线性化增大,以便引入更大的网络注意力。
根据本公开的实施例,第二分支用于将初始特征图中特征值小于第二阈值的特征去除,得到第二特征处理图。第二分支的目的是尽量压制初始特征图F中与目标对象无关的区域(激活值较低的区域),保留所有具有信息量的区域(激活值较高的区域)。
例如,可以通过如下公式(3)将初始特征图F处理为第二特征处理图S。
其中,F(c,i,j)表示初始特征图中第c个通道的第i行第j列位置的特征值,S(c,i,j)表示第二特征处理图中第c个通道的第i行第j列位置的特征值,max(F(c))表示第c个通道中的最大特征值,t*max(F(c))表示第二阈值,t为用于控制激活值保留比例的超参数,0<t<1。
通过以上两个分支,相当于对初始特征图F的中的信息进行了信息拆解,获得了第一特征处理图D和第二特征处理图S。第一特征处理图D中压制了最具判别性区域,第二特征处理图S压制了激活值较小的背景信息。第一特征处理图D和第二特征处理图S侧重不同,但是都存在信息损失。
为了解决信息损失问题,可以将第一特征处理图D和第二特征处理图S按通道维度进行融合,获得融合特征图M∈R2C×H×W。但是对于图像分类模型来说,融合特征图M中的信息存在冗余,因此需要对融合特征图M进行特征选择,以减少冗余。
根据本公开的实施例,对融合特征图M进行特征选择包括确定融合特征图M中的特征的第一权重,其中,第一权重表示特征对目标对象的分类结果的重要性;以及根据第一权重,将融合特征图M处理为加权特征图MW,再将加权特征图MW的通道维度(通道数)处理为与初始特征图F的通道维度(通道数)一致,得到输出特征图F*。
第一权重的作用是基于第一权重可以从融合特征图M中更加有倾向性地选择出具有信息量的特征。确定第一权重包括:对融合特征图M进行压缩,得到第一融合特征向量W1;对第一融合特征向量W1中的各个特征进行信息交互,得到第二融合特征向量W2,将第二融合特征向量W2的维度处理为与第一融合特征向量W1的维度一致,得到第三融合特征向量W3;以及对第三融合特征向量W3进行归一化处理,得到权重向量W*,其中,权重向量W*中的元素表示第一权重,权重向量中的多个元素表示的第一权重与融合特征图中的多个特征各自对应。
参见图3,使用尺寸为H*W的池化核对融合特征图M进行全局最大池化操作,使得融合特征图M压缩为第一融合特征向量W1∈R2C
将第一融合特征向量W1通过一个全连接层,实现对特征向量的各个通道进行信息交互,得到第二融合特征向量W2∈RC,将第二融合特征向量W2通过下一个全连接层,使得第二融合特征向量W2的通道数(维度)重新恢复到与第一融合特征向量W1的通道数(维度)一致,得到第三融合特征向量W3∈R2C
接下来,将第三融合特征向量W3通过Sigmoid函数进行归一化处理,使得第三融合特征向量W3中的特征值映射到(0,1)范围内,得到权重向量W*∈R2C,权重向量W*中的元素表示第一权重,权重向量W*中的2C个第一权重与融合特征图M的2C个通道的特征各自对应。
使用权重向量W*∈R2C对融合特征图M∈R2C×H×W进行加权,得到加权特征图MW∈R2C ×H×W。例如,加权特征图MW的第i个通道的特征的获取方式为Mw(i)=W*(i)*M(i),其中W*(i)为权重向量W*的第i个元素,M(i)为融合特征图M中的第i个通道的特征。
接下来,使用尺寸为1*1的卷积核将加权特征图MW∈R2C×H×W进行通道约减,得到输出特征图F*∈RC×H×W,使得输出特征图F*的通道数和初始特征图F的通道数一致。由此,上述从初始特征图F到输出特征图F*的实现过程(即图3中虚线框中的内容)可以作为***图像分类模型的组件,该组件可以以即插即用的方式兼容其他各种网络结构,并且可以减少参数量,提高计算速度。
利用输出特征图可以基于CAM方法进行弱监督目标定位。根据输出特征图进行弱监督目标定位包括:将输出特征图输入图像分类模型,得到目标对象的目标类别以及与目标类别相关的第二权重;根据第二权重,将输出特征图处理为类别激活图;以及根据类别激活图,确定待处理图像中目标对象的位置。
例如,将输出特征图输入图像分类模型后续的网络结构,后续网络可以包括卷积网络的剩余卷积层以及全连接网络。全连接网络可以输出目标对象的目标类别以及与目标类别相关的第二权重根据第二权重对输出特征图进行加权处理,得到类别激活图,根据类别激活图可以进一步进行定位框或者像素级掩膜的定位。
本实施例通过对融合特征图进行压缩以及利用图像分类模型的训练自动学习融合特征图各个通道的特征的权重,能够使得图像分类模型自适应学习对于分类结果最有效的特征,从而让两个分支的输出都得到充分利用,提高目标对象的分类准确性,进而提高后续利用输出特征图进行弱监督目标定位的准确性。
根据本公开的实施例,根据类别激活图,确定待处理图像中目标对象的位置包括:对类别激活图中的特征值进行二值化处理,得到特征掩膜图;以及根据特征掩膜图,确定目标对象的位置信息。
可以根据用于控制类别激活图中的特征二值化的第三阈值,对类别激活图中的特征值进行二值化处理。例如,将类别激活图中激活值大于或等于第三阈值的区域设置为1,其余区域设置为0,这样就将类别激活图转化为了二值化的特征掩膜图。
接下来,可以在掩膜图中找到大于0的连通区域,将该连通区域确定为目标对象所在区域。还可以将该连通区域的外边界矩形框确定为目标定位框。
针对本公开提供的图像处理方法,本公开还进一步提供了实验数据。该实验数据包括本实施例的图像处理方法以及传统的基于类别激活图的目标定位方法的定位准确率的对比数据。下面对实验内容进行说明。
上述第一分支的公式(1)中参数α值不同,非线性化曲线的曲率不同,将初始特征图进行第一分支的处理所得到的第一特征处理图的也不同。因此,可以先确定一特定的α,基于该特定的α确定非线性化映射关系(即公式(1))。基于确定的公式(1)来进行对比实验。
图4是根据本公开的一个实施例的第一分支下不同曲率的非线性曲线示意图。
如图4所示,横坐标表示初始特征图中特征的原始值,即F(c,i,j)。纵坐标表示公式(1)非线性化部分对应的输出值,即D(c,i,j)。曲线401为α=0.4时的非线性曲线,曲线402为α=0.6时的非线性曲线,曲线403为α=0.8时的非线性曲线,直线404为D(c,i,j)=F(c,i,j)的线性关系。
由于上述公式(2)的α值的设置,使得公式(1)的非线性映射曲线与线性映射曲线(线性映射关系指D(c,i,j)=F(c,i,j)的映射关系)的交点为F(c,i,j)=cr*max(F(c))。
例如,曲线401与直线404的交点为F(c,i,j)=0.4*max(F(c)),曲线402与直线404的交点为F(c,i,j)=0.6*max(F(c)),曲线403与直线404的交点为F(c,i,j)=0.8*max(F(c))。
由图4可以得到,在α=0.8时,曲线403对F(c,i,j)<cr*max(F(c))区域的原始值的增强明显,能够引入更大的网络注意力。因此,因此本实施例采取α=0.8下的公式(1)参与实验。
实验图像可以来自公开数据集,使用本公开提供的图像处理方法得到实验图像的类别激活图,并使用传统的基于类别激活图的目标定位方法得到实验图像的类别激活图。接下来,可以利用MaxBoxACC指标来对本公开得到的类别激活图和传统方法得到的类别激活图的精确度进行对比。
例如,MaxBoxACC指标的计算公式如下公式(4)。
MaxBoxAcc=maxτBoxAcc(τ,δ) (4)
其中,τ为控制类别激活图二值化的阈值参数。在MaxBoxACC指标的计算中,τ会以0.001的步长从0遍历到1。δ为定位矩形框的IOU(Intersection-Over-Union,交并比)击中阈值,即预测框与真值框的IOU大于等于δ便认为成功预测了目标对象的位置。本实验中δ使用了0.5和0.7两个值。BoxAcc(τ,δ)在给定τ和δ的基础上,确定预测定位框在测试集上的定位准确率。
本公开提供的图像处理方法基于VGG16分类网络,***上述即插即用的组件,在测试集上进行弱监督定位。传统的基于类别激活图的目标定位方法也使用VGG16分类网络,并在相同的测试集上进行弱监督定位。本公开提供的图像处理方法的定位结果与传统的基于类别激活图的目标定位方法的定位结果如下表1所示。
表1
如表1所示,本实施例在δ=0.5和δ=0.7的情况下,仅在VGG16网络中***一个本公开提供的组件,定位准确率便得到了提升。例如在δ=0.5的情况下,传统方法的定位准确率为61.11,本公开提供的图像处理方法的定位准确率为62.2。在δ=0.7的情况下,传统方法的定位准确率为12.06,本公开提供的图像处理方法的定位准确率为12.39。
本实施例在δ=0.5和δ=0.7的情况下,在VGG16网络中***两个本公开提供的组件,定位准确率得到了进一步的提升。例如在δ=0.5的情况下,本公开提供的图像处理方法的定位准确率为64.62。在δ=0.7的情况下,本公开提供的图像处理方法的定位准确率为19.24。
本实施例提供的实验验证了本公开提供的图像处理方法能够提高目标对象的定位准确性。
图5是根据本公开的一个实施例的图像处理装置的框图。
如图5所示,该图像处理装置500包括提取模块501、处理模块502、融合模块503、选择模块504以及确定模块505。
提取模块501用于提取待处理图像的特征,得到初始特征图,其中,待处理图像包括目标对象。
处理模块502用于对初始特征图分别进行最具判别性特征的压制处理以及无关特征的压制处理,得到第一特征处理图和第二特征处理图。
融合模块503用于对第一特征处理图和第二特征处理图进行融合,得到融合特征图。
选择模块504用于对融合特征图进行特征选择,得到输出特征图。
确定模块505用于根据输出特征图,确定待处理图像中目标对象的类别和位置。
选择模块504包括第一确定单元、第一处理单元和第二处理单元。
第一确定单元用于确定融合特征图中的特征的第一权重,其中,第一权重表示特征对目标对象的分类结果的重要性。
第一处理单元,用于根据第一权重,将融合特征图处理为加权特征图。
第二处理单元,用于将加权特征图的维度处理为与初始特征图的维度一致,得到输出特征图。
第一确定单元包括压缩子单元、交互子单元、维度处理子单元和归一化处理子单元。
压缩子单元用于对融合特征图进行压缩,得到第一融合特征向量。
交互子单元用于对第一融合特征向量中的各个特征进行信息交互,得到第二融合特征向量。
维度处理子单元用于将第二融合特征向量的维度处理为与第一融合特征向量的维度一致,得到第三融合特征向量。
归一化处理子单元用于对第三融合特征向量进行归一化处理,得到权重向量,其中,权重向量中的元素表示第一权重,权重向量中的多个元素表示的第一权重与融合特征图中的多个特征各自对应。
处理模块502包括第三处理单元和第四处理单元。
第三处理单元用于将初始特征图中特征值小于第一阈值的特征进行非线性化的增强处理,以及将初始特征图中特征值不小于第一阈值的特征去除,得到第一特征处理图。
第四处理单元用于将初始特征图中特征值小于第二阈值的特征去除,得到第二特征处理图。
第三处理单元用于根据以下公式将初始特征图处理为第一特征处理图:
其中,F(c,i,j)表示初始特征图中第c个通道的第i行第j列位置的特征值,D(c,i,j)表示第一特征处理图中第c个通道的第i行第j列位置的特征值,max(F(c))表示第c个通道中的最大特征值,cr*max(F(c))表示第一阈值,cr为超参数,α为用于控制非线性化的参数。
第四处理单元用于根据以下公式将初始特征图处理为第二特征处理图:
其中,F(c,i,j)表示初始特征图中第c个通道的第i行第j列位置的特征值,S(c,i,j)表示第二特征处理图中第c个通道的第i行第j列位置的特征值,max(F(c))表示第c个通道中的最大特征值,t*max(F(c))表示第二阈值,t为超参数。
确定模块505包括第五处理单元、第六处理单元和第二确定单元。
第五处理单元用于将输出特征图输入图像分类模型,得到目标对象的目标类别以及与目标类别相关的第二权重。
第六处理单元用于根据第二权重,将输出特征图处理为类别激活图。
第二确定单元用于根据类别激活图,确定待处理图像中目标对象的位置。
第二确定单元包括二值化子单元和确定子单元。
二值化子单元用于对类别激活图中的特征值进行二值化处理,得到特征掩膜图。
确定子单元用于根据特征掩膜图,确定目标对象的位置。
根据本公开的实施例,图像分类模型包括全连接网络,第五处理单元用于通过全连接网络确定目标对象的目标类别以及与目标类别相关的第二权重。
根据本公开的实施例,图像分类模型包括卷积网络,提取模块用于将待处理图像输入卷积网络,得到初始特征图。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如图像处理方法。例如,在一些实施例中,图像处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时,可以执行上文描述的图像处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像处理方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (23)

1.一种图像处理方法,包括:
提取待处理图像的特征,得到初始特征图,其中,所述待处理图像包括目标对象;
对所述初始特征图分别进行最具判别性特征的压制处理以及无关特征的压制处理,得到第一特征处理图和第二特征处理图;
对所述第一特征处理图和所述第二特征处理图进行融合,得到融合特征图;
对所述融合特征图进行特征选择,得到输出特征图;以及
根据所述输出特征图,确定所述待处理图像中所述目标对象的类别和位置;
其中,所述得到第一特征处理图包括:
将所述初始特征图中特征值小于第一阈值的特征进行非线性化的增强处理,以及将所述初始特征图中特征值不小于所述第一阈值的特征去除,得到所述第一特征处理图;
其中,根据以下公式进行非线性化的增强处理:
其中,F(c,i,j)表示所述初始特征图中第c个通道的第i行第j列位置的特征值,D(c,i,j)表示非线性化增强处理后的第c个通道的第i行第j列位置的特征值,max(F(c))表示第c个通道中的最大特征值,cr*max(F(c))表示所述第一阈值,cr为超参数,α为用于控制非线性化的参数。
2.根据权利要求1所述的方法,其中,所述对所述融合特征图进行特征选择,得到输出特征图包括:
确定所述融合特征图中的特征的第一权重,其中,所述第一权重表示所述特征对所述目标对象的分类结果的重要性;
根据所述第一权重,将所述融合特征图处理为加权特征图;以及
将所述加权特征图的维度处理为与所述初始特征图的维度一致,得到所述输出特征图。
3.根据权利要求2所述的方法,其中,所述确定所述融合特征图中的特征的第一权重包括:
对所述融合特征图进行压缩,得到第一融合特征向量;
对所述第一融合特征向量中的各个特征进行信息交互,得到第二融合特征向量;
将所述第二融合特征向量的维度处理为与所述第一融合特征向量的维度一致,得到第三融合特征向量;以及
对所述第三融合特征向量进行归一化处理,得到权重向量,其中,所述权重向量中的元素表示所述第一权重,所述权重向量中的多个元素表示的第一权重与所述融合特征图中的多个特征各自对应。
4.根据权利要求1至3中任一项所述的方法,其中,所述对所述初始特征图分别进行最具判别性特征的压制处理以及无关特征的压制处理,得到第一特征处理图和第二特征处理图包括:
将所述初始特征图中特征值小于第二阈值的特征去除,得到所述第二特征处理图。
5.根据权利要求1所述的方法,其中,根据以下公式将所述初始特征图中特征值不小于所述第一阈值的特征去除:
D(c,i,j)=0,cr*max(F(c))≤F(c,i,j)≤max(F(c))
其中,D(c,i,j)表示进行特征去除后的第c个通道的第i行第j列位置的特征值。
6.根据权利要求4所述的方法,其中,所述将所述初始特征图中特征值小于第二阈值的特征去除,得到所述第二特征处理图包括:
根据以下公式将所述初始特征图处理为所述第二特征处理图:
其中,F(c,i,j)表示所述初始特征图中第c个通道的第i行第j列位置的特征值,S(c,i,j)表示所述第二特征处理图中第c个通道的第i行第j列位置的特征值,max(F(c))表示第c个通道中的最大特征值,t*max(F(c))表示所述第二阈值,t为超参数。
7.根据权利要求1所述的方法,其中,所述根据所述输出特征图,确定所述待处理图像中所述目标对象的类别和位置包括:
将所述输出特征图输入图像分类模型,得到所述目标对象的目标类别以及与所述目标类别相关的第二权重;
根据所述第二权重,将所述输出特征图处理为类别激活图;以及
根据所述类别激活图,确定所述待处理图像中所述目标对象的位置。
8.根据权利要求7所述的方法,其中,所述根据所述类别激活图,确定所述待处理图像中所述目标对象的位置包括:
对所述类别激活图中的特征值进行二值化处理,得到特征掩膜图;以及
根据所述特征掩膜图,确定所述目标对象的位置。
9.根据权利要求7所述的方法,其中,所述图像分类模型包括全连接网络;所述将所述输出特征图输入图像分类模型,得到所述目标对象的目标类别以及与所述目标类别相关的第二权重包括:
通过所述全连接网络确定所述目标对象的目标类别以及与所述目标类别相关的第二权重。
10.根据权利要求7所述的方法,其中,所述图像分类模型还包括卷积网络;所述提取待处理图像的特征,得到初始特征图包括:
将所述待处理图像输入所述卷积网络,得到所述初始特征图。
11.一种图像处理装置,包括:
提取模块,用于提取待处理图像的特征,得到初始特征图,其中,所述待处理图像包括目标对象;
处理模块,用于对所述初始特征图分别进行最具判别性特征的压制处理以及无关特征的压制处理,得到第一特征处理图和第二特征处理图;
融合模块,用于对所述第一特征处理图和所述第二特征处理图进行融合,得到融合特征图;
选择模块,用于对所述融合特征图进行特征选择,得到输出特征图;以及
确定模块,用于根据所述输出特征图,确定所述待处理图像中所述目标对象的类别和位置;
其中,所述处理模块包括:
第三处理单元,用于将所述初始特征图中特征值小于第一阈值的特征进行非线性化的增强处理,以及将所述初始特征图中特征值不小于所述第一阈值的特征去除,得到所述第一特征处理图;
其中,所述第三处理单元用于根据以下公式进行非线性化的增强处理:
其中,F(c,i,j)表示所述初始特征图中第c个通道的第i行第j列位置的特征值,D(c,i,j)表示所述第一特征处理图中第c个通道的第i行第j列位置的特征值,max(F(c))表示第c个通道中的最大特征值,cr*max(F(c))表示所述第一阈值,cr为超参数,α为用于控制非线性化的参数。
12.根据权利要求11所述的装置,其中,所述选择模块包括:
第一确定单元,用于确定所述融合特征图中的特征的第一权重,其中,所述第一权重表示所述特征对所述目标对象的分类结果的重要性;
第一处理单元,用于根据所述第一权重,将所述融合特征图处理为加权特征图;以及
第二处理单元,用于将所述加权特征图的维度处理为与所述初始特征图的维度一致,得到所述输出特征图。
13.根据权利要求12所述的装置,其中,所述第一确定单元包括:
压缩子单元,用于对所述融合特征图进行压缩,得到第一融合特征向量;
交互子单元,用于对所述第一融合特征向量中的各个特征进行信息交互,得到第二融合特征向量;
维度处理子单元,用于将所述第二融合特征向量的维度处理为与所述第一融合特征向量的维度一致,得到第三融合特征向量;以及
归一化处理子单元,用于对所述第三融合特征向量进行归一化处理,得到权重向量,其中,所述权重向量中的元素表示所述第一权重,所述权重向量中的多个元素表示的第一权重与所述融合特征图中的多个特征各自对应。
14.根据权利要求11至13中任一项所述的装置,其中,所述处理模块包括:
第四处理单元,用于将所述初始特征图中特征值小于第二阈值的特征去除,得到所述第二特征处理图。
15.根据权利要求11所述的装置,其中,所述第三处理单元用于根据以下公式将所述初始特征图中特征值不小于所述第一阈值的特征去除:
D(c,i,j)=0,cr*max(F(c))≤F(c,i,j)≤max(F(c))
其中,D(c,i,j)表示进行特征去除后的第c个通道的第i行第j列位置的特征值。
16.根据权利要求14所述的装置,其中,所述第四处理单元用于根据以下公式将所述初始特征图处理为所述第二特征处理图:
其中,F(c,i,j)表示所述初始特征图中第c个通道的第i行第j列位置的特征值,S(c,i,j)表示所述第二特征处理图中第c个通道的第i行第j列位置的特征值,max(F(c))表示第c个通道中的最大特征值,t*max(F(c))表示所述第二阈值,t为超参数。
17.根据权利要求11所述的装置,其中,所述确定模块包括:
第五处理单元,用于将所述输出特征图输入图像分类模型,得到所述目标对象的目标类别以及与所述目标类别相关的第二权重;
第六处理单元,用于根据所述第二权重,将所述输出特征图处理为类别激活图;以及
第二确定单元,用于根据所述类别激活图,确定所述待处理图像中所述目标对象的位置。
18.根据权利要求17所述的装置,其中,所述第二确定单元包括:
二值化子单元,用于对所述类别激活图中的特征值进行二值化处理,得到特征掩膜图;以及
确定子单元,用于根据所述特征掩膜图,确定所述目标对象的位置。
19.根据权利要求17所述的装置,其中,所述图像分类模型包括全连接网络;所述第五处理单元用于通过所述全连接网络确定所述目标对象的目标类别以及与所述目标类别相关的第二权重。
20.根据权利要求17所述的装置,其中,所述图像分类模型还包括卷积网络;所述提取模块用于将所述待处理图像输入所述卷积网络,得到所述初始特征图。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至10中任一项所述的方法。
23.一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现根据权利要求1至10中任一项所述的方法。
CN202310114092.5A 2023-02-06 2023-02-06 图像处理方法、装置、电子设备和存储介质 Active CN116071628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310114092.5A CN116071628B (zh) 2023-02-06 2023-02-06 图像处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310114092.5A CN116071628B (zh) 2023-02-06 2023-02-06 图像处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN116071628A CN116071628A (zh) 2023-05-05
CN116071628B true CN116071628B (zh) 2024-04-05

Family

ID=86178361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310114092.5A Active CN116071628B (zh) 2023-02-06 2023-02-06 图像处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116071628B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967464A (zh) * 2020-06-30 2020-11-20 西安电子科技大学 一种基于深度学习的弱监督目标定位方法
CN112116599A (zh) * 2020-08-12 2020-12-22 南京理工大学 基于弱监督学习的痰涂片结核杆菌语义分割方法及***
CN113989569A (zh) * 2021-10-29 2022-01-28 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和存储介质
CN114581710A (zh) * 2022-03-04 2022-06-03 腾讯科技(深圳)有限公司 图像识别方法、装置、设备、可读存储介质及程序产品
CN114612743A (zh) * 2022-03-10 2022-06-10 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象识别方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101879207B1 (ko) * 2016-11-22 2018-07-17 주식회사 루닛 약한 지도 학습 방식의 객체 인식 방법 및 장치
US20180330205A1 (en) * 2017-05-15 2018-11-15 Siemens Aktiengesellschaft Domain adaptation and fusion using weakly supervised target-irrelevant data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967464A (zh) * 2020-06-30 2020-11-20 西安电子科技大学 一种基于深度学习的弱监督目标定位方法
CN112116599A (zh) * 2020-08-12 2020-12-22 南京理工大学 基于弱监督学习的痰涂片结核杆菌语义分割方法及***
CN113989569A (zh) * 2021-10-29 2022-01-28 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和存储介质
CN114581710A (zh) * 2022-03-04 2022-06-03 腾讯科技(深圳)有限公司 图像识别方法、装置、设备、可读存储介质及程序产品
CN114612743A (zh) * 2022-03-10 2022-06-10 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Adversarial Complementary Learning for Weakly Supervised Object Localization";Xiaolin Zhang;《arXiv》;第1-10页 *
"Re-Attention Transformer for Weakly Supervised Object Localization";Hui Su;《aiXiv》;第1-11页 *

Also Published As

Publication number Publication date
CN116071628A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
US20230087526A1 (en) Neural network training method, image classification system, and related device
JP7414901B2 (ja) 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
KR102459123B1 (ko) 이미지를 처리하는 방법, 장치, 서버 및 저장 매체
WO2023010758A1 (zh) 一种动作检测方法、装置、终端设备和存储介质
TW202207077A (zh) 一種文本區域的定位方法及裝置
JP7393472B2 (ja) 陳列シーン認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN112560993B (zh) 数据筛选方法、装置、电子设备及存储介质
US11893773B2 (en) Finger vein comparison method, computer equipment, and storage medium
CN113869449A (zh) 一种模型训练、图像处理方法、装置、设备及存储介质
US11967125B2 (en) Image processing method and system
US20230021551A1 (en) Using training images and scaled training images to train an image segmentation model
US20240135698A1 (en) Image classification method, model training method, device, storage medium, and computer program
CN111340213B (zh) 神经网络的训练方法、电子设备、存储介质
CN113657249B (zh) 训练方法、预测方法、装置、电子设备以及存储介质
CN114692778A (zh) 用于智能巡检的多模态样本集生成方法、训练方法及装置
CN113887630A (zh) 图像分类方法、装置、电子设备和存储介质
WO2023232031A1 (zh) 一种神经网络模型的训练方法、装置、电子设备及介质
CN116343233B (zh) 文本识别方法和文本识别模型的训练方法、装置
CN116071628B (zh) 图像处理方法、装置、电子设备和存储介质
CN115457329B (zh) 图像分类模型的训练方法、图像分类方法和装置
CN116994319A (zh) 训练模型的方法和人脸识别方法、设备、介质
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法
CN116092101A (zh) 训练方法、图像识别方法、装置、设备及可读存储介质
CN114255381B (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
CN115631370A (zh) 一种基于卷积神经网络的mri序列类别的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant