CN110781893B - 特征图的处理方法、图像处理方法、装置以及存储介质 - Google Patents

特征图的处理方法、图像处理方法、装置以及存储介质 Download PDF

Info

Publication number
CN110781893B
CN110781893B CN201910906974.9A CN201910906974A CN110781893B CN 110781893 B CN110781893 B CN 110781893B CN 201910906974 A CN201910906974 A CN 201910906974A CN 110781893 B CN110781893 B CN 110781893B
Authority
CN
China
Prior art keywords
feature map
channel
processing
input feature
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910906974.9A
Other languages
English (en)
Other versions
CN110781893A (zh
Inventor
崔婵婕
任宇鹏
卢维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN201910906974.9A priority Critical patent/CN110781893B/zh
Publication of CN110781893A publication Critical patent/CN110781893A/zh
Application granted granted Critical
Publication of CN110781893B publication Critical patent/CN110781893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种特征图的处理方法、图像处理方法、装置以及存储介质,该特征图的处理方法包括:获取输入特征图;其中,输入特征图是通过卷积网络处理之后得到的特征图;基于输入特征图的空间维度信息和通道信息,确定输入特征图每个通道的注意力权重;利用注意力权重对输入特征图进行处理,得到输出特征图。通过上述方式,在形成注意力权重时,考虑到特征图的通道信息,在少量计算量和内存的代价下大大提高了算法精度。

Description

特征图的处理方法、图像处理方法、装置以及存储介质
技术领域
本申请涉及图像处理技术领域,特别是涉及一种特征图的处理方法、图像处理方法、装置以及存储介质。
背景技术
语义分割的任务是为图像中的每个像素分类,属于经典的密集预测算法,核心技术在于特征层的准确提取和细节信息的精确恢复。全卷积网络(FCN,Fully ConvolutionalNetworks)的应用大大提高了语义分割算法的准确度。卷积层通过卷积核和原始特征的线性结合得到输出特征,为增大感受野和获取长距离的语义信息,往往采取堆叠卷积层的方式,但这种处理方式并不高效。
发明内容
为解决上述问题,本申请提供了一种特征图的处理方法、图像处理方法、装置以及存储介质,能够在形成注意力权重时,考虑到特征图的通道信息,在少量计算量和内存的代价下大大提高了算法精度。
本申请采用的一个技术方案是:提供一种特征图的处理方法,该方法包括:获取输入特征图;其中,输入特征图是通过卷积网络处理之后得到的特征图;基于输入特征图的空间维度信息和通道信息,确定输入特征图每个通道的注意力权重;利用注意力权重对输入特征图进行处理,得到输出特征图。
其中,基于输入特征图的空间维度信息和通道信息,确定输入特征图每个通道的注意力权重,包括:对输入特征图进行三元组建模,得到第一特征图副本、第二特征图副本和第三特征图副本;基于输入特征图的空间维度信息和通道信息,确定输入特征图每个通道的通道权重;基于第一特征图副本、第二特征图副本以及通道权重,确定输入特征图每个通道的注意力权重。
其中,基于输入特征图的空间维度信息和通道信息,确定输入特征图每个通道的通道权重,包括:对输入特征图进行全局平均池化处理和全卷积处理,得到输入特征图每个通道的通道权重。
其中,对输入特征图进行三元组建模,得到第一特征图副本、第二特征图副本和第三特征图副本,包括:对输入特征图进行降维处理和1*1卷积处理,生成第一特征图副本和第二特征图副本;以及对输入特征图进行1*1卷积处理,生成第三特征图副本。
其中,基于第一特征图副本、第二特征图副本以及通道权重,确定输入特征图每个通道的注意力权重,包括:利用第一特征图副本中每个通道的每个元素,分别与第二特征图副本中对应位置的元素相乘,得到中间值;利用对应通道的通道权重,对中间值进行加权处理,得到对应通道的注意力权重。
其中,利用注意力权重对输入特征图进行处理,得到输出特征图,包括:对每个通道的注意力权重进行求和,并进行归一化处理,得到注意力图;基于第三特征图副本和注意力图,得到中间特征图;基于输入特征图和中间特征图,得到输出特征图。
其中,基于输入特征图的空间维度信息和通道信息,确定输入特征图每个通道的注意力权重,包括:对输入特征图进行三元组建模,得到第一特征图副本、第二特征图副本和第三特征图副本;基于第一特征图副本和第二特征图副本,得到每个通道的注意力权重。
其中,对输入特征图进行三元组建模,得到第一特征图副本、第二特征图副本和第三特征图副本,包括:对输入特征图进行降维处理,生成第一特征图副本、第二特征图副本和第三特征图副本。
其中,利用注意力权重对输入特征图进行处理,得到输出特征图,包括:对每个通道的注意力权重进行归一化处理,得到注意力图;基于第三特征图副本和注意力图,得到第一中间特征图;对第一中间特征图进行升维处理,得到第二中间特征图;基于输入特征图和第二中间特征图,得到输出特征图。
本申请采用的另一个技术方案是:提供一种图像处理方法,该方法包括:获取待处理图像;对待处理图像进行编码,以得到输入特征图;采用如权利要求1-9任一项的方法对输入特征图进行语义信息提取,以得到输出特征图;对输出特征图进行解码,以得到处理后的图像。
本申请采用的另一个技术方案是:提供一种图像处理装置,该图像处理装置包括相互连接的处理器和存储器,存储器用于存储程序数据,处理器用于执行程序数据以实现如上述的方法。
本申请采用的另一个技术方案是:提供一种图像处理装置,该图像处理装置包括:编码模块,用于对待处理图像进行编码,以得到输入特征图;处理模块,用于采用如上述的方法对输入特征图进行语义信息提取,以得到输出特征图;解码模块,用于对输出特征图进行解码,以得到处理后的图像。
其中,编码模块包括:多个卷积层;下采样层;多个卷积层组合;所述解码模块包括:第一上采样层,连接所述处理模块;数据连接层,连接所述多个卷积层组合中的第一个以及所述上采样层,用于连接所述多个卷积层组合中的第一个和所述上采样层输出的数据;多个卷积层;第二上采样层。
本申请采用的另一个技术方案是:提供一种计算机存储介质,该计算机存储介质中存储有程序数据,程序数据在被处理器执行时,用以实现如上述的方法。
本申请提供的特征图的处理方法包括:获取输入特征图;基于输入特征图的空间维度信息和通道信息,确定输入特征图每个通道的注意力权重;利用注意力权重对输入特征图进行处理,得到输出特征图。通过上述方式,在形成注意力权重时,考虑到特征图的通道信息,在少量计算量和内存的代价下大大提高了算法精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请实施例提供的图像处理装置的结构示意图;
图2是本申请实施例提供的图像处理方法的流程示意图;
图3是本申请实施例提供的特征图的处理方法的流程示意图;
图4是本申请实施例提供的特征图的处理方法的另一流程示意图;
图5是本申请实施例提供的特征图的处理方法的网络图;
图6是本申请实施例提供的特征图的处理方法的又一流程示意图;
图7是本申请实施例提供的特征图的处理方法的另一网络图;
图8是本申请实施例提供的图像处理装置的另一结构示意图;
图9是本申请实施例提供的计算机存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1和图2,图1是本申请实施例提供的图像处理装置的结构示意图,图2是本申请实施例提供的图像处理方法的流程示意图。该装置11包括编码模块11、处理模块12和解码模块13。其中,该编码模块11用于对获取的图像进行编码,处理模块12用于对编码后的图像进行处理,解码模块13用于对处理后的图像进行解码。该图像处理方法包括:
步骤21:获取待处理图像。
步骤22:对待处理图像进行编码,以得到输入特征图。
步骤23:对输入特征图进行语义信息提取,以得到输出特征图。
步骤24:对输出特征图进行解码,以得到处理后的图像。
在本实施例中,其中的编码采用上述的编码模块11进行,处理采用上述的处理模块12进行,解码采用上述的解码模块13进行。
其中,编码模块11可以采用网络深度学习模型,网络模型是用于深度学习(DeepLearning,DL)的一个载体,深度学习是机器学习的技术和研究领域之一,通过建立具有阶层结构的人工神经网络(Artifitial Neural Networks,ANNs),在计算***中实现人工智能。由于阶层ANN能够对输入信息进行逐层提取和筛选,因此深度学习具有表征学习(representation learning)能力,可以实现端到端的监督学习和非监督学习。此外,深度学习也可参与构建强化学习(reinforcement learning)***,形成深度强化学习。
可选地,本实施例可以选用restnet101网络模型,其包括多个卷积层、下采样层(池化层)、多个卷积层组合。其中,卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector),类似于一个前馈神经网络的神经元(neuron)。卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连,区域的大小取决于卷积核的大小。
在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同,由池化大小、步长和填充控制。
在经过池化层的处理后,利用resnet残差网络进行特征提取,以形成特征图。
具体地,编码模块11具体包括第一卷积层、第二卷积层、第三卷积层、下采样层、第一卷积层组合、第二卷积层组合、第三卷积层组合和第四卷积层组合。
可选地,其中的第二卷积层和第三卷积层可以采用膨胀系数分别为2和4的空洞卷积替代,输出的特征图像大小为原始图像的1/8。
下面对处理模块12所执行的方法进行介绍。
参阅图3,图3是本申请实施例提供的特征图的处理方法的流程示意图,该方法包括:
步骤31:获取输入特征图。
其中,该输入特征图是上述编码模块11进行编码后输出的特征图。
步骤32:基于输入特征图的空间维度信息和通道信息,确定输入特征图每个通道的注意力权重。
特征图具有通道(channel)、高度(height)和宽度(width)三个维度,其中,高度和宽度为空间维度。在现有技术确定注意力权重时,只考虑了空间维度信息,而本实施例中则同时考虑了通道信息。下面的实施例会对本步骤进行详述。
步骤33:利用注意力权重对输入特征图进行处理,得到输出特征图。
下面通过两种实施例对本注意力权重的获取以及处理进行介绍。
参阅图4和图5,图4是本申请实施例提供的特征图的处理方法的另一流程示意图,图5是本申请实施例提供的特征图的处理方法的网络图,该方法包括:
步骤41:获取输入特征图。
其中,该输入特征图是上述编码模块11进行编码后输出的特征图。
步骤42:对输入特征图进行三元组建模,得到第一特征图副本、第二特征图副本和第三特征图副本。
如图5所示,对输入特征图进行三元组建模分别生成特征图H(
Figure BDA0002213559140000071
C为通道,H为高度,W为宽度)的三个副本Q、K和V(query,key,value)。
可选地,对输入特征图进行降维处理和1*1卷积处理,生成第一特征图副本和第二特征图副本;以及对输入特征图进行1*1卷积处理,生成第三特征图副本。
具体地,对特征图H进行降维处理,并通过1*1卷积处理后分别生成Q、K两个特征图
Figure BDA0002213559140000072
对特征图H进行1*1卷积生成与其大小一致的特征图V
Figure BDA0002213559140000073
步骤43:基于输入特征图的空间维度信息和通道信息,确定输入特征图每个通道的通道权重。
在本实施例中,除了上述的的Q、K和V三个分支之外,还通过另一个分支对输入特征图进行全局平均池化处理和全卷积处理,得到输入特征图每个通道的通道权重。
具体地,对特征图H进行池化核大小为H*W的全局平均池化处理和全卷积处理,输出通道权重S
Figure BDA0002213559140000074
步骤44:基于第一特征图副本、第二特征图副本以及通道权重,确定输入特征图每个通道的注意力权重。
可选地,利用第一特征图副本中每个通道的每个元素,分别与第二特征图副本中对应位置的元素相乘,得到中间值;利用对应通道的通道权重,对中间值进行加权处理,得到对应通道的注意力权重。
具体地,Q中每个通道的每个元素与K中对应单行单列元素分别相乘,将每一通道元素与对应权重S中的值相乘可得相应的注意力权重A
Figure BDA0002213559140000075
对应位置进行各通道求和,并利用softmax函数对其进行归一化生成注意力图A'
Figure BDA0002213559140000076
步骤45:利用注意力权重对输入特征图进行处理,得到输出特征图。
其中,对每个通道的注意力权重进行求和,并进行归一化处理,得到注意力图;基于第三特征图副本和注意力图,得到中间特征图;基于输入特征图和中间特征图,得到输出特征图。
具体地,R
Figure BDA0002213559140000081
中每个位置的值等于与其处于同一行同一列的V中所有元素与A'中对应位置的元素的乘积的和,最后将R与H相加得到特征图H'
Figure BDA0002213559140000082
区别于现有技术,本实施例提供的特征图的处理方法包括:获取输入特征图;基于输入特征图的通道信息,确定输入特征图每个通道的注意力权重;利用注意力权重对输入特征图进行处理,得到输出特征图。通过上述方式,计算通道权重在计算注意力权重的过程中进行通道加权以实现通道信息的融合,在少量计算量和内存的代价下大大提高了算法精度。
参阅图6和图7,图6是本申请实施例提供的特征图的处理方法的又一流程示意图,图7是本申请实施例提供的特征图的处理方法的另一网络图,该方法包括:
步骤61:获取输入特征图。
其中,该输入特征图是上述编码模块11进行编码后输出的特征图。
步骤62:对输入特征图进行三元组建模,得到第一特征图副本、第二特征图副本和第三特征图副本。
如图7所示,对输入特征图进行三元组建模分别生成特征图H(
Figure BDA0002213559140000083
C为通道,H为高度,W为宽度)的三个副本Q、K和V(query,key,value)。
可选地,对输入特征图进行降维处理,生成第一特征图副本、第二特征图副本和第三特征图副本。
具体地,对特征图H进行降维处理,并通过1*1卷积处理后分别生成Q、K、V三两个特征图,其通道数降为特征图H的1/8
Figure BDA0002213559140000084
Figure BDA0002213559140000085
步骤63:基于第一特征图副本和第二特征图副本,得到每个通道的注意力权重。
具体地,Q中每个通道的每个元素与K中与该元素处于同一行同一列同一通道的元素分别相乘,可得相应的注意力权重M,该权重大小为1/8*C*(H+W-1)*H*W。
步骤64:对每个通道的注意力权重进行归一化处理,得到注意力图。
具体地,利用softmax函数对其注意力权重M进行归一化生成注意力图A。
步骤65:基于第三特征图副本和注意力图,得到第一中间特征图。
具体地,R(第一中间特征图)中每个位置的值等于对应通道中与其处于同一行同一列的V中所有元素与A中对应位置的元素的乘积的和。
步骤66:对第一中间特征图进行升维处理,得到第二中间特征图。
具体地,对R进行1*1卷积升维成C通道的特征图R'(第二中间特征图)。
步骤67:基于输入特征图和第二中间特征图,得到输出特征图。
其中,将R'与H相加得到特征图H'(输出特征图)。
区别于现有技术,本实施例提供的特征图的处理方法包括:获取输入特征图;基于输入特征图的空间维度信息和通道信息,确定输入特征图每个通道的注意力权重;利用注意力权重对输入特征图进行处理,得到输出特征图。通过上述方式,将通道语义信息和空间语义信息融合为多维的注意力机制,达到了同时考虑通道和空间语义信息的目的,结构更加统一。
通过上述方式能够对特征图进行处理,在特征图进行处理后,再进行解码。其中,本实施例的解码模块13基于编码模块11设计,解码模块13包括第一上采样层、数据连接层、多个卷积层和第二上采样层。
具体地,解码模块13具体包括:第一上采样层,连接多个卷积层组合中的最后一个;数据连接层,连接多个卷积层组合中的第一个以及上采样层,用于连接多个卷积层组合中的第一个和上采样层输出的数据;多个卷积层;第二上采样层。
为充分利用低阶特征层中的空间位置信息,本提案将编码模块11的第一卷积层组合连接到解码模块13第一上采样层后的数据连接层。
具体解码如下:
第一上采样层(Upsample1):输入为处理模块12的输出,输出为原图1/4;数据连接层(Concate):连接第一卷积层组合和第一上采样层的输出结果;第四卷积层(Cat_conv):由连续两个3*3*512的卷积和0.1的Dropout(随机失活)层组成;第五卷积层(Cls_conv):卷积核为1*1,输出为原图1/8大小的分割结果;第二上采样层(Upsample2):将上一层分割结果上采样为原图大小。
可以理解地,上述的图像处理和特征图的处理,主要应用于语义分割。在大多数语义分割网络中,网络中各参数的更新值只能从最后分割结果构建的loss中学习得到,很难对中间结果进行监督。可选地,在另一实施例中,为提高特征提取的准确率进而提高分割结果的准确率,在编码模块11的特征提取的过程中(如第三卷积层组合)添加了卷积操作进行了分割结果预测。将第三卷积层组合的预测结果计算所得loss记为loss1,解码模块13输出分割结果计算所得loss记为loss2,最终loss=0.4*loss1+0.6*loss2。通过上述方式,将富含空间位置信息的低阶特征层连接到语义信息丰富的高阶特征层中,提高了分割结果的准确度。
参阅图8,图8是本申请实施例提供的图像处理装置的另一结构示意图,该图像处理装置80包括相互连接的处理器81和存储器82,存储器82用于存储程序数据,处理器81用于执行程序数据以实现如下的方法:
获取待处理图像;对待处理图像进行编码,以得到输入特征图;对输入特征图进行语义信息提取,以得到输出特征图;对输出特征图进行解码,以得到处理后的图像。
可选地,在对特征图进行语义信息提取时,具体用于:获取输入特征图;基于输入特征图的空间维度信息和通道信息,确定输入特征图每个通道的注意力权重;利用注意力权重对输入特征图进行处理,得到输出特征图。
可选地,处理器81还用于执行程序数据以实现如下的方法:对输入特征图进行三元组建模,得到第一特征图副本、第二特征图副本和第三特征图副本;基于输入特征图的通道信息,确定输入特征图每个通道的通道权重;基于第一特征图副本、第二特征图副本以及通道权重,确定输入特征图每个通道的注意力权重。
可选地,处理器81还用于执行程序数据以实现如下的方法:对输入特征图进行全局平均池化处理和全卷积处理,得到输入特征图每个通道的通道权重。
可选地,处理器81还用于执行程序数据以实现如下的方法:对输入特征图进行降维处理和1*1卷积处理,生成第一特征图副本和第二特征图副本;以及对输入特征图进行1*1卷积处理,生成第三特征图副本。
可选地,处理器81还用于执行程序数据以实现如下的方法:利用第一特征图副本中每个通道的每个元素,分别与第二特征图副本中对应位置的元素相乘,得到中间值;利用对应通道的通道权重,对中间值进行加权处理,得到对应通道的注意力权重。
可选地,处理器81还用于执行程序数据以实现如下的方法:对每个通道的注意力权重进行求和,并进行归一化处理,得到注意力图;基于第三特征图副本和注意力图,得到中间特征图;基于输入特征图和中间特征图,得到输出特征图。
可选地,处理器81还用于执行程序数据以实现如下的方法:对输入特征图进行三元组建模,得到第一特征图副本、第二特征图副本和第三特征图副本;基于第一特征图副本和第二特征图副本,得到每个通道的注意力权重。
可选地,处理器81还用于执行程序数据以实现如下的方法:对输入特征图进行降维处理,生成第一特征图副本、第二特征图副本和第三特征图副本。
可选地,处理器81还用于执行程序数据以实现如下的方法:对每个通道的注意力权重进行归一化处理,得到注意力图;基于第三特征图副本和注意力图,得到第一中间特征图;对第一中间特征图进行升维处理,得到第二中间特征图;基于输入特征图和第二中间特征图,得到输出特征图。
参阅图9,图9是本申请实施例提供的计算机存储介质的结构示意图,该计算机存储介质90中存储有程序数据91,该程序数据91在被处理器执行时,用以实现如下的方法:
获取待处理图像;对待处理图像进行编码,以得到输入特征图;对输入特征图进行语义信息提取,以得到输出特征图;对输出特征图进行解码,以得到处理后的图像。
可选地,在对特征图进行语义信息提取时,具体用于:获取输入特征图;基于输入特征图的空间维度信息和通道信息,确定输入特征图每个通道的注意力权重;利用注意力权重对输入特征图进行处理,得到输出特征图。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (7)

1.一种特征图的处理方法,其特征在于,所述方法包括:
获取输入特征图;其中,所述输入特征图是通过卷积网络处理之后得到的特征图;
基于所述输入特征图的空间维度信息和通道信息,确定所述输入特征图每个通道的注意力权重;包括:对所述输入特征图进行降维处理和1*1卷积处理,生成第一特征图副本和第二特征图副本;以及,对所述输入特征图进行1*1卷积处理,生成第三特征图副本;基于所述输入特征图的空间维度信息和通道信息,确定所述输入特征图每个通道的通道权重;利用所述第一特征图副本中每个通道的每个元素,分别与第二特征图副本中对应位置的元素相乘,得到中间值;利用对应通道的通道权重,对所述中间值进行加权处理,得到对应通道的注意力权重;
利用所述注意力权重对所述输入特征图进行处理,得到输出特征图;包括:对每个通道的注意力权重进行求和,并进行归一化处理,得到注意力图;基于所述第三特征图副本和所述注意力图,得到中间特征图;基于所述输入特征图和所述中间特征图,得到输出特征图。
2.根据权利要求1所述的方法,其特征在于,
所述基于所述输入特征图的空间维度信息和通道信息,确定所述输入特征图每个通道的通道权重,包括:
对所述输入特征图进行全局平均池化处理和全卷积处理,得到所述输入特征图每个通道的通道权重。
3.一种图像处理方法,其特征在于,所述方法包括:
获取待处理图像;
对所述待处理图像进行编码,以得到输入特征图;
采用如权利要求1-2任一项所述的方法对所述输入特征图进行语义信息提取,以得到输出特征图;
对所述输出特征图进行解码,以得到处理后的图像。
4.一种图像处理装置,其特征在于,所述图像处理装置包括相互连接的处理器和存储器,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求1-3任一项所述的方法。
5.一种图像处理装置,其特征在于,所述图像处理装置包括:
编码模块,用于对待处理图像进行编码,以得到输入特征图;
处理模块,用于采用如权利要求1-2任一项所述的方法对所述输入特征图进行语义信息提取,以得到输出特征图;
解码模块,用于对所述输出特征图进行解码,以得到处理后的图像。
6.根据权利要求5所述的装置,其特征在于,
所述编码模块包括:
多个卷积层;
下采样层;
多个卷积层组合;
所述解码模块包括:
第一上采样层,连接所述处理模块;
数据连接层,连接所述多个卷积层组合中的第一个以及所述上采样层,用于连接所述多个卷积层组合中的第一个和所述上采样层输出的数据;
多个卷积层;
第二上采样层。
7.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有程序数据,所述程序数据在被处理器执行时,用以实现如权利要求1-3任一项所述的方法。
CN201910906974.9A 2019-09-24 2019-09-24 特征图的处理方法、图像处理方法、装置以及存储介质 Active CN110781893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910906974.9A CN110781893B (zh) 2019-09-24 2019-09-24 特征图的处理方法、图像处理方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910906974.9A CN110781893B (zh) 2019-09-24 2019-09-24 特征图的处理方法、图像处理方法、装置以及存储介质

Publications (2)

Publication Number Publication Date
CN110781893A CN110781893A (zh) 2020-02-11
CN110781893B true CN110781893B (zh) 2022-06-07

Family

ID=69384250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910906974.9A Active CN110781893B (zh) 2019-09-24 2019-09-24 特征图的处理方法、图像处理方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN110781893B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274999B (zh) * 2020-02-17 2024-04-19 北京迈格威科技有限公司 数据处理、图像处理方法、装置及电子设备
CN111639652A (zh) * 2020-04-28 2020-09-08 博泰车联网(南京)有限公司 一种图像处理方法、装置及计算机存储介质
CN111627038B (zh) * 2020-05-27 2021-05-11 杭州王道控股有限公司 一种背景去除方法、装置、设备及可读存储介质
CN112348057A (zh) * 2020-10-20 2021-02-09 歌尔股份有限公司 一种基于yolo网络的目标识别方法与装置
CN113052771B (zh) * 2021-03-19 2023-09-05 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和存储介质
CN113327203A (zh) * 2021-05-28 2021-08-31 北京百度网讯科技有限公司 图像处理网络模型、方法、设备和介质
CN113435578B (zh) * 2021-06-25 2022-04-05 重庆邮电大学 基于互注意力的特征图编码方法、装置及电子设备
CN114095728B (zh) * 2022-01-21 2022-07-15 浙江大华技术股份有限公司 一种端到端的视频压缩方法、装置和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872306A (zh) * 2019-01-28 2019-06-11 腾讯科技(深圳)有限公司 医学图像分割方法、装置和存储介质
CN109948699A (zh) * 2019-03-19 2019-06-28 北京字节跳动网络技术有限公司 用于生成特征图的方法和装置
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110136122A (zh) * 2019-05-17 2019-08-16 东北大学 一种基于注意力深度特征重建的脑mr图像分割方法
CN110188765A (zh) * 2019-06-05 2019-08-30 京东方科技集团股份有限公司 图像语义分割模型生成方法、装置、设备及存储介质
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872306A (zh) * 2019-01-28 2019-06-11 腾讯科技(深圳)有限公司 医学图像分割方法、装置和存储介质
CN109948699A (zh) * 2019-03-19 2019-06-28 北京字节跳动网络技术有限公司 用于生成特征图的方法和装置
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110136122A (zh) * 2019-05-17 2019-08-16 东北大学 一种基于注意力深度特征重建的脑mr图像分割方法
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及***
CN110188765A (zh) * 2019-06-05 2019-08-30 京东方科技集团股份有限公司 图像语义分割模型生成方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CBAM: Convolutional Block Attention Module;Sanghyun Woo,et al.;《arXiv》;20180718;全文 *
Dual Attention Network for Scene Segmentation;Jun Fu,et al.;《arXiv》;20190421;摘要、第1、3节、图3 *
Jun Fu,et al..Dual Attention Network for Scene Segmentation.《arXiv》.2019,第1-10页. *

Also Published As

Publication number Publication date
CN110781893A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110781893B (zh) 特征图的处理方法、图像处理方法、装置以及存储介质
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN107526785B (zh) 文本分类方法及装置
CN104268594B (zh) 一种视频异常事件检测方法及装置
CN109829537B (zh) 基于深度学习gan网络童装服装的风格转移方法及设备
CN107704924B (zh) 同步自适应时空特征表达学习模型的构建方法及相关方法
CN113780149A (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN110570035B (zh) 同时建模时空依赖性和每日流量相关性的人流量预测***
CN111401557B (zh) 智能体决策制定方法、ai模型训练方法、服务器及介质
CN112801059B (zh) 图卷积网络***和基于图卷积网络***的3d物体检测方法
CN110738663A (zh) 双域适应模块金字塔型网络及无监督域适应图像分割方法
CN113065649A (zh) 一种复杂网络拓扑图表示学习方法、预测方法及服务器
CN114241388A (zh) 基于时空记忆信息的视频实例分割方法和分割装置
Wang et al. Reliable identification of redundant kernels for convolutional neural network compression
CN112950505B (zh) 一种基于生成对抗网络的图像处理方法、***和介质
CN117058276B (zh) 图像生成方法、装置、设备及存储介质
CN108763219A (zh) 基于cnn-rsc组合优化算法的语音情感分析方法
CN112560719A (zh) 基于多尺度卷积-多核池化的高分辨率影像水体提取方法
CN117011943A (zh) 基于多尺度自注意力机制的解耦的3d网络的动作识别方法
CN114120245B (zh) 基于深度神经网络的人群图像分析方法、装置以及设备
CN115100599A (zh) 基于掩码transformer的半监督人群场景异常检测方法
KR20230148523A (ko) 모달리티의 고유 특성을 보존하는 멀티미디어 추천 방법 및 시스템
CN115115835A (zh) 图像的语义分割方法、装置、设备、存储介质及程序产品
CN113688715A (zh) 面部表情识别方法及***
CN113496228A (zh) 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant