CN111639652A

CN111639652A - 一种图像处理方法、装置及计算机存储介质

Info

Publication number: CN111639652A
Application number: CN202010354847.5A
Authority: CN
Inventors: 程帅; 贾书军; 杨春阳
Original assignee: Pateo Connect Nanjing Co Ltd
Current assignee: Pateo Connect Nanjing Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-09-08

Abstract

本发明公开了一种图像处理方法、装置及计算机存储介质，所述图像处理方法包括：获取图像的初始特征图；对所述初始特征图进行卷积处理，获取所述初始特征图的各通道的特征向量；其中，所述卷积处理使用的卷积参数由所述初始特征图的高和宽确定；对所述各通道的特征向量进行Softmax操作，获取所述各通道的注意力值；根据所述初始特征图和所述各通道的注意力值获取新特征图。本发明提供的图像处理方法、装置及计算机存储介质，通过采用端到端的方式自适应学习输入的特征图的有效表达，使学习到的特征基于所在任务具有判别性和代表性，能够提高处理效率和准确性。

Description

一种图像处理方法、装置及计算机存储介质

技术领域

本发明涉及图像处理领域，特别是涉及一种图像处理方法、装置及计算机存储介质。

背景技术

人类视觉注意力机制是利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段，此机制提高了视觉信息处理的效率与准确性。深度学***均池化，之后通过Softmax得到每个通道的注意力值(即关注度)，而注意力值大小代表通道的重要性及关注程度，最后将注意力值与原来的特征图相乘。这种结构的原理是想通过控制注意力值的大小，把重要的特征增强，不重要的特征减弱，从而让提取的特征指向性更强。虽然通道注意力机制在不同任务中都取得了较好的效果，但在此类方法中，全局平均池化仅仅利用先验性假设得到每个通道的表示，认为每个像素对整个特征图的作用和贡献是一样，此方式得到的表达特征不具有判别性和代表性，即非最优表达，因此，处理的准确性有待提高。

发明内容

本发明的目的在于提供一种图像处理方法、装置及计算机存储介质，能够提高处理效率和准确性。

为达到上述目的，本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种图像处理方法，所述图像处理方法包括：

获取图像的初始特征图；

对所述初始特征图进行卷积处理，获取所述初始特征图的各通道的特征向量；其中，所述卷积处理使用的卷积参数由所述初始特征图的高和宽确定；

对所述各通道的特征向量进行Softmax操作，获取所述各通道的注意力值；

根据所述初始特征图和所述各通道的注意力值获取新特征图。

作为其中一种实施方式，所述对所述初始特征图进行卷积处理，获取所述初始特征图的各通道的特征向量，包括：

对所述初始特征图进行特征增强处理；

对特征增强处理后的所述初始特征图进行卷积处理，获取所述初始特征图的各通道的特征向量。

作为其中一种实施方式，所述对所述初始特征图进行特征增强处理，包括：

采用1*1的卷积核对所述初始特征图进行卷积处理，以增强所述初始特征图的特征。

作为其中一种实施方式，所述对特征增强处理后的所述初始特征图进行卷积处理，获取所述初始特征图的各通道的特征向量，包括：

采用H*W的卷积核对特征增强处理后的所述初始特征图的各通道进行卷积处理，获取所述各通道的特征向量；其中，H表示所述初始特征图的高，W表示所述初始特征图的宽。

作为其中一种实施方式，所述采用H*W的卷积核对特征增强处理后的所述初始特征图的各通道进行卷积处理，获取所述各通道的特征向量之前，还包括：

对特征增强处理后的所述初始特征图进行归一化处理。

作为其中一种实施方式，所述对所述各通道的特征向量进行Softmax操作，获取所述各通道的注意力值之前，还包括：

对所述各通道的特征向量进行归一化处理。

作为其中一种实施方式，所述根据所述初始特征图和所述各通道的注意力值获取新特征图，包括：

将所述初始特征图与所述各通道的注意力值相乘，获得新特征图。

第二方面，本发明实施例提供了一种图像处理装置，所述图像处理装置包括处理器以及用于存储程序的存储器；当所述程序被所述处理器执行，使得所述处理器实现第一方面所述的图像处理方法。

第三方面，本发明实施例提供了一种计算机存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面所述的图像处理方法。

本发明实施例提供的图像处理方法、装置及计算机存储介质，所述图像处理方法包括：获取图像的初始特征图；对所述初始特征图进行卷积处理，获取所述初始特征图的各通道的特征向量；其中，所述卷积处理使用的卷积参数由所述初始特征图的高和宽确定；对所述各通道的特征向量进行Softmax操作，获取所述各通道的注意力值；根据所述初始特征图和所述各通道的注意力值获取新特征图。如此，通过基于图像的初始特征图的大小参数对所述初始特征图进行卷积处理，以获取所述初始特征图的各通道的特征向量，进而根据所述各通道的特征向量获取新特征图，也就是说，通过采用端到端的方式自适应学习输入的特征图的有效表达，使学习到的特征基于所在任务具有判别性和代表性，能够有效提高处理效率和准确性。

附图说明

图1为SENet的Block单元示意图；

图2为SENet的网络结构示意图；

图3为本发明实施例提供的一种图像处理方法的流程示意图；

图4为本发明实施例中GAPNet的网络结构示意图；

图5为本发明实施例提供的一种图像处理装置的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

现有技术中，在图像分类、目标检测、语义分割等图像领域，以SENet为代表的基于平均池化的通道注意力机制广泛被使用，其中，如图1所示，为SENet的Block单元示意图。图1中的Ftr是传统的卷积结构，X和U是Ftr的输入(C'*H'*W')和输出(C*H*W)，这些都是以往结构中已存在的。SENet增加的部分是U后的结构：对U先做一个全局平均池化(图1中的Fsq()为Squeeze过程)，输出的1*1*C数据再经过两级全连接(图1中的Fex()为Excitation过程)，最后用Softmax(self-gating mechanism)限制到[0，1]的范围，把这个值作为scale(等同背景技术中提到的注意力值)乘到U的C个通道上，作为下一级的输入数据，具体实现的网络结构如图2所示。其中，假设输入特征图x为c×h×w，其中，c为通道数，h，w分别为高和宽，在每个特征图x_k(k∈1,...,c)中，传统的全局平均池化认为每个像素的贡献和作用是均等，最后得到1*1的特征图表达式为：

然而，实际上每个像素的贡献及作用在特定任务中是不同的，导致此方式得到的表达特征不具有判别性和代表性，即非最优表达，进而影响处理效率和准确性。

为解决上述问题，参见图3，为本发明实施例提供的一种图像处理方法，该图像处理方法可以由本发明实施例提供的一种图像处理装置来执行，该图像处理装置可以采用软件和/或硬件的方式来实现，在具体应用中，该图像处理装置可以具体是车载终端如车机、或移动终端如智能手机等，本实施例中以所述图像处理方法应用于车载终端为例，该图像处理方法包括以下步骤：

步骤S101：获取图像的初始特征图；

步骤S102：对所述初始特征图进行卷积处理，获取所述初始特征图的各通道的特征向量；其中，所述卷积处理使用的卷积参数由所述初始特征图的高和宽确定；

步骤S103：对所述各通道的特征向量进行Softmax操作，获取所述各通道的注意力值；

步骤S104：根据所述初始特征图和所述各通道的注意力值获取新特征图。

这里，所述对所述初始特征图进行卷积处理，获取所述初始特征图的各通道的特征向量，可包括：对所述初始特征图进行特征增强处理；对特征增强处理后的所述初始特征图进行卷积处理，获取所述初始特征图的各通道的特征向量。也就是说，先对初始特征图进行特征增强处理，然后再学习每个像素的贡献值。优选的，所述对所述初始特征图进行特征增强处理，包括：采用1*1的卷积核对所述初始特征图进行卷积处理，以增强所述初始特征图的特征。需要说明的是，除了采用1*1的卷积核对所述初始特征图进行卷积处理以增强所述初始特征图的特征之外，还可以根据实际情况需要采用不同的卷积核对所述初始特征图进行卷积处理，比如2*2、1*2等。优选的，所述对特征增强处理后的所述初始特征图进行卷积处理，获取所述初始特征图的各通道的特征向量，包括：采用H*W的卷积核对特征增强处理后的所述初始特征图的各通道进行卷积处理，获取所述各通道的特征向量；其中，H表示所述初始特征图的高，W表示所述初始特征图的宽。这里，通过采用H*W的卷积核对特征增强处理后的所述初始特征图的各通道进行卷积处理，能够根据所述各通道的特征向量获得每个像素的贡献及作用。

可以理解地，通过对所述各通道的特征向量进行Softmax操作，以获得数值范围在(0,1)内的所述各通道的注意力值。在一实施方式中，所述根据所述初始特征图和所述各通道的注意力值获取新特征图，包括：将所述初始特征图与所述各通道的注意力值相乘，获得新特征图。此外，还可结合各通道的特性为各通道设置一定的权重系数，进而根据所述初始特征图和所述各通道的注意力值以及所述各通道的权重系数获取新特征图。

综上，上述实施例提供的图像处理方法中，通过基于图像的初始特征图的大小参数对所述初始特征图进行卷积处理，以获取所述初始特征图的各通道的特征向量，进而根据所述各通道的特征向量获取新特征图，也就是说，通过采用端到端的方式自适应学习输入的特征图的有效表达，使学习到的特征基于所在任务具有判别性和代表性，能够有效提高处理效率和准确性。

在一实施方式中，为了尽快收敛速度，进一步提高处理效率，所述采用H*W的卷积核对特征增强处理后的所述初始特征图的各通道进行卷积处理，获取所述各通道的特征向量之前，还包括：对特征增强处理后的所述初始特征图进行归一化处理。此外，为了尽快收敛速度，进一步提高处理效率，所述对所述各通道的特征向量进行Softmax操作，获取所述各通道的注意力值之前，还可包括：对所述各通道的特征向量进行归一化处理。

基于前述实施例相同的发明构思，本实施例通过具体示例对前述实施例的技术方案进行详细说明。为解决SENet Block中全局平均池化得到特征向量并非最优的表达问题，将本发明实施例提供的图像处理方法称为GAPNet网络结构，参见图4，可端到端的自适应学习输入特征图的有效表达。假设输入特征图x为c×h×w，其中，c为通道数，h，w分别为高和宽，为自适应的学习每个特征图贡献及作用，采用两层卷积网络实现。第一层采用1*1的卷积层，实现特征增强。之后接BN层实现归一化，再接H*W卷积层学习每个像素的贡献值，得到1*1特征图表达式为：

接着，再接BN层实现归一化，最后在经过Softmax层得到每个通道的注意力值。

此外，本发明实施例中GAPNet处理流程可归纳为包括以下步骤：输入特征图、Global Attention Pooling model处理、Softmax注意力计算、原始特征注意力分配、生成新特征图。

综上，GAPNet的优点如下：

1)可实现端到端自适应学习特征图的有效表达，提高当前任务的准确度；

2)相比较全连接层，全卷积网络可适应输入任意尺度的特征图；

3)类似于SENet网络结构，没有改变输入的维度，可以即插即用到任意网络结构中，方便在分类、检测和语义分割任务中使用；

4)网络结构的参数为c*1*1+c*h*w，原始结构全局池化层参数为0，全连接参数为

网络参数差值为

便于计算网络参数增减数量，可根据输入图像大小使用此结构。

如此，采用端到端的方式自适应学习输入特征图的有效表达，使学习到的特征基于所在任务具有判别性和代表性，而不是具有认为的先验假设。同时方法可以即插即用到深度学习网络结构中，在图像分类、目标检测、语义分割等任务中，提高处理的效率与准确性。

基于前述实施例相同的发明构思，本发明实施例提供了一种图像处理装置，该装置可以是车载终端、移动终端或云端服务器等，如图5所示，该装置包括：处理器110和用于存储能够在处理器110上运行的计算机程序的存储器111；其中，图5中示意的处理器110并非用于指代处理器110的个数为一个，而是仅用于指代处理器110相对其他器件的位置关系，在实际应用中，处理器110的个数可以为一个或多个；同样，图5中示意的存储器111也是同样的含义，即仅用于指代存储器111相对其他器件的位置关系，在实际应用中，存储器111的个数可以为一个或多个。所述处理器110用于运行所述计算机程序时，实现应用于上述装置的所述图像处理方法。

该装置还可包括：至少一个网络接口112。该装置中的各个组件通过总线***113耦合在一起。可理解，总线***113用于实现这些组件之间的连接通信。总线***113除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线***113。

其中，存储器111可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器111旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例中的存储器111用于存储各种类型的数据以支持该装置的操作。这些数据的示例包括：用于在该装置上操作的任何计算机程序，如操作***和应用程序；联系人数据；电话簿数据；消息；图片；视频等。其中，操作***包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。这里，实现本发明实施例方法的程序可以包含在应用程序中。

基于前述实施例相同的发明构思，本实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，计算机存储介质可以是磁性随机存取存储器(FRAM，ferromagnetic random access memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。所述计算机存储介质中存储的计算机程序被处理器运行时，实现应用于上述装置的所述图像处理方法。所述计算机程序被处理器执行时实现的具体步骤流程请参考图3所示实施例的描述，在此不再赘述。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取图像的初始特征图；

2.根据权利要求1所述的方法，其特征在于，所述对所述初始特征图进行卷积处理，获取所述初始特征图的各通道的特征向量，包括：

对所述初始特征图进行特征增强处理；

3.根据权利要求2所述的方法，其特征在于，所述对所述初始特征图进行特征增强处理，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述对特征增强处理后的所述初始特征图进行卷积处理，获取所述初始特征图的各通道的特征向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述采用H*W的卷积核对特征增强处理后的所述初始特征图的各通道进行卷积处理，获取所述各通道的特征向量之前，还包括：

对特征增强处理后的所述初始特征图进行归一化处理。

6.根据权利要求1所述的方法，其特征在于，所述对所述各通道的特征向量进行Softmax操作，获取所述各通道的注意力值之前，还包括：

对所述各通道的特征向量进行归一化处理。

7.根据权利要求1所述的方法，其特征在于，所述根据所述初始特征图和所述各通道的注意力值获取新特征图，包括：

8.一种图像处理装置，其特征在于，所述装置包括处理器以及用于存储程序的存储器；当所述程序被所述处理器执行，使得所述处理器实现如权利要求1至7中任一项所述的图像处理的方法。

9.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的图像处理方法。