CN111783935B - 卷积神经网络构建方法、装置、设备及介质 - Google Patents

卷积神经网络构建方法、装置、设备及介质 Download PDF

Info

Publication number
CN111783935B
CN111783935B CN202010414618.8A CN202010414618A CN111783935B CN 111783935 B CN111783935 B CN 111783935B CN 202010414618 A CN202010414618 A CN 202010414618A CN 111783935 B CN111783935 B CN 111783935B
Authority
CN
China
Prior art keywords
module
convolution
neural network
input
tensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010414618.8A
Other languages
English (en)
Other versions
CN111783935A (zh
Inventor
夏春龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN202010414618.8A priority Critical patent/CN111783935B/zh
Publication of CN111783935A publication Critical patent/CN111783935A/zh
Application granted granted Critical
Publication of CN111783935B publication Critical patent/CN111783935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种卷积神经网络构建方法、装置、设备及介质,所述方法包括:从原始卷积神经网络中确定卷积模块的输出端,所述卷积模块包括多个卷积层,且所述卷积模块的输入端与输出端之间具有直连分支,所述卷积模块的输入与所述直连分支的输入共享;在所述卷积模块的输出端与所述直连分支的输出端之间增加全局注意力模块,得到目标卷积神经网络,其中,所述全局注意力模块用于输出全局注意力特征图,所述全局注意力模块的输出与所述直连分支的输出之和,为下一个所述卷积模块的输入。

Description

卷积神经网络构建方法、装置、设备及介质
技术领域
本发明涉及深度学习技术领域,特别是涉及一种卷积神经网络构建方法、装置、设备及介质。
背景技术
图像识别是计算视觉领域的一项基本任务,能够识别或者验证图像中目标主体的身份、属性或类别。现有的图像识别方法主要是以神经网络为代表的可学习特征方法,神经网络由于其强大的、无需人为精细设计的、自适应的特征表达能力,被广泛应用于图像识别任务中。
实际中,为了提高识别效率,一般采用卷积神经网络进行图像识别。卷积神经网络包括多种框架模型,例如resnet、resnext、mobilenet、shufflenet、vgg和***net等。这些模型可以通过逐层累计扩大模型的感受野,节省算力和存储资源,但是全局信息有丢失,且没有较高效的注意力机制,导致识别过程中提取到的信息并不是有效的关键信息。
相关技术提出了采用局部卷积神经网络,通过对特征图中不同区域使用不同的卷积核,在一定程度上改善了卷积神经网络的精度,得到了不同空间位置特征之间的关系,但是区域的大小没法确定且需要对特征图进行频繁的裁剪拼接操作,计算量大、效率不高。综上,相关技术中提供的卷积神经网络存在注意力机制不够高效的问题。
发明内容
鉴于上述问题,提出了本发明实施例的一种卷积神经网络构建方法、装置、***、设备及介质,以便克服上述问题或者至少部分地解决上述问题。
为了解决上述问题,本发明的第一方面公开了一种卷积神经网络构建方法,所述方法包括:
从原始卷积神经网络中确定卷积模块的输出端,所述卷积模块包括多个卷积层,且所述卷积模块的输入端与输出端之间具有直连分支,所述卷积模块的输入与所述直连分支的输入共享;
在所述卷积模块的输出端与所述直连分支的输出端之间增加全局注意力模块,得到目标卷积神经网络,其中,所述全局注意力模块用于输出全局注意力特征图,所述全局注意力模块的输出与所述直连分支的输出之和,为下一个所述卷积模块的输入。
可选地,所述全局注意力模块包括:权值生成子模块、联合子模块以及特征图生成子模块;
所述权值生成子模块用于从空间位置维度和通道维度,对输入所述全局注意力模块的特征图进行处理,生成多个通道的权值和多个空间位置的权值;
所述联合子模块用于对所述多个通道的权值以及所述多个空间位置的权值进行处理,输出全局注意力权值;
所述特征图生成子模块用于根据所述全局注意力权值,对输入所述全局注意力模块的特征图进行处理,生成所述全局注意力特征图。
可选地,所述权值生成子模块包括:通道注意力单元和空间注意力单元;
所述通道注意力单元用于从通道维度,对输入所述全局注意力模块的特征图进行处理,以输出多个通道的权值;
所述空间注意力单元用于从空间位置维度,对输入所述全局注意力模块的特征图进行处理,以输出多个空间位置的权值。
可选地,所述通道注意力单元包括:第一调整子单元、池化子单元、第二调整子单元以及权值生成子单元;
所述第一调整子单元用于对输入所述全局注意力模块的特征图进行处理,得到第一张量;
所述池化子单元用于对所述第一张量进行池化处理,得到第二张量;
所述第二调整子单元用于对所述第二张量进行调整,得到第三张量;
所述权值生成子单元用于对所述第三张量进行处理,生成通道权值张量。
可选地,所述空间注意力单元包括:池化子单元、第三调整子单元以及权值生成子单元;
所述池化子单元用于对输入所述全局注意力模块的特征图进行处理,得到第四张量;
所述第三调整子单元用于对所述第四张量进行调整,生成调整后的第五张量;
所述权值生成子单元用于对所述第五张量进行处理,生成空间位置权值张量。
可选地,所述池化子单元为预设卷积尺寸的卷积单元;所述权值生成子单元包括:顺次连接的全连接层和Sigmoid函数层。
可选地,所述方法还包括:以样本图像集为训练样本,对所述目标卷积神经网络进行训练,得到用于进行图像识别的图像识别模型。
可选地,以样本图像集为训练样本,对所述目标卷积神经网络进行训练,得到用于进行图像识别的图像识别模型,包括:
以样本图像集为训练样本,对所述目标卷积神经网络进行训练;
在训练过程中,获得多个经过不同训练次数的候选图像识别模型;
从多个所述候选图像识别模型中筛选满足预设测试条件的模型,得到用于进行图像识别的图像识别模型。
可选地,在得到用于进行图像识别的图像识别模型之后,所述方法包括:
获得待识别图像;
对所述待识别图像进行特征提取,得到所述待识别图像的特征图;
将所述待识别图像的特征图输入图像识别模型中,得到图像识别结果。
发明的第二方面公开了一种卷积神经网络构建装置,所述装置包括:
确定模块,用于从原始卷积神经网络中确定卷积模块的输出端,所述卷积模块包括多个卷积层,且所述卷积模块的输入端与输出端之间具有直连分支,所述卷积模块的输入与所述直连分支的输入共享;
添加模块,用于在所述卷积模块的输出端与所述直连分支的输出端之间增加全局注意力模块,得到目标卷积神经网络,其中,所述全局注意力模块用于输出全局注意力特征图,所述全局注意力模块的输出与所述直连分支的输出之和,为下一个所述卷积模块的输入。
本发明实施例的第三方面,还公开了一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行如本发明第一方面实施例所述的卷积神经网络构建方法。
本发明实施例的第四方面,还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明第一方面实施例所述的卷积神经网络构建方法。
本发明实施例包括以下优点:
在本发明实施例中,在原始卷积神经网络中对卷积模块的输出端与直连分支的输出端之间增加全局注意力模块,其中,全局注意力模块可以用于输出全局注意力特征图,该全局注意力特征图与直连分支的输出之和,可以作为下一卷积模块的输入,如此,便构建了一个目标卷积神经网络,该目标卷积神经网络便可以用于进行图像的处理。
由于全局注意力模块可以输出全局注意力特征图,该全局注意力特征图可以反映该卷积模块输出的各特征图在全局上的重要性,例如,在通道和空间上的重要性,从而最终得到的目标卷积神经网络可以动态的学习不同通道、不同空间位置的重要程度,避免对特征图频繁裁剪拼接操作,减小计算量、从而优化了注意力机制。又由于全局注意力特征图与所述直连分支的输出之和作为下一卷积模块的输入,这样,从整体上提取到了精度更高的全局信息,从而提升了图像识别的精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例的一种原始卷积神经网络的结构示意图;
图2是本发明一实施例的一种卷积神经网络构建方法的步骤流图;
图3是本发明一实施例的一种全局注意力模块的结构示意图;
图4是本发明实施例中(N,C,H,W)中N为1时的特征图的空间示意图;
图5是本发明一实施例的又一种全局注意力模块的结构示意图;
图6是本发明一示例中该全局注意模块的结构示意图;
图7是示出了将图3或图5所示的全局注意力模块增加到图1所示的原始卷积神经网络后的结构示意图;
图8是本发明一实施例的一种卷积神经网络构建装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
申请人鉴于相关技术中各类卷积神经网络模型存在需要对特征图进行频繁的裁剪拼接操作,计算量大、效率不高的问题,提出了一种卷积神经网络构建方法,该方法主要在原始的卷进神经网络模型中的卷积模块的输出端增加全局注意力模块,以自主学习到不同通道和不同空间位置的重要性,从而优化注意力机制,提高图像识别的效率。
下面,对本发明的一种卷积神经网络构建方法进行详细阐述。需要说明的是:本发明提供的卷积神经网络构建方法可以应用于终端设备或服务器中。
参照图1所示,示出了本实施例的一种待处理的原始神经网络的网络结构图,如图1所示的原始神经网络为ResNet18,该ResNet18网络包括全连接层和多个卷积模块。
结合图1所示的卷积神经网络,对本实施例的一种卷积神经网络构建方法进行介绍。
参照图2所示,示出了本实施例的一种卷积神经网络构建方法的步骤流程图,如图2所示,具体可以包括以下步骤:
步骤S201:原始卷积神经网络中确定卷积模块的输出端。
其中,所述卷积模块包括多个卷积层,且所述卷积模块的输入端与输出端之间具有直连分支,所述卷积模块的输入与所述直连分支的输入共享。
一般而言,原始卷积神经网络中可以包括多个卷积模块,当然,原始卷积神经网络除包括多个卷积模块外,还可以包括池化层、全连接层等。池化层用于保留主要的特征同时减少参数和计算量,全连接层可以把得到的特征信息提取整合。其中,每个卷积模块可以用于对上一卷进模块输出的特征图进行卷积处理,以获得局部特征,进而再向下一卷积模块输出卷积处理后的特征图。
其中,卷积模块的输入端与输出端之间具有的直连分支可以理解为是将输入到该卷积模块的特征图直接输出,或者对输入到该卷积模块的特征图进行下采样后输出,之后,该直连分支的输出与该卷积模块的输出之和作为下一卷积模块的输入。
仍如图1所示,图1中虚线框中所标注出的便是一个卷积模块,可以看出ResNet18共包括8个卷积模块。其中,每个卷积模块可以包括两个卷积层,每个卷积模块在输入端和输出端均具有直连分支,该直连分支可以将输入到卷积模块的特征图直接输出,或者对特征图进行下采样后再输出。
本实施例中,可以确定原始卷积神经网络中所包括的全部卷积模块的输出端,该输出端即是卷积模块用于输出特征图的一端。
步骤S202:在所述卷积模块的输出端与所述直连分支的输出端之间增加全局注意力模块,得到目标卷积神经网络。
其中,所述全局注意力模块用于输出全局注意力特征图,所述全局注意力模块的输出与所述直连分支的输出之和,为下一个所述卷积模块的输入。
本实施例中,可以在每个卷积模块的输出端与该卷积模块对应的直连分支的输出端之间增加全局注意力模块,该全局注意力模块输出的特征图与直连分支输出的特征图之和可以作为下一个卷积模块的输入。
其中,由于全局注意力模块连接在卷积模块的输出端上,则卷积模块输出的特征图便可以输入到该全局注意力模块中,通过全局注意力模块,得到全局注意力特征图。全局注意力模块具体可以用于对输入的特征图在通道和空间位置上进行注意力重新分配,即对特征图在通道和空间位置上的重要性进行调整,以输出全局注意力特征图,输出的全局注意力特征图可以反映更为全面的全局特征信息。
如图1所示,虚线框所框出的部分为一个卷积模块101,可以将本发明实施例的全局注意力模块连接在卷积模块101的输出端和直连分支102的输出端之间。具体地,全局注意力模块可以位于图1中的虚线箭头103所示的位置,即该卷积模块101的输出直接输入全局注意力模块,全局注意力模块的输出直连分支的输出作为下一个卷积模块104的输入。
实际中,可以在原始卷积神经网络中每一个卷积模块的输出端与相应的直连分支的输出端之间添加全局注意力模块。
参照图3所示,示出了一种实施方式中的全局注意力模块的结构示意图,如图3所示,所述全局注意力模块300可以包括:权值生成子模块、联合子模块以及特征图生成子模块。
下面,结合图3所示,对此种实施方式下的全局注意力模块300中的各个子模块进行详细介绍:
其中,所述权值生成子模块可以用于从空间位置维度和通道维度,对输入所述全局注意力模块的特征图进行处理,生成多个通道的权值和多个空间位置的权值;
所述联合子模块可以用于对所述多个通道的权值以及所述多个空间位置的权值进行处理,输出全局注意力权值;
所述特征图生成子模块用于根据所述全局注意力权值,对输入所述全局注意力模块的特征图进行处理,生成所述全局注意力特征图。
本实施例中,权值生成子模块可以为输入的特征图中的每个通道生成一个对应的权值,以及为不同空间位置生成一个对应的权值,该空间位置可以理解为是特征图在空间维度上的一个局部区域。本实施例中,每个通道对应的权值可以用于表征卷积模块输出的特征图在不同通道上的重要性,不同空间位置对应的权值可以用于表征卷积模块输出的特征图在不同空间位置上的重要性。
具体实现中,在生成多个通道各自对应的权值时,可以先消除空间位置的影响,在生成多个空间位置的权值时,可以先消除多个通道的影响。
如图3所示,输入到全局注意力模块的特征图是(N,C,H,W),其中,N表示输入到该原始卷积神经网络的图像的数量,C表示通道数,H表示特征图的的高、W表示特征图的宽。
参照图4所示,示出了(N,C,H,W)中N为1时的特征图的空间示意图。如图4所示,其中,(H、W)可以理解为是特征图在空间上的尺寸,具体地表征了空间上的特征分布,例如图4中C1通道的一个小格代表一个空间位置,C1至Cn是n个通道。
其中,权值生成子模块输出多个通道的权值(N,C,1,1)和多个空间位置的权值(N,1,H,W),(N,C,1,1)也可以称为通道权值张量、(N,1,H,W)也可以称为空间位置权值张量。则(N,C,1,1)可以理解为是特征图(N,C,H,W)中每个通道的权值,(N,1,H,W)可以理解为是(N,C,H,W)中对应不同空间位置的权值张量。
在得到多个通道各自的权值和多个空间位置各自的权值后,可以将多个通道各自的权值和多个空间位置各自的权值输入到联合子模块,联合子模块可以将多个通道各自的权值和多个空间位置各自的权值进行点乘,从而输出全局注意力权值。
如图3所示,权值生成子模块输出多个通道的权值张量(N,C,1,1)和多个空间位置的权值张量(N,1,H,W),则可以将(N,C,1,1)和(N,1,H,W)点乘,从而得到全局注意力权值(N,C,H,W)'。该全局注意力权值即包括了多个通道各自的权值和多个空间位置各自的权值。
在得到全局注意力权值之后,便得到输入到该全局注意力模块的特征图在不同通道和不同空间位置上的重要性,进而特征图生成子模块可以将输入到全局注意力模块的特征图与全局注意力权值进行点乘,从而得到全局注意力特征图。由此,全局注意力特征图便可以是对卷积处理模块输出的特征图进行注意力重新分配后的特征图,从而提炼到了精度更高的全局信息。
在一种具体实现中,权值生成子模块由于需要生成多个通道的权值和多个空间位置的权值,则权值生成子模块具体可以包括:通道注意力单元和空间注意力单元。
其中,所述通道注意力单元用于从通道维度,对输入所述全局注意力模块的特征图进行处理,以输出多个通道的权值。
具体地,通道注意力单元可以在空间上动态自适应池化操作,具体而言,可以用一个conv1x1的卷积为每一个像素生成对应的权值,然后加权求和。最后通过一个全连接层FC和Sigmoid函数层获得不同通道的权值。
其中,所述空间注意力单元用于从空间位置维度,对输入所述全局注意力模块的特征图进行处理,以输出多个空间位置的权值。
具体地,空间注意力单元可以在通道上自适应池化操作,具体而言,可以用一个conv1x1的卷积为每一个通道生成不同的权值,然后加权求和,最后通过一个FC和Sigmoid层获得不同空间位置的权值。
参照图5所示,示出了一种实施方式中全局注意力模块的结构示意图,如图5所示,在该全局注意力模块400中完整地可以包括权值生成子模块、联合子模块和特征图生成子模块,权值生成子模块可以包括通道注意力单元401和空间注意力单元402。
结合图5所示,对通道注意力单元401和空间注意力单元402进行详细说明:
首先,所述通道注意力单元包括:第一调整子单元、池化子单元、第二调整子单元以及权值生成子单元。具体如下:
其中,所述第一调整子单元用于对输入所述全局注意力模块的特征图进行处理,得到第一张量;所述池化子单元用于对所述第一张量进行池化处理,得到第二张量;所述第二调整子单元用于对所述第二张量进行调整,得到第三张量;所述权值生成子单元用于对所述第三张量进行处理,生成通道权值张量。
其中,第一张量可以理解为是与输入的特征图在通道上所对应的张量,反映了不同的通道信息。例如,输入特征图是(N,C,H,W)张量,则转换后可以变为(N,HW,C,1)的第一张量,具体转换过程可以参照相关技术即可。
之后,对第一张量进行池化处理,该池化处理可以是平均池化、最大池化或随机池化,以减小空间维度上的参数量,得到了第二张量,该第二张量便反映了通道信息和池化后的空间信息。例如,第一张量为(N,HW,C,1),对该第一张量为(N,HW,C,1)进行最大池化,则得到了第二张量(N,1,C,1)。
最后,可以将第二张量输入到权值生成子单元,从而通过权值生成子单元得到通道权值张量,例如,将第二张量(N,1,C,1)输入到权值生成子单元,从而生成了通道权值张量(N,C)。
在本实施方式中,池化子单元可以为预设卷积尺寸的卷积单元;所述权值生成子单元包括:顺次连接的全连接层和Sigmoid函数层。其中,该预设卷积尺寸可以是conv1×1的尺寸,或者是convH×W的尺寸,H即为输入的特征图的高,W即为输入的特征图的宽。
其次,如图5所示,所述空间注意力单元具体可以包括:池化子单元、第三调整子单元以及权值生成子单元,具体地:
所述池化子单元用于对输入所述全局注意力模块的特征图进行处理,得到第四张量;所述第三调整子单元用于对所述第四张量进行调整,生成调整后的第五张量;所述权值生成子单元用于对所述第五张量进行处理,生成空间位置权值张量。
本实施例中,所述池化子单元可以用于对特征图的各个通道进行最大池化、随机池化或平均池化处理,从而得到第四张量,该第四张量可以理解为是与输入的特征图在空间位置所对应的张量,反映了不同的空间位置的信息。例如,输入特征图是(N,C,H,W)张量,则转换后可以变为(N,1,H,W)的第四张量,具体转换过程可以参照相关技术即可。
本实施例中,第三调整子单元对所述第四张量进行调整,具体来说,可以是指将第四张量转换为第五张量,例如,将第四张量(N,1,H,W)reshape(转换)为(N,HW)。其中,HW用于确定一个空间位置上的像素的权值。
本实施例中,可以将第五张量输入到权值生成子单元,从而通过权值生成子单元得到空间位置权值张量,例如,将第五张量(N,HW)输入到权值生成子单元,从而生成了空间位置权值张量(N,HW)'。这样,该空间位置权值张量便可以表征每个空间位置的重要性。
在本实施方式中,池化子单元可以为预设卷积尺寸的卷积单元;所述权值生成子单元可以包括:顺次连接的全连接层和Sigmoid函数层。其中,该预设卷积尺寸可以是conv1×1的尺寸,或者是convH×W的尺寸,H即为输入的特征图的高,W即为输入的特征图的宽。
参照图6所示,示出了本发明一示例中该全局注意模块的结构示意图,如图6所示,其中,左边虚线框中的模块是通道注意力单元,右边的实线框中的模块是空间注意力单元,其中,输入到通道注意力单元的特征为(N,HW,C,1),输入到空间注意力单元的特征图为(N,C,H,W)。通道注意力单元和空间注意力单元均可以包括是conv1×1的卷积层、全连接层FC以及Sigmoid函数层,conv1×1的卷积层用于对输入的特征进行池化处理。
从图6可以看出,通道注意力单元输出的特征为(N,C,1,1),空间注意力单元输出的特征为(N,1,H,W),则可以对(N,C,1,1)和(N,1,H,W)进行点乘后,点乘得到的结果可与输入到该全局注意力模块的特征图(N,C,H,W)进行点乘,进而得到融合特征图。
参照图7所示,示出了将图3或图5所示的全局注意力模块添加到图1所示的Resnet18后的目标卷积神经网络的网络结构示意图。其中,shortcut为直连分支。
其中,在卷积模块中增加全局注意力模块后,便得到了目标卷积神经网络,该目标卷积神经网络的超参数设置可以与原始卷积神经网络一致,这样,目标卷积神经网络便可以继承到原始神经网络的超参数,从而可以直接将该目标卷积神经网络作为初始的图像识别模型对图像进行处理。即,得到的目标卷积神经网络由于继承了原始神经网络的超参数,从而可以直接作为图像识别模型对图像进行处理。
在一种实施方式中,在得到目标卷积神经网络后,也可以进一步完善该目标卷积神经网络,以提高目标卷积神经网络的图像处理效率。则相应地,可以以样本图像集为训练样本,对所述目标卷积神经网络进行训练,得到用于进行图像识别的图像识别模型。
本实施例中,在训练该目标卷积神经网络时,设置的超参数可以与原始卷积神经网络一致。
其中,样本图像集中可以包括针对同一图像识别任务的多张样本图像,根据实际训练需求,每张样本图像可以携带标签也可以不携带标签。
其中,图像识别任务可以是人脸图像识别任务、图像分类任务、属性识别任务、指纹图像识别任务、虹膜图像识别任务等。则相应地,针对人脸图像识别任务,样本图像集中便可以包括多个来自不同人脸或同一人脸的人脸图像;针对属性识别任务,样本图像集中便可以包括多个具有不同属性的样本图像;针对指纹图像识别任务,样本图像集中便可以包括多个具有来自不同手指或同一手指的指纹图像;针对虹膜图像识别任务,样本图像集中便可以包括多个具有来自不同眼睛或同一眼睛的虹膜图像。
本实施例中,针对不同的图像识别任务,可以按照相应的相关技术对所述目标卷积神经网络进行训练,以得到图像识别模型,其中,所得到的图像识别模型的结构与目标卷积神经网络的结构一致。
在一种具体实现中,在以样本图像集为训练样本,对所述目标卷积神经网络进行训练时,可以将训练结束时的目标卷积神经网络,确定为用于进行图像识别的图像识别模型。
实际中,可以在图像识别的准确率达到预设准确率时,视为训练结束,进而将此时的目标卷积神经网络确定为图像识别模型。
在另一种具体实现中,在以样本图像集为训练样本,对所述目标卷积神经网络进行训练时,可以以样本图像集为训练样本,对所述目标卷积神经网络进行训练,在训练过程中,获得多个经过不同训练次数的候选图像识别模型,最后,从多个所述候选图像识别模型中筛选满足预设测试条件的模型,得到用于进行图像识别的图像识别模型。
本具体实现中,可以将样本图像集中的多个图像样本分批次输入目标卷积神经网络进行训练,例如,分100批输入目标卷积神经网络进行训练,则会对目标卷积神经网络训练100次。
则实际中,可以将每一次训练结束时的目标卷积神经网络进行保存,例如,进行100次训练则保存100个目标卷积神经网络。或者,也可以在预设多次训练后,再将后续的每一次训练结束时的目标卷积神经网络进行保存,例如,在50次之后开始保存,则保存50个目标卷积神经网络。或者,可以将每N次训练结束时的目标卷积神经网络进行保存,例如,每10次训练进行保存,则保存了10个目标卷积神经网络。
其中,每次被保存的目标卷积神经网络可以作为候选图像识别模型,进而得到多个候选图像识别模型。
在得到多个候选图像识别模型后,便可以以测试样本,对多个候选图像识别模型进行测试,以得到多个候选图像识别模型各自输出的测试结果。根据测试结果可以确定图像识别的准确率,进而可以从多个所述候选图像识别模型筛选出准确率最高的候选图像识别模型,将准确率最高的候选图像识别模型确定为图像识别模型。但本发明实施例不以此为限,或者,还可以将迭代训练N次后得到的目标卷积神经网络,确定为该图像识别模型,其中N为正整数,其具体取值可以根据实际应用情况进行设置。
通过上述实施例,在得到图像识别模型后,便可以采用该图像识别模型进行图像识别,具体地,在利用图像识别模型进行图像识别时,具体可以包括以下步骤:
步骤S203:获得待识别图像。
其中,根据图像识别任务,待识别图像可以是人脸图像、指纹图像或针对一个特定对象所拍摄的图像。
步骤S204:对所述待识别图像进行特征提取,得到所述待识别图像的特征图。
本实施例中,可以对待识别图像进行特征提取,具体而言,可以是对待识别图像进行特征编码,以对待识别图像中的信息进行数学量化,从而得到待识别图像的特征图。
步骤S205:将所述待识别图像的特征图输入图像识别模型中,得到图像识别结果。
本实施例中,可以将待识别图像的特征图输入图像识别模型的输入端,图像识别模型可以对待识别图像的特征图进行池化处理、卷积处理等,其中,图像识别模型中每个卷积模块的全局注意力模块可以输出全局注意力特征图,从而最终得到的图像识别模型可以动态的学习不同通道、不同空间位置的重要程度,避免对特征图频繁裁剪拼接操作,减小计算量、从而优化了注意力机制。
需要说明的是:在得到本申请实施例的目标卷积神经网络后,也可以继续对该目标卷积神经网络的结构进行完善,以提高目标卷积神经网络进行图像处理的效率和准确率。例如,可以将目标卷积神经网络的卷积模块替换为多尺度感知模块,所述多尺度感知单元用于根据输入到该层的特征图,输出多种尺度的特征图的融合特征图,具体而言,可以通过共享卷积核,使得不同感受野的特征图可以共享部分特征,从而进一步提高特征提取的精度。
当然,实际中,也可以将将目标卷积神经网络的卷积模块替换为感受野自适应模块,每个感受野自适应模块的输出和直连分支的输出之和作为下一感受野自适应模块的输入。其中,感受野自适应模块用于为多种感受野分别生成对应的权重值,以对所述多种感受野的特征图进行处理,该感受野自适应模块便可以避免人为设计不同感受野的权重的不合理性,提高特征提取的精度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
基于同一发明构思,参考图8,示出了本发明实施例的一种卷积神经网络构建装置的框架示意图,如图8所示,具体可以包括以下模块:
确定模块801,用于从原始卷积神经网络中确定卷积模块的输出端,所述卷积模块包括多个卷积层,且所述卷积模块的输入端与输出端之间具有直连分支,所述卷积模块的输入与所述直连分支的输入共享;
添加模块802,用于在所述卷积模块的输出端与所述直连分支的输出端之间增加全局注意力模块,得到目标卷积神经网络,其中,所述全局注意力模块用于输出全局注意力特征图,所述全局注意力模块的输出与所述直连分支的输出之和,为下一个所述卷积模块的输入。
可选地,所述装置还可以包括训练模块,用于以样本图像集为训练样本,对所述目标卷积神经网络进行训练,得到用于进行图像识别的图像识别模型。
可选地,所述全局注意力模块包括:权值生成子模块、联合子模块以及特征图生成子模块;
所述权值生成子模块用于从空间位置维度和通道维度,对输入所述全局注意力模块的特征图进行处理,生成多个通道的权值和多个空间位置的权值;
所述联合子模块用于对所述多个通道的权值以及所述多个空间位置的权值进行处理,输出全局注意力权值;
所述特征图生成子模块用于根据所述全局注意力权值,对输入所述全局注意力模块的特征图进行处理,生成所述全局注意力特征图。
可选地,所述权值生成子模块包括:通道注意力单元和空间注意力单元;
所述通道注意力单元用于从通道维度,对输入所述全局注意力模块的特征图进行处理,以输出多个通道的权值;
所述空间注意力单元用于从空间位置维度,对输入所述全局注意力模块的特征图进行处理,以输出多个空间位置的权值。
可选地,所述通道注意力单元包括:第一调整子单元、池化子单元、第二调整子单元以及权值生成子单元;
所述第一调整子单元用于对输入所述全局注意力模块的特征图进行处理,得到第一张量;
所述池化子单元用于对所述第一张量进行池化处理,得到第二张量;
所述第二调整子单元用于对所述第二张量进行调整,得到第三张量;
所述权值生成子单元用于对所述第三张量进行处理,生成通道权值张量。
可选地,所述空间注意力单元包括:池化子单元、第三调整子单元以及权值生成子单元;
所述池化子单元用于对输入所述全局注意力模块的特征图进行处理,得到第四张量;
所述第三调整子单元用于对所述第四张量进行调整,生成调整后的第五张量;
所述权值生成子单元用于对所述第五张量进行处理,生成空间位置权值张量。
可选地,所述池化子单元为预设卷积尺寸的卷积单元;所述权值生成子单元包括:顺次连接的全连接层和Sigmoid函数层。
可选地,所述训练模块,具体可以包括以下单元:
训练单元,用于以样本图像集为训练样本,对所述目标卷积神经网络进行训练;
保存单元,用于在训练过程中,获得多个经过不同训练次数的候选图像识别模型;
筛选单元,用于从多个所述候选图像识别模型中筛选满足预设测试条件的模型,得到用于进行图像识别的图像识别模型。
可选地,所述装置可以包括以下模块:
图像获得模块,用于获得待识别图像;
特征提取模块,用于对所述待识别图像进行特征提取,得到所述待识别图像的特征图;
图像输入模块,用于将所述待识别图像的特征图输入图像识别模型中,得到图像识别结果。
本发明实施例还提供了一种电子设备,该电子设备可以用于执行卷积神经网络构建方法,可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器被配置为执行所述的卷积神经网络构建方法。
本发明实施例还提供了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明实施例所述的卷积神经网络构建方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种卷积神经网络构建方法、装置、设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种卷积神经网络构建方法,其特征在于,所述方法包括:
从原始卷积神经网络中确定卷积模块的输出端,所述卷积模块包括多个卷积层,且所述卷积模块的输入端与输出端之间具有直连分支,所述卷积模块的输入与所述直连分支的输入共享;
在所述卷积模块的输出端与所述直连分支的输出端之间增加全局注意力模块,得到目标卷积神经网络,其中,所述全局注意力模块用于输出全局注意力特征图,所述全局注意力模块的输出与所述直连分支的输出之和,为下一个所述卷积模块的输入;以样本图像集为训练样本,对所述目标卷积神经网络进行训练,得到用于进行图像识别的图像识别模型。
2.根据权利要求1所述的方法,其特征在于,所述全局注意力模块包括:权值生成子模块、联合子模块以及特征图生成子模块;
所述权值生成子模块用于从空间位置维度和通道维度,对输入所述全局注意力模块的特征图进行处理,生成多个通道的权值和多个空间位置的权值;
所述联合子模块用于对所述多个通道的权值以及所述多个空间位置的权值进行处理,输出全局注意力权值;
所述特征图生成子模块用于根据所述全局注意力权值,对输入所述全局注意力模块的特征图进行处理,生成所述全局注意力特征图。
3.根据权利要求2所述的方法,其特征在于,所述权值生成子模块包括:通道注意力单元和空间注意力单元;
所述通道注意力单元用于从通道维度,对输入所述全局注意力模块的特征图进行处理,以输出多个通道的权值;
所述空间注意力单元用于从空间位置维度,对输入所述全局注意力模块的特征图进行处理,以输出多个空间位置的权值。
4.根据权利要求3所述的方法,其特征在于,所述通道注意力单元包括:第一调整子单元、池化子单元、第二调整子单元以及权值生成子单元;
所述第一调整子单元用于对输入所述全局注意力模块的特征图进行处理,得到第一张量;
所述池化子单元用于对所述第一张量进行池化处理,得到第二张量;
所述第二调整子单元用于对所述第二张量进行调整,得到第三张量;
所述权值生成子单元用于对所述第三张量进行处理,生成通道权值张量。
5.根据权利要求3所述的方法,其特征在于,所述空间注意力单元包括:池化子单元、第三调整子单元以及权值生成子单元;
所述池化子单元用于对输入所述全局注意力模块的特征图进行处理,得到第四张量;
所述第三调整子单元用于对所述第四张量进行调整,生成调整后的第五张量;
所述权值生成子单元用于对所述第五张量进行处理,生成空间位置权值张量。
6.根据权利要求4或5所述的方法,其特征在于,所述池化子单元为预设卷积尺寸的卷积单元;所述权值生成子单元包括:顺次连接的全连接层和Sigmoid函数层。
7.根据权利要求1所述的方法,其特征在于,以样本图像集为训练样本,对所述目标卷积神经网络进行训练,得到用于进行图像识别的图像识别模型,包括:
以样本图像集为训练样本,对所述目标卷积神经网络进行训练;
在训练过程中,获得多个经过不同训练次数的候选图像识别模型;
从多个所述候选图像识别模型中筛选满足预设测试条件的模型,得到用于进行图像识别的图像识别模型。
8.根据权利要求1所述的方法,其特征在于,在得到用于进行图像识别的图像识别模型之后,所述方法包括:
获得待识别图像;
对所述待识别图像进行特征提取,得到所述待识别图像的特征图;
将所述待识别图像的特征图输入图像识别模型中,得到图像识别结果。
9.一种卷积神经网络构建装置,其特征在于,所述装置包括:
确定模块,用于从原始卷积神经网络中确定卷积模块的输出端,所述卷积模块包括多个卷积层,且所述卷积模块的输入端与输出端之间具有直连分支,所述卷积模块的输入与所述直连分支的输入共享;
添加模块,用于在所述卷积模块的输出端与所述直连分支的输出端之间增加全局注意力模块,得到目标卷积神经网络,其中,所述全局注意力模块用于输出全局注意力特征图,所述全局注意力模块的输出与所述直连分支的输出之和,为下一个所述卷积模块的输入;以样本图像集为训练样本,对所述目标卷积神经网络进行训练,得到用于进行图像识别的图像识别模型。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1-8任一所述的卷积神经网络构建方法。
11.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1-8任一所述的卷积神经网络构建方法。
CN202010414618.8A 2020-05-15 2020-05-15 卷积神经网络构建方法、装置、设备及介质 Active CN111783935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010414618.8A CN111783935B (zh) 2020-05-15 2020-05-15 卷积神经网络构建方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010414618.8A CN111783935B (zh) 2020-05-15 2020-05-15 卷积神经网络构建方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111783935A CN111783935A (zh) 2020-10-16
CN111783935B true CN111783935B (zh) 2024-06-21

Family

ID=72754165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010414618.8A Active CN111783935B (zh) 2020-05-15 2020-05-15 卷积神经网络构建方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111783935B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598126A (zh) * 2020-12-04 2021-04-02 北京迈格威科技有限公司 神经网络构建方法、装置、设备及介质
CN112346056B (zh) * 2021-01-11 2021-03-26 长沙理工大学 多脉冲雷达信号的分辨性特征融合提取方法及识别方法
CN113239899B (zh) * 2021-06-17 2024-05-28 阿波罗智联(北京)科技有限公司 用于处理图像和生成卷积核的方法、路侧设备和云控平台

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229490B (zh) * 2017-02-23 2021-01-05 北京市商汤科技开发有限公司 关键点检测方法、神经网络训练方法、装置和电子设备
CN110084794B (zh) * 2019-04-22 2020-12-22 华南理工大学 一种基于注意力卷积神经网络的皮肤癌图片识别方法
CN110717856A (zh) * 2019-09-03 2020-01-21 天津大学 一种用于医学成像的超分辨率重建算法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络的注意力机制研究;王浩天;王璇;;科学咨询(科技・管理);20200205(第02期);全文 *

Also Published As

Publication number Publication date
CN111783935A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111783935B (zh) 卷积神经网络构建方法、装置、设备及介质
CN111160375B (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN111626330A (zh) 基于多尺度特征图重构和知识蒸馏的目标检测方法与***
CN112639828A (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN110516541B (zh) 文本定位方法、装置、计算机可读存储介质和计算机设备
KR20160034814A (ko) 뉴럴 네트워크를 수반한 클라이언트 장치 및 그것을 포함하는 시스템
CN111783934B (zh) 卷积神经网络构建方法、装置、设备及介质
CN111639755B (zh) 一种网络模型训练方法、装置、电子设备及存储介质
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN113505797B (zh) 模型训练方法、装置、计算机设备和存储介质
CN114418030B (zh) 图像分类方法、图像分类模型的训练方法及装置
CN113807353B (zh) 图像转换模型训练方法、装置、设备及存储介质
CN110807437A (zh) 视频粒度特征确定方法、装置和计算机可读存储介质
CN111428854A (zh) 一种结构搜索方法及结构搜索装置
CN110503149B (zh) 一种图像中局部特征分类方法及***
CN113592060A (zh) 一种神经网络优化方法以及装置
CN111047088A (zh) 预测图像获取方法、装置、计算机设备和存储介质
CN111783936B (zh) 卷积神经网络构建方法、装置、设备及介质
CN115238909A (zh) 一种基于联邦学习的数据价值评估方法及其相关设备
CN114925320A (zh) 一种数据处理方法及相关装置
CN111709415A (zh) 目标检测方法、装置、计算机设备和存储介质
CN114299304A (zh) 一种图像处理方法及相关设备
CN113762331A (zh) 关系型自蒸馏方法、装置和***及存储介质
CN116797850A (zh) 基于知识蒸馏和一致性正则化的类增量图像分类方法
CN110889316B (zh) 一种目标对象识别方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant