CN111860543A - 图像处理方法、装置、设备及存储介质 - Google Patents
图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111860543A CN111860543A CN202010725910.1A CN202010725910A CN111860543A CN 111860543 A CN111860543 A CN 111860543A CN 202010725910 A CN202010725910 A CN 202010725910A CN 111860543 A CN111860543 A CN 111860543A
- Authority
- CN
- China
- Prior art keywords
- normalization
- channels
- group
- feature maps
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000010606 normalization Methods 0.000 claims abstract description 124
- 238000012545 processing Methods 0.000 claims abstract description 93
- 238000003062 neural network model Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 51
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000004891 communication Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 6
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种图像处理方法、装置、设备及存储介质,属于图像处理技术领域。该方法应用于电子设备中,电子设备能够用于运行神经网络模型,神经网络模型包括卷积层和归一化层,归一化层位于卷积层之后,该方法包括:在对神经网络模型进行训练的过程中,确定归一化层的上一层所输出的多个第一特征图的通道数,多个第一特征图至少由卷积层经过卷积处理;基于通道数和多个第一特征图,确定多组第一数值,每组第一数值包括多个第一特征图在至少两个通道上的像素值,且各个组包括的通道互不相同;基于多组第一数值,对多个第一特征图进行归一化处理。本申请实施例可以保证归一化处理的数据统计量,使得精度较高,从而保证了图像处理效果。
Description
技术领域
本申请实施例涉及图像处理技术领域,尤其涉及一种图像处理方法、装置、设备及存储介质。
背景技术
目前,神经网络模型在图像处理技术领域得到广泛应用,譬如,可以用于图像识别或图像检测等。神经网络模型中通常包括有卷积层、池化层、归一化层等,其中,归一化层可以用于对特征图进行归一化处理。
在相关技术中,归一化层大多数采用批归一化处理方式。然而,批归一化处理对批量的大小比较敏感,当批量较小,如输入的特征图的数量较少时,均值和方差的统计不够准确,使得精度较低,从而导致图像处理效果较差。
发明内容
本申请实施例提供了一种图像处理方法、装置、设备及存储介质,可以解决相关技术的统计不够准确导致图像处理效果较差的问题。所述技术方案如下:
一方面,提供了一种图像处理方法,应用于电子设备中,所述电子设备能够用于运行神经网络模型,所述神经网络模型包括卷积层和归一化层,所述归一化层位于所述卷积层之后,所述方法包括:
在对所述神经网络模型进行训练的过程中,确定所述归一化层的上一层所输出的多个第一特征图的通道数,所述多个第一特征图至少由所述卷积层经过卷积处理;
基于所述通道数和所述多个第一特征图,确定多组第一数值,每组第一数值包括所述多个第一特征图在至少两个通道上的像素值,且各个组包括的通道互不相同;
基于所述多组第一数值,对所述多个第一特征图进行归一化处理,得到归一化后的目标特征图。
可选地,所述基于所述通道数和所述多个第一特征图,确定多组第一数值,包括:
获取第一数值,所述第一数值为所述通道数与超参数阈值之商;
按照预设规则,将所述多个第一特征图在所述通道数个通道上的像素值划分为所述超参数阈值个组,得到所述多组第一数值,其中,每组第一数值包括所述多个第一特征图在所述第一数值个通道上的像素值。
可选地,所述基于所述多组第一数值,对所述多个第一特征图进行归一化处理,包括:
确定所述多组中的每组第一数值的数值均值和方差;
基于每组第一数值的数值均值和方差,对每组中的各个第一数值进行归一化处理,得到每组的归一化数值;
将所述多组的归一化数值对应的特征图确定为所述归一化处理后的目标特征图。
可选地,所述方法还包括:
在基于训练后的神经网络模型进行图像处理的过程中,按照预设规则,对所述归一化层的上一层所输出的多个第二特征图在所述通道数个通道上的像素值进行分组,得到多组第二数值;
获取所述多组第二数值中每组第二数值对应的数值均值和方差,其中,每组第二数值对应的数值均值和方差是在训练过程中确定的;
基于所述多组第二数值中每组第二数值对应的数值均值和方差,对所述多个第二特征图进行归一化处理。
可选地,在所述神经网络模型包括多个归一化层的情况下,针对每个归一化层执行的归一化处理所使用的超参数阈值相同。
另一方面,提供了一种图像处理装置,配置于电子设备中,所述电子设备能够用于运行神经网络模型,所述神经网络模型包括卷积层和归一化层,所述归一化层位于所述卷积层之后,所述装置包括:
第一确定模块,用于在对所述神经网络模型进行训练的过程中,确定所述归一化层的上一层所输出的多个第一特征图的通道数,所述多个第一特征图至少由所述卷积层经过卷积处理;
第二确定模块,用于基于所述通道数和所述多个第一特征图,确定多组第一数值,每组第一数值包括所述多个第一特征图在至少两个通道上的像素值,且各个组包括的通道互不相同;
归一化处理模块,用于基于所述多组第一数值,对所述多个第一特征图进行归一化处理,得到归一化后的目标特征图。
可选地,所述第二确定模块用于:
获取第一数值,所述第一数值为所述通道数与超参数阈值之商;
按照预设规则,将所述多个第一特征图在所述通道数个通道上的像素值划分为所述超参数阈值个组,得到所述多组第一数值,其中,每组第一数值包括所述多个第一特征图在所述第一数值个通道上的像素值。
可选地,所述归一化处理模块用于:
确定所述多组中的每组第一数值的数值均值和方差;
基于每组第一数值的数值均值和方差,对每组中的各个第一数值进行归一化处理,得到每组的归一化数值;
将所述多组的归一化数值对应的特征图确定为所述归一化处理后的目标特征图。
可选地,所述归一化处理模块还用于:
在基于训练后的神经网络模型进行图像处理的过程中,按照预设规则,对所述归一化层的上一层所输出的多个第二特征图在所述通道数个通道上的像素值进行分组,得到多组第二数值;
获取所述多组第二数值中每组第二数值对应的数值均值和方差,其中,每组第二数值对应的数值均值和方差是在训练过程中确定的;
基于所述多组第二数值中每组第二数值对应的数值均值和方差,对所述多个第二特征图进行归一化处理。
可选地,在所述神经网络模型包括多个归一化层的情况下,针对每个归一化层执行的归一化处理所使用的超参数阈值相同。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器、通信接口、存储器和通信总线,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,所述存储器用于存放计算机程序,所述处理器用于执行所述存储器上所存放的程序,以实现上述一方面中任一所述的图像处理方法的步骤。
另一方面,提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时以实现上述一方面中任一所述的图像处理方法的步骤。
另一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行时以实现上述一方面中任一所述的图像处理方法的步骤。
本申请实施例提供的技术方案至少可以带来以下有益效果:
在神经网络模型训练的过程中,在对经过卷积处理后的多个第一特征图进行归一化处理时,确定该多个第一特征图的通道数,然后基于该通道数,对该多个第一特征图在至少两个通道上的像素值进行分组,每组内包括至少两个通道的第一数值,如此,针对每组第一数值在至少两个通道上进行归一化处理,可以保证归一化处理的数据统计量,使得精度较高,从而保证了图像处理效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像处理方法的流程图;
图2是本申请实施例提供的一种特征图的归一化维度示意图;
图3是本申请实施例提供的一种图像处理装置的结构示意图;
图4是本申请实施例提供的一种终端的结构示意图;
图5是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例提供的图像处理方法进行详细的解释说明之前,先对本申请实施例提供的实施环境进行简单介绍。
本申请实施例提供的方法可以由电子设备来执行,该电子设备可以用于运行神经网络模型,譬如,该电子设备可以用于训练神经网络模型,或者,该电子设备也可以通过训练后的神经网络模型进行图像处理,比如可以进行图像检测处理或图像识别处理等。
作为一种示例,该电子设备可以为终端,终端可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal DigitalAssistant,个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。
作为另一种示例,该电子设备还可以是服务器,本申请实施例对此不做限定。
本领域技术人员应能理解上述电子设备仅为举例,其他现有的或今后可能出现的电子设备如可适用于本申请实施例,也应包含在本申请实施例保护范围以内,并在此以引用方式包含于此。
在介绍完本申请实施例涉及的实施环境后,接下来将结合附图对本申请实施例提供的图像处理方法进行详细说明。
请参考图1,该图1是本申请实施例提供的一种图像处理方法的流程图,该方法应用于上述电子设备中,该方法可以包括如下几个实现步骤:
步骤101:在对神经网络模型进行训练的过程中,确定归一化层的上一层所输出的多个第一特征图的通道数,多个第一特征图至少由卷积层经过卷积处理。
作为一种示例,该神经网络模型的网络结构包括卷积层和归一化层,归一化层位于卷积层之后,譬如,该卷积层可以为该归一化层的上一层。进一步地,该归一化层之前可以包括至少一个卷积层。
当然,这里仅是以该神经网络模型包括卷积层和归一化层为例进行说明,在一实施例中,该神经网络模型还可以包括其他网络层,譬如,还可以包括但不限于输入层、池化层、全连接层等,本申请实施例对此不作限定。
作为一种示例,在该神经网络模型包括全连接层的情况下,该卷积层和归一化层之间可以包括有全连接层,比如,此时的网络结构可以为:卷积层的下一层为全连接层,全连接层的下一层为归一化层。
进一步地,该神经网络模型可以包括多个归一化层,每个归一化层之前可以包括至少一个卷积层。这里需要说明的是,在该神经网络模型包括多个归一化层的情况下,该多个归一化层中的每个归一化层均可以采用本申请实施例提供的方法对所输入的特征图进行归一化处理。
本申请实施例以一个归一化层的归一化处理为例进行说明。电子设备在对神经网络模型进行训练的过程中,可以确定归一化层的上一层所输出的多个第一特征图的通道数,其中,该多个第一特征图在输入该归一化层之前至少经过卷积层进行卷积处理。通常情况下,输入至神经网络模型的图像样本大多数为三通道,在经过卷积层进行卷积处理后,得到的特征图的通道数会增加,譬如,可能增加为64通道。在这里,电子设备确定归一化层的上一层所输出的特征图的通道数,示例性的,当该归一化层的上一层为卷积层时,确定卷积层所输出的特征图的通道数,或者说,电子设备确定输入至该归一化层的特征图的通道数。这里可以将该通道数记为C。
步骤102:基于通道数和多个第一特征图,确定多组第一数值,每组第一数值包括多个第一特征图在至少两个通道上的像素值,且各个组包括的通道互不相同。
其中,该多个第一特征图中的每个第一特征图都对应有多个数值,该多个数值可以理解为第一特征图在多个通道上的像素值,譬如,若通道数为64,则第一特征图中一个像素包括64个数值。
在实施中,当多个第一特征图的数量较少时,容易导致统计不准确,为此,电子设备可以将归一化操作在通道上进行,在这里,电子设备基于该通道数和该多个第一特征图,确定多组第一数值。
作为一种示例,基于该通道数和该多个第一特征图,确定多组第一数值的具体实现可以包括:获取第一数值,第一数值为通道数与超参数阈值之商,按照预设规则,将多个第一特征图在通道数个通道上的像素值划分为超参数阈值个组,得到多组第一数值,其中,每组第一数值包括多个第一特征图在第一数值个通道上的像素值。
其中,该超参数阈值可以由用户根据实际需求进行设置,或者,也可以由该电子设备默认设置,示例性的,该超参数阈值可以为32。
其中,该预设规则可以由用户根据实际需求进行设置,或者,也可以由该电子设备默认设置,本申请实施例对此不做限定。
也即是,电子设备可以按照预设规则,将该多个第一特征图在该C个通道上的像素值进行分组,具体是划分为超参数阈值个组,得到的每个组内的通道数为第一数值。譬如,若该第一数值记为K,该超参数阈值记为G,该K=C/G,电子设备将该多个第一特征图在C个通道上的像素值划分为G个组,每个组的通道数为K。示例性的,若该C为64,该G为32,则该K为2,此时,在对该多个第一特征图在C个通道上的像素值进行划分后,可以得到G个组,每个组内的通道数为2。进一步地,若该预设规则为按照通道号顺序进行分组,譬如,该通道号可以包括1、2、3...64,若第一数值为2,则第一组包括的通道号为1和2,第二组包括的通道号为3和4,以此类推,最后一组包括的通道号为63和64。若该多个第一特征图为4维(N,C,H,W)特征图,即该多个第一特征图的数量为N,每个第一特征图的宽度和高度分别为W和H,则每个组内包括的第一数值的数量为N*K*W*H。
作为一种示例,在神经网络模型包括多个归一化层的情况下,针对每个归一化层执行的归一化处理所使用的超参数阈值相同。
如此,整个神经网络模型的分组数G为相同的值,由于浅层网络的通道数较小,但特征图较大,深层网络的通道数较多,但特征图较小,所以可以保证整个神经网络模型中不同层在进行归一化时,所使用的像素值的数量相对比较均衡。
当然,上述是以神经网络模型包括多个归一化层时每个归一化层使用的超参数阈值相同为例进行说明,在另一实施例中,当神经网络模型包括多个归一化层时,该多个归一化层执行的归一化处理所使用的超参数阈值也可以不相同,示例性的,该多个归一化层执行的归一化处理所使用的超参数阈值可以为相差不大的不同数值,本申请实施例对此不做限定。
步骤103:基于多组第一数值,对多个第一特征图进行归一化处理,得到归一化后的目标特征图。
在实施中,该电子设备基于该多组第一数值中的每组第一数值,确定多组中的每组第一数值的数值均值和方差,然后基于每组第一数值的数值均值和方差,对每组中的各个第一数值进行归一化处理,得到每组的归一化数值,将该多组的归一化数值对应的特征图确定为归一化处理后的目标特征图。
在上述实现方式中,使得该多个第一特征图在C个通道上的像素值均能够得到归一化处理,从而实现对该多个第一特征图的归一化处理。如此,归一化操作在第一数值个通道内进行,譬如,请参考图2,该图2中的(a)表示在单个通道内进行归一化处理,该图2中的(b)表示是在两个通道内进行归一化处理,与在单个通道内进行归一化处理相比,在两个通道内进行归一化处理可以使得计算数值均值和方差的数据量相对更多,从而提高统计信息的准确性。
为了便于理解,这里以一组第一数值为例进行说明。具体地,对于多组中的参考组,确定参考组内的第一数值对应的数值均值和方差,参考组为多组中的任一组。基于参考组对应的数值均值和方差,对参考组中的各个第一数值进行归一化处理,得到参考组的归一化数值。
作为一种示例,对于参考组,可以通过如下公式(1)确定该参考组内的第一数值的数值均值:
其中,ui表示数值均值,m表示参考组中包括的第一数值的数量,Si表示参考组中的第一数值集合,xi表示参考组中的第i个第一数值。
进一步地,电子设备可以通过如下公式(2)来确定该参考组内的第一数值的方差:
其中,ε表示一个常数,通常该ε设置的比较小,譬如一般可以设为e-4。
在确定该参考组对应的数值均值和方差后,可以基于该数值均值和方差,对该参考组内的第一数值进行归一化处理,譬如,可以通过如下公式(3)进行归一化处理:
其中,x'i表示对xi归一化处理后的数值。
如此,可以对该参考组中的每个第一数值都进行归一化处理。并且,按照该种实现方式,可以确定每个组内的第一数值对应的归一化数值,在这里,将归一化处理后的数值对应的特征图确定为目标特征图。
进一步地,在基于训练后的神经网络模型进行图像处理的过程中,按照预设规则,对归一化层的上一层所输出的多个第二特征图在通道数个通道上的像素值进行分组,得到多组第二数值。获取多组第二数值中每组第二数值对应的数值均值和方差,其中,每组第二数值对应的数值均值和方差是在训练过程中确定的。基于多组第二数值中每组第二数值对应的数值均值和方差,对多个第二特征图进行归一化处理。
也即是,在基于训练后的神经网络模型进行图像处理时,可以按照训练时使用的预设规则,对归一化层的上一层所输出的多个第二特征图在通道数个通道上的像素值进行分组,如此,每组第二数值中包括至少两个通道的像素值。之后,可以获取训练时统计得到的每组的数值均值和方差,对每组第二数值进行归一化处理,也即是,在使用训练后的神经网络模型进行图像处理时不需要重新实时确定数值均值和方差,而是可以直接使用训练时确定的数值均值和方差。
譬如,该多个第二特征图的数量为N,第二特征图的宽度为W,高度为H,该通道数为C,该通道号可以包括1、2、3...64,若该预设规则为按照通道号顺序进行分组,则对该多个第二特征图进行分组后,则第一组包括的通道号为1和2,第二组包括的通道号为3和4,以此类推,最后一组包括的通道号为63和64,每个组内包括的第一数值的数量为N*K*W*H。该电子设备可以获取在训练时统计得到的各个组对应的数值均值和方差,然后基于该第一组对应的数值均值和方差,对该第一组内的第二数值进行归一化处理,基于第二组对应的数值均值和方差,对该第二组内的第二数值进行归一化处理,以此类推,基于第32组对应的数值均值和方差,对第32组内的第二数值进行归一化处理。
如此,在图像处理过程中直接使用训练时统计得到的数值均值和方差,可以将归一化处理融合到上一层中,譬如,若该上一层为卷积层,则可以将该归一化处理融合至卷积层中,再如,若该上一层为全连接层,则可以将归一化处理融合至全连接层中,使得网络前向推理时,相比于其他归一化处理方式,不需要实时计算数值均值和方差,可以直接使用训练时统计得到的数值均值和方差,可以提高推理速度,进而使得该方法可以在AI(Artificial Intelligence,人工智能)芯片上高效实现。
在本申请实施例中,在神经网络模型训练的过程中,在对经过卷积处理后的多个第一特征图进行归一化处理时,确定该多个第一特征图的通道数,然后基于该通道数,对该多个第一特征图在至少两个通道上的像素值进行分组,每组内包括至少两个通道的第一数值,如此,针对每组第一数值在至少两个通道上进行归一化处理,可以保证归一化处理的数据统计量,使得精度较高,从而保证了图像处理效果。
图3是本申请实施例提供的一种图像处理装置的结构示意图,配置于电子设备中,所述电子设备能够用于运行神经网络模型,所述神经网络模型包括卷积层和归一化层,所述归一化层位于所述卷积层之后,所述装置包括:
第一确定模块310,用于在对所述神经网络模型进行训练的过程中,确定所述归一化层的上一层所输出的多个第一特征图的通道数,所述多个第一特征图至少由所述卷积层经过卷积处理;
第二确定模块320,用于基于所述通道数和所述多个第一特征图,确定多组第一数值,每组第一数值包括所述多个第一特征图在至少两个通道上的像素值,且各个组包括的通道互不相同;
归一化处理模块330,用于基于所述多组第一数值,对所述多个第一特征图进行归一化处理,得到归一化后的目标特征图。
可选地,所述第二确定模块320用于:
获取第一数值,所述第一数值为所述通道数与超参数阈值之商;
按照预设规则,将所述多个第一特征图在所述通道数个通道上的像素值划分为所述超参数阈值个组,得到所述多组第一数值,其中,每组第一数值包括所述多个第一特征图在所述第一数值个通道上的像素值。
可选地,所述归一化处理模块330用于:
确定所述多组中的每组第一数值的数值均值和方差;
基于每组第一数值的数值均值和方差,对每组中的各个第一数值进行归一化处理,得到每组的归一化数值;
将所述多组的归一化数值对应的特征图确定为所述归一化处理后的目标特征图。
可选地,所述归一化处理模块330还用于:
在基于训练后的神经网络模型进行图像处理的过程中,按照预设规则,对所述归一化层的上一层所输出的多个第二特征图在所述通道数个通道上的像素值进行分组,得到多组第二数值;
获取所述多组第二数值中每组第二数值对应的数值均值和方差,其中,每组第二数值对应的数值均值和方差是在训练过程中确定的;
基于所述多组第二数值中每组第二数值对应的数值均值和方差,对所述多个第二特征图进行归一化处理。
可选地,在所述神经网络模型包括多个归一化层的情况下,针对每个归一化层执行的归一化处理所使用的超参数阈值相同。
在本申请实施例中,在神经网络模型训练的过程中,在对经过卷积处理后的多个第一特征图进行归一化处理时,确定该多个第一特征图的通道数,然后基于该通道数,对该多个第一特征图在至少两个通道上的像素值进行分组,每组内包括至少两个通道的第一数值,如此,针对每组第一数值在至少两个通道上进行归一化处理,可以保证归一化处理的数据统计量,使得精度较高,从而保证了图像处理效果。
需要说明的是:上述实施例提供的图像处理装置在实现图像处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是本申请实施例提供的一种终端400的结构框图。该终端400可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端400包括有:处理器401和存储器402。
处理器401可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器401可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器401还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器401所执行以实现本申请实施例提供的图像处理方法。
在一些实施例中,终端400还可选包括有:***设备接口403和至少一个***设备。处理器401、存储器402和***设备接口403之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口403相连。具体地,***设备包括:射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。
***设备接口403可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器401和存储器402。在一些实施例中,处理器401、存储器402和***设备接口403被集成在同一芯片或电路板上;在一些其他实施例中,处理器401、存储器402和***设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路404用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路404包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路404还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请实施例对此不加以限定。
显示屏405用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时,显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时,显示屏405还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏405可以为一个,设置终端400的前面板;在另一些实施例中,显示屏405可以为至少两个,分别设置在终端400的不同表面或呈折叠设计;在再一些实施例中,显示屏405可以是柔性显示屏,设置在终端400的弯曲表面上或折叠面上。甚至,显示屏405还可以设置成非矩形的不规则图形,也即异形屏。显示屏405可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件406用于采集图像或视频。可选地,摄像头组件406包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器401进行处理,或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路407还可以包括耳机插孔。
定位组件408用于定位终端400的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。
电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于:加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。
加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号,控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器412可以检测终端400的机体方向及转动角度,陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器413可以设置在终端400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在终端400的侧边框时,可以检测用户对终端400的握持信号,由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时,由处理器401根据用户对触摸显示屏405的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器414用于采集用户的指纹,由处理器401根据指纹传感器414采集到的指纹识别用户的身份,或者,由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器401授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时,指纹传感器414可以与物理按键或厂商Logo集成在一起。
光学传感器415用于采集环境光强度。在一个实施例中,处理器401可以根据光学传感器415采集的环境光强度,控制触摸显示屏405的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏405的显示亮度;当环境光强度较低时,调低触摸显示屏405的显示亮度。在另一个实施例中,处理器401还可以根据光学传感器415采集的环境光强度,动态调整摄像头组件406的拍摄参数。
接近传感器416,也称距离传感器,通常设置在终端400的前面板。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中,当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时,由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态;当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时,由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图4中示出的结构并不构成对终端400的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图5是本申请实施例提供的一种服务器的结构示意图。服务器500包括中央处理单元(CPU)501、包括随机存取存储器(RAM)502和只读存储器(ROM)503的***存储器504,以及连接***存储器504和中央处理单元501的***总线505。服务器500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)506,和用于存储操作***513、应用程序514和其他程序模块515的大容量存储设备507。
基本输入/输出***506包括有用于显示信息的显示器508和用于用户输入信息的诸如鼠标、键盘之类的输入设备509。其中显示器508和输入设备509都通过连接到***总线505的输入输出控制器510连接到中央处理单元501。基本输入/输出***506还可以包括输入输出控制器510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器510还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备507通过连接到***总线505的大容量存储控制器(未示出)连接到中央处理单元501。大容量存储设备507及其相关联的计算机可读介质为服务器500提供非易失性存储。也就是说,大容量存储设备507可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器504和大容量存储设备507可以统称为存储器。
根据本申请各种实施例,服务器500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器500可以通过连接在***总线505上的网络接口单元511连接到网络512,或者说,也可以使用网络接口单元511来连接到其他类型的网络或远程计算机***(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
在一些实施例中,还提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中图像处理方法的步骤。例如,所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
值得注意的是,本申请实施例提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
应当理解的是,实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。
也即是,在一些实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述的图像处理方法的步骤。
以上所述为本申请提供的实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。
Claims (10)
1.一种图像处理方法,其特征在于,应用于电子设备中,所述电子设备能够用于运行神经网络模型,所述神经网络模型包括卷积层和归一化层,所述归一化层位于所述卷积层之后,所述方法包括:
在对所述神经网络模型进行训练的过程中,确定所述归一化层的上一层所输出的多个第一特征图的通道数,所述多个第一特征图至少由所述卷积层经过卷积处理;
基于所述通道数和所述多个第一特征图,确定多组第一数值,每组第一数值包括所述多个第一特征图在至少两个通道上的像素值,且各个组包括的通道互不相同;
基于所述多组第一数值,对所述多个第一特征图进行归一化处理,得到归一化后的目标特征图。
2.如权利要求1所述的方法,其特征在于,所述基于所述通道数和所述多个第一特征图,确定多组第一数值,包括:
获取第一数值,所述第一数值为所述通道数与超参数阈值之商;
按照预设规则,将所述多个第一特征图在所述通道数个通道上的像素值划分为所述超参数阈值个组,得到所述多组第一数值,其中,每组第一数值包括所述多个第一特征图在所述第一数值个通道上的像素值。
3.如权利要求1所述的方法,其特征在于,所述基于所述多组第一数值,对所述多个第一特征图进行归一化处理,包括:
确定所述多组中的每组第一数值的数值均值和方差;
基于每组第一数值的数值均值和方差,对每组中的各个第一数值进行归一化处理,得到每组的归一化数值;
将所述多组的归一化数值对应的特征图确定为所述归一化处理后的目标特征图。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
在基于训练后的神经网络模型进行图像处理的过程中,按照预设规则,对所述归一化层的上一层所输出的多个第二特征图在所述通道数个通道上的像素值进行分组,得到多组第二数值;
获取所述多组第二数值中每组第二数值对应的数值均值和方差,其中,每组第二数值对应的数值均值和方差是在训练过程中确定的;
基于所述多组第二数值中每组第二数值对应的数值均值和方差,对所述多个第二特征图进行归一化处理。
5.如权利要求2所述的方法,其特征在于,在所述神经网络模型包括多个归一化层的情况下,针对每个归一化层执行的归一化处理所使用的超参数阈值相同。
6.一种图像处理装置,其特征在于,配置于电子设备中,所述电子设备能够用于运行神经网络模型,所述神经网络模型包括卷积层和归一化层,所述归一化层位于所述卷积层之后,所述装置包括:
第一确定模块,用于在对所述神经网络模型进行训练的过程中,确定所述归一化层的上一层所输出的多个第一特征图的通道数,所述多个第一特征图至少由所述卷积层经过卷积处理;
第二确定模块,用于基于所述通道数和所述多个第一特征图,确定多组第一数值,每组第一数值包括所述多个第一特征图在至少两个通道上的像素值,且各个组包括的通道互不相同;
归一化处理模块,用于基于所述多组第一数值,对所述多个第一特征图进行归一化处理,得到归一化后的目标特征图。
7.如权利要求6所述的装置,其特征在于,所述第二确定模块用于:
获取第一数值,所述第一数值为所述通道数与超参数阈值之商;
按照预设规则,将所述多个第一特征图在所述通道数个通道上的像素值划分为所述超参数阈值个组,得到所述多组第一数值,其中,每组第一数值包括所述多个第一特征图在所述第一数值个通道上的像素值。
8.如权利要求7所述的装置,其特征在于,在所述神经网络模型包括多个归一化层的情况下,针对每个归一化层执行的归一化处理所使用的超参数阈值相同。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、通信接口、存储器和通信总线,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,所述存储器用于存放计算机程序,所述处理器用于执行所述存储器上所存放的程序,以实现权利要求1-5任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010725910.1A CN111860543A (zh) | 2020-07-24 | 2020-07-24 | 图像处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010725910.1A CN111860543A (zh) | 2020-07-24 | 2020-07-24 | 图像处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111860543A true CN111860543A (zh) | 2020-10-30 |
Family
ID=72949883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010725910.1A Pending CN111860543A (zh) | 2020-07-24 | 2020-07-24 | 图像处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860543A (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960053A (zh) * | 2018-05-28 | 2018-12-07 | 北京陌上花科技有限公司 | 归一化处理方法及装置、客户端 |
-
2020
- 2020-07-24 CN CN202010725910.1A patent/CN111860543A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960053A (zh) * | 2018-05-28 | 2018-12-07 | 北京陌上花科技有限公司 | 归一化处理方法及装置、客户端 |
Non-Patent Citations (2)
Title |
---|
YUXIN WU ET AL.: "Group Normalization", 《ARXIV:1803.08494V3 [CS.CV] 》, pages 1 - 10 * |
董洪义: "《深度学习之PyTorch物体检测实战》", 机械工业出版社, pages: 78 - 80 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059744B (zh) | 训练神经网络的方法、图像处理的方法、设备及存储介质 | |
CN109558837B (zh) | 人脸关键点检测方法、装置及存储介质 | |
CN111127509B (zh) | 目标跟踪方法、装置和计算机可读存储介质 | |
CN112581358B (zh) | 图像处理模型的训练方法、图像处理方法及装置 | |
CN111754386B (zh) | 图像区域屏蔽方法、装置、设备及存储介质 | |
CN111005715A (zh) | 确定气井产量的方法、装置及存储介质 | |
CN110705614A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN110647881A (zh) | 确定图像对应的卡片类型的方法、装置、设备及存储介质 | |
CN111177137A (zh) | 数据去重的方法、装置、设备及存储介质 | |
CN111753606A (zh) | 一种智能模型的升级方法及装置 | |
CN111127541A (zh) | 车辆尺寸的确定方法、装置及存储介质 | |
CN113160031A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110163192B (zh) | 字符识别方法、装置及可读介质 | |
CN113343709B (zh) | 意图识别模型的训练方法、意图识别方法、装置及设备 | |
CN112365088B (zh) | 行程关键点的确定方法、装置、设备及可读存储介质 | |
CN113592874B (zh) | 图像显示方法、装置和计算机设备 | |
CN111723615B (zh) | 对检测物图像进行检测物匹配判定的方法和装置 | |
CN109344284B (zh) | 歌曲文件的播放方法、装置、设备及存储介质 | |
CN112214115A (zh) | 输入方式的识别方法、装置、电子设备及存储介质 | |
CN112560903A (zh) | 图像美学信息的确定方法、装置、设备及存储介质 | |
CN112861565A (zh) | 确定轨迹相似度的方法、装置、计算机设备和存储介质 | |
CN111860543A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112135256A (zh) | 移动轨迹的确定方法、装置、设备及可读存储介质 | |
CN111310526A (zh) | 目标跟踪模型的参数确定方法、装置及存储介质 | |
CN112308104A (zh) | 异常识别方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |