CN107437110A - 卷积神经网络的分块卷积优化方法及装置 - Google Patents
卷积神经网络的分块卷积优化方法及装置 Download PDFInfo
- Publication number
- CN107437110A CN107437110A CN201710560643.5A CN201710560643A CN107437110A CN 107437110 A CN107437110 A CN 107437110A CN 201710560643 A CN201710560643 A CN 201710560643A CN 107437110 A CN107437110 A CN 107437110A
- Authority
- CN
- China
- Prior art keywords
- convolution
- piecemeal
- neural networks
- convolutional neural
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000005457 optimization Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000000903 blocking effect Effects 0.000 claims abstract description 11
- 238000003860 storage Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000001537 neural effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 238000000205 computational method Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 238000003475 lamination Methods 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 238000011161 development Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及深度神经网络领域,提出了一种卷积神经网络的分块卷积优化方法及装置,旨在解决神经网络中卷积运算在硬件处理***中的处理瓶颈问题,该优化方法包括:选择待分块卷积的卷积层,并确定其分块尺寸上限;根据分块尺寸的上限,确定输入特征图的分块数、分块尺寸;基于分块数、分块尺寸、卷积核尺寸、输入特征图尺寸、输入特征图边界填充尺寸,计算分块特征图的分块边界填充尺寸;基于分块数、分块尺寸、分块边界填充尺寸,构建基于分块边界填充的卷积,并替换原始卷积。本发明大大缓解了卷积神经网络在嵌入式硬件平台运行的资源受限问题,并在读写存储器时最大限度的提高突发长度,提高吞吐量,降低延时,提高效率。
Description
技术领域
本发明涉及深度神经网络技术领域,具体涉及一种卷积神经网络的分块卷积优化方法及装置。
背景技术
深度学习,作为机器学习的一个最前沿的分支,其理论和应用在最近几年得到了飞速的发展。计算机视觉、语音语言处理等传统领域在深度学习的推动下,发展势头尤为迅猛,计算机对于图像视频、语音文字的识别能力甚至超过了人类。一批新兴产业和应用在深度学习的发展浪潮中随之产生,比如自动驾驶汽车、聊天机器人、智能监控、智能家居等等,智能化的应用在人们的日常生活中几乎随处可见。传统的零售业、银行业、保险业等也在大数据和深度学习的推动下,步入互联网发展的新时代。
深度卷积神经网络是深度学***台的诞生和发展,使得训练出高性能的深度神经网络成为可能。
随着深度卷积神经网络在众多研究问题中的成功应用,以及在人工智能发展过程中显示出的强大的推动力,人们开始关注于如何让深度卷积神经网络在更多的应用场景下更好的挥发威力,比如自动驾驶汽车、虚拟现实、大规模数据中心等等。在这样的背景下,嵌入式移动计算和大规模数据中心是两个主要的发展趋势。一方面,如何将深度卷积神经网络部署在灵活性好、性能更高功耗更低的嵌入式设备上,越来越受到学术界和工业界的关注,基于可编程逻辑器件、嵌入式通用图形处理器的深度卷积神经网络加速器设计成为了一个研究热点。另一方面,随着大规模集成电路技术的发展和硬件成本的降低,高性能计算集群被广泛应用,如何通过分布式并行方式高效地处理深度卷积神经网络的运算任务,同样受到了越来越多的关注。然而,由于深度神经网络自身的结构特点,嵌入式和分布式部署过程中均存在着很多难题。
深度卷积神经网络通常由几类基本层组成,如卷积层、全连接层等。每一层的输入输出由若干特征图组成。对于常见的嵌入式平台而言,在不考虑外设存储器的情况下,其芯片自身不具备足够大的存储空间用于存储这些输入输出特征图(运算中间结果),再加上巨大的网络参数量,使得外设存储器(通常为DRAM)与芯片内部频繁的数据传输是不可避免的。另外,有限的芯片内部计算资源也使得一次性计算神经网络的某一层非常困难,通常需要分批次计算。因此,如何根据嵌入式平台有限的存储和计算资源,将整个神经网络拆分成若干子网络分别运算,具有非常重要的意义。
权值共享是卷积神经网络模型的一个显著特点,其在计算过程中体现为大量操作和数据相互依赖。这种特性对于深度卷积神经网络的嵌入式和分布式部署都提出了挑战。一方面,当深度卷积神经网络部署在嵌入式平台上时,神经网络的运算由于资源受限,通常分批次进行。每个批次的输入数据和输出数据由于大量的批次间依赖关系,使得其在外部存储器(如DRAM)中的存储形式会造成大面积的非连续现象。对这些非连续地址数据的读写操作会造成严重的访问延时,并且引入大量额外功耗。另一方面,当希望深度卷积神经网络拆分为若干子网络并行运行在分布式***上时,由于子网络间的依赖关系,使得计算过程中***不同节点间需要频繁交换数据,这对于传输带宽会造成一定的压力,同时交换数据的过程会引入额外功耗。
分块运算的思想在一些工作中有所运用,但是都没有解决运算过程中的操作和数据依赖问题,这使得网络计算、数据调度的复杂度很难从本质上得到减轻,性能瓶颈依旧存在。
有鉴于此,特提出本发明。
发明内容
为了解决现有技术中的上述问题,即为了解决神经网络中卷积处理在硬件处理***中的处理瓶颈问题,本发明的一方面,提出了一种卷积神经网络的分块卷积优化方法,包括以下步骤:
步骤1,基于预设的卷积神经网络模型,选择作为待分块卷积的卷积层,并确定该卷积层分块尺寸上限;
步骤2,根据输入特征图尺寸和步骤1中得到的所述分块尺寸的上限,确定所述待分块卷积的卷积层的输入特征图的分块数、分块尺寸;
步骤3,基于步骤2中得到的所述输入特征图的分块数、分块尺寸,以及所述待分块卷积的卷积层的卷积核尺寸、输入特征图尺寸、输入特征图边界填充尺寸,计算依据步骤2得到的分块数、分块尺寸分块后的分块特征图的分块边界填充尺寸;
步骤4,基于步骤2中得到输入特征图的分块数、分块尺寸,以及步骤3中得到的分块边界填充尺寸,构建基于分块边界填充的卷积,并替换所述待分块卷积的卷积层中的原始卷积。
优选地,步骤1中选择待分块卷积的卷积层的方法为:
基于预设的卷积神经网络模型、以及运行预设的卷积神经网络模型的处理***,识别所述预设的卷积神经网络模型中存在处理瓶颈的卷积层,选择该卷积层为待分块卷积的卷积层;或者依据外部录入信息指定待分块卷积的卷积层。
优选地,步骤1包括:
步骤11,基于预设的卷积神经网络模型,计算每个卷积层的运算量和输入输出特征图的数据量;
步骤12,基于运行预设的卷积神经网络模型的处理***,分别统计运算资源总量和存储资源总量;
步骤13,识别存在处理瓶颈的卷积层,并以该卷积层待分块卷积的卷积层;所述处理瓶颈为运算资源总量不足以一次性完成整个卷积层的卷积操作,或者存储资源总量不足以一次性存储整个卷积层的输入或输出特征图;
步骤14,基于所述处理***的运算资源总量和存储资源总量,结合预设或给定的运算方法,计算待分块卷积的卷积层输入特征图的分块尺寸上限。
优选地,所述运算资源为能够用于数值和逻辑运算的运算单元;所述存储资源为能够用于存储数据的存储单元。
优选地,步骤2中所述输入特征图的分块尺寸介于所述待分块卷积的卷积层的卷积核尺寸和所述分块尺寸上限之间。
优选地,步骤3中所述分块边界填充尺寸的计算方法包括:
步骤31,计算单通道输出特征图的尺寸[h_out,w_out],
h_out=(h_in+2*h_pad-h_k)/h_s+1
w_out=(w_in+2*w_pad-w_k)/w_s+1
其中,h_out、w_out分别为所述单通道输出特征图竖直方向、水平方向的输出尺寸,[h_in,w_in]为所述待分块卷积的卷积层的单通道输入特征图尺寸,[h_pad,w_pad]为所述待分块卷积的卷积层的边界填充尺寸,[h_k,w_k]为所述待分块卷积的卷积层的卷积核尺寸,[h_s,w_s]为所述待分块卷积的卷积层的卷积核滑动步长;
步骤32,计算分块特征图的边界填充尺寸[h_pp,w_pp],
其中,h_pp、w_pp分别为分块特征图的竖直方向、水平方向的边界填充尺寸,[h_pi,w_pj](1≤i≤h_num,1≤j≤w_num)为所述待分块卷积的卷积层的输入特征图的分块尺寸,[h_num,w_num]为所述待分块卷积的卷积层的输入特征图在竖直方向和水平方向上的分块数。
优选地,步骤4中利用所述基于分块边界填充的卷积替换所述待分块卷积的卷积层中的原始卷积后,生成优化后的卷积神经网络模型;
所述优化后的卷积神经网络模型的模型参数通过如下方法优化:
通过训练集对优化后的卷积神经网络模型进行训练获得;所述优化后的卷积神经网络模型初始的模型参数为在预设的取值范围内随机取值,或者为已训练好的预设卷积神经网络模型的参数。
优选地,所述待分块卷积的卷积层为一个或多个。
本发明的另一方面,提出了一种基于分块卷积的卷积神经网络,包括卷积层,至少一个所述卷积层为待分块卷积的卷积层,所述待分块卷积的卷积层基于上述的卷积神经网络的分块卷积优化方法进行优化得到。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现:上述的卷积神经网络的分块卷积优化方法,或者上述的基于分块卷积的卷积神经网络。
本发明的第四方面,提出了一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
所述程序适于由处理器加载并执行以实现:
上述的卷积神经网络的分块卷积优化方法,或者上述的基于分块卷积的卷积神经网络。
本发明的有益效果如下:
本发明的卷积神经网络的分块卷积优化方法,通过对深度卷积神经网络中存在资源受限问题的卷积层输入特征图进行分块,对每个分块特征图分别进行边界填充,用基于分块的卷积替代原始卷积,从而彻底消除了原始卷积层内不同特征图分块之间的数据依赖,使得卷积能够在独立的分块上分别进行,大大缓解了嵌入式硬件平台的资源受限的问题。独立的分块在外部存储器中能够连续地址存放,相比于分散存放,在读写存储器时能够最大限度的提高突发长度,提高吞吐量,降低延时,提高效率。同时,数据依赖的消除使得整个网络可以拆分为若干相互独立的子网络,便于实现分布式并行运算。
附图说明
图1是本发明一种实施例的卷积神经网络的分块卷积优化方法的流程示意图;
图2是本发明一种实施例的卷积层单通道输入特征图分块及分块边界填充操作示意图;
图3是本发明一种实施例的基于分块卷积得到单通道输出特征图的示意图;
图4是本发明一种实施例的应用分块卷积前后输入特征图块在外部存储器中的数据排布形式示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明实施例的卷积神经网络的分块卷积优化方法,如图1所示,包括:
步骤1,基于预设的卷积神经网络模型,选择作为待分块卷积的卷积层,并确定该卷积层的分块尺寸上限;
步骤2,根据输入特征图尺寸和步骤1中得到的所述分块尺寸的上限,确定所述待分块卷积的卷积层的输入特征图的分块数、分块尺寸;
步骤3,基于步骤2中得到的所述输入特征图的分块数、分块尺寸,以及待分块卷积的卷积层的卷积核尺寸、输入特征图尺寸、输入特征图边界填充尺寸,计算依据步骤2得到的分块数、分块尺寸分块后的分块特征图的分块边界填充尺寸;
步骤4,基于步骤2中得到输入特征图的分块数、分块尺寸,以及步骤3中得到的分块边界填充尺寸,构建基于分块边界填充的卷积,并替换所述待分块卷积的卷积层中的原始卷积。
本实施例中,步骤1中选择待分块卷积的卷积层的方法为:基于预设的卷积神经网络模型、以及运行预设的卷积神经网络模型的处理***,识别所述预设的卷积神经网络模型中存在处理瓶颈的卷积层,选择该卷积层待分块卷积的卷积层。当然也可以依据外部录入信息指定待分块卷积的卷积层。因此本发明的卷积神经网络的分块卷积优化方法不仅仅在运算和存储资源受限的处理***中应用,还可以在不存在运算和存储资源受限问题的处理***中应用,以减小处理***的运行压力。
在运算和存储资源受限的处理***中应用时,步骤1可以进一步细化为:
步骤11,基于预设的卷积神经网络模型,计算每个卷积层的运算量和输入输出特征图的数据量;其中,运算量通常以乘加次数计算,输入输出特征图的数据量以字节数计算。
步骤12,基于运行预设的卷积神经网络模型的处理***,分别统计运算资源总量和存储资源总量。
运算资源为能够用于数值和逻辑运算的所有集成或分散在硬件内部的运算单元,比如可编程逻辑器件中的乘法器、加法器、查找表(LUT)等;存储资源为能够用于存储数据的所有集成或分散在硬件内部的存储单元,比如可编程逻辑器件中的触发器(FF)、随机存取存储器(RAM)等。
步骤13,识别存在处理瓶颈的卷积层,并以该卷积层待分块卷积的卷积层;所述处理瓶颈为运算资源总量不足以一次性完成整个卷积层的卷积操作,或者存储资源总量不足以一次性存储整个卷积层的输入或输出特征图。
步骤14,基于所述处理***的运算资源总量和存储资源总量,结合预设或给定的运算方法,计算待分块卷积的卷积层输入特征图的分块尺寸上限。该步骤中,计算分块尺寸上限所依据的预设或给定的运算方法,只要满足以下原则即可:在给定卷积层(即待分块卷积的卷积层)并行运算规模(并行数)的条件下,分块尺寸上限按分块后卷积运算结果的数据量不超过存储资源总量的原则来确定。
本实施例中,步骤2中的输入特征图的分块尺寸介于所述待分块卷积的卷积层的卷积核尺寸和所述分块尺寸上限之间。
本实施例中,步骤3中的分块边界填充尺寸,其计算方法包括:
步骤31,通过公式(1)、(2)计算单通道输出特征图的尺寸[h_out,w_out],
h_out=(h_in+2*h_pad-h_k)/h_s+1 (1)
w_out=(w_in+2*w_pad-w_k)/w_s+1 (2)
其中,h_out、w_out分别为所述单通道输出特征图竖直方向、水平方向的输出尺寸,[h_in,w_in]为所述待分块卷积的卷积层的单通道输入特征图尺寸,[h_pad,w_pad]为所述待分块卷积的卷积层的边界填充尺寸,[h_k,w_k]为所述待分块卷积的卷积层的卷积核尺寸,[h_s,w_s]为所述待分块卷积的卷积层的卷积核滑动步长;
步骤32,通过公式(3)、(4)计算分块特征图的边界填充尺寸[h_pp,w_pp],
其中,h_pp、w_pp分别为分块特征图的竖直方向、水平方向的边界填充尺寸,[h_pi,w_pj](1≤i≤h_num,1≤j≤w_num)为所述待分块卷积的卷积层的输入特征图的分块尺寸,[h_num,w_num]为所述待分块卷积的卷积层的输入特征图在竖直方向和水平方向上的分块数。
同一个待分块卷积的卷积层中每个通道的特征图分块方法和分块尺寸保持一致,用于分块边界填充的数值可以任意指定。
应该指出的是,在常见的卷积神经网络中,单个通道上的输入输出特征图和卷积核均为正方形,即竖直方向上的尺寸与水平方向上的尺寸保值一致。步骤32是一种更具通用性的表述,其包括但不局限于单个通道特征图内两个维度上的尺寸完全一致的情况。
本实施例的优化方法,还包括更新卷积层后的卷积神经网络模型参数的优化。步骤4中利用所述基于分块边界填充的卷积替换所述待分块卷积的卷积层中的原始卷积后,生成优化后的卷积神经网络模型;优化后的卷积神经网络模型的模型参数通过如下方法优化:通过训练集对优化后的卷积神经网络模型进行训练获得;所述优化后的卷积神经网络模型初始的模型参数为在预设的取值范围内随机取值(模型参数初始赋值的方法在现有技术中有很多种方法可以实现,此处不再赘述),或者为已训练好的预设卷积神经网络模型的参数。以已训练好的预设卷积神经网络模型的参数作为优化后的卷积神经网络模型初始的模型参数,训练过程相当于对优化后的卷积神经网络模型中分块卷积进行微调,可以更有效的进行参数优化。
本实施例中,所优化的待分块卷积的卷积层可以为一个,也可以为多个。
本发明实施例通过对受资源限制的卷积层输入特征图进行分块,对每个分块分别进行边界填充,利于基于分块的近似卷积运算代替原始卷积运算,消除了不同特征图分块在卷积操作时的数据依赖,使得每个特征图分块在DRAM中能够连续地址存放,大大减少了分散存放情况下的读写延时和额外功耗,从而提高了嵌入式硬件平台上不同存储介质之间数据传输的效率。同时,分块后的网络可以拆分成若干相互独立的子网络,便于实现分布式并行运算。
下面以卷积层单通道特征图分块卷积操作为例对本发明实施例的部分细节进行详细说明。
图2示例性地示出了将单通道输入特征图进行分块操作并进行分块边界填充的过程。在这个实施例中,单通道特征图的尺寸为M*N。假定根据输入特征图分块尺寸上限和实际需要,确定输入特征图的分块尺寸为m*n。于是,原始输入特征图被划分成若干尺寸为m*n的特征图块。紧接着,对这些相互独立的特征图块分别进行边界填充,用于边界填充的数据可以是任意数值。这样,最终得到分块边界填充后的输入特征图,将其作为卷积层的实际输入特征图。
图3示例性地示出了基于分块卷积生成单通道输出特征图的示意图。在本实例中,卷积操作分别在多个特征图分块上独立进行,彼此之间不存在任何的数据依赖。
图4示例性地示出了应用分块卷积前后,输入特征图块在外部存储器(DRAM)中的数据排布形式。可以看到,传统分块方法中,为了得到一个输出特征图块,不仅需要输入特征图中对应位置的区块数据,还需要与之相邻的几个数据块的部分数据。这就直接导致了输入特征图块中的数据分散分布在DRAM中,非连续的排布形式一方面提高了对于DRAM随机访问的设计难度,另一方面不可避免的增加了DRAM的访问延时和额外功耗。而引入分块卷积之后,特征图不同的数据块之间的运算被强行割裂,数据块之间不再产生数据依赖。在这种情况下,要想卷积得到一个输出特征图块,只需要对应位置的一个输入特征图块。而输入特征图块中的数据在DRAM中为连续地址排布,完全避免了DRAM的随机访问,避免了不必要的DRAM访问额外延时和功耗。同时也大大降低了存储管理难度。
以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述,但是,上述实施例的说明仅适用于帮助理解本发明实施例的原理;同时,对于本领域技术人员来说,依据本发明实施例,在具体实施方式以及应用范围之内均会做出改变。
本发明的一种实施例的基于分块卷积的卷积神经网络,包括卷积层,至少一个所述卷积层为待分块卷积的卷积层,所述待分块卷积的卷积层基于上述的卷积神经网络的分块卷积优化方法进行优化得到。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的基于分块卷积的卷积神经网络的有关说明,可以参考前述卷积神经网络的分块卷积优化方法实施例中的对应过程,在此不再赘述。
本发明的卷积神经网络的分块卷积优化方法和基于分块卷积的卷积神经网络可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明不限于任何特定的硬件和软件或者其结合。
本发明的卷积神经网络的分块卷积优化方法和基于分块卷积的卷积神经网络可以使用可编程逻辑器件来实现,也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
本发明的一种实施例的存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现:上述的卷积神经网络的分块卷积优化方法,或者上述的基于分块卷积的卷积神经网络。
本发明的一种实施例的处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;程序适于由处理器加载并执行以实现:上述的卷积神经网络的分块卷积优化方法,或者上述的基于分块卷积的卷积神经网络。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法所固有的要素。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例优化方法、神经网络,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (11)
1.一种卷积神经网络的分块卷积优化方法,其特征在于,包括以下步骤:
步骤1,基于预设的卷积神经网络模型,选择作为待分块卷积的卷积层,并确定该卷积层的分块尺寸上限;
步骤2,根据输入特征图尺寸和步骤1中得到的所述分块尺寸的上限,确定所述待分块卷积的卷积层的输入特征图的分块数、分块尺寸;
步骤3,基于步骤2中得到的所述输入特征图的分块数、分块尺寸,以及待分块卷积的卷积层的卷积核尺寸、输入特征图尺寸、输入特征图边界填充尺寸,计算依据步骤2得到的分块数、分块尺寸分块后的分块特征图的分块边界填充尺寸;
步骤4,基于步骤2中得到输入特征图的分块数、分块尺寸,以及步骤3中得到的分块边界填充尺寸,构建基于分块边界填充的卷积,并替换所述待分块卷积的卷积层中的原始卷积。
2.根据权利要求1所述的卷积神经网络的分块卷积优化方法,其特征在于,步骤1中选择待分块卷积的卷积层的方法为:
基于预设的卷积神经网络模型、以及运行预设的卷积神经网络模型的处理***,识别所述预设的卷积神经网络模型中存在处理瓶颈的卷积层,选择该卷积层为待分块卷积的卷积层;或者依据外部录入信息指定待分块卷积的卷积层。
3.根据权利要求2所述的卷积神经网络的分块卷积优化方法,其特征在于,步骤1包括:
步骤11,基于预设的卷积神经网络模型,计算每个卷积层的运算量和输入输出特征图的数据量;
步骤12,基于运行预设的卷积神经网络模型的处理***,分别统计运算资源总量和存储资源总量;
步骤13,识别存在处理瓶颈的卷积层,并以该卷积层待分块卷积的卷积层;所述处理瓶颈为运算资源总量不足以一次性完成整个卷积层的卷积操作,或者存储资源总量不足以一次性存储整个卷积层的输入或输出特征图;
步骤14,基于所述处理***的运算资源总量和存储资源总量,计算待分块卷积的卷积层输入特征图的分块尺寸上限。
4.根据权利要求3所述的卷积神经网络的分块卷积优化方法,其特征在于,所述运算资源为能够用于数值和逻辑运算的运算单元;所述存储资源为能够用于存储数据的存储单元。
5.根据权利要求1所述的卷积神经网络的分块卷积优化方法,其特征在于,步骤2中所述输入特征图的分块尺寸介于所述待分块卷积的卷积层的卷积核尺寸和所述分块尺寸上限之间。
6.根据权利要求1所述的卷积神经网络的分块卷积优化方法,其特征在于,步骤3中所述分块边界填充尺寸的计算方法包括:
步骤31,计算单通道输出特征图的尺寸[h_out,w_out],
h_out=(h_in+2*h_pad-h_k)/h_s+1
w_out=(w_in+2*w_pad-w_k)/w_s+1
其中,h_out、w_out分别为所述单通道输出特征图竖直方向、水平方向的输出尺寸,[h_in,w_in]为所述待分块卷积的卷积层的单通道输入特征图尺寸,[h_pad,w_pad]为所述待分块卷积的卷积层的边界填充尺寸,[h_k,w_k]为所述待分块卷积的卷积层的卷积核尺寸,[h_s,w_s]为所述待分块卷积的卷积层的卷积核滑动步长;
步骤32,计算分块特征图的边界填充尺寸[h_pp,w_pp],
<mrow>
<mi>h</mi>
<mo>_</mo>
<mi>p</mi>
<mi>p</mi>
<mo>=</mo>
<mi>h</mi>
<mo>_</mo>
<mi>s</mi>
<mo>*</mo>
<mo>&lsqb;</mo>
<mi>h</mi>
<mo>_</mo>
<mi>o</mi>
<mi>u</mi>
<mi>t</mi>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>h</mi>
<mo>_</mo>
<mi>n</mi>
<mi>u</mi>
<mi>m</mi>
</mrow>
</munderover>
<mrow>
<mo>(</mo>
<mi>h</mi>
<mo>_</mo>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mi>h</mi>
<mo>_</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>/</mo>
<mi>h</mi>
<mo>_</mo>
<mi>s</mi>
<mo>+</mo>
<mn>1</mn>
<mo>&rsqb;</mo>
<mo>/</mo>
<mn>2</mn>
<mi>h</mi>
<mo>_</mo>
<mi>n</mi>
<mi>u</mi>
<mi>m</mi>
</mrow>
<mrow>
<mi>w</mi>
<mo>_</mo>
<mi>p</mi>
<mi>p</mi>
<mo>=</mo>
<mi>w</mi>
<mo>_</mo>
<mi>s</mi>
<mo>*</mo>
<mo>&lsqb;</mo>
<mi>w</mi>
<mo>_</mo>
<mi>o</mi>
<mi>u</mi>
<mi>t</mi>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>w</mi>
<mo>_</mo>
<mi>n</mi>
<mi>u</mi>
<mi>m</mi>
</mrow>
</munderover>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>_</mo>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<mi>w</mi>
<mo>_</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>/</mo>
<mi>w</mi>
<mo>_</mo>
<mi>s</mi>
<mo>+</mo>
<mn>1</mn>
<mo>&rsqb;</mo>
<mo>/</mo>
<mn>2</mn>
<mi>w</mi>
<mo>_</mo>
<mi>n</mi>
<mi>u</mi>
<mi>m</mi>
</mrow>
其中,h_pp、w_pp分别为分块特征图的竖直方向、水平方向的边界填充尺寸,[h_pi,w_pj](1≤i≤h_num,1≤j≤w_num)为所述待分块卷积的卷积层的输入特征图的分块尺寸,[h_num,w_num]为所述待分块卷积的卷积层的输入特征图在竖直方向和水平方向上的分块数。
7.根据权利要求1-6中任一项所述的卷积神经网络的分块卷积优化方法,其特征在于,步骤4中利用所述基于分块边界填充的卷积替换所述待分块卷积的卷积层中的原始卷积后,生成优化后的卷积神经网络模型;
所述优化后的卷积神经网络模型的模型参数通过如下方法优化:
通过训练集对优化后的卷积神经网络模型进行训练获得;所述优化后的卷积神经网络模型初始的模型参数为在预设的取值范围内随机取值,或者为已训练好的预设卷积神经网络模型的参数。
8.根据权利要求1-6中任一项所述的卷积神经网络的分块卷积优化方法,其特征在于,所述待分块卷积的卷积层为一个或多个。
9.一种基于分块卷积的卷积神经网络,包括卷积层,其特征在于,至少一个所述卷积层为待分块卷积的卷积层,所述待分块卷积的卷积层基于权利要求1-8任一项所述的卷积神经网络的分块卷积优化方法进行优化得到。
10.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现:权利要求1-8任一项所述的卷积神经网络的分块卷积优化方法,或者权利要求9所述的基于分块卷积的卷积神经网络。
11.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-8任一项所述的卷积神经网络的分块卷积优化方法,或者权利要求9所述的基于分块卷积的卷积神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710560643.5A CN107437110B (zh) | 2017-07-11 | 2017-07-11 | 卷积神经网络的分块卷积优化方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710560643.5A CN107437110B (zh) | 2017-07-11 | 2017-07-11 | 卷积神经网络的分块卷积优化方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107437110A true CN107437110A (zh) | 2017-12-05 |
CN107437110B CN107437110B (zh) | 2021-04-02 |
Family
ID=60460183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710560643.5A Active CN107437110B (zh) | 2017-07-11 | 2017-07-11 | 卷积神经网络的分块卷积优化方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107437110B (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647776A (zh) * | 2018-05-08 | 2018-10-12 | 济南浪潮高新科技投资发展有限公司 | 一种卷积神经网络卷积膨胀处理电路及方法 |
CN108764483A (zh) * | 2018-03-29 | 2018-11-06 | 浙江长兴笛卡尔科技有限公司 | 低算力要求的神经网络分块优化方法及分块优化器 |
CN109102069A (zh) * | 2018-07-20 | 2018-12-28 | 西安邮电大学 | 一种基于查找表的快速图像卷积运算实现方法 |
CN109359731A (zh) * | 2018-09-27 | 2019-02-19 | 中科物栖(北京)科技有限责任公司 | 一种基于芯片设计缺陷的神经网络处理方法及装置 |
CN109886395A (zh) * | 2019-03-06 | 2019-06-14 | 上海熠知电子科技有限公司 | 一种面向多核图像处理卷积神经网络的数据读取方法 |
CN109976903A (zh) * | 2019-02-22 | 2019-07-05 | 华中科技大学 | 一种基于层宽内存分配的深度学习异构计算方法和*** |
CN110046702A (zh) * | 2018-01-17 | 2019-07-23 | 联发科技股份有限公司 | 神经网络计算加速器及其执行的方法 |
CN110135565A (zh) * | 2019-05-20 | 2019-08-16 | 上海大学 | 针对神经网络算法在集成电路上实现性能的评估*** |
CN110321064A (zh) * | 2018-03-30 | 2019-10-11 | 北京深鉴智能科技有限公司 | 用于神经网络的计算平台实现方法及*** |
CN110414663A (zh) * | 2018-04-28 | 2019-11-05 | 深圳云天励飞技术有限公司 | 神经网络的卷积实现方法及相关产品 |
CN110443357A (zh) * | 2019-08-07 | 2019-11-12 | 上海燧原智能科技有限公司 | 卷积神经网络计算优化方法、装置、计算机设备及介质 |
CN110533666A (zh) * | 2018-05-25 | 2019-12-03 | 杭州海康威视数字技术股份有限公司 | 一种获取数据块尺寸的方法、处理数据的方法及装置 |
WO2020032707A1 (en) * | 2018-08-10 | 2020-02-13 | Lg Electronics Inc. | Optimizing data partitioning and replacement strategy for convolutional neural networks |
CN110796250A (zh) * | 2019-10-11 | 2020-02-14 | 浪潮电子信息产业股份有限公司 | 应用于卷积神经网络的卷积处理方法、***及相关组件 |
CN110929860A (zh) * | 2019-11-07 | 2020-03-27 | 深圳云天励飞技术有限公司 | 一种卷积加速运算方法、装置、存储介质及终端设备 |
CN111179149A (zh) * | 2019-12-17 | 2020-05-19 | Tcl华星光电技术有限公司 | 图像处理方法、装置、电子设备和计算机可读存储介质 |
CN111178513A (zh) * | 2019-12-31 | 2020-05-19 | 深圳云天励飞技术有限公司 | 神经网络的卷积实现方法、卷积实现装置及终端设备 |
CN111210004A (zh) * | 2019-12-31 | 2020-05-29 | 深圳云天励飞技术有限公司 | 卷积计算方法、卷积计算装置及终端设备 |
CN111340201A (zh) * | 2018-12-19 | 2020-06-26 | 北京地平线机器人技术研发有限公司 | 卷积神经网络加速器及其执行卷积运算操作的方法 |
CN111859797A (zh) * | 2020-07-14 | 2020-10-30 | Oppo广东移动通信有限公司 | 一种数据处理方法及装置、存储介质 |
CN111931123A (zh) * | 2020-10-14 | 2020-11-13 | 南京风兴科技有限公司 | 边界卷积计算方法、装置、硬件加速器及计算机设备 |
CN112052935A (zh) * | 2019-06-06 | 2020-12-08 | 奇景光电股份有限公司 | 卷积神经网络*** |
CN112116071A (zh) * | 2020-09-07 | 2020-12-22 | 地平线(上海)人工智能技术有限公司 | 神经网络计算方法、装置、可读存储介质以及电子设备 |
CN112292694A (zh) * | 2018-04-19 | 2021-01-29 | 智动科技有限公司 | 用于加速操作的方法和加速器装置 |
CN112633462A (zh) * | 2019-10-08 | 2021-04-09 | 黄朝宗 | 卷积神经网络的存储器优化的区块式推论方法及其*** |
CN112949831A (zh) * | 2021-03-24 | 2021-06-11 | 中国科学院自动化研究所 | 基于分块卷积的深度优先数据调度方法、***及设备 |
CN113052292A (zh) * | 2019-12-27 | 2021-06-29 | 嘉楠明芯(北京)科技有限公司 | 卷积神经网络技术方法、装置及计算机可读存储介质 |
CN113222125A (zh) * | 2020-01-21 | 2021-08-06 | 北京希姆计算科技有限公司 | 卷积运算方法及芯片 |
CN113495786A (zh) * | 2020-03-19 | 2021-10-12 | 杭州海康威视数字技术股份有限公司 | 一种图像卷积处理方法和电子设备 |
US11244198B2 (en) | 2019-11-21 | 2022-02-08 | International Business Machines Corporation | Input partitioning for deep learning of large image data |
WO2023045638A1 (zh) * | 2021-09-26 | 2023-03-30 | 寒武纪(西安)集成电路有限公司 | 计算装置、利用计算装置实施卷积运算的方法及相关产品 |
CN111144560B (zh) * | 2018-11-05 | 2024-02-02 | 杭州海康威视数字技术股份有限公司 | 一种深度神经网络运算方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517103A (zh) * | 2014-12-26 | 2015-04-15 | 广州中国科学院先进技术研究所 | 一种基于深度神经网络的交通标志分类方法 |
CN104809426A (zh) * | 2014-01-27 | 2015-07-29 | 日本电气株式会社 | 卷积神经网络的训练方法、目标识别方法及装置 |
CN104915322A (zh) * | 2015-06-09 | 2015-09-16 | 中国人民解放军国防科学技术大学 | 一种卷积神经网络硬件加速方法及其axi总线ip核 |
US20160283841A1 (en) * | 2015-03-27 | 2016-09-29 | Google Inc. | Convolutional neural networks |
CN106203327A (zh) * | 2016-07-08 | 2016-12-07 | 清华大学 | 基于卷积神经网络的肺部肿瘤识别***及方法 |
CN106529446A (zh) * | 2016-10-27 | 2017-03-22 | 桂林电子科技大学 | 基于多分块深层卷积神经网络的车型识别方法和*** |
-
2017
- 2017-07-11 CN CN201710560643.5A patent/CN107437110B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809426A (zh) * | 2014-01-27 | 2015-07-29 | 日本电气株式会社 | 卷积神经网络的训练方法、目标识别方法及装置 |
CN104517103A (zh) * | 2014-12-26 | 2015-04-15 | 广州中国科学院先进技术研究所 | 一种基于深度神经网络的交通标志分类方法 |
US20160283841A1 (en) * | 2015-03-27 | 2016-09-29 | Google Inc. | Convolutional neural networks |
CN104915322A (zh) * | 2015-06-09 | 2015-09-16 | 中国人民解放军国防科学技术大学 | 一种卷积神经网络硬件加速方法及其axi总线ip核 |
CN106203327A (zh) * | 2016-07-08 | 2016-12-07 | 清华大学 | 基于卷积神经网络的肺部肿瘤识别***及方法 |
CN106529446A (zh) * | 2016-10-27 | 2017-03-22 | 桂林电子科技大学 | 基于多分块深层卷积神经网络的车型识别方法和*** |
Non-Patent Citations (4)
Title |
---|
EVGENY A.SMIRNOV 等: "Comparison of Regularization Methods for ImageNet Classification with Deep Convolutional Neural Networks", 《AASRI PROCEDIA》 * |
JINGXU CHEN 等: "Single Image Super-Resolution Based on Deep Learning and Gradient Transformation", 《2016 IEEE 13TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING PROCEEDINGS》 * |
常亮 等: "图像理解中的卷积神经网络", 《自动化学报》 * |
张文达 等: "基于多尺度分块卷积神经网络的图像目标识别算法", 《计算机应用》 * |
Cited By (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046702B (zh) * | 2018-01-17 | 2023-05-26 | 联发科技股份有限公司 | 神经网络计算加速器及其执行的方法 |
CN110046702A (zh) * | 2018-01-17 | 2019-07-23 | 联发科技股份有限公司 | 神经网络计算加速器及其执行的方法 |
CN108764483A (zh) * | 2018-03-29 | 2018-11-06 | 浙江长兴笛卡尔科技有限公司 | 低算力要求的神经网络分块优化方法及分块优化器 |
CN108764483B (zh) * | 2018-03-29 | 2021-05-18 | 杭州必优波浪科技有限公司 | 低算力要求的神经网络分块优化方法及分块优化器 |
CN110321064A (zh) * | 2018-03-30 | 2019-10-11 | 北京深鉴智能科技有限公司 | 用于神经网络的计算平台实现方法及*** |
CN112292694A (zh) * | 2018-04-19 | 2021-01-29 | 智动科技有限公司 | 用于加速操作的方法和加速器装置 |
CN110414663B (zh) * | 2018-04-28 | 2022-03-25 | 深圳云天励飞技术有限公司 | 神经网络的卷积实现方法及相关产品 |
CN110414663A (zh) * | 2018-04-28 | 2019-11-05 | 深圳云天励飞技术有限公司 | 神经网络的卷积实现方法及相关产品 |
CN108647776A (zh) * | 2018-05-08 | 2018-10-12 | 济南浪潮高新科技投资发展有限公司 | 一种卷积神经网络卷积膨胀处理电路及方法 |
CN110533666A (zh) * | 2018-05-25 | 2019-12-03 | 杭州海康威视数字技术股份有限公司 | 一种获取数据块尺寸的方法、处理数据的方法及装置 |
CN109102069A (zh) * | 2018-07-20 | 2018-12-28 | 西安邮电大学 | 一种基于查找表的快速图像卷积运算实现方法 |
WO2020032707A1 (en) * | 2018-08-10 | 2020-02-13 | Lg Electronics Inc. | Optimizing data partitioning and replacement strategy for convolutional neural networks |
US11010308B2 (en) | 2018-08-10 | 2021-05-18 | Lg Electronics Inc. | Optimizing data partitioning and replacement strategy for convolutional neural networks |
CN109359731B (zh) * | 2018-09-27 | 2022-01-28 | 中科物栖(北京)科技有限责任公司 | 一种基于芯片设计缺陷的神经网络处理方法及装置 |
CN109359731A (zh) * | 2018-09-27 | 2019-02-19 | 中科物栖(北京)科技有限责任公司 | 一种基于芯片设计缺陷的神经网络处理方法及装置 |
CN111144560B (zh) * | 2018-11-05 | 2024-02-02 | 杭州海康威视数字技术股份有限公司 | 一种深度神经网络运算方法及装置 |
CN111340201A (zh) * | 2018-12-19 | 2020-06-26 | 北京地平线机器人技术研发有限公司 | 卷积神经网络加速器及其执行卷积运算操作的方法 |
CN109976903A (zh) * | 2019-02-22 | 2019-07-05 | 华中科技大学 | 一种基于层宽内存分配的深度学习异构计算方法和*** |
US11568268B2 (en) | 2019-02-22 | 2023-01-31 | Huazhong University Of Science And Technology | Deep learning heterogeneous computing method based on layer-wide memory allocation and system thereof |
CN109886395B (zh) * | 2019-03-06 | 2020-11-24 | 上海熠知电子科技有限公司 | 一种面向多核图像处理卷积神经网络的数据读取方法 |
CN109886395A (zh) * | 2019-03-06 | 2019-06-14 | 上海熠知电子科技有限公司 | 一种面向多核图像处理卷积神经网络的数据读取方法 |
CN110135565A (zh) * | 2019-05-20 | 2019-08-16 | 上海大学 | 针对神经网络算法在集成电路上实现性能的评估*** |
CN110135565B (zh) * | 2019-05-20 | 2023-03-24 | 上海大学 | 针对神经网络算法在集成电路上实现性能的评估*** |
CN112052935A (zh) * | 2019-06-06 | 2020-12-08 | 奇景光电股份有限公司 | 卷积神经网络*** |
CN112052935B (zh) * | 2019-06-06 | 2024-06-14 | 奇景光电股份有限公司 | 卷积神经网络*** |
CN110443357A (zh) * | 2019-08-07 | 2019-11-12 | 上海燧原智能科技有限公司 | 卷积神经网络计算优化方法、装置、计算机设备及介质 |
CN112633462A (zh) * | 2019-10-08 | 2021-04-09 | 黄朝宗 | 卷积神经网络的存储器优化的区块式推论方法及其*** |
WO2021068376A1 (zh) * | 2019-10-11 | 2021-04-15 | 浪潮电子信息产业股份有限公司 | 应用于卷积神经网络的卷积处理方法、***及相关组件 |
CN110796250A (zh) * | 2019-10-11 | 2020-02-14 | 浪潮电子信息产业股份有限公司 | 应用于卷积神经网络的卷积处理方法、***及相关组件 |
CN110929860A (zh) * | 2019-11-07 | 2020-03-27 | 深圳云天励飞技术有限公司 | 一种卷积加速运算方法、装置、存储介质及终端设备 |
US11244198B2 (en) | 2019-11-21 | 2022-02-08 | International Business Machines Corporation | Input partitioning for deep learning of large image data |
CN111179149A (zh) * | 2019-12-17 | 2020-05-19 | Tcl华星光电技术有限公司 | 图像处理方法、装置、电子设备和计算机可读存储介质 |
CN111179149B (zh) * | 2019-12-17 | 2022-03-08 | Tcl华星光电技术有限公司 | 图像处理方法、装置、电子设备和计算机可读存储介质 |
CN113052292A (zh) * | 2019-12-27 | 2021-06-29 | 嘉楠明芯(北京)科技有限公司 | 卷积神经网络技术方法、装置及计算机可读存储介质 |
CN113052292B (zh) * | 2019-12-27 | 2024-06-04 | 北京硅升科技有限公司 | 卷积神经网络技术方法、装置及计算机可读存储介质 |
US11615607B2 (en) | 2019-12-31 | 2023-03-28 | Shenzhen Intellifusion Technologies Co., Ltd. | Convolution calculation method, convolution calculation apparatus, and terminal device |
WO2021135571A1 (zh) * | 2019-12-31 | 2021-07-08 | 深圳云天励飞技术股份有限公司 | 卷积计算方法、卷积计算装置及终端设备 |
CN111210004B (zh) * | 2019-12-31 | 2022-03-25 | 深圳云天励飞技术股份有限公司 | 卷积计算方法、卷积计算装置及终端设备 |
CN111178513B (zh) * | 2019-12-31 | 2022-04-15 | 深圳云天励飞技术股份有限公司 | 神经网络的卷积实现方法、卷积实现装置及终端设备 |
CN111210004A (zh) * | 2019-12-31 | 2020-05-29 | 深圳云天励飞技术有限公司 | 卷积计算方法、卷积计算装置及终端设备 |
CN111178513A (zh) * | 2019-12-31 | 2020-05-19 | 深圳云天励飞技术有限公司 | 神经网络的卷积实现方法、卷积实现装置及终端设备 |
CN113222125A (zh) * | 2020-01-21 | 2021-08-06 | 北京希姆计算科技有限公司 | 卷积运算方法及芯片 |
CN113495786A (zh) * | 2020-03-19 | 2021-10-12 | 杭州海康威视数字技术股份有限公司 | 一种图像卷积处理方法和电子设备 |
CN113495786B (zh) * | 2020-03-19 | 2023-10-13 | 杭州海康威视数字技术股份有限公司 | 一种图像卷积处理方法和电子设备 |
CN111859797A (zh) * | 2020-07-14 | 2020-10-30 | Oppo广东移动通信有限公司 | 一种数据处理方法及装置、存储介质 |
CN112116071A (zh) * | 2020-09-07 | 2020-12-22 | 地平线(上海)人工智能技术有限公司 | 神经网络计算方法、装置、可读存储介质以及电子设备 |
CN111931123A (zh) * | 2020-10-14 | 2020-11-13 | 南京风兴科技有限公司 | 边界卷积计算方法、装置、硬件加速器及计算机设备 |
CN112949831A (zh) * | 2021-03-24 | 2021-06-11 | 中国科学院自动化研究所 | 基于分块卷积的深度优先数据调度方法、***及设备 |
WO2023045638A1 (zh) * | 2021-09-26 | 2023-03-30 | 寒武纪(西安)集成电路有限公司 | 计算装置、利用计算装置实施卷积运算的方法及相关产品 |
Also Published As
Publication number | Publication date |
---|---|
CN107437110B (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107437110A (zh) | 卷积神经网络的分块卷积优化方法及装置 | |
CN110546611B (zh) | 通过跳过处理操作来减少神经网络处理器中的功耗 | |
CN108780441A (zh) | 用于定点矩阵乘法的内存减少方法 | |
CN108765247A (zh) | 图像处理方法、装置、存储介质及设备 | |
CN107169563B (zh) | 应用于二值权重卷积网络的处理***及方法 | |
CN105892989B (zh) | 一种神经网络加速器及其运算方法 | |
CN110175671A (zh) | 神经网络的构建方法、图像处理方法及装置 | |
CN107918794A (zh) | 基于计算阵列的神经网络处理器 | |
CN106529668A (zh) | 加速深度神经网络算法的加速芯片的运算装置及方法 | |
CN108446764B (zh) | 一种新型神经形态芯片架构 | |
CN111241353B (zh) | 一种图数据的分区方法、装置以及设备 | |
CN107944545A (zh) | 应用于神经网络的计算方法及计算装置 | |
CN110222818A (zh) | 一种用于卷积神经网络数据存储的多bank行列交织读写方法 | |
US11315020B2 (en) | Optimized partitioning of multi-layer networks in core-based neurosynaptic architectures | |
CN107256424A (zh) | 三值权重卷积网络处理***及方法 | |
CN106779057A (zh) | 基于gpu的计算二值神经网络卷积的方法及装置 | |
CN110321064A (zh) | 用于神经网络的计算平台实现方法及*** | |
CN109918951B (zh) | 一种基于层间融合的人工智能处理器侧信道防御*** | |
CN110490310A (zh) | 神经网络数据压缩及其相关计算方法和装置 | |
US11599181B1 (en) | Systems and methods for reducing power consumption of convolution operations of artificial neural networks | |
Chen et al. | Convolutional neural network and convex optimization | |
CN109992652A (zh) | 一种信息回复方法、装置、设备及存储介质 | |
Li et al. | Weight‐Selected Attribute Bagging for Credit Scoring | |
CN116993513A (zh) | 金融风控模型解释方法、装置及计算机设备 | |
Kaur et al. | Machine learning empowered green task offloading for mobile edge computing in 5G networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |