CN113762479A - 一种神经网络优化方法和装置 - Google Patents

一种神经网络优化方法和装置 Download PDF

Info

Publication number
CN113762479A
CN113762479A CN202111060216.3A CN202111060216A CN113762479A CN 113762479 A CN113762479 A CN 113762479A CN 202111060216 A CN202111060216 A CN 202111060216A CN 113762479 A CN113762479 A CN 113762479A
Authority
CN
China
Prior art keywords
convolution kernel
fusible
residual
branch
residual error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111060216.3A
Other languages
English (en)
Inventor
徐友庆
高成
关晨
孟祥峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Park Sheng Intelligent Technology Co ltd
Original Assignee
Shenzhen Park Sheng Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Park Sheng Intelligent Technology Co ltd filed Critical Shenzhen Park Sheng Intelligent Technology Co ltd
Priority to CN202111060216.3A priority Critical patent/CN113762479A/zh
Publication of CN113762479A publication Critical patent/CN113762479A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种神经网络优化方法和装置。其中,所述方法包括:基于多分支的可融合残差结构进行模型训练,并提取训练后的模型参数;利用融合算子对训练后的可融合残差结构型进行结构转换,以得到单分支残差结构;将所述单分支残差结构部署到目标设备上并执行目标任务的推理步骤。本发明通过设计实现了可融合残差模块,对残差模块进行结构替换,充分利用了多分支结构和单分支结构的优点,提高网络部署运行时的内存效率和并行度,节省网络资源消耗,加快网络推理速度;采用重参数化的方法进行参数压缩,减少了因裁剪参数和连接带来的精度下降问题。

Description

一种神经网络优化方法和装置
技术领域
本发明实施例涉及神经网络技术领域,尤其涉及一种神经网络优化方法和装置。
背景技术
近年来,随着深度学习的快速发展,深度学习已在许多任务取得了优异的性能表现,使其越来越多的应用在众多生活与工业领域。目前部署深度神经网络模型分为Online在线部署和Offline离线部署两种方式。在大多实际工业生产环境下通常使用Offline部署,它本地处理数据而不经过网络,安全性与实时性能够得到保障。但是对于计算资源有限的嵌入式端侧设备来说,深度神经网络对计算力的海量需求是不可接受的。同时,对于使用电池的嵌入式移动设备来说,繁重的计算会很快耗尽其有限的电池电量。
要解决深度神经网络在嵌入式设备的部署困境,仅仅靠传统的方法已经出现瓶颈。简单的增加嵌入式设备的DRAM内存容量和加强CPU运算能力,并不能匹配神经网络的发展速度。并且在许多工业场景下,对嵌入式设备有严格的体积和功耗限制,这对神经网络在嵌入式设备上的部署提出了巨大挑战。要解决神经网络在嵌入式设备上的部署内存和功耗的限制要求,因此,一个满足嵌入式有限硬件资源的一个可行的神经网络部署方案就诞生了,即神经网络模型压缩。
然而,传统的神经网络模型压缩方法在对训练后网络模型裁剪掉冗余的连接和参数,从而减少参数量。由于这些压缩方法并不会改变网络的整体架构,只是裁掉多余的连接和参数,这样会让模型损失部分精度;此外,传统的神经网络架构并不能同时利用多分支结构和单分支结构的优势,导致神经网络推理效能低。
发明内容
本发明提供一种神经网络优化方法和装置,以实现有效的减少模型参数并提高神经网络的推理效能。
第一方面,本发明实施例提供了一种神经网络优化方法,包括:
基于多分支的可融合残差结构进行模型训练,并提取训练后的模型参数;
利用融合算子对训练后的可融合残差结构型进行结构转换,以得到单分支残差结构;
将所述单分支残差结构部署到目标设备上并执行目标任务的推理步骤。
可选的,所述可融合残差结构由残差结构去掉两个连续卷积核之间的relu层得到。
可选的,所述可融合残差结构中的卷积核结构包括:一个1乘1卷积核、接在所述1乘1卷积核后面的一个3乘3卷积核、以及接在所述3乘3卷积核后面的一个1乘1卷积核。
可选的,利用融合算子对训练后的可融合残差结构型进行结构转换,包括:
遍历神经网络中所有的可融合残差结构;
将所述可融合残差结构中的卷积核输入带入到批归一化层的公式中,以得到融合了批归一化层的卷积核。
可选的,利用融合算子对训练后的可融合残差结构型进行结构转换,包括:
所述可融合残差结构中每个卷积核将其前一个卷积核层的输出作为输入,并将输出反馈到其后一个卷积核,以实现卷积核和卷积核合并。
可选的,利用融合算子对训练后的可融合残差结构型进行结构转换,包括:
所述可融合残差结构中每个卷积核将其前一个卷积核层的输出作为输入,并将输出反馈到其后一个卷积核,以实现卷积核和卷积核合并。
第二方面,本发明实施例还提供了一种神经网络优化装置,包括:
训练模块,用于基于多分支的可融合残差结构进行模型训练,并提取训练后的模型参数;
融合模块,用于利用融合算子对训练后的可融合残差结构型进行结构转换,以得到单分支残差结构;
部署推理模块,用于将所述单分支残差结构部署到目标设备上并执行目标任务的推理步骤。
本发明针对多分支网络的内存低效和低并行度结构,提出可融合的残差模块,采用重参数化技术,针对类ResNet网络,通过替换可融合残差模块,对残差模块进行结构替换,在部署时将残差结构融合为一个卷积,避免了网络的多分支结构带来了额外的内存消耗,同时减少了网络深度,提高网络部署运行时的内存效率和并行度,节省网络资源消耗,加快网络推理速度;同时提出多种等效卷积结构和异性卷积结构,增强可融合残差模块的性能。
附图说明
图1为本发明实施例提供的一种神经网络优化方法的流程图;
图2为本发明实施例提供的可融合残差结构示意图;
图3是本发明实施例提供的1乘1卷积核的等价扩充示意图;
图4是本发明实施例提供的一种神经网络优化装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例
图1为本发明实施例提供的一种神经网络优化方法的流程图,具体包括如下步骤:
S110、基于多分支的可融合残差结构进行模型训练,并提取训练后的模型参数。
参见图2,图2为本发明实施例提供的可融合残差结构示意图。本实施例中的可融合残差结构通过去掉两个连续卷积层之间的relu层,去除掉卷积层之间的非线性关系,从而使其能够融合。进一步的,上述可融合残差结构采用131结构,即一个1乘1卷积核、接在所述1乘1卷积核后面的一个3乘3卷积核、以及接在所述3乘3卷积核后面的一个1乘1卷积核。
本实施例中,在3乘3的卷积核处,通过加宽通道数以减少因去除掉relu层所带来的精度下降问题。
S120、利用融合算子对训练后的可融合残差结构型进行结构转换,以得到单分支残差结构。
具体的,采用融合算子对训练后的模型参数进行结构转换主要包括:卷积核和批归一化层合并、卷积核和卷积核合并以及卷积核水平合并三部分。
(1)卷积核和批归一化层合并
本实施例中,通过遍历神经网络中所有的可融合残差结构,并将所述可融合残差结构中的卷积核输入带入到批归一化层的公式中,以得到融合了批归一化层的卷积核。
具体的,卷积核的公式为:
Conv(X)=WX+b
其中,X为输入图像矩阵,W为参数矩阵,b为偏置矩阵。
将卷积核的输出带入到批归一化层的公式中得到如下表达式:
Figure BDA0003256096790000041
其中,其中mean和var分别是输入矩阵X的均值和方差,γ和β分别是归一化层中的缩放因子和偏置。
令:
Figure BDA0003256096790000042
其中,Wfused是融合后的参数矩阵,Bfsued是融合后的偏置矩阵。
则得到如下表达式,这其实就是一个融合了批归一化后的卷积核表达式。
Convfused(X)=BN(Conv(X))
=WfusedX+Bfused
其中,Convfused是批归一化和卷积核融合后的卷积核表达式,由Wfused和Bfsued组成。
(2)卷积核和卷积核合并
本实施例中,将batchnorm层融合成卷积核层后,图2中的每个卷积核层直接相连,这意味着每个卷积核层将其前一个卷积核层的输出作为输入,并将输出反馈到其后一个卷积核层,以实现卷积核和卷积核的合并。
具体的表达式如下:
Conv2(Conv1(X))=W2(W1X+b1)+b2
=W2W1X+W2b1+b2
=(W2W1)X+(W2b1+b2)
令:
Wfused=(W2W1)bfused=(W2b1+b2)
则得到如下表达式,这其实就是一个融合两个连续卷积核的等价表达式。
Convfused=WfusedX+bfused
(3)卷积核水平合并
对于带有下采样的可融合残差结构,还需将跳层上的1乘1卷积核讲行水平合并。具体的,要水平合并,首先需要将直连上的1乘1卷积核等价扩充到3乘3卷积核,使其大小匹配,详见图3。1乘1卷积核可以看作是3乘3卷积核的特例,也就是说它可以用3乘3卷积核来表示。如图3所示,1乘1卷积核通过在1乘1卷积核周围填充零来扩展到3乘3卷积核。然后,通过将3乘3卷积核添加到扩展的3乘3卷积核的中心点上,可以将水平的3乘3卷积核合并为一个3乘3卷积核。
S130、将所述单分支残差结构部署到目标设备上并执行目标任务的推理步骤。
示例性的,目标任务可以为在嵌入式设备上自动化评估矿化泡沫等级。针对此类场景,在云端训练时将可融合的ResNe网络保留精度,在部署时将其转换为单分支结构后部署在嵌入式设备端,能够明显提升推理速度,降低单次推理时延。
目标任务还可以为防范和侦测软件定义网络中的恶意流量。针对此类场景,应用可融合的ResNet网络能够有效的提升ResNet网络的推理速度,从而减少每次扫描网络流量的间隔,提升软件定义网络整体安全性。
进一步的,本发明实施例还提供了对应的实验验证结果,具体包括以下内容:
1、实验设置
实验训练时使用Pytorch进行训练,简单数据增强后的Cifar10、Cifar100数据集,训练120个周期,学习率变化为带5个epoch的预热的余弦退火函数,训练批量尺寸(batchsize)为256。实验测试时使用Pytorch作为测试的软件环境,服务器显卡为NVIDIAV100,嵌入式设备为NVIDIATX2,速度单位为示例/秒。在实验对比中,将所提出针对残差结构的分支融合方法应用于ResNet上,并与原始的ResNet在运行速度、模型精度以及内存消耗量上进行了比较。
OS Ubuntu 16.04 Xenial
CPU 2*Intel Xeon E5-2620 v4@32x3GHz
GPU 2*Nvidia Tesla V100
RAM 256GB DDR4
表1训练服务器配置表
本实施例中的实验的训练服务器使用Intel Xeon E5服务器,配有2张NVIDIAV100显卡,其具体配置如表1所示。
Figure BDA0003256096790000051
Figure BDA0003256096790000061
表2 NVDIA TX2配置表
在部署时还在嵌入式平台上进行测试,使用Nvidia TX2作为部署环境,其搭载四核
Figure BDA0003256096790000062
MPCore,8GB 256位LPDDR4内存,操作***为Ubuntu 18.04。其具体配置如表2所示。
2、实验结果
模型 V100速度(FPS) TX速度(FPS) 部署参数量(MB)
ResNet18 1644.34 159.54 45
ResNet18* 3038.67 300.22 21
ResNet34 1641.48 158.51 84
ResNet34 3031.32 298.60 39
ResNet50 474.71 48.23 98
ResNet50* 2054.89 189.00 40
ResNet101 277.84 28.86 171
ResNet101* 1200.04 112.75 78
ResNet152 192.23 20.30 231
ResNet152* 834.63 79.34 110
表3在V100和TX2上的部署速度对比
表3为在服务器端与嵌入式端实际部署时的推理速度对比。本次测试将分支融合部署的ResNet18、ResNet34、ResNet50、ResNet101、ResNet152与其原始模型进行对比,推理时批量尺寸(batchsize)为64,实验表明,同精度的残差融合部署的模型在速度方面显著优于原有模型。可融合残差模块相对于BasicBlock(浅层ResNet)加速比为1.84左右,相对于Bottleneck(深层ResNet)加速比为4左右,同时参数量较原有ResNet少了一半左右。
Figure BDA0003256096790000063
Figure BDA0003256096790000071
表4 CIFAR10与CIFAR100上训练结果对比
表4为在Cifar10和Cifar100上的训练结果,本次测试将分支融合部署的ResNet18、ResNet34、ResNet50、ResNet101与其原始模型进行对比,同时加入VGG网络进行对比,通过连接可融合扩展模块恢复去掉非线性层的模型性能损失。其中ResNet50-之类带”-”号的模型是直接使用可融合残差模块替换对应ResNet生成的网络,可以看到,直接去掉残差模块中的非线性Relu层,相比于原网络会导致网路性能下降1%-2%的精度,ResNet50*之类带”*”号的模型是对可融合残差模块添加了多路扩展分支,用以提升模型性能。实验表明,经过可融合扩展模块,本实施例中的可融合残差模块与原ResNet网络精度基本一致。
3、实验结果分析
考虑到模型训练时和部署时的注重点不同,借助重参数化的思想,本实施例针对网络推理时的硬件运行效率,提出针对残差结构提出可融合的残差模块,优化部署时残差网络模型推理效率和内存效率。通过去除残差结构中的非线性层,在部署前融合多分支结构,去除模型分支结构同时减少模型层数,提高部署时内存效率和运行效率。首先,讨论了到线性网络结构和多分支网络结构各自的优点和局限性,其次通过微调ResNet网络结构,解耦网络的训练和部署,在训练时使用多分支残差网络结构,在部署时将其转化为线性网络结构,同时利用了单分支网络和多分支网络的优点而规避它们的缺点。最终获得相比于ResNet网络,在参数少一半的情况下,模型精度相当,加速比为1.8~4.4。
继续参见图4,图4为本发明实施例提供的一种神经网络优化装置,该装置包括:
训练模块210,用于基于多分支的可融合残差结构进行模型训练,并提取训练后的模型参数;
融合模块220,用于利用融合算子对训练后的可融合残差结构型进行结构转换,以得到单分支残差结构;
部署推理模块230,用于将所述单分支残差结构部署到目标设备上并执行目标任务的推理步骤。
可选的,所述可融合残差结构由残差结构去掉两个连续卷积核之间的relu层得到。
可选的,所述可融合残差结构中的卷积核结构包括:一个1乘1卷积核、接在所述1乘1卷积核后面的一个3乘3卷积核、以及接在所述3乘3卷积核后面的一个1乘1卷积核。
其中,所述融合模块220具体用于:遍历神经网络中所有的可融合残差结构;
将所述可融合残差结构中的卷积核输入带入到批归一化层的公式中,以得到融合了批归一化层的卷积核。
其中,所述融合模块220具体用于:所述可融合残差结构中每个卷积核将其前一个卷积核层的输出作为输入,并将输出反馈到其后一个卷积核,以实现卷积核和卷积核合并。
其中,所述融合模块220具体用于:对于带有下采样的可融合残差结构,将直连上的1乘1卷积核展开为3乘3卷积核;
将展开后的3乘3卷积核的中心点添加到3乘3卷积核上,完成水平合并。
本发明实施例所提供的一种神经网络优化装置可执行本发明任意实施例所提供的一种神经网络优化方法,具备执行方法相应的功能模块和有益效果,不再进行赘述。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种神经网络优化方法,其特征在于,包括:
基于多分支的可融合残差结构进行模型训练,并提取训练后的模型参数;
利用融合算子对训练后的可融合残差结构型进行结构转换,以得到单分支残差结构;
将所述单分支残差结构部署到目标设备上并执行目标任务的推理步骤。
2.根据权利要求1所述的方法,其特征在于,所述可融合残差结构由残差结构去掉两个连续卷积核之间的relu层得到。
3.根据权利要求1所述的方法,所述可融合残差结构中的卷积核结构包括:一个1乘1卷积核、接在所述1乘1卷积核后面的一个3乘3卷积核、以及接在所述3乘3卷积核后面的一个1乘1卷积核。
4.根据权利要求1所述的方法,其特征在于,利用融合算子对训练后的可融合残差结构型进行结构转换,包括:
遍历神经网络中所有的可融合残差结构;
将所述可融合残差结构中的卷积核输入带入到批归一化层的公式中,以得到融合了批归一化层的卷积核。
5.根据权利要求1所述的方法,其特征在于,利用融合算子对训练后的可融合残差结构型进行结构转换,包括:
所述可融合残差结构中每个卷积核将其前一个卷积核层的输出作为输入,并将输出反馈到其后一个卷积核,以实现卷积核和卷积核合并。
6.根据权利要求2所述的方法,其特征在于,利用融合算子对训练后的可融合残差结构型进行结构转换,包括:
对于带有下采样的可融合残差结构,将直连上的1乘1卷积核展开为3乘3卷积核;
将展开后的3乘3卷积核的中心点添加到所述3乘3卷积核上,完成水平合并。
7.一种神经网络优化装置,其特征在于,包括:
训练模块,用于基于多分支的可融合残差结构进行模型训练,并提取训练后的模型参数;
融合模块,用于利用融合算子对训练后的可融合残差结构型进行结构转换,以得到单分支残差结构;
部署推理模块,用于将所述单分支残差结构部署到目标设备上并执行目标任务的推理步骤。
CN202111060216.3A 2021-09-10 2021-09-10 一种神经网络优化方法和装置 Pending CN113762479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111060216.3A CN113762479A (zh) 2021-09-10 2021-09-10 一种神经网络优化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111060216.3A CN113762479A (zh) 2021-09-10 2021-09-10 一种神经网络优化方法和装置

Publications (1)

Publication Number Publication Date
CN113762479A true CN113762479A (zh) 2021-12-07

Family

ID=78794622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111060216.3A Pending CN113762479A (zh) 2021-09-10 2021-09-10 一种神经网络优化方法和装置

Country Status (1)

Country Link
CN (1) CN113762479A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494872A (zh) * 2022-01-24 2022-05-13 北京航空航天大学 一种嵌入式轻量化遥感目标检测***
CN115293337A (zh) * 2022-10-09 2022-11-04 深圳比特微电子科技有限公司 构建神经网络的方法、装置、计算设备及存储介质
CN115600653A (zh) * 2022-12-07 2023-01-13 荣耀终端有限公司(Cn) 神经网络模型的部署方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190114511A1 (en) * 2017-10-16 2019-04-18 Illumina, Inc. Deep Learning-Based Techniques for Training Deep Convolutional Neural Networks
CN110929697A (zh) * 2019-12-17 2020-03-27 中国人民解放军海军航空大学 一种基于残差结构的神经网络目标识别方法及***
CN111242862A (zh) * 2020-01-09 2020-06-05 西安理工大学 多尺度融合并行稠密残差卷积神经网络图像去噪方法
CN111861870A (zh) * 2020-07-16 2020-10-30 南通大学 一种面向图像翻译的端到端的并行生成器网络构建方法
US20210264278A1 (en) * 2020-02-24 2021-08-26 Adobe Inc. Neural network architecture pruning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190114511A1 (en) * 2017-10-16 2019-04-18 Illumina, Inc. Deep Learning-Based Techniques for Training Deep Convolutional Neural Networks
CN110929697A (zh) * 2019-12-17 2020-03-27 中国人民解放军海军航空大学 一种基于残差结构的神经网络目标识别方法及***
CN111242862A (zh) * 2020-01-09 2020-06-05 西安理工大学 多尺度融合并行稠密残差卷积神经网络图像去噪方法
US20210264278A1 (en) * 2020-02-24 2021-08-26 Adobe Inc. Neural network architecture pruning
CN111861870A (zh) * 2020-07-16 2020-10-30 南通大学 一种面向图像翻译的端到端的并行生成器网络构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏书伟;曾上游;潘兵;王新娇;: "基于多样化结构的轻量型卷积神经网络设计", 现代电子技术, no. 12 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494872A (zh) * 2022-01-24 2022-05-13 北京航空航天大学 一种嵌入式轻量化遥感目标检测***
CN115293337A (zh) * 2022-10-09 2022-11-04 深圳比特微电子科技有限公司 构建神经网络的方法、装置、计算设备及存储介质
CN115293337B (zh) * 2022-10-09 2022-12-30 深圳比特微电子科技有限公司 构建神经网络的方法、装置、计算设备及存储介质
CN115600653A (zh) * 2022-12-07 2023-01-13 荣耀终端有限公司(Cn) 神经网络模型的部署方法及装置

Similar Documents

Publication Publication Date Title
CN113762479A (zh) 一种神经网络优化方法和装置
Liu et al. Feature pyramid encoding network for real-time semantic segmentation
CN108765247B (zh) 图像处理方法、装置、存储介质及设备
US11120330B2 (en) Accelerator in convolutional neural network and method for operating the same
CN108304921B (zh) 卷积神经网络的训练方法及图像处理方法、装置
CN109858613B (zh) 一种深度神经网络的压缩方法、***及终端设备
CN110674939A (zh) 基于剪枝阈值自动搜索的深度神经网络模型压缩方法
CN107103585B (zh) 一种图像超分辨率***
US20230252294A1 (en) Data processing method, apparatus, and device, and computer-readable storage medium
CN111738435A (zh) 一种基于移动设备的在线稀疏训练方法及***
CN114580636A (zh) 基于三目标联合优化的神经网络轻量化部署方法
CN114882530A (zh) 一种面向行人检测的轻量级卷积神经网络模型
Bethge et al. Learning to train a binary neural network
Li et al. Fast principal component analysis for hyperspectral imaging based on cloud computing
US20220019846A1 (en) Image analysis system and operating method of the same
Verma et al. Rnas-mer: A refined neural architecture search with hybrid spatiotemporal operations for micro-expression recognition
CN111542837B (zh) 三维卷积神经网络计算装置及相关产品
CN111860770A (zh) 一种融合裁剪与量化的模型压缩方法及***
CN117220734A (zh) 一种模型传输的方法及装置
Chen et al. Mask-net: A hardware-efficient object detection network with masked region proposals
Wang et al. L-SSD: lightweight SSD target detection based on depth-separable convolution
CN113222121A (zh) 一种数据处理方法、装置及设备
CN111047038A (zh) 一种利用分块循环矩阵的神经网络压缩方法
Orovas et al. A cellular system for pattern recognition using associative neural networks
Xie et al. Real-time instance segmentation for low-cost mobile robot systems based on computation offloading

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination