WO2020124948A1

WO2020124948A1 - 网络离线模型的处理方法、人工智能处理装置及相关产品

Info

Publication number: WO2020124948A1
Application number: PCT/CN2019/087631
Authority: WO
Inventors: 孔维广; 黄亚玲; 王进; 沈宇斌; 郭志斌; 宋新开; 刘少礼; 吕秀全; 张昊翀; 杨辉
Original assignee: 中科寒武纪科技股份有限公司
Priority date: 2018-12-21
Filing date: 2019-05-20
Publication date: 2020-06-25

Abstract

本申请公开了一种网络离线模型的处理方法、人工智能处理装置及相关产品，其中，相关产品包括组合处理装置，所述组合处理装置包括该人工智能处理装置，通用互联接口和其它处理装置；所述人工智能处理装置与所述其它处理装置进行交互，共同完成用户指定的计算操作。本申请实施例有利于提高网络离线模型的运算速度。

Description

网络离线模型的处理方法、人工智能处理装置及相关产品

本申请要求：

于2018年12月29日提交中国专利局、申请号为2018116461097，申请名称为“网络离线模型的处理方法、人工智能处理装置及相关产品”；

于2018年12月29日提交中国专利局、申请号为2018116541797，申请名称为“一种神经网络量化方法、装置以及相关产品”；

于2018年12月21日提交中国专利局、申请号为2018115700616、申请名称为“参数处理方法及相关产品”；

以上三个中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息处理技术领域，具体涉及一种网络离线模型的处理方法、人工智能处理装置及相关产品。

背景技术

随着信息技术的不断发展和人们日益增长的需求，人们对信息及时性的要求越来越高了。目前，终端对信息的获取以及处理均是基于处理器实现的。在实践中发现，这种基于处理器运行软件程序来处理信息的方式，受限于网络模型的类型，也就是说，对于一些新生的网络模型，处理器对网络类型的版本不兼容。目前，在处理器上运行的网络离线模型，是在机器框架下构建的，在构建网络模型时，未对各层网络加以区分，导致单一处理器无法兼容各种网络离线模型。

发明内容

本申请实施例提供了一种离线模型的处理方法，在保存离线网络时，保存该离线网络的类型标识，以期依据类型标识兼容执行所有类型的离线网络。

第一方面，本申请实施例提供了一种网络离线模型的处理方法，该方法包括：

获取网络离线模型中各子网络的运行单元信息，所述运行单元信息包括子网络与运行单元类型之间的对应关系，所述运行单元类型包括通用处理单元类型或人工智能处理单元类型；

根据所述运行单元信息，在构建的所述网络离线模型中定义子网络运行参数，得到构建后的网络离线模型，所述子网络运行参数用于表示各子网络的运行单元类型。

第二方面，本申请实施例提供一种离线模型的人工智能装置，所述装置包括：

获取模块，用于获取网络离线模型中各子网络的运行单元信息，所述运行单元信息包括子网络与运行单元类型之间的对应关系，所述运行单元类型包括通用处理单元类型或人工智能处理单元类型；

构建模块，用于根据所述运行单元信息，在构建的所述网络离线模型中定义子网络运行参数，得到构建后的网络离线模型，所述子网络运行参数用于表示各子网络的运行单元类型。

第三方面，本申请实施例提供一种计算机设备，包括存储器、处理器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的方法。

第四方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法。

第五方面，本申请实施例提供一种组合处理装置，其特征在于，所述组合处理装置包括如第二方面所述的人工智能处理装置，通用互联接口和其它处理装置；

所述人工智能处理装置与所述其它处理装置进行交互，共同完成用户指定的计算操作。

第六方面，本申请实施例提供了一种参数处理方法，应用于人工智能芯片，所述人工智能芯片中部署了上层语言接口和深度学习框架，所述深度学习框架中包括容器，所述容器与所述上层语言接口连接，所述方法包括：

所述上层语言接口将第一参数注入所述容器中，其中所述第一参数用于描述所述深度学习框架的并行程度；

所述深度学习框架从所述容器中获取所述第一参数，并将所述第一参数与所述深度学习框架的模块数据进行交互，获得第二参数，并将所述第二参数传递到所述容器中，所述第二参数用于监测所述第一参数描述的深度学习框架的并行运算性能，所述容器是用于存放参数的类或结构体；

所述上层语言接口从所述容器中获取第二参数。

可选情况下，在所述上层语言接口将第一参数写入容器中之前，所述方法还包括：所述容器中包括参数数据字段，所述参数数据字段用于指向第一参数和第二参数。

可选情况下，所述第一参数包括数据并行度和模型并行度。

可选情况下，所述第二参数包括通道消失时间和通道消失时间总和。

可选情况下，所述将所述第一参数与所述深度学习框架的模块数据进行交互，获得第二参数，包括：

将所述数据并行度传递到深度学习框架的模块进行数据交互，获得所述数据并行度对应的通道消失时间(CET)和通道消失时间总和(CETS)，所述CETS和所述CET用于统计算子的计算时间；

将所述模型并行度传递到深度学习框架的模块进行数据交互，获得所述数据并行度对应的CET和CETS。

可选情况下，所述深度学习框架为MXNet深度学习框架。

可选情况下，所述深度学习框架还包括载体，所述方法还包括：

通过所述载体进行所述容器与所述深度学习框架的模块之间的参数传递交互，所述参数包括第一参数和第二参数。

可选情况下，所述人工智能芯片还包括底层库模块，所述方法还包括：

通过所述载体进行所述容器与所述底层库模块之间的参数传递交互，所述参数包括第一参数和第二参数。

可选情况下，所述容器包括所述深度学习框架中的原生类或结构体，或者针对所述人工智能芯片在所述深度学习框架中独立创建的类或结构体。

第七方面，本申请实施例提供了一种参数处理装置，应用于人工智能芯片，所述人工智能芯片中部署了上层语言接口和深度学习框架，所述深度学习框架中包括容器，所述容器与所述上层语言接口连接，所述装置包括：

写入模块，用于通过所述上层语言接口将第一参数写入容器中，其中所述第一参数用于描述所述深度学习框架的并行程度；

计算模块，用于通过所述深度学习框架从所述容器中获取所述第一参数，并将所述第一参数与所述深度学习框架的模块的数据进行交互，获得第二参数，并将所述第二参数传递到所述容器中，所述第二参数用于监测并行运算的性能，所述容器为用于存放参数的类或结构体；

获取模块，用于通过所述上层语言接口从所述容器中获取第二参数。

第八方面，本申请实施例提供了一种电子装置，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置给所述处理器执行，所述程序包括用于执行第六方面所述的方法中的步骤的指令。

第九方面，本申请实施例提供了一种计算机可读存储介质，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行第六方面所述的方法。

第十方面，本申请实施例提供了一种芯片，包括第七方面提供的参数处理装置。

第十一方面，本申请实施例提供了一种芯片封装结构，该封装结构包括上述第十方面所述的芯片；

第十二方面，本申请实施例提供了一种板卡，该板卡包括上述第十一方面所述的芯片封装结构。

第十三方面，本申请实施例提供了一种电子装置，该电子装置包括上述第十一方面所述的芯片封装结构或者上述第十二方面所述的板卡。

第十四方面，本申请实施例提供了一种存储介质，用于存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行第六方面任一方法所述的步骤的指令。

第十五方面，本申请实施例提供了一种神经网络量化方法，包括：

获取原始神经网络的目标量化层的权值和输入数据；其中，所述目标量化层为所述原始神经网络的计算层中的至少一层；

利用所述原始神经网络的目标量化层的权值确定对应层的权值的量化参数；利用所述原始神经网络的目标量化层的输入数据确定对应层的输入数据的量化参数；其中，所述目标量化层的权值和输入数据均采用绝对值最大值不失真原则；

根据所述权值的量化参数和所述输入数据的量化参数对所述原始神经网络的目标量化层进行量化。

可选情况下，所述计算层包括：卷积层、全连接层、LRN归一化层，反卷积层、Reorg层，Normalize归一化层中的至少一种。

可选情况下，所述利用所述原始神经网络的目标量化层的权值确定对应层的权值的量化参数的步骤包括：

获取所述目标量化层中的每一层的权值的绝对值的最大值；

根据所述目标量化层中的每一层的权值的绝对值的最大值确定对应层的权值的第一量化参数和第二量化参数。

可选情况下，所述利用所述原始神经网络的目标量化层的输入数据确定对应层的输入数据的量化参数的步骤包括：

获取所述目标量化层中的每一层的输入数据的绝对值的最大值；

根据所述目标量化层中的每一层的输入数据的绝对值的最大值确定对应层的输入数据的第一量化参数和第二量化参数。

可选情况下，所述方法还包括：

对所述原始神经网络的目标量化层中的每一层采用第一量化方法、第二量化方法或第三量化方法进行处理；其中，

所述第一量化方法包括：

利用所述目标量化层中的每一层的权值的第一量化参数将对应层的权值进行量化，获得对应层的权值量化结果；

利用所述目标量化层中的每一层的输入数据的第一量化参数将对应层的输入数据进行量化，获得对应层的输入数据量化结果；

所述第二量化方法包括：

利用所述目标量化层中的每一层的权值的第一量化参数和第二量化参数获得对应层的权值量化中间参数；

根据所述权值量化中间参数获得对应层的权值量化结果；

利用所述目标量化层中的每一层的输入数据的第一量化参数和第二量化参数获得对应层的输入数据量化中间参数；

根据输入数据量化中间参数获得对应层的输入数据量化结果；

所述第三量化方法包括：

利用所述目标量化层中的每一层的权值的第一量化参数和第二量化参数获得对应层的权值量化结果；

利用所述目标量化层中的每一层的输入数据的第一量化参数和第二量化参数获得对应层的输入数据量化结果。

可选情况下，所述方法还包括：

利用所述目标量化层中的每一层的每个通道的第一权值量化参数和第二权值量化参数获得对应通道的权值量化中间参数；其中，所述目标量化层包括卷积层和/或全连接层；

利用每个通道的权值量化中间参数获得对应通道的权值量化结果，所述目标量化层中的每一层的每个通道的权值量化结果构成对应层的权值量化结果；

利用所述目标量化层中的每一层的第一输入数据量化参数和第二输入数据量化参数获得对应层的输入数据量化中间参数；

利用所述目标量化层中的每一层的输入数据量化中间参数获得对应层的输入数据量化结果。

可选情况下，所述方法还包括：

对所述原始神经网络的目标量化层中的每一层采用第一量化方法、第二量化方法或第三量化方法进行处理；其中，所述目标量化层还包括所述原始神经网络的计算层中除了卷积层和/或全连接层之外的其他至少一层；

所述第一量化方法包括：

所述第二量化方法包括：

根据所述权值量化中间参数获得对应层的权值量化结果；

所述第三量化方法包括：

第十六方面，本申请实施例提供了一种神经网络量化装置，所述装置包括：

数据读取单元，用于获取原始神经网络的目标量化层的权值和输入数据；其中，所述目标量化层为所述原始神经网络的计算层中的至少一层；

量化参数确定单元，用于利用所述原始神经网络的目标量化层的权值确定对应层的权值的量化参数；利用所述原始神经网络的目标量化层的输入数据确定对应层的输入数据的量化参数；其中，所述目标量化层的权值和输入数据均采用绝对值最大值不失真原则；

量化单元，用于根据所述权值的量化参数和所述输入数据的量化参数对所述原始神经网络的目标量化层进行量化。

可选情况下，所述量化参数确定单元，具体用于获取所述目标量化层中的每一层的权值的绝对值的最大值；根据所述目标量化层中的每一层的权值的绝对值的最大值确定对应层的权值的第一量化参数和第二量化参数。

可选情况下，所述量化参数确定单元，具体用于获取所述目标量化层中的每一层的输入数据的绝对值的最大值；根据所述目标量化层中的每一层的输入数据的绝对值的最大值确定对应层的输入数据的第一量化参数和第二量化参数。

可选情况下，所述装置还包括：

处理单元，用于对所述原始神经网络的目标量化层中的每一层采用第一量化方法、第二量化方法或第三量化方法进行处理；其中，

所述第一量化方法包括：

所述第二量化方法包括：

根据所述权值量化中间参数获得对应层的权值量化结果；

所述第三量化方法包括：

可选情况下，所述装置还包括：

处理单元，用于利用所述目标量化层中的每一层的每个通道的第一权值量化参数和第二权值量化参数获得对应通道的权值量化中间参数；其中，所述目标量化层包括卷积层和/或全连接层；

可选情况下，所述处理单元，还用于对所述原始神经网络的目标量化层中的每一层采用第一量化方法、第二量化方法或第三量化方法进行处理；其中，所述目标量化层还包括所述原始神经网络的计算层中除了卷积层和/或全连接层之外的其他至少一层；

所述第一量化方法包括：

所述第二量化方法包括：

根据所述权值量化中间参数获得对应层的权值量化结果；

所述第三量化方法包括：

第十七方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第十五方面所述的方法。

第十八方面，本申请实施例提供了一种计算机可读存储介质，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行第十五方面所述的方法。

第十九方面，本申请实施例提供了一种计算机程序产品，其特征在于，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行第十五方面所述的方法。

可以看出，在如第一方面至第五方面的申请实施例中，获取网络离线模型的运行单元信息，在构建该网络离线模型时，定义各个子网络的运行参数，在运行参数中标记各个子网络的运行单元类型，从而对网络离线模型的子网络进行分类，以便在运行该网络离线模型时，将各个子网络分配给各自对应的处理器运行，实现兼容运行该网络离线模型，丰富人工智能处理装置可运行的网络离线模型的类型。

在如第六方面至第十二方面的申请实施例中，在人工智能芯片中部署了上层语言接口和深度学习框架，深度学习框架中包括容器，容器与上层语言接口连接，首先上层语言接口将第一参数写入容器中，然后深度学习框架从容器中获取第一参数，结合第一参数和深度学习框架的模块参数获得第二参数，并将第二参数传递到容器中，最后上层语言接口从容器中获取第二参数并提供给用户。因为第一参数用于描述深度学习框架的并行程度，第二参数用于监测并行运算的性能，因此这个过程通过向容器中写入第一参数，提升了深度学习框架中的并行运算效果，通过统计并获取第二参数，提升了并行运算性能的可监测性。

在如第十三方面至第十七方面的申请实施例中，将原神经网络的目标量化层执行量化得到权值的量化参数以及输入数据的量化参数，然后依据该量化参数完成目标量化层的量化。这样量化后的目标量化层在执行运算时，由于该输入数据以及权值均为量化后的数据，因此其减少了权值的存储空间以及输入数据的存储空间，并且较少比特位的运算量也相应减少，因此其具有减少运算量，提高运算速度，节省存储空间、降低功耗、节省成本的优点。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种网络离线模型的处理方法；

图2为本申请实施例提供的另一种网络离线模型的处理方法；

图3为本申请实施例提供的一种网络离线模型的人工智能装置的结构示意图；

图4为本申请实施例提供的一种网络离线模型的人工智能装置的功能单元组成框图；

图5A为本申请实施例提供的一种人工智能芯片；

图5B是申请实施例公开的一种参数处理方法流程示意图；

图6是本申请实施例提供的另一种参数处理方法流程示意图；

图7是本申请实施例提供的另一种参数处理方法流程示意图；

图8为本申请实施例提供的一种参数处理装置；

图9A是本申请实施例提供的一种组合处理装置的示意图；

图9B是本申请实施例提供的另一种组合处理装置的结构图；

图10是本申请实施例提供的一种板卡的结构示意图；

图11为一种神经网络构架的结构示意图；

图12是本申请实施例提供的一种神经网络量化方法的流程示意图；

图13A是本申请提供的卷积层的权值结构示意图；

图13B是本申请提供的卷积层的权值的一个通道的数据结构示意图；

图14是本申请一个实施例提供的量化运算装置的流程示意图；

图15是本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请中的人工智能处理装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices，简称：MID)或穿戴式设备等，上述电子设备仅是举例，而非穷举，包含但不限于上述人工智能处理装置。

首先，参阅图1，图1为本申请实施例提供的一种网络离线模型的处理方法的流程示意图，该方法应用于网络离线模型，该网络离线模型包括通用处理器和人工智能处理器，该方法包括如步骤S101～S102中所示的内容：

步骤S101、获取网络离线模型中各子网络的运行单元信息，所述运行单元信息包括子网络与运行单元类型之间的对应关系，所述运行单元类型包括通用处理单元类型或人工智能处理单元类型。

可选的，在子网络的运行单元类型为人工智能处理单元类型时，所述运行单元信息还包括该子网络的入口函数信息，该入口函数信息用于在人工智能处理单元运行该子网络时，通过该入口函数调取与该子网络对应的离线指令，通过预先编译好部分子网络的离线指令，加快了网络离线模型的运行速度。

其中，通用处理器中可以包括中央处理单元CPU(Central Processing Unit，简称：CPU)、图形处理单元GPU(Graphics Processing Unit，简称：GPU)和/或图像处理单元IPU(Image Processing Unit，简称：IPU)中的一种或几种的组合，该人工智能处理器包括机器学习处理器单元MLU(Machine Learning Processing Unit，简称：MLU)，其中，人工智能处理器可由多个MLU集成，组成为一个具有多核的人工智能处理器。

可选的，在获取网络离线模型中各子网络的运行单元信息之前，首先确定该网络离线模型的多个网络层是否可以融合，如是，将可以融合的多个网络层融合为一个子网络，将不能融合的网络层作为一个单独的子网络，在对该网络离线模型执行融合操作后，得到与该网络离线模型对应的若干个子网络。故每个子网络可以是一个单独的网络层，也可由几个网络层融合得到一个子网络，举例来说，如该网络离线模型中包含卷积层Convolution、归一化层BatchNorm以及缩放层Scale时，可以将该网络离线模型中的卷积层Convolution，归一化层BatchNorm以及缩放层Scale融合，得到一个子网络。

可选的，在将该网络离线模型融合后，获取该网络离线模型中各子网络的运行单元信息，以确定每个子网络的运行单元类型，以在构建该网络离线模型时，在与网络的运行单元类型对应的字段中定义各个子网络的运行单元类型。

步骤S102、根据所述运行单元信息，在构建的所述网络离线模型中定义子网络运行参数，得到构建后的网络离线模型，所述子网络运行参数用于表示各子网络的运行单元类型。

可选的，该人工智能装置利用预先安装的机器学习框架构建网络离线模型，下面以卷积神经网络框架caffe(Convolutional Architecture for Fast Feature Embedding，简称：caffe)为例对构建网络离线模型做具体说明。

对于caffe框架来说，生成离线文件需要两个输入，一个是包含网络信息的prototxt文件，另一个是包含已经训练好的权重和偏置的caffemodel文件。在生成离线文件时，首先caffe先调用底层库接口创建一个离线文件，然后caffe会将输入的prototxt整个网络根据每一层是否可以在人工智能处理器上运行划分为若干个子网络，然后若干子网络可以在人工智能处理器上执行。caffe框架则会调用底层库接口将该子网络编译成能在人工智能处理器上运行的离线指令。接着caffe框架通过调用底层库提供的接口将生成的离线指令保存到预先生成好的离线文件中，同时对于像卷积和全连接等需要权重的层，caffe会先从已经训练好的caffemodel中将权重和偏置数据读出并存放在相应的blob中，其中blob为caffe里面定义的一种数据结构，用于层与层之间传递数据。这些权重和偏置数据会在caffe调用底层库生成离线指令的时候一同传递给底层库，然后caffe调用底层库的相关接口将离线指令，权重以及偏置数据一起存放到离线文件中。另外，在caffe调用底层库编译子网络生成离线指令的时候，caffe可以指定当运行该子网络时可以在几个核上运行，也就是所谓的指定模型并行度，该子网络可当成一个模型。

离线文件中除了存放离线指令和权重、偏置等数据外，还会存放自定义的单元信息，每个子网络对应一个单元信息。单元信息可以通过protobuf机制生成，并且caffe可以通过调用protobuf提供的相关接口将该单元信息追加到离线文件的后面，这些信息用于后面运行离线文件时使用。

可选的，在本申请的一个实施例中，可以预先定义格式为.SegmentInfoUnit单元信息，其用于保存每个子网络的子网络运行参数。其中，该子网络运行参数包括子网络名称、运行单元类型和子网络参数信息，该子网络参数信息可以用于指示在执行该子网络时对处理器的资源调度。举例来说，子网络参数信息可以包括卷积核信息等，可以用于表示运行该子网络需要调配的人工智能处理单元的资源信息。

可选的，该单元信息还可以保存与各子网络对应的离线指令的索引标识以及计算参数的索引标识，该索引标识便于从离线文件中读取与各子网络对应的离线指令以及计算参数，然后，将该单元信息追加在该离线文件caffemodel中，以便基于该索引标识，通过caffe的底层接口从该离线文件中读取每个子网络的子网络运行参数以及与该子网络对应的离线指令以及计算参数。

其中，该计算参数为与每个子网络运算相关的参数数据，例如，当该子网络为卷积层时，该计算参数为权值和偏置，如该卷积层无偏置时，偏置为零，再如，如该子网络为激活层时，该计算参数为激活函数。

在一可能的示例中，将每个子网络的子网络运行参数保存在与每个子网络对应的数据结构中可以为：基于Protocol Buffers机制，获取预先设置的BP Message，通过Protocol Buffers机制中的编译器将每个子网络的layer(子网络中的层)中的符合该BP Message中的字段编译成二进制文件，将该二进制文件保存在格式为.SegmentInfoUnit的数据结构中。当然，Protocol Buffers机制仅为示例性说明，本申请不对保存子网络运行参数的网络信息做唯一限定。

可以看出，在本申请实施例中，通过获取子网络的运行单元信息，在构建网络离线模型时，定义每个子网络的运行参数，使构建好的离线模型的离线文件中保存有各个子网络的运行单元类型，提供了一种新型保存网络离线模型的方法；而且，基于保存的各个子网络的运行单元类型，可以由不同的运行单元来运行不同的网络层，当模型中有新的层时，通过灵活指定新增层的运行单元，可以使网络离线模型的运行更加灵活，更兼容的应用到各种人工智能装置中。

参阅图2，图2为本申请实施例提供的另一种网络离线模型的处理方法的流程示意图，该方法应用于人工智能装置，该人工智能装置可以包括通用处理器和人工智能处理器，该方法包括如步骤S201～S205中所示的内容：

步骤S201、获取网络离线模型中各子网络的运行单元信息，所述运行单元信息包括子网络与运行单元类型之间的对应关系，所述运行单元类型包括通用处理单元类型或人工智能处理单元类型。

步骤S202、根据所述运行单元信息，在构建的所述网络离线模型中定义子网络运行参数，得到构建后的网络离线模型，所述子网络运行参数用于表示各子网络的运行单元类型。

步骤S203、根据所述子网络运行参数，确定目标子网络对应的运行单元，所述目标子网络为所述网络离线模型的任一子网络。

步骤S204、在所述目标子网络对应的运行单元运行所述目标子网络，以实现运行所述网络离线模型。

可选的，将所述目标子网络在对应的运行单元上运行的实现过程可以为：通过机器学习框架的接口依次遍历该数据结构读取网络离线模型的网络运行参数，依据该网络运行参数确定执行该目标子网络的运行单元，以及与该目标子网络连接的上一个子网络以及下一个子网络的运行单元，即完成前向推理过程，指示该目标子网络的运行单元从上一个子网络的运行单元处获取输入数据，并将目标子网络的输出结果作为输入数据发送给下一个子网络的运行单元，举例来说，如该目标子网络的网络运行参数中的运行单元类型为人工智能处理单元类型，上一个子网络的运行单元类型为通用处理单元类型，下一个子网络的运行单元类型为通用处理单元类型，则指示人工智能处理单元从通用处理单元获取数据，将获取到的数据作为输入数据，并将得到的输出结果发送给通用处理单元，完成对该网络离线模型的前向推理过程，按照该网络离线模型的运行顺序运行。

可以看出，在本申请实施例中，在人工智能处理装置中设置有通用处理单元和人工智能处理单元，基于每个子网络的运行参数判断出每个子网络的运行单元，然后，由相应的运行单元运行该子网络，从而实现在人工智能处理单元不支持该子网络的运算时，由通用处理单元来运行该子网络的运算，即利用通用处理单元和人工智能处理单元协同工作，能够兼容运行所有类型的网络离线模型，从而提高网络离线模型的应用范围，而且通用处理单元和人工智能处理单元协同工作，将能在人工智能处理单元运行的网络层放到人工智能处理单元上运行，相对于将整个网络离线模型全部放在通用处理单元执行来说，加速了整个离线网络的推理过程，而且，对可以在人工智能处理单元上运行的网络层预先生成离线指令，节省了边执行边生成离线指令所消耗的时间；另外可以由通用处理单元执行网络离线模型的部分或全部运算，降低人工智能处理单元的工作压力。

在一可能的示例中，在根据所述子网络运行参数，确定目标子网络对应的运行单元的实现过程可以为：获取所述网络离线模型的模型并行度；根据人工智能处理单元调度机制、所述模型并行度和所述子网络运行参数，确定所述目标子网络对应的人工智能处理单元。

在上述可能的示例中，在确定所述目标子网络对应的人工智能处理单元时，从该网络离线模型的离线文件中读取与该目标子网络对应的离线指令，解析该离线指令，得到该离线指令中蕴含的模型并行度，依据该模型并行度，得到运行该目标子网络时所需的人工智能处理单元的数量，获取人工智能处理单元的调度机制，依据该调度机制从人工智能处理器中调配与该数量对应的多个人工智能处理单元，将与该数量对应的多个人工智能处理单元指定为运行该目标子网络的人工智能处理单元，将与该子网络对应的离线指令以及计算参数分发给该多个人工智能处理单元，以完成该目标子网络的运算。在本示例中，可预先设定每个子网络的模型并行度，即指定运行该子网络所需的人工智能处理单元的数量，以便在人工智能处理器上，实现多核人工智能处理单元共同执行与该子网络对应的运算，提高该子网络的运行速度。

在一可能的示例中，当每个人工智能处理单元中有多个处理线程时，即每个人工智能处理单元中包含多个数据传输通道时，所述将所述目标子网络在对应的运行单元上执行，以运行所述网络离线模型的实现过程可以为：获取调用底层库时的接口指令；解析该接口指令，得到该接口指令中包含的通道标识；根据所述通道标识确定所述人工智能处理单元传输数据的通道；通过所述通道将所述目标子网络在所述人工智能处理单元上运行，以运行所述网络离线模型。在本示例中，每个目标人工智能处理单元包含多个数据传输通道，在调用底层库时，通过接口指令指定相应的通道向目标人工智能处理单元传输离线指令以及计算参数，从而加快该人工智能处理单元的读写速度，加速网络离线模型的推理过程。

参阅图3，图3为本申请实施例提供的一种网络离线模型的人工智能装置的结构示意图，如图3所示，该人工智能装置300包括通用处理器和人工智能处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序不同于上述一个或多个应用程序，且上述一个或多个程序被存储在上述存储器中，并且被配置给上述处理器执行，上述程序包括用于执行以下步骤的指令：

其中，各子网络包括融合后的多个网络层；

其中，子网络运行参数包括子网络名称、运行单元类型信息和子网络参数信息。

在一可能的示例中，上述程序还包括用于执行以下步骤的指令：

执行所述构建后的网络离线模型，具体包括用于执行以下步骤的指令：

根据所述子网络运行参数，确定目标子网络对应的运行单元，所述目标子网络为所述网络离线模型的任一子网络；

在所述目标子网络对应的运行单元运行所述目标子网络，以实现运行所述网络离线模型。

在一可能的示例中，若所述目标子网络对应的运行单元为人工智能处理单元，在根据所述子网络运行参数，确定目标子网络对应的运行单元时，上述程序具体包括用于执行以下步骤的指令：

获取所述网络离线模型的模型并行度；

根据人工智能处理单元调度机制、所述模型并行度和所述子网络运行参数，确定所述目标子网络对应的人工智能处理单元。

在一可能的示例中，若所述目标子网络对应的运行单元为人工智能处理单元，在所述目标子网络对应的运行单元运行所述目标子网络，以实现运行所述网络离线模型时，上述程序具体包括用于执行以下步骤的指令：

在调用底层库接口时，获取从所述底层接口传入的通道标识；

根据所述通道标识确定所述人工智能处理单元传输数据的通道；

通过所述通道将所述目标子网络在所述人工智能处理单元上执行，以运行所述网络离线模型。

参阅图4，图4示出了上述实施例中所涉及的网络离线模型的人工智能装置400的一种可能的功能单元组成框图，人工智能装置400包括：获取模块410、构建模块420；

获取模块410，用于获取网络离线模型中各子网络的运行单元信息，所述运行单元信息包括子网络与运行单元类型之间的对应关系，所述运行单元类型包括通用处理单元类型或人工智能处理单元类型；

构建模块420，用于根据所述运行单元信息，在构建的所述网络离线模型中定义子网络运行参数，得到构建后的网络离线模型，所述子网络运行参数用于表示各子网络的运行单元类型。

其中，各个子网络包括融合后的多个网络层。

其中，所述子网络运行参数包括子网络名称、运行单元类型信息和子网络参数信息。

在一可能的示例中，人工智能装置400还包括：执行模块430；

执行模块430，用于运行所述构建后的网络离线模型，具体用于：

在一可能的示例中，若所述目标子网络对应的运行单元为人工智能处理单元，在根据所述子网络运行参数，确定目标子网络对应的运行单元方面，执行模块430具体用于：

获取所述网络离线模型的模型并行度；

在一可能的示例中，若所述目标子网络对应的运行单元为人工智能处理单元，在所述目标子网络对应的运行单元运行所述目标子网络，以实现运行所述网络离线模型方面，执行模块430具体用于：

通过所述通道将所述目标子网络在所述人工智能处理单元上运行，以运行所述网络离线模型。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于存储计算机程序，其中，该计算机程序被处理器执行，以实现如上述方法实施例中记载的任何一种离线模型的处理方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种离线模型的处理方法的部分或全部步骤。

另外，随着人工智能行业的发展，越来越多的深度学习框架被大家再开发和使用。而在深度学习框架配套人工智能芯片开发使用过程中，通常需要用户对框架设定一些参数来达到更好的计算效果，或者获得框架中的一些参数来监测框架的运行状态。

目前深度学习框架没有针对人工智能芯片相关的参数设定机制和方式，导致用户无法针对人工智能芯片进行参数设定或芯片运行相关数据的获取。如何对这一现状进行改进成了亟待解决的问题。

有鉴于此，本公开的目的在于提供一种参数处理方法及相关产品，通过新增容器，然后将用于描述深度学习框架并行程度的第一参数写入容器中，再将容器中的第一参数与深度学习框架其他模块结合获得用于监测并行运算性能的第二参数，提升了深度学习框架的计算效果，同时增加了并行运算性能的可监测性。

请参阅图5A，图5A为本申请实施例提供的一种人工智能芯片，如图5A所示，人工智能芯片10包括上层语言接口101和深度学习框架100，上层语言接口用于接入编程语言，深度学习框架中包括容器和其他深度学习框架的模块，容器能够与深度学习框架的模块进行数据交互，深度学习框架的模块包括有graph executor模块、各个算子模块以及engine模块等。可选的，上层语言接口101也可以部署在其他芯片或装置上，其他芯片或装置与人工智能芯片连接，两者之间也能进行信息交互。另外，人工智能芯片10也可以包括底层库模块102，底层库模块包括底层运行时库和驱动模块等。深度学习框架100中还包括载体，用于进行容器与深度学习框架其他模块或者底层库模块之间的数据传递。

请参阅图5B，图5B是申请实施例公开的一种参数处理方法流程示意图，本参数处理方法应用于如图5A所示的人工智能芯片，如图5B所示，本方法具体包括如下步骤：

S111、所述上层语言接口将第一参数写入容器中，其中所述第一参数用于描述所述深度学习框架的并行程度。

深度学习框架是用于进行深度学习项目的代码框架，目前流行的深度学习框架包括Tensorflow、Caffe、Theano、MXNet、Torch和PyTorch等。接口是***中两个独立的部件进行信息交换的共享边界。上层语言接口与深度学习框架是两个独立部件，因此它们之间存在接口，用于进行信息交互。上层语言例如Python，R语言等，都能够用于深度学习中，常规情况下，上层语言接口与深度学习框架直接连接。但是，这个接口中缺少相关的参数设定机制，使得用户无法对人工智能芯片进行参数设定和参数获取，因此，在上层语言接口的下层新增容器，用于进行参数设定和相关数据的获取。对于在容器中进行参数设定和参数获取的参数数据字段，可以在容器中新增，也可以在其他模块新增，然后指定参数设定和参数获取的位置为容器位置。

容器是用于存放数据的类或结构体，属于深度学习框架中的一个模块。深度学习框架中的容器可以是深度学习框架中的原生类或结构体，然后在该类或结构体中新增用于进行参数设定和参数获取的字段，例如graphexecutor类。或者，深度学习框架中的容器也可以是用户为人工智能芯片中的参数处理方法独立创建的类或结构，例如mludevice设备类。

可选的，该方法还包括：所述容器中包括参数数据字段，所述参数数据字段用于指向第一参数和第二参数。

具体地，在容器中创建参数数据字段之前，整个人工智能芯片中没有关于第一参数和第二参数的数据字段，因此也就无法进行第一参数的设定和第二参数的获取。在容器中创建涉及第一参数和第二参数的参数数据字段，用于指示第一参数和第二参数的获取方式、与其他模块或接口的交互方式，以及数据存储位置等，也便于对第一参数和第二参数进行管理。另外，也可以在别的位置创建参数数据字段，但是通过容器进行数据存储。

可选的，第一参数包括数据并行度和模型并行度。

可选的，该实施例中的深度学习框架为MXNet深度学习框架。

数据并行(data parallelism或data parallel processing，DP)是指不同内核或处理单元对数据进行并行处理，数据并行度是指对数据进行并行处理时，并行执行的最大数目；模型并行(model parallelism或model parallel processing，MP)是指一个算子或模型在多个内核上进行并行处理，模型并行度是指对模型或算子进行并行处理时，并行执行的最大数目。当MXNet深度学习框架在人工智能芯片上运行时，运算量庞大，为了减少运算时间，提高运算效率，需要采用DP或MP，或者同时采用两种并行运算。而为了达到更好的运算效果，需要对数据并行度和模型并行度进行设置，一方面要使设置的并行度参数能够与人工智能芯片的硬件基础相匹配，另一方面，当输入数据的规模、稀疏度或者其他特征不同时，也需要设置不同的并行度参数。将设定的数据并行度和/或模型并行度通过编程语言写入，然后通过上层语言接口注入容器中，即完成第一参数的设定。

MXNet是一个深度学习框架，支持C++，Python，R，Scala，Julia，Matlab以及JavaScript等语言，支持命令和符号编程，可以运行在包括人工智能芯片的任何硬件上，是目前最优秀的深度学习框架之一。因此采用MXNet深度学习框架能够很好地与本申请实施例的方法相结合，完成第一参数的设置和第二参数的获取。

S112、所述深度学习框架从所述容器中获取所述第一参数，将所述第一参数与所述深度学习框架的模块数据进行交互，获得第二参数，并将所述第二参数传递到所述容器中，所述第二参数用于监测所述第一参数描述的深度学习框架的并行运算的性能。

第一参数设定完成并注入容器中后，深度学习框架的模块从容器中获取第一参数，深度学习框架的模块包括graph executor模块、各个算子模块以及engine模块等。例如各个算子模块如果需要进行并行运算，则需要获取第一参数，然后根据第一参数结合算子模块中的其他参数，例如数据尺寸等，即可获得第二参数，第二参数是用于监测并行运算性能的参数，获得的第二参数需要传回容器中。

可选的，第二参数包括通道消失时间和通道消失时间总和。

可选的，将第一参数与深度学习框架的模块数据进行交互，获得第二参数，包括：将数据并行度传递到深度学习框架的模块进行数据交互，获得数据并行度对应的通道消失时间(CET)和通道消失时间总和(CETS)；将模型并行度传递到深度学习框架的模块进行数据交互，获得数据并行度对应的CET和CETS，其中CETS和CET用于统计算子的计算时间。

具体地，在深度学习框架采用DP或MP时，都有多个并行通道，通道消失时间(Channel Elapsed Time，CET)和通道消失时间总和(Channel Elapsed Time Sum，CETS)，都是用来描述多个并行通道进行并行运算的性能参数，用于统计算子的计算时间。将根据第一参数和深度学习框架的模块获得的单个模块或者整个深度学习框架的第二参数传递到容器中，即完成第二参数的获取。

S113、所述上层语言接口从所述容器中获取第二参数。

上层语言接口与容器能够从容器中获取第二参数并进行暴露，那么第二参数对于用户来说是可见的，用户可以通过第二参数监测深度学习框架的运算性能，进而可以通过修改第一参数或其他参数对第二参数进行调整或改进，提升深度学习框架的运算效果。

可选的，深度学习框架还包括载体，该方法还包括：容器与深度学习框架的模块通过载体进行数据传递交互。

载体是深度学习框架中用来进行数据传递交互的类或结构体，容器与深度学习的其他模块没有直接关联，即可通过载体进行数据传递。例如MXNet框架中的载体可以是算子的上下文类OpContext，容器在注入第一参数后，可以将第一参数赋值给载体，载体再将第一参数传递给深度学习框架的模块。同样的，第二参数也可以由载体从深度学习框架的模块传递到容器。

可选的，人工智能芯片还包括底层库模块，该方法还包括：通过所述载体进行所述容器与所述底层库模块之间的参数传递交互，所述参数包括第一参数和第二参数。

具体地，底层库模块包括底层运行时库和驱动模块等，这些底层库的参数也可能影响到深度学习框架的并行性能或其他性能，因此容器也可以通过载体与底层库模块进行数据交互，以便获取并行运算性能参数或其他性能参数。

可见，在本申请实施例中，人工智能芯片中部署了上层语言接口和深度学习框架，深度学习框架中包括容器，容器与上层语言接口连接，首先上层语言接口将第一参数写入容器中，然后深度学习框架从容器中获取第一参数，结合第一参数和深度学习框架的模块参数获得第二参数，并将第二参数传递到容器中，最后上层语言接口从容器中获取第二参数并提供给用户。因为第一参数用于描述深度学习框架的并行程度，第二参数用于监测并行运算的性能，因此这个过程通过向容器中写入第一参数，提升了深度学习框架中的并行运算效果，通过统计并获取第二参数，提升了并行运算性能的可监测性。

与上述一致的，请参阅图6，图6是本申请实施例提供的另一种参数处理方法流程示意图，如图6所示，所述参数处理方法包括：

S211、在容器中创建人工智能芯片相关的参数数据字段，所述参数数据字段涉及第一参数和第二参数；

S212、上层语言接口将所述第一参数注入所述容器中，其中所述第一参数用于描述所述深度学习框架的并行程度；

S213、所述深度学习框架还包括载体，所述深度学习框架从所述容器中获取所述第一参数，通过所述载体将所述第一参数与深度学习框架的模块数据进行交互，获得第二参数；

S214、所述深度学习框架通过所述载体将所述第二参数传递到所述容器中，所述第二参数用于监测并行运算的性能；

S215、人工智能芯片还包括底层库模块，所述容器与所述底层库模块通过所述载体进行参数的传递交互，所述参数包括第一参数和第二参数。

其中，上述S211-S215的具体描述可以参照S111-S113所描述的参数处理方法的相应描述，在此不再赘述。

可见本申请实施例中，通过在深度学习框架中新增容器，然后通过载体进行深度学习框架和容器之间的参数交互，以及底层库模块与容器之间的参数交互，因为第一参数用于描述深度学习框架的并行程度，第二参数用于监测并行运算的性能，因此这个过程通过向容器中写入第一参数，提升了深度学习框架中的并行运算效果，通过统计并获取第二参数，提升了并行运算性能的可监测性。

与上述一致的，请参阅图7，图7是本申请实施例提供的另一种参数处理方法流程示意图，如图7所示，所述参数处理方法包括：

S311、设定数据并行度，所述数据并行度用于描述不同内核处理数据的不同部分时，并行执行的最大数目；

S312、设定模型并行度，所述模型并行度用于描述一个算子或模型在多个内核上进行运算时，并行执行的最大数目；

S313、通过所述上层语言接口将所述数据并行度和/或所述模型并行度注入所述容器中；

S314、将所述数据并行度传递到深度学习框架的模块进行数据交互，获得所述数据并行度对应的CET和CETS，所述CETS和所述CET用于统计算子的计算时间；

S315、将所述模型并行度传递到深度学习框架的模块进行数据交互，获得所述数据并行度对应的CET和CETS；

S316、将所述数据并行度和/或所述模型并行度对应的CETS和CET传递到所述容器中；

S317、所述上层语言接口从所述容器中获取所述数据并行度和/或所述模型并行度对应的CETS和CET。

其中，上述步骤S311-步骤S317的具体描述可以参照S111-S113所描述的参数处理方法的相应描述，在此不再赘述。

可见本申请实施例中，通过在深度学习框架中新增容器，然后通过载体进行深度学习框架和容器之间的参数交互，以及底层库模块与容器之间的参数交互，通过设置数据并行度和/或所述模型并行度，提升了深度学习框架中的并行运算效果，通过统计并获取第二参数，通过获取CETS和CET提升了并行运算性能的可监测性。

请参阅图8，图8为本申请实施例提供的一种参数处理装置，应用于如图5A所示的人工智能芯片，如图8所示，本参数处理装置410包括：

写入模块411，用于通过所述上层语言接口将第一参数写入容器中，其中所述第一参数用于描述所述深度学习框架的并行程度；

计算模块412，用于通过所述深度学习框架从所述容器中获取所述第一参数，将所述第一参数与所述深度学习框架的模块的数据进行交互，获得第二参数，并将所述第二参数传递到所述容器中，所述第二参数用于监测并行运算的性能；

获取模块413，用于通过所述上层语言接口从所述容器中获取第二参数。

其中，上述参数处理装置的具体描述可以参照S111-S113所描述的参数处理方法的相应描述，在此不再赘述。

可见，在本申请实施例的参数处理装置中，首先上层语言接口将第一参数写入容器中，然后深度学习框架从容器中获取第一参数，结合第一参数和深度学习框架的模块参数获得第二参数，并将第二参数传递到容器中，最后上层语言接口从容器中获取第二参数并提供给用户。因为第一参数用于描述深度学习框架的并行程度，第二参数用于监测并行运算的性能，因此这个过程通过向容器中写入第一参数，提升了深度学习框架中的并行运算效果，通过统计并获取第二参数，提升了并行运算性能的可监测性。

在一种可选的实施例中，所述写入模块还用于：

在所述容器中包括参数数据字段，所述参数数据字段用于指向第一参数和第二参数。

在一种可选的实施例中，所述第一参数包括数据并行度和模型并行度。

在一种可选的实施例中，所述第二参数为通道消失时间和通道消失时间总和。

在一种可选的实施例中，所述计算模块具体用于：

在一种可选的实施例中，所述深度学习框架为MXNet深度学习框架。

在一种可选的实施例中，所述深度学习框架还包括载体，所述计算模块还用于：

在一种可选的实施例中，所述人工智能芯片还包括底层库模块，所述计算模块还用于：

在一种可选的实施例中，所述容器包括所述深度学习框架中的原生类或结构体，或者针对所述人工智能芯片在所述深度学习框架中独立创建的类或结构体。

本申请还揭露了一个组合处理装置，其包括上述的参数处理装置，通用互联接口，和其他处理装置。参数处理装置与其他处理装置进行交互，共同完成用户指定的操作。图9A为组合处理装置的示意图。

其他处理装置，包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为参数处理装置与外部数据进行交互控制的接口，实现例如数据搬运等功能，完成对本参数处理装置的开启、停止等基本控制；其他处理装置也可以和参数处理装置协作共同完成运算任务。

通用互联接口，用于在所述参数处理装置与其他处理装置间传输数据和控制指令。该参数处理装置从其他处理装置中获取所需的输入数据，写入参数处理装置片上的存储装置；可以从其他处理装置中获取控制指令，写入参数处理装置片上的控制缓存；也可以读取参数处理装置的存储模块中的数据并传输给其他处理装置。

可选的，如图9B所示的另一种组合处理装置的结构图，还可以包括存储装置，存储装置分别与所述参数处理装置和所述其他处理装置连接。存储装置用于保存所述参数处理装置和所述其他处理装置的数据，尤其适用于在本参数处理装置或其他处理装置的内部存储中无法全部保存的运算数据。

该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上***，有效降低控制部分的核心面积，提高处理速度，降低整体功耗。此情况时，该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口。

在一些实施例里，还申请了一种芯片，其包括了上述参数处理装置。

在一些实施例里，申请了一种芯片封装结构，其包括了上述芯片。

在一些实施例里，申请了一种板卡，其包括了上述芯片封装结构。参阅图10，图10提供了一种板卡，上述板卡除了包括上述芯片以外，还可以包括其他的配套部件，该配套部件包括但不限于：存储器件710、接收装置720和控制器件730；

所述存储器件710与所述芯片封装结构内的芯片通过总线连接，用于存储数据。所述存储器件可以包括多组存储单元711。每一组所述存储单元与所述芯片通过总线连接。可以理解，每一组所述存储单元可以是DDR SDRAM(英文：Double Data Rate SDRAM，双倍速率同步动态随机存储器)。

DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。在一个实施例中，所述存储装置可以包括4组所述存储单元。每一组所述存储单元可以包括多个DDR4颗粒(芯片)。在一个实施例中，所述芯片内部可以包括4个72位DDR4控制器，上述72位DDR4控制器中64bit用于传输数据，8bit用于ECC校验。可以理解，当每一组所述存储单元中采用DDR4-3200颗粒时，数据传输的理论带宽可达到25600MB/s。

在一个实施例中，每一组所述存储单元包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在所述芯片中设置控制DDR的控制器，用于对每个所述存储单元的数据传输与数据存储的控制。

所述接口装置与所述芯片封装结构内的芯片电连接。所述接口装置用于实现所述芯片与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中，所述接口装置可以为标准PCIE接口。比如，待处理的数据由服务器通过标准PCIE接口传递至所述芯片，实现数据转移。优选的，当采用PCIE 3.0X 16接口传输时，理论带宽可达到16000MB/s。在另一个实施例中，所述接口装置还可以是其他的接口，本申请并不限制上述其他的接口的具体表现形式，所述接口单元能够实现转接功能即可。另外，所述芯片的计算结果仍由所述接口装置传送回外部设备(例如服务器)。

所述控制器件与所述芯片电连接。所述控制器件用于对所述芯片的状态进行监控。具体的，所述芯片与所述控制器件可以通过SPI接口电连接。所述控制器件可以包括单片机(Micro Controller Unit，MCU)。如所述芯片可以包括多个处理芯片、多个处理核或多个处理电路，可以带动多个负载。因此，所述芯片可以处于多负载和轻负载等不同的工作状态。通过所述控制装置可以实现对所述芯片中多个处理芯片、多个处理核或多个处理电路的工作状态的调控。

在一些实施例里，申请了一种电子设备，其包括了上述板卡。

电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

另外，神经网络在***辨识、模式识别、智能控制等领域有着广泛而吸引人的前景，特别在智能控制中，人们对神经网络的自学习功能尤其感兴趣，并且把神经网络这一重要特点看作是解决自动控制中控制器适应能力这个难题的关键钥匙之一。

现有的神经网络构架均是基于多比特的构架，例如目前常用的32Bit构架，现有的神经网络构架的数据占用的比特位较多，需要较高的存储空间以及处理带宽，提高了成本。

有鉴于此，本申请实施例提供了一种神经网络量化方法及相关产品，可降低神经网络构架的比特位数，降低存储空间以及处理带宽，降低成本。

参阅图11，图11提供了一种神经网络构架示意图，如图11所示，神经网络构架可以包括多层结构，该多层结构如图11所示，可以包括：输入层、卷积层1、批规范化(batchnorm)层、卷积层2、中间层(依据不同功能的神经网络构架具有不同的中间层，该中间层可以为至少一层)、卷积层n、全连接层1、激活(例如激活函数：softmax)层。对于神经网络构架，对于计算量较大的层可以称为计算层，例如卷积层、全连接层等等，当然在实际应用中，上述计算层还可以包含其他类型的层，另外，本申请提供的图11中的神经网络构架仅仅是为了举例说明，本申请中的神经网络并不局限如图11所示的构架。

参阅图12，图12提供了一种神经网络量化方法，该方法可以在如图11所示的神经网络构架下实现，当然在实际应用中，也可以在其他的神经网络构架下实现，如图12所示的方法并不限制神经网络构架的结构。如图12所示的方法可以由神经网络芯片执行，当然在实际应用中，也可以采用通用芯片或包含芯片的电子设备来实现，该通用芯片例如中央处理器CPU，图形处理器GPU等等。该方法如图12所示，包括如下步骤：

步骤S221、获取原始神经网络的目标量化层的权值和输入数据；其中，所述目标量化层为所述原始神经网络的计算层中的至少一层；

上述步骤S221中的原始神经网络可以为已知的神经网络，例如已完成训练的神经网络模型，该神经网络模型包含输入层的输入数据。

上述至少一层具体可以包括一层或多层。

可选的，上述计算层可以包括：卷积层、全连接层、LRN归一化层，反卷积层、Reorg层，Normalize归一化层中的至少一种。当然在实际应用中，上述计算层还可以是其他层，本申请并不局限计算层的具体表现形式。

步骤S222、利用所述原始神经网络的目标量化层的权值确定对应层的权值的量化参数；利用所述原始神经网络的目标量化层的输入数据确定对应层的输入数据的量化参数；

上述步骤S222在确定量化参数时，采用绝对值最大值不失真原则，即目标量化层的权值和输入数据均采用绝对值最大值不失真原则。

步骤S223、根据所述权值的量化参数和所述输入数据的量化参数对所述原始神经网络的目标量化层进行量化。

上述步骤S223的实现方法具体可以包括：将该权值的量化参数以及输入数据的量化参数存储至该目标量化层的ini配置文件内，如该目标量化层为神经网络的第一层，上述ini配置文件还可以包括：均值和方差。

本申请提供的技术方案将原神经网络的目标量化层执行量化得到权值的量化参数以及输入数据的量化参数，然后依据该量化参数完成目标量化层的量化。这样量化后的目标量化层在执行运算时，由于该输入数据以及权值均为量化后的数据，因此其减少了权值的存储空间以及输入数据的存储空间，并且较少比特位的运算量也相应减少，因此其具有减少运算量，提高运算速度，降低功耗的优点。

可选的，上述利用所述原始神经网络的目标量化层的权值确定对应层的权值的量化参数具体可以包括：

获取所述目标量化层中的每一层的权值的绝对值的最大值，根据所述目标量化层中的每一层的权值的绝对值的最大值确定对应层的权值的第一量化参数和第二量化参数。

上述权值的绝对值的最大值具体可以为：权值的所有元素中绝对值最大的值，例如权值包含5个元素，其值分别为α1、α2、α3、α4、α5，则权值的绝对值的最大值为|α1|、|α2|、|α3|、|α4|、|α5|中的最大值。

可选的，上述利用所述原始神经网络的目标量化层的输入数据确定对应层的输入数据的量化参数的具体可以包括：

上述输入数据的绝对值的最大值具体可以为：输入数据的所有元素中绝对值最大值。

可选的，上述方法还可以包括：

对所述原始神经网络的目标量化层中的每一层采用第一量化方法、第二量化方法或第三量化方法进行处理，具体可以包括：对目标量化层中的每一层的权值采用第一量化方法、第二量化方法或第三量化方法进行处理得到权值量化结果，当然还可以包括：对目标量化层中的每一层的输入数据采用第一量化方法、第二量化方法或第三量化方法进行处理得到输入数据量化结果。

其中，

上述第一量化方法可以包括：利用所述目标量化层中的每一层的权值的第一量化参数将对应层的权值进行量化，获得对应层的权值量化结果；利用所述目标量化层中的每一层的输入数据的第一量化参数将对应层的输入数据进行量化，获得对应层的输入数据量化结果。

该第一量化方法具体可以为：

fp32的数据＝fix8的数据*2 ^position

其中，fp32的数据可以为权值或输入数据的一个元素值，fix8数据可以为该一个元素值的权值量化结果或输入数据量化结果的对应量化值，position可以为第一量化参数。position表达式为：

其中，abs_max权值的最大绝对值，由于fix8数据为8比特数据，有8位，其中一位是符号位，整数位占7位，小数位占0位，表示的整数最大值为2 ⁷-1，计算position时取127。

上述第二量化方法可以包括：

利用所述目标量化层中的每一层的权值的第一量化参数和第二量化参数获得对应层的权值量化中间参数；根据所述权值量化中间参数获得对应层的权值量化结果；利用所述目标量化层中的每一层的输入数据的第一量化参数和第二量化参数获得对应层的输入数据量化中间参数；根据输入数据量化中间参数获得对应层的输入数据量化结果。

该第二量化方法具体可以为：

fp32的数据＝fix8的数据/new_scale

其中，new_scale＝2 ^-position*scale；scale＝127*2 ^position/abs_max。

上述new_scale可以为量化中间参数，scale可以为第二量化参数；当该fp32的数据为权值的一个元素值时，该new_scale可以为权值量化中间参数，当该fp32的数据为输入数据的一个元素值时，该new_scale可以为输入数据量化中间参数。

可选的，上述第三量化方法包括：

利用所述目标量化层中的每一层的权值的第一量化参数和第二量化参数获得对应层的权值量化结果；利用所述目标量化层中的每一层的输入数据的第一量化参数和第二量化参数获得对应层的输入数据量化结果。

上述第三量化方法具体可以为：

fp32的数据＝(fix8的数据*2 ^position)/scale。

上述第一量化方法、第二量化方法、第三量化方法在实际应用中，芯片可以依据实际情况进行选择，即在同一层的输入数据的量化方法可以采用第一量化方法，权值的量化方法可以采用第二量化方法或第三量化方法，当然在实际应用中，还可以采用其他的三种量化方法的组合方式，本申请并不局限上述输入数据以及权值的量化具体采用哪种方法。

可选的，上述方法还可以包括：

利用所述目标量化层中的每一层的每个通道的第一权值量化参数和第二权值量化参数获得对应通道的权值量化中间参数；其中，所述目标量化层包括卷积层和/或全连接层，利用每个通道的权值量化中间参数获得对应通道的权值量化结果，所述目标量化层中的每一层的每个通道的权值量化结果构成对应层的权值量化结果；

利用所述目标量化层中的每一层的第一输入数据量化参数和第二输入数据量化参数获得对应层的输入数据量化中间参数；利用所述目标量化层中的每一层的输入数据量化中间参数获得对应层的输入数据量化结果。

上述目标量化层中的每一层的每个通道可以包含该层的权值或输入数据的一个数据块，该目标量化层以卷积层为例，该权值可以为如图13A所示四维数据M、KH、KW、C，该卷积层的每个通道可以包含如图13A所示的一个三维数据块KH、KW、C(如图13B所示)，每个数据块对应一个position和一个scale，那么该卷积层有n个通道，就有n个数据块，该卷积层的权值就对应n个position和n个scale。根据new_scale＝2 ^-position*scale能够获得n个new_scale作为权值量化中间参数，然后编译器利用n个new_scale进行转换，获得n个position’和n个scale’，从n个position’中选取最大值对n个scale’进行补偿，最后利用下式获取每个数据块的权值量化结果。公式为：

fp32的数据＝(fix8的数据*2 ^{position′-max})/scale″。

上式中，positio n′-max为n个position’中选取的最大值，scale″为对scale’补偿结果。

将每个数据块对应的权值量化结果组成当前卷积层的权值量化结果。对于当前卷积层来说，不管有多少个通道或者多少个数据块，有且仅有一个输入数据，那么就对应1个position和1个scale。根据new_scale＝2 ^-position*scale能够获得1个new_scale作为输入数据量化中间参数。根据fp32的数据＝fix8的数据/new_scale最终获得输入数据量化结果。

上述目标量化层为全连接层和/或卷积层时，该神经网络的其他层的量化还可以采用上述第一量化方法、第二量化方法或第三量化方法来进行量化。

参阅图14，图14一种神经网络量化装置，所述装置包括：

数据读取单元421，用于获取原始神经网络的目标量化层的权值和输入数据；其中，所述目标量化层为所述原始神经网络的计算层中的至少一层；

量化参数确定单元422，用于利用所述原始神经网络的目标量化层的权值确定对应层的权值的量化参数；利用所述原始神经网络的目标量化层的输入数据确定对应层的输入数据的量化参数；其中，所述目标量化层的权值和输入数据均采用绝对值最大值不失真原则；

量化单元423，用于根据所述权值的量化参数和所述输入数据的量化参数对所述原始神经网络的目标量化层进行量化。

可选的，上述量化参数确定单元422，具体用于获取所述目标量化层中的每一层的权值的绝对值的最大值；根据所述目标量化层中的每一层的权值的绝对值的最大值确定对应层的权值的第一量化参数和第二量化参数。

可选的，上述量化参数确定单元422，具体用于获取所述目标量化层中的每一层的输入数据的绝对值的最大值；根据所述目标量化层中的每一层的输入数据的绝对值的最大值确定对应层的输入数据的第一量化参数和第二量化参数。

可选的，装置还包括：

处理单元424，用于对所述原始神经网络的目标量化层中的每一层采用第一量化方法、第二量化方法或第三量化方法进行处理；其中，

所述第一量化方法包括：

所述第二量化方法包括：

根据所述权值量化中间参数获得对应层的权值量化结果；

所述第三量化方法包括：

可选的，处理单元424，用于利用所述目标量化层中的每一层的每个通道的第一权值量化参数和第二权值量化参数获得对应通道的权值量化中间参数；其中，所述目标量化层包括卷积层和/或全连接层，

可选的，处理单元424，还用于对所述原始神经网络的目标量化层中的每一层采用第一量化方法、第二量化方法或第三量化方法进行处理；其中，所述目标量化层还包括所述原始神经网络的计算层中除了卷积层和/或全连接层之外的其他至少一层；

所述第一量化方法包括：

所述第二量化方法包括：

根据所述权值量化中间参数获得对应层的权值量化结果；

所述第三量化方法包括：

上述第一量化方法、第二量化方法以及第三量化方法的具体实现方法可以参见如图2所示的方法实施例的描述，这里不在赘述。

参阅图15，图15提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如图12所示的方法以及细化方案。

上述处理器具体可以为通用处理器，例如中央处理器CPU、图像处理器GPU，当然在实际应用中，上述处理器还可以为神经网络专用处理器，例如脉冲阵列机、机器学习处理器等等，当然上述处理器还可以为通用处理器与神经网络专用处理器结合的处理器，本申请并不局限上述处理器的具体表现形式。

上述电子设备可以包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

上述交通工具包括飞机、轮船和/或车辆；上述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

本申请实施例还提供一种计算机可读存储介质，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如图12所示的方法以及细化方案。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如图12所示的方法以及细化方案。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种网络离线模型的处理方法，其特征在于，所述方法包括：

获取网络离线模型中各子网络的运行单元信息，所述运行单元信息包括子网络与运行单元类型之间的对应关系，所述运行单元类型包括通用处理单元类型或人工智能处理单元类型；

根据所述运行单元信息，在构建的所述网络离线模型中定义子网络运行参数，得到构建后的网络离线模型，所述子网络运行参数用于表示各子网络的运行单元类型。
根据权利要求1所述的方法，其特征在于，各子网络包括融合后的多个网络层。
根据权利要求1所述的方法，其特征在于，所述子网络运行参数包括子网络名称、运行单元类型信息和子网络参数信息。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

执行所述构建后的网络离线模型，具体包括：

根据所述子网络运行参数，确定目标子网络对应的运行单元，所述目标子网络为所述网络离线模型的任一子网络；

在所述目标子网络对应的运行单元运行所述目标子网络，以实现执行所述网络离线模型。
根据权利要求4所述的方法，其特征在于，若所述目标子网络对应的运行单元为人工智能处理单元，所述根据所述子网络运行参数，确定目标子网络对应的运行单元，包括：

获取所述网络离线模型的模型并行度；

根据人工智能处理单元调度机制、所述模型并行度和所述子网络运行参数，确定所述目标子网络对应的人工智能处理单元。
根据权利要求4所述的方法，其特征在于，若所述目标子网络对应的运行单元为人工智能处理单元，所述在所述每一个子网络对应的运行单元运行所述每一个子网络，以实现运行所述网络离线模型，包括：

在调用底层库接口时，获取从所述底层接口传入的通道标识；

根据所述通道标识确定所述人工智能处理单元传输数据的通道；

通过所述通道将所述目标子网络在所述人工智能处理单元上执行，以运行所述网络离线模型。
一种人工智能处理装置，其特征在于，所述装置包括：

获取模块，用于获取网络离线模型中各子网络的运行单元信息，所述运行单元信息包括子网络与运行单元类型之间的对应关系，所述运行单元类型包括通用处理单元类型或人工智能处理单元类型；

构建模块，用于根据所述运行单元信息，在构建的所述网络离线模型中定义子网络运行参数，得到构建后的网络离线模型，所述子网络运行参数用于表示各子网络的运行单元类型。
根据权利要求7所述的装置，其特征在于，各个子网络包括融合后的多个网络层。
根据权利要求7所述的装置，其特征在于，所述子网络运行参数包括子网络名称、运行单元类型信息和子网络参数信息。
根据权利要求7所述的装置，其特征在于，所述装置还包括：执行模块；

所述执行模块，用于执行所述构建后的网络离线模型，具体用于：

根据所述子网络运行参数，确定目标子网络对应的运行单元，所述目标子网络为所述网络离线模型的任一子网络；

在所述目标子网络对应的运行单元运行所述目标子网络，以实现运行所述网络离线模型。
根据权利要求10所述的装置，其特征在于，若所述目标子网络对应的运行单元为人工智能处理单元，在根据所述子网络运行参数，确定目标子网络对应的运行单元，所述执行模块，具体用于：

获取所述网络离线模型的模型并行度；

根据人工智能处理单元调度机制、所述模型并行度和所述子网络运行参数，确定所述目标子网络对应的人工智能处理单元。
根据权利要求10所述的装置，其特征在于，若所述目标子网络对应的运行单元为人工智能处理单元，在所述目标子网络对应的运行单元运行所述目标子网络，以实现运行所述网络离线模型方面，所述执行模块，具体用于：

在调用底层库接口时，获取从所述底层接口传入的通道标识；

根据所述通道标识确定所述人工智能处理单元传输数据的通道；

通过所述通道将所述目标子网络在所述人工智能处理单元上执行，以运行所述网络离线模型。
一种计算机设备，包括存储器、处理器，所述存储器上存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
一种组合处理装置，其特征在于，所述组合处理装置包括如权利要求7所述的人工智能处理装置，通用互联接口和其它处理装置；

所述人工智能处理装置与所述其它处理装置进行交互，共同完成用户指定的计算操作。