CN108549934B

CN108549934B - 一种基于自动集群神经网络芯片组的运算方法和装置

Info

Publication number: CN108549934B
Application number: CN201810381012.1A
Authority: CN
Inventors: 廖裕民; 朱祖建
Original assignee: Fuzhou Rockchip Electronics Co Ltd
Current assignee: Rockchip Electronics Co Ltd
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2020-06-19
Anticipated expiration: 2038-04-25
Also published as: CN108549934A

Abstract

本发明提供了一种基于自动集群神经网络芯片组的运算方法和装置，所述装置包括一个主芯片和多个从芯片，所述主芯片与每个从芯片连接。主芯片负责记录各个从芯片的运算资源信息，以及将接收到的任务请求对应的神经网络结构所需的资源运算总信息映射至各个从芯片上，确定执行神经网络运算的从芯片之间的运算顺序。而后将待运算的数据发送给第一从芯片进行运算，第一从芯片再将计算好的数据发送给下一顺序的从芯片进行运算，直至神经网络运算完成，主芯片从运算顺序排名最靠后的从芯片获取最终生成的运算结果并存储。上述方法采用集群化思想，将同一网络中不同设备整合起来应用于某一神经网络运算，有效提高了神经网络运算能力。

Description

一种基于自动集群神经网络芯片组的运算方法和装置

技术领域

本发明涉及神经网络芯片电路领域，特别涉及一种基于自动集群神经网络芯片组的运算方法和装置。

背景技术

随着人工智能产业的兴起,深度学习芯片也在快速发展。当前，深度学习芯片的性能依赖于运算硬件支持和众多神经元的输入。目前，受制于成本、技术等因素影响，大型专用加速服务器数量较少,训练原料通常只能是人工分类带标签的信息,这就造成人工智能电路的运算能力和信息获取受到极大限制。同时，散落在互联网上的联网设备极多且各具特色，如果能将这些设备汇总起来，一起完成神经网络运算，那么集群运算能力将是非常巨大的，信息源也会变得十分丰富。

发明内容

为此，需要提供一种基于自动集群神经网络芯片组的技术方案，用以解决现有的神经网络运算基于单一设备进行，算力有限的问题。

为实现上述目的，发明人提供了一种基于自动集群神经网络芯片组的运算装置，所述装置包括一个主芯片和多个从芯片，所述主芯片与每个从芯片连接；所述主芯片包括资源确定单元、网络参数确定单元、网络配置单元、第一处理单元、第一通信单元、结果获取单元；所述从芯片包括第二处理单元和第二通信单元；

所述资源确定单元用于获取所有从芯片的资源运算子信息，并将资源运算子信息与从芯片的标识信息对应存储；以及根据任务请求类型对应的神经网络结构参数，确定各个从芯片的资源运算子信息与神经网络运算之间的映射关系；

所述网络参数确定单元用于根据接收到的任务请求类型，确定任务请求类型对应的神经网络结构，并确定该神经网络结构所需的资源运算总信息；

所述网络配置单元用于根据神经网络结构将资源运算总信息划分为若干资源运算子信息，确定执行神经网络运算的从芯片之间的运算顺序，生成第一配置信息；从芯片之间的运算顺序基于神经网络子层的连接顺序，每一从芯片进行一个神经网络子层的运算；

所述第一处理单元用于通过第一通信单元将第一配置信息发送给所有从芯片，以及获取待运算的数据，并将待运算的数据发送给第一从芯片，所述第一从芯片为第一配置信息中运算顺序排名最靠前的从芯片；

第一从芯片的第二通信单元用于接收第一配置信息以及待运算的数据，第一从芯片的第二处理单元用于采用第一从芯片对应的资源运算子信息对待运算的数据进行运算，得到第一运算结果；

下一个运算顺序的从芯片的第二通信单元用于获取第一运算结果，下一个运算顺序的从芯片的第二处理单元用于对第一运算结果进行运算，得到第二运算结果；重复上述步骤，直至神经网络运算完成；

所述结果获取单元用于从运算顺序排名最靠后的从芯片获取最终生成的运算结果并存储。

进一步地，资源确定单元包括资源搜索单元、资源评估单元、资源定义单元、资源列表存储单元、资源定义存储单元；所述资源搜索单元与资源评估单元连接，所述资源评估单元与资源列表存储单元连接，所述资源列表存储单元与资源定义单元连接，所述资源定义单元与资源定义存储单元连接；

所述资源搜索单元用于搜索与主芯片相连接的各个从芯片的资源运算子信息；

所述资源评估单元用于将搜索得到的将资源运算子信息与从芯片的标识信息对应存储于资源列表存储单元中；

所述资源定义单元用于根据任务请求类型对应的神经网络结构参数，确定各个从芯片的资源运算子信息与神经网络运算之间的映射关系，并将映射关系和从芯片的标识信息对应存储于资源定义存储单元中。

进一步地，从芯片之间的运算顺序根据以下规则确定：满足第一条件的从芯片的运算顺序越靠前，当满足第一条件的从芯片数量为多个，满足第二条件的从芯片的运算顺序越靠前；所述第一条件是指资源运算子信息满足当前神经网络子层的运算需求，所述第二条件是指与主芯片之间的网络延时最小。

进一步地，所述装置还包括初始值存储单元、误差计算单元、反向回写单元、参数缓存单元；所述初始值存储单元用于存储任务请求对应的神经网络结构的各个参数元素的初始值；

所述第一处理单元用于获取测试数据，根据初始值存储单元中各个参数元素的配置初始值构建神经网络结构并进行神经网络计算，所述误差计算单元用于判断本次计算结果与真实信息的匹配度的误差是否小于预设误差，若是则判定为训练完成，第一处理单元用于将参数缓存单元中各个参数元素的参数值更新为当前的各个参数值；否则第一处理单元用于根据本次训练结果的匹配度相较于上一次训练结果的匹配度的差异，调整各个参数元素的配置参数值，并通过反向回写单元将调整后的参数值写入参数缓存单元中，以及根据调整后的参数值获取相应数量的各个参数元素，并再次进行神经网络计算，直至训练完成。

进一步地，所述装置包括WIFI通信单元和初始值配置查询单元；所述初始值配置查询单元通过WIFI通信单元与互联网连接；

所述初始值配置查询单元用于在未从初始值存储单元中查询到任务请求对应的神经网络结构的各个参数元素的初始值时，通过WIFI通信单元从互联网中搜索任务请求所需的神经网络结构配置参数初始值，并在搜索到需要的神经网络结构配置参数初始值后，将其存储于初始值存储单元中。

发明人还提供了一种基于自动集群神经网络芯片组的运算方法，所述方法应用于基于自动集群神经网络芯片组的运算装置，所述装置包括一个主芯片和多个从芯片，所述主芯片与每个从芯片连接；所述主芯片包括资源确定单元、网络参数确定单元、网络配置单元、第一处理单元、第一通信单元、结果获取单元；所述从芯片包括第二处理单元和第二通信单元；所述方法包括以下步骤：

资源确定单元获取所有从芯片的资源运算子信息，并将资源运算子信息与从芯片的标识信息对应存储；以及根据任务请求类型对应的神经网络结构参数，确定各个从芯片的资源运算子信息与神经网络运算之间的映射关系；

网络参数确定单元根据接收到的任务请求类型，确定任务请求类型对应的神经网络结构，并确定该神经网络结构所需的资源运算总信息；

网络配置单元根据神经网络结构将资源运算总信息划分为若干资源运算子信息，确定执行神经网络运算的从芯片之间的运算顺序，生成第一配置信息；从芯片之间的运算顺序基于神经网络子层的连接顺序，每一从芯片进行一个神经网络子层的运算；

第一处理单元通过第一通信单元将第一配置信息发送给所有从芯片，以及获取待运算的数据，并将待运算的数据发送给第一从芯片，所述第一从芯片为第一配置信息中运算顺序排名最靠前的从芯片；

第一从芯片的第二通信单元接收第一配置信息以及待运算的数据，第一从芯片的第二处理单元采用第一从芯片对应的资源运算子信息对待运算的数据进行运算，得到第一运算结果；

下一个运算顺序的从芯片的第二通信单元获取第一运算结果，下一个运算顺序的从芯片的第二处理单元对第一运算结果进行运算，得到第二运算结果；重复上述步骤，直至神经网络运算完成；

结果获取单元从运算顺序排名最靠后的从芯片获取最终生成的运算结果并存储。

进一步地，资源确定单元包括资源搜索单元、资源评估单元、资源定义单元、资源列表存储单元、资源定义存储单元；所述资源搜索单元与资源评估单元连接，所述资源评估单元与资源列表存储单元连接，所述资源列表存储单元与资源定义单元连接，所述资源定义单元与资源定义存储单元连接；所述方法包括：

资源搜索单元搜索与主芯片相连接的各个从芯片的资源运算子信息；

资源评估单元将搜索得到的将资源运算子信息与从芯片的标识信息对应存储于资源列表存储单元中；

资源定义单元根据任务请求类型对应的神经网络结构参数，确定各个从芯片的资源运算子信息与神经网络运算之间的映射关系，并将映射关系和从芯片的标识信息对应存储于资源定义存储单元中。

进一步地，所述装置还包括初始值存储单元、误差计算单元、反向回写单元、参数缓存单元；所述初始值存储单元用于存储任务请求对应的神经网络结构的各个参数元素的初始值；所述方法包括：

第一处理单元获取测试数据，根据初始值存储单元中各个参数元素的配置初始值构建神经网络结构并进行神经网络计算；

误差计算单元判断本次计算结果与真实信息的匹配度的误差是否小于预设误差，若是则判定为训练完成，第一处理单元将参数缓存单元中各个参数元素的参数值更新为当前的各个参数值；否则第一处理单元根据本次训练结果的匹配度相较于上一次训练结果的匹配度的差异，调整各个参数元素的配置参数值，并通过反向回写单元将调整后的参数值写入参数缓存单元中，以及根据调整后的参数值获取相应数量的各个参数元素，并再次进行神经网络计算，直至训练完成。

进一步地，所述装置包括WIFI通信单元和初始值配置查询单元；所述初始值配置查询单元通过WIFI通信单元与互联网连接；所述方法包括：

初始值配置查询单元在未从初始值存储单元中查询到任务请求对应的神经网络结构的各个参数元素的初始值时，通过WIFI通信单元从互联网中搜索任务请求所需的神经网络结构配置参数初始值，并在搜索到需要的神经网络结构配置参数初始值后，将其存储于初始值存储单元中。

本发明提供了一种基于自动集群神经网络芯片组的运算方法和装置，所述装置包括一个主芯片和多个从芯片，所述主芯片与每个从芯片连接。主芯片负责记录各个从芯片的运算资源信息，以及将接收到的任务请求对应的神经网络结构所需的资源运算总信息映射至各个从芯片上，确定执行神经网络运算的从芯片之间的运算顺序。而后将待运算的数据发送给第一从芯片进行运算，第一从芯片再将计算好的数据发送给下一顺序的从芯片进行运算，直至神经网络运算完成，主芯片从运算顺序排名最靠后的从芯片获取最终生成的运算结果并存储。上述方法采用集群化思想，将同一网络中不同设备整合起来应用于某一神经网络运算，有效提高了神经网络运算能力，同时能够保证设备的资源的充分利用。

附图说明

图1为本发明一实施例涉及的主芯片的结构示意图；

图2为本发明另一实施例涉及的主芯片的结构示意图；

图3为本发明一实施例涉及的基于自动集群神经网络芯片组的运算装置的示意图；

图4为本发明一实施例涉及的第一处理单元的结构示意图；

图5为本发明一实施例涉及的基于自动集群神经网络芯片组的运算方法的流程图。

附图标记说明：·

10、主芯片；

101、资源搜索单元；102、资源评估单元；103、资源定义单元；104、资源列表存储单元；105、资源定义存储单元；

106、任务配置单元；107、任务解析单元；108、网络配置查询单元；109、网络参数存储单元；110、网络结构存储单元；111、WIFI通信单元；

112、网络配置发送单元；113、网络数据发送单元；114、第一处理单元；115、反向回写单元；116、神经元输入读取单元；117、训练数据存储单元；

118、待测数据存储单元；119、运算结果存储单元；120、结果获取单元；121、第一通信单元；

141、网络配置打包单元；142、发送包缓存单元；143、网络数据打包单元；144、数据监听单元；145、接收包缓存单元；146、网络解包单元；

20、从芯片；

30、其他设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图3，为本发明一实施例涉及的基于自动集群神经网络芯片组的运算装置的示意图。所述装置包括一个主芯片10和多个从芯片20，所述主芯片10与每个从芯片20连接。优选的，本发明提及的主芯片也可以是安装有主芯片的电子设备，如移动终端、个人计算机等；从芯片也可以是按照有从芯片的电子设备，如移动终端、个人计算机等。主芯片和从芯片之间通过互联网进行连接。为了进一步提升本装置的运算能力，互联网中还可以拓展其他设备30，使得装置增加其他设备所包含的运算资源，以便提高神经网络运算能力。

所述主芯片包括资源确定单元、网络参数确定单元、网络配置单元、第一处理单元、第一通信单元、结果获取单元；所述从芯片包括第二处理单元和第二通信单元；

所述网络配置单元用于根据神经网络结构将资源运算总信息划分为若干资源运算子信息，确定执行神经网络运算的从芯片之间的运算顺序，生成第一配置信息；从芯片之间的运算顺序基于神经网络子层的连接顺序，每一从芯片进行一个神经网络子层的运算。

在本实施方式中，资源运算总信息为实行本次神经网络计算(即接收到的任务请求对应的神经网络结构)最低的硬件资源。资源运算子信息为各个从芯片所支持的最大神经元数量、最大卷积核数量、支持的激活函数类型以及与主芯片之间的网络延时信息、访问云资源网络带宽等。

从芯片之间的运算顺序根据以下规则确定：满足第一条件的从芯片的运算顺序越靠前，当满足第一条件的从芯片数量为多个，满足第二条件的从芯片的运算顺序越靠前；所述第一条件是指资源运算子信息满足当前神经网络子层的运算需求，所述第二条件是指与主芯片之间的网络延时最小。

以神经元数量为例，假设主芯片接收到的任务请求为进行语音识别，而语音识别对应的神经网络结构需要1000个神经元，与主芯片连接的从芯片总共有3个，包括从芯片A、从芯片B和从芯片C，从芯片A支持的最大神经元数量为800，从芯片B支持的最大神经元数量为1500，从芯片A支持的最大神经元数量为2000，从芯片A与主芯片之间的网络延时为10ms，从芯片B与主芯片之间的网络延时为20ms，从芯片C与主芯片之间的网络延时为30ms。也就是说，对于神经元数量而言，资源运算总信息为1000个神经元，满足第一条件的为从芯片B和从芯片C，又由于从芯片B与主芯片之间的网络延时更小，即从芯片B满足第二条件，因而关于神经网络计算中神经元的获取、构建将在从芯片B上进行。

如图1所示，为本发明一实施例涉及的主芯片的结构示意图，该主芯片结构可以用于神经网络训练计算。

资源确定单元包括资源搜索单元101、资源评估单元102、资源定义单元103、资源列表存储单元104、资源定义存储单元105；所述资源搜索单元101与资源评估单元102连接，所述资源评估单元102与资源列表存储单元104连接，所述资源列表存储单元104与资源定义单元103连接，所述资源定义单元103与资源定义存储单元105连接；

所述资源搜索单元101用于搜索与主芯片相连接的各个从芯片的资源运算子信息；

所述资源评估单元102用于将搜索得到的将资源运算子信息与从芯片的标识信息对应存储于资源列表存储单元104中；

所述资源定义单元103用于根据任务请求类型对应的神经网络结构参数，确定各个从芯片的资源运算子信息与神经网络运算之间的映射关系，并将映射关系和从芯片的标识信息对应存储于资源定义存储单元105中。

在某些实施例中，所述装置还包括任务配置单元106、任务解析单元107、网络配置查询单元108、网络参数存储单元109、网络结构存储单元110、WIFI通信单元111、网络配置发送单元112、网络数据发送单元113、第一处理单元、反向回写单元、神经元输入读取单元、训练数据存储单元117。

任务配置单元106用于对网络集群主芯片进行任务配置，即获取当前的任务请求，所述任务请求包括语音识别、图像识别、文字识别等等。任务解析单元107将配置的具体应用信息解析为具体的神经网络类型,然后将神经网络类型送往网络配置查询单元108。

网络配置查询单元108负责查询所需神经网络对应的神经网络结构信息和参数,然后将神经网络结构信息送往网络结构存储单元110进行存储，将神经网络参数送往网络参数存储单元109进行存储,同时将神经网络结构信息送往资源定义单元103。神经网络结构信息具体包含:神经网络结构包含的层数,每个神经网络子层的运算内容、激活函数的类型、池化运算的类型、特征数据的尺寸大小(即卷积核模板大小)、乘加器运算的精度等。神经网络参数的具体包含:卷积核的个数、卷积核的通道数、神经元连接权重值等。

本实施例中的神经网络参数为待训练的网络参数,主芯片会将卷积核值、权值、卷积偏置值等参数按照预设的初始化算法进行初始化，而后送往网络参数存储单元109。常见的初始化算法有随机数算法、全定值算法等，这些算法均为现有技术，在此不赘述。

资源定义单元103负责根据网络结构与可使用的资源列表进行判断,然后将可使用的神经网络电路资源映射到整个神经网络结构以实现该神经网络的功能。然后具体为将每个从芯片对应的电路资源进行ID编号，并将资源映射关系和ID编号存到资源定义存储单元105中。ID编号可以为数字、字符、字符串等。简言之，资源列表存储单元中的资源列表存储的是各个从芯片对应的运算资源与其ID之间的对应关系，而资源定义存储单元中存储的是执行本次任务请求的整个神经网络结构硬件资源(即资源运算总信息)分配到各个从芯片之后得到的映射关系，即存储了从芯片ID与该从芯片(满足第一条件)根据自身资源负责执行哪一神经网络运算步骤之间的对应关系。

例如神经网络运算中的乘加运算，需要1024个并行浮点16bit的乘加运算能力,则将所有拥有1024个并行浮点16bit的乘加运算能力的可用神经网络电路资源(即从芯片)选出来,然后对这些选出来的神经网络电路资源对应的网络延时信息(即主芯片与从芯片之间的网络延时信息)进行排序,延时最小的资源优先使用。

如图4所示，第一处理单元包括网络配置打包单元141、发送包缓存单元142、网络数据打包单元143、数据监听单元144、接收包缓存单元145、网络解包单元146。所述网络配置打包单元141分别与网络配置发送单元112、发送包缓存单元142连接，所述发送包缓存单元通过第一通信单元121与互联网连接。第一通信单元可以为WIFI模块、蓝牙模块等。所述网络数据打包单元143分别与网络数据发送单元113、发送包缓存单元142连接，所述数据监听单元144通过第一通信单元121与互联网连接，网络解包单元146分别与反向回写单元115、结果获取单元120、接收包缓存单元145连接，数据监听单元144与接收包缓存单元145连接。

当任务分配流程结束后,主芯片开始网络参数训练。本神经网络是有监督训练，具体是训练数据存储单元117中存储的训练数据是带有标记的数据。当主芯片开始网络参数训练后,网络配置发送单元112将网络参数、网络结构信息、每个包含有从芯片的云端设备被分配的神经网络连接关系送往网络配置打包单元141。所述神经网络连接关系是指各个神经网络子层之间的连接关系，例如神经网络结构自上而下包括3个神经网络子层A、B、C，满足构建神经网络子层A的硬件资源为从芯片1，满足构建神经网络子层B的硬件资源为从芯片2，满足构建神经网络子层C的硬件资源为从芯片3，那么连接关系为从芯片1-从芯片2-从芯片3，即从芯片1运算完成的数据发送至互联网，被从芯片2监听获取进行下一步运算，从芯片2运算完成的数据发送至互联网，被从芯片3监听获取进行下一步运算。

网络配置打包单元141负责将网络配置信息打包为标准的网络包，送往发送包缓存单元142。网络配置信息被广播至所有与互联网连接的从芯片设备(即包含有从芯片的设备),各个设备都会收到配置包信息,并在解包后放入各个从芯片的配置信息存储单元中。这样，每个从芯片根据配置信息存储单元中的网络配置信息，就可以获知当前神经网络计算中各个从芯片之间的运算顺序，以及知晓自身的数据监听单元需要获取上一级运算结果的从芯片的ID。

神经元输入读取单元116从训练数据存储单元117读取训练用的神经元输入数据并送往网络数据发送单元113。网络数据发送单元113将神经元输入数据送往网络数据打包单元143，网络数据打包单,113再把数据打包为标准的网络包格式,送往待发送包缓存单元142，然后下一级的从芯片设备会从发送包缓存单元142中将数据包读走。

当各个从芯片根据彼此之间的运算顺序，依次读取上一从芯片的发送包缓存单元中的数据进行运算，当完成所有的运算后,主芯片的数据监听单元144会从最后一个设备(即运算顺序最靠后的从芯片)的发送包缓存单元中读取运算结果数据包，并送往接收包缓存单元145,网络解包单元146再将缓存的网络数据包解包为运算结果送往反向回写单元115。

反向回写单元115根据计算结果和预期结果进行误差计算,并根据误差值计算出卷积核、权值、卷积偏置值等参数的更新值,将更新后的新的参数值回写到网络参数存储单元109中。完成一轮训练后,不断重复该过程,直到所有训练次数达到预设次数，训练完成。第二处理单元与第一处理单元相比缺少了网络配置单元单元141，其他结构类似，此处不再赘述。即从芯片只是被动接收主芯片的网络配置信息并将其存储，而对于主芯片而言，是将网络配置信息广播至所有从芯片，因而需要先进行打包再通过发送包缓存单元广播出去。

如图2所示，为本发明另一实施例涉及的主芯片的结构示意图，该主芯片结构可以用于神经网络使用运算。

当集群神经网络芯片训练流程结束后,这可以开始其使用流程。具体方式如下：

开始使用流程后,网络配置发送单元112将网络参数和网络结构和每个云端设备(即包含有从芯片、且与主芯片通过互联网连接的设备)被分配的神经网络连接关系送往网络配置打包单元141。

网络配置打包单元141负责将网络配置信息打包为标准的网络包,送往发送包缓存单元142。网络配置包被广播至所有从芯片设备,各个从芯片设备都会收到配置包信息,并在解包后放入各个从芯片的配置信息存储单元。

神经元输入读取单元116从待测数据存储单元118中读取需要测试的待测数据并送往网络数据发送单元113。网络数据发送单元113将神经元输入数据送往网络数据打包,143元，网络数据打包单元143再把数据打包为标准的网络包格式，送往发送包缓存单元142，然后下一级的设备会从当前发送包缓存单元142中把数据包读走。

当各个从芯片完成所有的运算后,第一处理单元的数据监听单元144会从最后一个从芯片设备读取运算结果数据包，并送往第一处理单元的接收包缓存单元145，网络解包单元146再将缓存的网络数据包解包为运算结果送往结果获取单元120，结果获取单元120将运算结果存储于运算结果存储单元119中。

在某些实施例中，所述装置还包括初始值存储单元、误差计算单元、反向回写单元、参数缓存单元；所述初始值存储单元用于存储任务请求对应的神经网络结构的各个参数元素的初始值；

优选的，所述装置包括WIFI通信单元和初始值配置查询单元；所述初始值配置查询单元通过WIFI通信单元与互联网连接；所述初始值配置查询单元用于在未从初始值存储单元中查询到任务请求对应的神经网络结构的各个参数元素的初始值时，通过WIFI通信单元从互联网中搜索任务请求所需的神经网络结构配置参数初始值，并在搜索到需要的神经网络结构配置参数初始值后，将其存储于初始值存储单元中。WIFI通信单元与第一通信单元之间可以为同一单元。这样，可以有效提升自动集群神经网络芯片的适用范围。

请参阅图5，本发明还提供了一种基于自动集群神经网络芯片组的运算方法，所述方法应用于基于自动集群神经网络芯片组的运算装置，所述装置包括一个主芯片和多个从芯片，所述主芯片与每个从芯片连接；所述主芯片包括资源确定单元、网络参数确定单元、网络配置单元、第一处理单元、第一通信单元、结果获取单元；所述从芯片包括第二处理单元和第二通信单元；所述方法包括以下步骤：

首先进入步骤S501资源确定单元获取所有从芯片的资源运算子信息，并将资源运算子信息与从芯片的标识信息对应存储；以及根据任务请求类型对应的神经网络结构参数，确定各个从芯片的资源运算子信息与神经网络运算之间的映射关系；

而后进入步骤S502网络参数确定单元根据接收到的任务请求类型，确定任务请求类型对应的神经网络结构，并确定该神经网络结构所需的资源运算总信息；

而后进入步骤S503网络配置单元根据神经网络结构将资源运算总信息划分为若干资源运算子信息，确定执行神经网络运算的从芯片之间的运算顺序，生成第一配置信息；从芯片之间的运算顺序基于神经网络子层的连接顺序，每一从芯片进行一个神经网络子层的运算；

而后进入步骤S504第一处理单元通过第一通信单元将第一配置信息发送给所有从芯片，以及获取待运算的数据，并将待运算的数据发送给第一从芯片，所述第一从芯片为第一配置信息中运算顺序排名最靠前的从芯片；

而后进入步骤S505第一从芯片的第二通信单元接收第一配置信息以及待运算的数据，第一从芯片的第二处理单元采用第一从芯片对应的资源运算子信息对待运算的数据进行运算，得到第一运算结果；

而后进入步骤S506下一个运算顺序的从芯片的第二通信单元获取第一运算结果，下一个运算顺序的从芯片的第二处理单元对第一运算结果进行运算，得到第二运算结果；重复上述步骤，直至神经网络运算完成；

而后进入步骤S507结果获取单元从运算顺序排名最靠后的从芯片获取最终生成的运算结果并存储。

在某些实施例中，资源确定单元包括资源搜索单元、资源评估单元、资源定义单元、资源列表存储单元、资源定义存储单元；所述资源搜索单元与资源评估单元连接，所述资源评估单元与资源列表存储单元连接，所述资源列表存储单元与资源定义单元连接，所述资源定义单元与资源定义存储单元连接；所述方法包括：

在某些实施例中，从芯片之间的运算顺序根据以下规则确定：满足第一条件的从芯片的运算顺序越靠前，当满足第一条件的从芯片数量为多个，满足第二条件的从芯片的运算顺序越靠前；所述第一条件是指资源运算子信息满足当前神经网络子层的运算需求，所述第二条件是指与主芯片之间的网络延时最小。

在某些实施例中，所述装置还包括初始值存储单元、误差计算单元、反向回写单元、参数缓存单元；所述初始值存储单元用于存储任务请求对应的神经网络结构的各个参数元素的初始值；所述方法包括：

在某些实施例中，所述装置包括WIFI通信单元和初始值配置查询单元；所述初始值配置查询单元通过WIFI通信单元与互联网连接；所述方法包括：

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种基于自动集群神经网络芯片组的运算装置，其特征在于，所述装置包括一个主芯片和多个从芯片，所述主芯片与每个从芯片连接；所述主芯片包括资源确定单元、网络参数确定单元、网络配置单元、第一处理单元、第一通信单元、结果获取单元；所述从芯片包括第二处理单元和第二通信单元；

所述资源确定单元用于获取所有从芯片的资源运算子信息，并将资源运算子信息与从芯片的标识信息对应存储；以及根据任务请求类型对应的神经网络结构参数，确定各个从芯片的资源运算子信息与神经网络运算之间的映射关系；所述网络参数确定单元用于根据接收到的任务请求类型，确定任务请求类型对应的神经网络结构，并确定该神经网络结构所需的资源运算总信息；

S1：下一个运算顺序的从芯片的第二通信单元用于获取第一运算结果，下一个运算顺序的从芯片的第二处理单元用于对第一运算结果进行运算，得到第二运算结果；重复步骤S1，直至神经网络运算完成；

所述结果获取单元用于从运算顺序排名最靠后的从芯片获取最终生成的运算结果并存储；

资源确定单元包括资源搜索单元、资源评估单元、资源定义单元、资源列表存储单元、资源定义存储单元；所述资源搜索单元与资源评估单元连接，所述资源评估单元与资源列表存储单元连接，所述资源列表存储单元与资源定义单元连接，所述资源定义单元与资源定义存储单元连接；

所述资源定义单元用于根据任务请求类型对应的神经网络结构参数，确定各个从芯片的资源运算子信息与神经网络运算之间的映射关系，并将映射关系和从芯片的标识信息对应存储于资源定义存储单元中；

所述装置还包括初始值存储单元、误差计算单元、反向回写单元、参数缓存单元；所述初始值存储单元用于存储任务请求对应的神经网络结构的各个参数元素的初始值；

2.如权利要求1所述的自动集群神经网络芯片组的运算装置，其特征在于，从芯片之间的运算顺序根据以下规则确定：满足第一条件的从芯片的运算顺序越靠前，当满足第一条件的从芯片数量为多个，满足第二条件的从芯片的运算顺序越靠前；所述第一条件是指资源运算子信息满足当前神经网络子层的运算需求，所述第二条件是指与主芯片之间的网络延时最小。

3.如权利要求1所述的自动集群神经网络芯片组的运算装置，其特征在于，所述装置包括WIFI通信单元和初始值配置查询单元；所述初始值配置查询单元通过WIFI通信单元与互联网连接；

4.一种基于自动集群神经网络芯片组的运算方法，其特征在于，所述方法应用于基于自动集群神经网络芯片组的运算装置，所述装置包括一个主芯片和多个从芯片，所述主芯片与每个从芯片连接；所述主芯片包括资源确定单元、网络参数确定单元、网络配置单元、第一处理单元、第一通信单元、结果获取单元；所述从芯片包括第二处理单元和第二通信单元；所述方法包括以下步骤：

S1：下一个运算顺序的从芯片的第二通信单元获取第一运算结果，下一个运算顺序的从芯片的第二处理单元对第一运算结果进行运算，得到第二运算结果；重复:步骤S1，直至神经网络运算完成；

结果获取单元从运算顺序排名最靠后的从芯片获取最终生成的运算结果并存储；

所述装置还包括初始值存储单元、误差计算单元、反向回写单元、参数缓存单元；所述初始值存储单元用于存储任务请求对应的神经网络结构的各个参数元素的初始值；所述方法包括：

误差计算单元判断本次计算结果与真实信息的匹配度的误差是否小于预设误差，若是则判定为训练完成，第一处理单元将参数缓存单元中各个参数元素的参数值更新为当前的各个参数值；否则第一处理单元根据本次训练结果的匹配度相较于上一次训练结果的匹配度的差异，调整各个参数元素的配置参数值，并通过反向回写单元将调整后的参数值写入参数缓存单元中，以及根据调整后的参数值获取相应数量的各个参数元素，并再次进行神经网络计算，直至训练完成；

资源确定单元包括资源搜索单元、资源评估单元、资源定义单元、资源列表存储单元、资源定义存储单元；所述资源搜索单元与资源评估单元连接，所述资源评估单元与资源列表存储单元连接，所述资源列表存储单元与资源定义单元连接，所述资源定义单元与资源定义存储单元连接；所述方法包括：

5.如权利要求4所述的自动集群神经网络芯片组的运算方法，其特征在于，从芯片之间的运算顺序根据以下规则确定：满足第一条件的从芯片的运算顺序越靠前，当满足第一条件的从芯片数量为多个，满足第二条件的从芯片的运算顺序越靠前；所述第一条件是指资源运算子信息满足当前神经网络子层的运算需求，所述第二条件是指与主芯片之间的网络延时最小。

6.如权利要求4所述的自动集群神经网络芯片组的运算方法，其特征在于，所述装置包括WIFI通信单元和初始值配置查询单元；所述初始值配置查询单元通过WIFI通信单元与互联网连接；所述方法包括：