CN109543832B

CN109543832B - 一种计算装置及板卡

Info

Publication number: CN109543832B
Application number: CN201811429809.0A
Authority: CN
Inventors: 不公告发明人
Original assignee: Cambricon Technologies Corp Ltd
Current assignee: Cambricon Technologies Corp Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-03-20
Anticipated expiration: 2038-11-27
Also published as: CN109543832A

Abstract

本申请提供一种计算装置及板卡，所述计算装置用于执行LSTM运算，所述板卡，所述板卡包括：存储器件、接口装置和控制器件以及神经网络芯片，所述神经网络芯片包括计算装置，所述存储器件，用于存储数据；所述接口装置，用于实现所述芯片与外部设备之间的数据传输；所述控制器件，用于对所述芯片的状态进行监控。本申请提供的计算装置具有成本低、功耗低的优点。

Description

一种计算装置及板卡

技术领域

本申请涉及信息处理技术领域，具体涉及一种计算装置及板卡。

背景技术

随着信息技术的不断发展和人们日益增长的需求，人们对信息及时性的要求越来越高了。目前，终端对信息的获取以及处理均是基于通用处理器获得的。例如通用处理器循环神经网络被广泛应用于语音识别，语言建模，翻译，图片描述等领域，近年来由于其较高的识别准确度和较好的可并行性，受到学术界和工业界越来越广泛的关注。循环神经网络具有时间衰减，为了解决循环神经网络的时间衰减，提出了LSTM(长短期记忆网络，LongShort－Term Memory)来解决时间衰减的问题。在实践中发现，这种基于通用处理器运行软件程序来处理LSTM，但是LSTM通过处理器，效率低，功耗高。

发明内容

本申请实施例提供了一种计算装置及相关产品，可提升LSTM的处理速度，提高效率、节省功耗。

第一方面，提供一种所述计算装置用于执行LSTM运算，所述LSTM包括：输入层、隐层、输出层和块block，所述块包括：输入门、输出门和忘记门，所述输入门与输入层连接，所述输出门与输出层连接，所述忘记门与隐层连接，所述计算装置包括：运算单元以及控制器单元；所述运算单元包括：一个主处理电路和从处理电路；所述计算装置用于执行LSTM运算；

所述控制器单元，用于获取输入门输入的t时刻输入数据X_i ^t、权值以及忘记门输入的输出数据，

所述控制器单元，还用于将输入数据X_i ^t、权值W以及输出数据发送给所述主处理电路；

所述主处理电路，用于将输入数据X_i ^t拆分成多个输入数据块，将输出数据拆分成多个输出数据块，将多个输入数据块以及多个输出数据块分发给从处理电路，将所述权值W广播给所述从处理电路；

从处理电路，用于将接收到的输入数据块与权值执行乘积运算得到输入中间结果，将接收到的输出数据块与权值执行乘积运算得到输出中间结果，将输入中间结果以及输出中间结果发送给主处理电路；

所述主处理电路，还用于将从处理电路的输入中间结果得到部分输出结果，将输出中间结果拼接得到另一部分输出结果，计算部分输出结果和另一部分输出结果的和得到输出门的t时刻的输出结果αt。

第二方面，本申请实施例提供了一种LSTM运算装置，其特征在于，所述LSTM运算装置包括一个或多个第一方面提供的计算装置，用于从其他处理装置中获取待运算数据和控制信息，并执行指定的LSTM运算，将执行结果通过I/O接口传递给其他处理装置；

当所述LSTM装置包含多个所述计算装置时，所述多个所述计算装置间可以通过特定的结构进行连接并传输数据；

其中，多个所述计算装置通过快速外部设备互连总线PCIE总线进行互联并传输数据，以支持更大规模的LSTM的运算；多个所述计算装置共享同一控制***或拥有各自的控制***；多个所述计算装置共享内存或者拥有各自的内存；多个所述计算装置的互联方式是任意互联拓扑。

第三方面，提供一种组合处理装置，所述组合处理装置包括第二方面的LSTM运算装置，通用互联接口和其他处理装置；

所述LSTM运算装置与所述其他处理装置进行交互，共同完成用户指定的计算操作。

第四方面，提供一种神经网络芯片，神经网络芯片包括第一方面提供的计算装置或第二方面提供的LSTM运算装置或第三方面提供的组合处理装置。

第五方面，提供一种电子设备，所述电子设备包括如第四方面提供的芯片。

第六方面，提供一种板卡，所述板卡包括：存储器件、接口装置和控制器件以及第四方面提供的神经网络芯片；

其中，所述神经网络芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；

所述存储器件，用于存储数据；

所述接口装置，用于实现所述芯片与外部设备之间的数据传输；

所述控制器件，用于对所述芯片的状态进行监控。

第七方面，本申请实施例还提供一种LSTM运算方法，所述LSTM包括：输入层、隐层、输出层和块block，所述块包括：输入门、输出门和忘记门，所述输入门与输入层连接，所述输出门与输出层连接，所述忘记门与隐层连接，所述计算装置包括：运算单元以及控制器单元；所述运算单元包括：一个主处理电路和从处理电路；所述方法包括如下步骤：

所述控制器单元获取输入门输入的t时刻输入数据X_i ^t、权值以及忘记门输入的输出数据，将输入数据X_i ^t、权值W以及输出数据发送给所述主处理电路；

所述主处理电路将输入数据X_i ^t拆分成多个输入数据块，将输出数据拆分成多个输出数据块，将多个输入数据块以及多个输出数据块分发给从处理电路，将所述权值W广播给所述从处理电路；

从处理电路将接收到的输入数据块与权值执行乘积运算得到输入中间结果，将接收到的输出数据块与权值执行乘积运算得到输出中间结果，将输入中间结果以及输出中间结果发送给主处理电路；

所述主处理电路将从处理电路的输入中间结果得到部分输出结果，将输出中间结果拼接得到另一部分输出结果，计算部分输出结果和另一部分输出结果的和得到输出门的t时刻的输出结果αt。

在一些实施例中，所述电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

在一些实施例中，所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种LSTM的结构示意图

图2是本申请实施例提供的一种计算装置的结构示意图。

图2a是本申请实施例提供的一种运算单元的结构示意图。

图3是本申请提供的另一种计算装置的结构示意图。

图3a是本申请提供的主处理电路的结构示意图。

图4a是本申请提供的一种树型模块发送端的结构示意图。

图4b是本申请提供的一种树型模块接收端的结构示意图。

图4c是本申请提供的二叉树结构示意图。

图5是本申请一个实施例提供的计算装置的结构图。

图6是本申请一个实施例提供的LSTM运算方法的流程示意图。

图7是本申请实施例提供的一种组合处理装置的结构图。

图8是本申请实施例提供的另一种组合处理装置的结构图。

图9是本申请实施例提供的一种板卡的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1为一种LSTM的示意图，如图1所示，该LSTM包括：至少一个block的结构。相对于循环神经网络，LSTM引入了一个cell来记录当前时间点的信息。可以看出在LSTM算法里，一个block由三个门和一个cell组成，输入门、输出门、忘记门。LSTM算法的主要思想是利用cell来记录当前时间的状态，对上一时刻传入cell值来达到在不同时间直接传递信息的功能。用输入门和忘记门来控制cell的输出里对于当前时间输入和上一时间cell的权重。用输出门来控制cell的输出。在输入门和忘记门的控制下，合适的信息将会被保存很长时间，一直记录在cell里面，这样就解决了循环神经网络随着时间衰减的问题。

参阅图2，图2为本申请提供的计算装置。参阅图2，提供了一种计算装置，该计算装置用于执行执行LSTM运算，该计算装置包括：控制器单元11和运算单元12，其中，控制器单元11与运算单元12连接，该运算单元12包括：一个主处理电路101和从处理电路102(可以为一个或多个从处理电路，优先选择多个从处理电路)；

需要说明的，上述主处理电路自身包含有存储器(例如内存或寄存器)，该存储器可以存储主处理电路的一些数据，从处理电路可以选择携带存储器。

LSTM包括：输入层、隐层、输出层和块block，所述块包括：输入门、输出门和忘记门，所述输入门与输入层连接，所述输出门与输出层连接，所述忘记门与隐层连接，；

控制器单元11，用于获取输入门输入的t时刻输入数据X_i ^t、权值以及忘记门输入的输出数据βt；

控制器单元11，还用于将输入数据X_i ^t、权值W以及输出数据βt发送给所述主处理电路101；

主处理电路101，用于将输入数据X_i ^t拆分成多个输入数据块，将输出数据βt拆分成多个输出数据块，将多个输入数据块以及多个输出数据块分发给从处理电路，将所述权值W广播给所述从处理电路；

从处理电路102，用于将接收到的输入数据块与权值执行乘积运算得到输入中间结果，将接收到的输出数据块与权值执行乘积运算得到输出中间结果，将输入中间结果以及输出中间结果发送给主处理电路；

主处理电路101，还用于将从处理电路的输入中间结果得到部分输出结果，将输出中间结果拼接得到另一部分输出结果，计算部分输出结果和另一部分输出结果的和得到输出门的t时刻的输出结果αt。

本申请提供的技术方案将运算单元设置成主从结构，对于LSTM的正向运算，将本时刻的输入数据以及忘记门的输出数据拆分并行处理，这样通过主处理电路以及从处理电路即能够对计算量较大的部分进行并行运算，从而提高运算速度，节省运算时间，进而降低功耗。

上述LSTM可以包含多个隐层，h为大于等于2的整数，对于第h个隐层可以为LSTM中的任意一个中间隐层的运算，多个LSTM运算，其实现过程是，在正向运算中，当上一时刻(t－1)执行完成之后得到输出结果(t－1)，当前时刻t的运算指令会将上一时刻输出结果(t－1)作为下一时刻的忘记门的输入数据，忘记门通过sigmoid来确定上以时刻输出结果(t－1)的通过率，这样即得到了忘记门t时刻的输出结果αt，将输出结果αt与权值进行运算，另一部分运算为时刻t输入层的输入数据作为另一部分输入神经元，然后将两部分输入神经元分别与权值执行乘积运算得到两个运算结果，将两个运算结果相加即得到时刻t的输出结果，然后将时刻t的输出结果作为下一时刻(t+1)忘记门的输入数据，这样即能够有选择的确定上一时刻的结果的通过率。

对于LSTM运算，如果该LSTM具有多个隐层，多个LSTM运算的输入数据和输出结果并非是指整个LSTM的输入层中输入神经元和输出层中输出神经元，而是对于LSTM中任意相邻时刻的两个层，处于LSTM前一时刻的输出结果即为本时刻忘记门的输入神经元。即除第1个层外，每一层都可以作为输入层，其下一层为对应的输出层。

可选的，述主处理电路，还用于忘记门输入的输出数据为对(t－1)时刻的输出结果(t－1)执行sigmoid运算后得到的输出数据。

可选的，上述主处理电路，还用于将输出结果αt的发送给下一时刻的忘记门。

可选的，上述主处理电路，还用于将该输出结果αt执行后续运算得到所述LSTM运算输出门的输出结果O_i ^t。

可选的，上述计算装置还可以包括：该存储单元10和直接内存访问单元50，存储单元10可以包括：寄存器、缓存中的一个或任意组合，具体的，所述缓存，用于存储计算指令；所述寄存器，用于存储所述输入数据和标量；所述缓存为高速暂存缓存。直接内存访问单元50用于从存储单元10读取或存储数据。

可选的，该控制器单元包括：指令存储单元110、指令处理单元111和存储队列单元113；

指令存储单元110，用于存储所述LSTM运算关联的计算指令；

所述指令处理单元111，用于对所述计算指令解析得到多个运算指令；

存储队列单元113，用于存储指令队列，该指令队列包括：按该队列的前后顺序待执行的多个运算指令或计算指令。

在一种可选方案中，该计算指令的结构可以如下表所示。

操作码

寄存器或立即数

寄存器/立即数

...

上表中的省略号表示可以包括多个寄存器或立即数。

在另一种可选方案中，该计算指令可以包括：一个或多个操作域以及一个操作码。该计算指令可以包括LSTM指令。其中，寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以为操作域。其中，每个寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以是一个或者多个寄存器的号码。

上述寄存器可以为片外存储器，当然在实际应用中，也可以为片内存储器，用于存储数据，该数据具体可以为多维(2维以上)数据。

可选的，该控制器单元还可以包括：

所述依赖关系处理单元112，用于在具有多个运算指令时，确定第一运算指令与所述第一运算指令之前的第零运算指令是否存在关联关系，如所述第一运算指令与所述第零运算指令存在关联关系，则将所述第一运算指令缓存在所述指令存储单元内，在所述第零运算指令执行完毕后，从所述指令存储单元提取所述第一运算指令传输至所述运算单元；

所述确定该第一运算指令与第一运算指令之前的第零运算指令是否存在关联关系包括：

依据所述第一运算指令提取所述第一运算指令中所需数据(例如矩阵)的第一存储地址区间，依据所述第零运算指令提取所述第零运算指令中所需矩阵的第零存储地址区间，如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域，则确定所述第一运算指令与所述第零运算指令具有关联关系，如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域，则确定所述第一运算指令与所述第零运算指令不具有关联关系。

在另一种可选实施例中，运算单元12如图3所示，可以包括一个主处理电路101和多个从处理电路102。在一个实施例里，如图3所示，多个从处理电路呈阵列分布；每个从处理电路与相邻的其他从处理电路连接，主处理电路连接所述多个从处理电路中的k个从处理电路，所述k个从处理电路为：第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路，需要说明的是，如图3所示的k个从处理电路仅包括第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路，即该k个从处理电路为多个从处理电路中直接与主处理电路连接的从处理电路。

k个从处理电路，用于在所述主处理电路以及多个从处理电路之间的输入数据块、输出数据块、权值以及中间结果的转发。

可选的，如图3a所示，该主处理电路还可以包括：转换处理电路110、激活处理电路111、加法处理电路112中的一种或任意组合；

转换处理电路110，用于数据执行转换处理，具体为：将主处理电路接收的输入数据X_i ^t、权值W或输出结果O_i ^t－1执行第一数据结构与第二数据结构之间的互换(例如连续数据与离散数据的转换)。

激活处理电路111，用于执行主处理电路内数据的激活运算；

加法处理电路112，用于执行加法运算或累加运算。

另一个实施例里，该运算指令为矩阵乘以矩阵的指令、累加指令、激活指令等等计算指令。

在一种可选的实施方案中，如图4a所示，所述运算单元包括：树型模块40，所述树型模块包括：一个根端口401和多个支端口402，所述树型模块的根端口连接所述主处理电路，所述树型模块的多个支端口分别连接多个从处理电路中的一个从处理电路；

上述树型模块具有收发功能，例如如图4a所示，该树型模块即为发送功能，如图4b所示，该树型模块即为接收功能。

所述树型模块，用于转发所述主处理电路与所述多个从处理电路之间的输入数据块、输出数据块、权值以及中间结果。

可选的，该树型模块为计算装置的可选择结果，其可以包括至少1层节点，该节点为具有转发功能的线结构，该节点本身可以不具有计算功能。如树型模块具有零层节点，即无需该树型模块。

可选的，该树型模块可以为n叉树结构，例如，如图4c所示的二叉树结构，当然也可以为三叉树结构，该n可以为大于等于2的整数。本申请具体实施方式并不限制上述n的具体取值，上述层数也可以为2，从处理电路可以连接除倒数第二层节点以外的其他层的节点，例如可以连接如图4c所示的倒数第一层的节点。

可选的，上述运算单元可以携带单独的缓存，如图2a所示，可以包括：神经元缓存单元，该神经元缓存单元63缓存该从处理电路的输入神经元向量数据和输出神经元值数据。

如图2a，该运算单元还可以包括：权值缓存单元64，用于缓存该从处理电路在计算过程中需要的权值数据。

在一种可选实施例中，运算单元12如图5所示，可以包括分支处理电路103；其具体的连接结构如图5所示，其中，

上述分支处理电路103可以包括存储器，如图5所示，分支处理电路103的存储器的大小可以为在单个从处理电路需要存储的最大数据容量的2到2.5倍之间，这样设置以后，从处理电路即无需设置存储器，相对于一个分支处理电路，其只用设置2.5＊R(单个从处理器电路所需的容量值)，如果没有分支处理电路，那么需要设置4＊R，并且其寄存器的利用率还低，因此该结构可以有效的降低存储器的总容量，降低成本。

所述分支处理电路，用于转发所述主处理电路与所述多个从处理电路之间的输入数据块、输出数据块、权值以及中间结果。

下面通过一个实例的例子来说明上述输入数据的拆分的方式，对于输出结果与输入数据因为数据类型相同，其拆分的方式基本相同，假设该数据类型为矩阵，该矩阵为H＊W，则拆分的方式可以为，如H的数值较小(小于设定阈值，例如100)，那么在沿H方向将矩阵H＊W拆分成H个向量(每个向量为矩阵H＊W的一行)，每个向量即为一个输入数据块，并对输入数据块的第一元素的位置标记在输入数据块，即输入数据块_h，w，其中，h、w分别为输入数据块_h，w的第一元素在H方向以及W方向的值，例如第一输入数据块，该h＝1.w＝1。从处理电路接收到输入数据块_h，w后，将输入数据块_h，w与权值每列元素一一对应相乘和累加运算得到输入中间结果_w，i，中间结果的w为输入数据块的w值，i为与输入数据块计算的列元素的列数值，主处理电路确定中间结果在隐层输出结果的位置为w、i。例如，输入数据块输入数据块_1，1与权值第一列计算得到的输入中间结果_1，1，主处理电路将输入中间结果_1，1排列在隐层输出结果第一行第一列。

本申请还提供一种LSTM运算方法，所述方法应用于计算装置所述LSTM包括：所述LSTM包括：输入层、隐层、输出层和块block，所述块包括：输入门、输出门和忘记门，所述输入门与输入层连接，所述输出门与输出层连接，所述忘记门与隐层连接，所述计算装置包括：运算单元以及控制器单元；所述运算单元包括：一个主处理电路和从处理电路；参阅图6，所述方法包括如下步骤：

步骤S601、所述控制器单元获取输入门输入的t时刻输入数据X_i ^t、权值以及忘记门输入的输出数据，将输入数据X_i ^t、权值W以及输出数据发送给所述主处理电路；

步骤S602、所述主处理电路将输入数据X_i ^t拆分成多个输入数据块，将输出数据拆分成多个输出数据块，将多个输入数据块以及多个输出数据块分发给从处理电路，将所述权值W广播给所述从处理电路；

步骤S603、从处理电路将接收到的输入数据块与权值执行乘积运算得到输入中间结果，将接收到的输出数据块与权值执行乘积运算得到输出中间结果，将输入中间结果以及输出中间结果发送给主处理电路；

步骤S604、所述主处理电路将从处理电路的输入中间结果得到部分输出结果，将输出中间结果拼接得到另一部分输出结果，计算部分输出结果和另一部分输出结果的和得到输出门的t时刻的输出结果αt。

本申请还揭露了一个LSTM装置，其包括一个或多个在本申请中提到的计算装置，用于从其他处理装置中获取待运算数据和控制信息，执行指定的LSTM运算，执行结果通过I/O接口传递给***设备。***设备譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口，服务器。当包含一个以上计算装置时，计算装置间可以通过特定的结构进行链接并传输数据，譬如，通过PCIE总线进行互联并传输数据，以支持更大规模的卷积神经网络训练的运算。此时，可以共享同一控制***，也可以有各自独立的控制***；可以共享内存，也可以每个加速器有各自的内存。此外，其互联方式可以是任意互联拓扑。

该LSTM装置具有较高的兼容性，可通过PCIE接口与各种类型的服务器相连接。

本申请还揭露了一个组合处理装置，其包括上述的LSTM装置，通用互联接口，和其他处理装置。LSTM运算装置与其他处理装置进行交互，共同完成用户指定的操作。图7为组合处理装置的示意图。

其他处理装置，包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为LSTM运算装置与外部数据和控制的接口，包括数据搬运，完成对本LSTM运算装置的开启、停止等基本控制；其他处理装置也可以和LSTM运算装置协作共同完成运算任务。

通用互联接口，用于在所述LSTM装置与其他处理装置间传输数据和控制指令。该LSTM装置从其他处理装置中获取所需的输入数据，写入LSTM装置片上的存储装置；可以从其他处理装置中获取控制指令，写入LSTM装置片上的控制缓存；也可以读取LSTM装置的存储模块中的数据并传输给其他处理装置。

可选的，该结构如图8所示，还可以包括存储装置，存储装置分别与所述LSTM装置和所述其他处理装置连接。存储装置用于保存在所述LSTM装置和所述其他处理装置的数据，尤其适用于所需要运算的数据在本LSTM装置或其他处理装置的内部存储中无法全部保存的数据。

该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上***，有效降低控制部分的核心面积，提高处理速度，降低整体功耗。此情况时，该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口。

在一些实施例里，还申请了一种芯片，其包括了上述LSTM装置或组合处理装置。

在一些实施例里，申请了一种芯片封装结构，其包括了上述芯片。

在一些实施例里，申请了一种板卡，其包括了上述芯片封装结构。参阅图9，图9提供了一种板卡，上述板卡除了包括上述芯片389以外，还可以包括其他的配套部件，该配套部件包括但不限于：存储器件390、接收装置391和控制器件392；

所述存储器件390与所述芯片封装结构内的芯片通过总线连接，用于存储数据。所述存储器件可以包括多组存储单元393。每一组所述存储单元与所述芯片通过总线连接。可以理解，每一组所述存储单元可以是DDR SDRAM(英文：DoubleData Rate SDRAM，双倍速率同步动态随机存储器)。

DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。在一个实施例中，所述存储装置可以包括4组所述存储单元。每一组所述存储单元可以包括多个DDR4颗粒(芯片)。在一个实施例中，所述芯片内部可以包括4个72位DDR4控制器，上述72位DDR4控制器中64bit用于传输数据，8bit用于ECC校验。可以理解，当每一组所述存储单元中采用DDR4－3200颗粒时，数据传输的理论带宽可达到25600MB/s。

在一个实施例中，每一组所述存储单元包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在所述芯片中设置控制DDR的控制器，用于对每个所述存储单元的数据传输与数据存储的控制。

所述接口装置与所述芯片封装结构内的芯片电连接。所述接口装置用于实现所述芯片与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中，所述接口装置可以为标准PCIE接口。比如，待处理的数据由服务器通过标准PCIE接口传递至所述芯片，实现数据转移。优选的，当采用PCIE 3.0X 16接口传输时，理论带宽可达到16000MB/s。在另一个实施例中，所述接口装置还可以是其他的接口，本申请并不限制上述其他的接口的具体表现形式，所述接口单元能够实现转接功能即可。另外，所述芯片的计算结果仍由所述接口装置传送回外部设备(例如服务器)。

所述控制器件与所述芯片电连接。所述控制器件用于对所述芯片的状态进行监控。具体的，所述芯片与所述控制器件可以通过SPI接口电连接。所述控制器件可以包括单片机(Micro Controller Unit，MCU)。如所述芯片可以包括多个处理芯片、多个处理核或多个处理电路，可以带动多个负载。因此，所述芯片可以处于多负载和轻负载等不同的工作状态。通过所述控制装置可以实现对所述芯片中多个处理芯片、多个处理和或多个处理电路的工作状态的调控。

在一些实施例里，申请了一种电子设备，其包括了上述板卡。

电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read－Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read－Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种计算装置，其特征在于，所述计算装置用于执行LSTM运算，所述LSTM包括：输入层、隐层、输出层和块block，所述块包括：输入门、输出门和忘记门，所述输入门与输入层连接，所述输出门与输出层连接，所述忘记门与隐层连接，所述计算装置包括：运算单元以及控制器单元；所述运算单元包括：一个主处理电路和从处理电路；

所述主处理电路，还用于依据从处理电路的输入中间结果得到部分输出结果，将输出中间结果拼接得到另一部分输出结果，计算部分输出结果和另一部分输出结果的和得到输出门的t时刻的输出结果αt；

所述从处理电路的数量为多个，所述多个从处理电路呈阵列分布；每个从处理电路与相邻的其他从处理电路连接，所述主处理电路连接所述多个从处理电路中的k个从处理电路，所述k个从处理电路为：第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路；

所述k个从处理电路，用于在所述主处理电路以及从处理电路之间的输入数据块、输出数据块、权值以及中间结果的转发。

2.根据权利要求1所述的装置，其特征在于，所述主处理电路，还用于将忘记门输入的输出数据为t－1时刻的输出结果执行sigmoid运算后得到的输出数据。

3.根据权利要求1所述的计算装置，其特征在于，

所述主处理电路，还用于将输出结果αt的发送给下一时刻的忘记门。

4.根据权利要求1所述的计算装置，其特征在于，

所述主处理电路，还用于将输出结果αt执行后续处理得到最终输出结果；

所述后续处理包括如下操作中的一种或任意组合：偏置操作或激活操作；

所述激活操作包括：sigmoid，tanh，relu，softmax或线性激活操作。

5.根据权利要求1所述的装置，其特征在于，

所述主处理电路，具体用于将多个从处理电路发送的输入中间结果进行组合排序得到部分输出结果，将多个从处理电路发送的输出中间结果进行组合排序得到另一部分输出结果。

6.根据权利要求1所述的装置，其特征在于，所述主处理电路包括：转换处理电路；

所述转换处理电路，用于对数据执行转换处理，具体为：将主处理电路接收的输入数据X_i ^t、权值W或输出数据执行第一数据结构与第二数据结构之间的互换。

7.根据权利要求1所述的装置，其特征在于，所述从处理电路包括：乘法处理电路和累加处理电路；

所述乘法处理电路，用于对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算得到第一乘积结果；接收到的输出数据块中的元素值与权值中对应位置的元素值执行乘积运算得到第二乘积结果；

所述累加处理电路，用于对第一乘积结果执行累加运算得到该输入中间结果，将第二乘积结果执行累加运算得到输出中间结果。

8.一种LSTM运算装置，其特征在于，所述LSTM运算装置包括一个或多个如权利要求1-7任一项所述的计算装置，用于从其他处理装置中获取待运算数据和控制信息，并执行指定的LSTM运算，将执行结果通过I/O接口传递给其他处理装置；

9.一种组合处理装置，其特征在于，所述组合处理装置包括如权利要求8所述的LSTM运算装置，通用互联接口和其他处理装置；

10.根据权利要求9所述的组合处理装置，其特征在于，还包括：存储装置，该存储装置分别与所述LSTM运算装置和所述其他处理装置连接，用于保存所述LSTM运算装置和所述其他处理装置的数据。

11.一种神经网络芯片，其特征在于，所述神经网络芯片包括如权利要求1所述的计算装置或如权利要求8所述的LSTM运算装置或如权利要求10所述的组合处理装置。

12.一种电子设备，其特征在于，所述电子设备包括如所述权利要求11所述的芯片。

13.一种板卡，其特征在于，所述板卡包括：存储器件、接口装置和控制器件以及如权利要求11所述的神经网络芯片；

所述存储器件，用于存储数据；

所述控制器件，用于对所述芯片的状态进行监控。

14.根据权利要求13所述的板卡，其特征在于，

所述存储器件包括：多组存储单元，每一组所述存储单元与所述芯片通过总线连接，所述存储单元为：DDR SDRAM；

所述芯片包括：DDR控制器，用于对每个所述存储单元的数据传输与数据存储的控制；

所述接口装置为：标准PCIE接口。

15.一种LSTM运算方法，其特征在于，所述方法应用于计算装置，所述LSTM包括：输入层、隐层、输出层和块block，所述块包括：输入门、输出门和忘记门，所述输入门与输入层连接，所述输出门与输出层连接，所述忘记门与隐层连接，所述计算装置包括：运算单元以及控制器单元；所述运算单元包括：一个主处理电路和从处理电路；所述方法包括如下步骤：

所述主处理电路依据从处理电路的输入中间结果得到部分输出结果，将输出中间结果拼接得到另一部分输出结果，计算部分输出结果和另一部分输出结果的和得到输出门的t时刻的输出结果αt；

所述从处理电路的数量为多个，所述多个从处理电路呈阵列分布；每个从处理电路与相邻的其他从处理电路连接，所述主处理电路连接所述多个从处理电路中的k个从处理电路，所述k个从处理电路为：第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路；所述方法还包括：

16.根据权利要求15所述的方法，其特征在于，所述忘记门输入的输出数据的确定方法具体包括：

对t－1时刻的输出结果执行sigmoid运算后得到的输出数据。

17.根据权利要求15所述的方法，其特征在于，所述方法还包括：

所述主处理电路将输出结果αt的发送给下一时刻的忘记门。

18.根据权利要求15所述的方法，其特征在于，

所述主处理电路将输出结果αt执行后续处理得到最终输出结果；

19.根据权利要求15所述的方法，其特征在于，

所述主处理电路将多个处理电路发送的输入中间结果进行组合排序得到部分输出结果，将多个处理电路发送的输出中间结果进行组合排序得到另一部分输出结果。

20.根据权利要求15所述的方法，其特征在于，所述主处理电路包括：转换处理电路；

所述转换处理电路对数据执行转换处理，具体为：将主处理电路接收的输入数据X_i ^t、权值W或输出数据执行第一数据结构与第二数据结构之间的互换。

21.根据权利要求15所述的方法，其特征在于，所述从处理电路包括：乘法处理电路和累加处理电路；所述方法具体包括：

所述乘法处理电路对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算得到第一乘积结果；接收到的输出数据块中的元素值与权值中对应位置的元素值执行乘积运算得到第二乘积结果；

所述累加处理电路对第一乘积结果执行累加运算得到该输入中间结果，将第二乘积结果执行累加运算得到输出中间结果。