CN110597555B

CN110597555B - 非易失性存内计算芯片及其运算控制方法

Info

Publication number: CN110597555B
Application number: CN201910713399.0A
Authority: CN
Inventors: 康旺; 张和; 潘彪; 赵巍胜
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2022-03-04
Anticipated expiration: 2039-08-02
Also published as: CN110597555A

Abstract

本发明提供一种非易失性存内计算芯片及其运算控制方法，该非易失性存内计算芯片包括：缓存模块，用于缓存数据；非易失性存内计算模块，连接该缓存模块，用于对该缓存模块发送的数据执行运算；后处理模块，连接该非易失性存内计算模块，用于对该非易失性存内计算模块的运算结果进行后处理；其中，该非易失性存内计算模块包括：非易失性存储单元阵列、连接该非易失性存储单元阵列的行列译码器、连接该非易失性存储单元阵列的读写电路。其中，通过上述非易失性存内计算芯片配合运算控制方法，基于存算一体技术实现乘积累加运算和二值神经网络运算，不需要在存储器与处理器之间传输数据，降低功耗与时延。

Description

非易失性存内计算芯片及其运算控制方法

技术领域

本发明涉及半导体集成电路应用技术领域，尤其涉及一种非易失性存内计算芯片及其运算控制方法。

背景技术

随着深度学习理论的提出和数值计算设备的改进，深度学习神经网络技术得到了快速发展，并被大量应用于计算机视觉、自然语言处理等领域。现在神经网络一般采用浮点计算，需要较大的存储空间和较长的运算时间。

二值神经网络(Binary Neural Network，BNN)是指在浮点型神经网络的基础上，将其权重矩阵中权重值和各个激活函数值(特征值)同时进行二值化得到的神经网络，即：将权重值和激活函数值二值化为1或者-1。通过二值化操作，使模型的参数占用更小的存储空间(内存消耗理论上减少为原来的1/32倍，从浮点32位到1位)，同时利用位操作来代替网络中的乘加运算，大大降低了运算时间和功耗。因此，二值神经网络能够解决当前浮点型神经网络模型应用到嵌入式或移动场景下(例如手机端、可穿戴设备、自动驾驶汽车等)存在的模型过大、计算密度过高等问题，有效减少了存储空间占用，降低了运算时间，以其高模型压缩率和快计算速度的潜在优势，近些年成为深度学习的热门研究方向。

但是，虽然二值神经网络与浮点型神经网络相变，能够减少存储空间占用，降低运算时间，但是，由于二值神经网络仍然需要在存储器与处理器之间传输数据，频繁的数据移动仍然会带来较高的功耗与时延。

发明内容

针对现有技术中的问题，本发明提供一种非易失性存内计算芯片及其运算控制方法，能够至少部分地解决现有技术中存在的问题。

为了实现上述目的，本发明采用如下技术方案：

第一方面，提供一种非易失性存内计算芯片，包括：

缓存模块，用于缓存数据；

非易失性存内计算模块，连接该缓存模块，用于对该缓存模块发送的数据执行运算；

后处理模块，连接该非易失性存内计算模块，用于对该非易失性存内计算模块的运算结果进行后处理；

其中，该非易失性存内计算模块包括：非易失性存储单元阵列、连接该非易失性存储单元阵列的行列译码器、连接该非易失性存储单元阵列的读写电路。

进一步地，该缓存模块包括：第一缓存单元和第二缓存单元，

该第一缓存单元连接在该非易失性存内计算模块的前端，用于接收并缓存输入数据以及特征图数据；

该第二缓存单元连接该非易失性存内计算模块，用于缓存权重数据。

进一步地，该行列译码器包括：行译码器和列译码器，该非易失性存储单元阵列包括：多个阵列排布的非易失性存储单元；

每列非易失性存储单元均通过一位线连接列译码器，每行非易失性存储单元均通过一字线连接该行译码器，每行非易失性存储单元的位线和源线均连接该读写电路。

进一步地，该非易失性存储单元包括：串联连接的非易失性存储器件以及三端开关元件；

该非易失性存储器件一端连接该位线，另一端连接该三端开关元件的第一端，该三端开关元件的第二端连接该字线，该三端开关元件的第三端连接该源线。

每列非易失性存储单元均通过一位线连接列译码器，每行非易失性存储单元均通过一源线连接该行译码器，每行非易失性存储单元的位线和源线均连接该读写电路。

进一步地，该非易失性存储单元包括：串联连接的非易失性存储器件以及两端开关元件；

由该非易失性存储器件以及该两端开关元件形成的串联支路一端连接该位线，另一端连接该源线。

进一步地，还包括：放大器，该放大器连接各条位线，用于将各条位线上的总的模拟电流/电压与参考信息进行对比，输出非易失性存内计算模块的运算结果。

进一步地，还包括：计数器，该计数器连接该读写电路，该计数器的输出作为非易失性存内计算模块的运算结果。

进一步地，该非易失性存储单元为阻变存储单元、相变存储单元、铁电存储单元、自旋存储单元。

第二方面，提供一种基于非易失性存内计算实现乘积累加运算的控制方法，包括：

将第一二进制运算信号存入一行非易失性存储单元，每个非易失性存储单元中存储该第一二进制运算信号的一位；

将第二二进制运算信号加载至该行非易失性存储单元，第一二进制运算信号和第二二进制运算信号执行乘积累加运算时的对应位施加于同一非易失性存储单元；

将同或运算指令加载至该行非易失性存储单元，以使该行非易失性存储单元响应于该同或运算指令执行该第一二进制运算信号和该第二二进制运算信号对应位的同或运算，并将运算结果存储在对应的非易失性存储单元中；

读取该行非易失性存储单元中每个非易失性存储单元中的数据并累加，得到该第一二进制运算信号和第二二进制运算信号各位的乘积累加运算结果。

第三方面，提供一种基于非易失性存内计算实现二值神经网络运算的控制方法，包括：

将至少一个二值权重信号存入至少一行非易失性存储单元，每个非易失性存储单元中存储该二值权重信号的一位；

将特征信号加载至该行非易失性存储单元，二值权重信号和特征信号执行乘积累加运算时的对应位施加于同一非易失性存储单元；

将同或运算指令加载至该行非易失性存储单元，以使该行非易失性存储单元响应于该同或运算指令执行该二值权重信号和该特征信号对应位的同或运算，并将运算结果存储在对应的非易失性存储单元中；

读取该行非易失性存储单元中每个非易失性存储单元中的数据并累加，得到该二值权重信号和该特征信号各位的乘积累加运算结果。

进一步地，还包括：

缓存该乘积累加运算结果，作为下一层的特征信号。

进一步地，还包括：

对该乘积累加运算结果进行后处理，得到二值神经网络运算结果。

本发明实施例提供的非易失性存内计算芯片及其运算控制方法，该非易失性存内计算芯片包括：缓存模块，用于缓存数据；非易失性存内计算模块，连接该缓存模块，用于对该缓存模块发送的数据执行运算；后处理模块，连接该非易失性存内计算模块，用于对该非易失性存内计算模块的运算结果进行后处理；其中，该非易失性存内计算模块包括：非易失性存储单元阵列、连接该非易失性存储单元阵列的行列译码器、连接该非易失性存储单元阵列的读写电路。其中，通过上述非易失性存内计算芯片配合运算控制方法，基于存算一体技术实现乘积累加运算和二值神经网络运算，不需要在存储器与处理器之间传输数据，降低功耗与时延。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中非易失性存内计算芯片的结构框图一；

图2示出图1中非易失性存内计算模块20的结构；

图3为本发明实施例中非易失性存内计算芯片的结构框图二；

图4示出了图2中非易失性存储单元的一种结构；

图5示出了基于图4所示非易失性存储单元阵列的一种结构；

图6a示出了图2中非易失性存储单元的另一种结构；

图6b示出了图2中非易失性存储单元的第三种结构；

图7示出了基于图6b所示非易失性存储单元阵列的另一种结构；

图8a至图8c示出了本发明实施例提供的三种非易失性存储单元的运算逻辑；

图9示出了采用图8a至图8c示出的逻辑实现同或运算或异或运算的真值表；

图10a示出了利用图5所示非易失性存储单元阵列实现同或逻辑运算或者异或逻辑运算的电路结构；

图10b示出了利用图5所示非易失性存储单元阵列实现同或逻辑运算或者异或逻辑运算的另一种电路结构；

图11a示出了利用图7所示非易失性存储单元阵列实现同或逻辑运算或者异或逻辑运算的电路结构；

图11b示出了利用图7所示非易失性存储单元阵列实现同或逻辑运算或者异或逻辑运算的另一种电路结构；

图12示出了图1中后处理模块30的具体结构；

图13示出了本发明实施例中基于非易失性存内计算实现乘积累加运算的控制方法的流程图一；

图14示出了本发明实施例中基于非易失性存内计算实现乘积累加运算的控制方法的流程图二；

图15示出了本发明实施例中基于非易失性存内计算实现二值神经网络运算的控制方法的流程图。

图16示出了一种神经网络运算架构。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

以下在实施方式中详细叙述本发明的详细特征以及优点，其内容足以使任何本领域技术人员，了解本发明的技术内容并据以实施，且根据本说明书所揭露的内容、权利要求及图式，任何本领域技术人员可轻易地理解本发明相关的目的及优点。以下的实施例进一步详细说明本发明的观点，但非以任何观点限制本发明的范畴。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

目前，虽然二值神经网络与浮点型神经网络相变，能够减少存储空间占用，降低运算时间，但是，由于二值神经网络仍然需要在存储器与处理器之间传输数据，频繁的数据移动仍然会带来较高的功耗与时延。

为至少部分解决现有技术中存在的上述技术问题，本发明实施例提供一种非易失性存内计算芯片，能够将存储于计算融合在同一个芯片，基于存算一体技术实现乘积累加运算和二值神经网络运算，从而直接利用存储器进行计算，减少存储器与处理器之间的数据传输，降低功耗与时延。

图1为本发明实施例中非易失性存内计算芯片的结构框图一。如图1所示，该非易失性存内计算芯片包括：缓存模块10、非易失性存内计算模块20以及后处理模块30。

其中，缓存模块10用于接收输入数据并缓存数据，也可以用于输出数据，其中，缓存的数据可以为输入数据，也可以为非易失性存内计算模块20的中间运算结果或者后处理模块输出的计算结果等，比如：输入数据、权重数据、特征图数据等。

具体地，该缓存模块10可采用SRAM或MRAM实现。

非易失性存内计算模块20连接该缓存模块，用于对该缓存模块发送的数据执行运算。

其中，该非易失性存内计算模块20可以存储数据，也可以基于非易失的特性，实现与逻辑运算、或逻辑运算、异或逻辑运算、同或逻辑运算、乘加累积运算(MAC)等。

后处理模块(Post-processing Engine)30连接该非易失性存内计算模块，用于对该非易失性存内计算模块的运算结果进行后处理。

具体地，该后处理可以包括：池化(Pooling)、批归一化(Batch Normalization)、移位、偏置、求平均值、取最大最小值、激活函数等运算。

其中，该非易失性存内计算模块20包括：非易失性存储单元阵列21、连接该非易失性存储单元阵列的行列译码器23、连接该非易失性存储单元阵列的读写电路22，还可以包括连接所述非易失性存储单元阵列21的MAC***电路24(如计数器、放大器等)，参见图2。

具体地，该非易失性存储单元阵列21可为RRAM,PCRAM,MRAM等。

值得说明的是，本发明实施例提供的非易失性存内计算芯片，通过采用缓存模块接收或缓存数据，通过控制非易失性存内计算模块20，以使非易失性存内计算模块20对待运算数据执行逻辑运算，由后处理模块30对运算结果进行处理后，发送至缓存模块输出或者继续参与下一轮运算，进而可基于存算一体技术实现乘积累加运算或二值神经网络运算等运算过程，不需要在存储器与处理器之间传输数据，降低功耗与时延。

在一个可选的实施例中，参见图3，该缓存模块10可以包括：第一缓存单元11和第二缓存单元12。

第一缓存单元11连接在非易失性存内计算模块20的前端，用于接收并缓存输入数据以及特征图数据；第二缓存单元12连接所述非易失性存内计算模块，用于缓存权重数据。

其中，通过设置两个缓存单元分别缓存不同数据，能够提高数据缓存读取速度，提高非易失性存内计算芯片的灵活性。

在一个可选的实施例中，该缓存模块20还可以连接一非易失性片外存储器(可以是传统Flash、硬盘，也可是新型非易失性存储器RRAM,MRAM,PCRAM)，以此提高片外存储的容量和存取速度，防止大规模运算时缓存数据严重溢出而影响运算的问题。

在一个可选的实施例中，该行列译码器包括：行译码器和列译码器，所述非易失性存储单元阵列包括：多个阵列排布的非易失性存储单元；每列非易失性存储单元均通过一位线BL连接列译码器，每行非易失性存储单元均通过一字线WL连接所述行译码器，每行非易失性存储单元的位线BL和源线SL均连接所述读写电路。

在一个进一步地实施例中，该非易失性存储单元包括：串联连接的非易失性存储器件R以及三端开关元件T1(简称1T1R结构)，参见图4；

非易失性存储器件R一端连接所述位线BL，另一端连接所述三端开关元件T1的第一端，所述三端开关元件T1的第二端连接所述字线WL，所述三端开关元件T1的第三端连接所述源线SL，由该非易失性存储单元阵列排布形成的非易失性存储单元阵列的结构参见图5。

其中，开关元件可采用PMOS晶体管或NMOS晶体管实现，该第一端可为MOS管的漏极，该第二端可为MOS管的栅极，该第三端可为MOS管的源极。

当然，本发明实施例提供的晶体管的第一端可以为源极，则第三端为漏极，本发明对此不作限定，可根据晶体管的类型合理选择即可。

在另一个可选的实施例中，行列译码器包括：行译码器和列译码器，非易失性存储单元阵列包括：多个阵列排布的非易失性存储单元；

每列非易失性存储单元均通过一位线连接列译码器，每行非易失性存储单元均通过一源线连接所述行译码器，每行非易失性存储单元的位线和源线均连接所述读写电路。

在一个进一步地实施例中，所述非易失性存储单元包括：串联连接的非易失性存储器件R以及两端开关元件T2或T3(也称1T1R结构)，参见图6a和图6b；

由所述非易失性存储器件以及所述两端开关元件形成的串联支路一端连接所述位线BL，另一端连接所述源线SL。由该非易失性存储单元阵列排布形成的非易失性存储单元阵列(简称交叉点阵列)的结构参见图7。

在1T1R单元结构中，非易失性存储器件的状态(通常有两个状态，表示逻辑0的低阻态和表示逻辑1的高阻态，或者反之亦可)取决于位线BL与源线SL上的电压差(注意：高压代表1，低压代表0)，当位线BL与源线SL之间的电压差超过某个阈值时，非易失性存储器件的状态就翻转(不论当前是何状态)，当位线BL与源线SL之间的电压不超过阈值时，非易失性存储器件的状态保持初始状态，如单向RRAM器件、电场调控MRAM器件等。基于此原理，发明人通过大量研究分析发现，可以利用上述1T1R结构实现同或运算XNOR。如图8a、图8b、图8c所示，令BL上的电压为输入操作数A,SL上的电压为输入操作数C,非易失性存储器件当前存储的数据为操作数Bi，则可以得到真值表，参见图9，可以看到，当C＝0时，Bi与A执行异或(XOR)操作，但当C＝1时，Bi与A执行同或(XNOR)操作。

通过发明人大量的研究发现，对两个向量的MAC运算的过程能够等效于两个两项的各元素的同或运算(XNOR)的累加，例如，序列A＝[0101]和B＝[1011]，A×B＝a1×b1+a2×b2+a3×b3+a4×b4＝a1⊙b1+a2⊙b2+a3⊙b3+a4⊙b4＝1。其中，XNOR的符号是⊙，另外，XNOR＝XOR(异或运算⊕)取反。

基于上述原理，对于图5和图7所示的非易失性存储单元阵列，通过增加***电路，可以实现两个向量的XNOR操作。

图10a示出了利用图5所示非易失性存储单元阵列实现同或逻辑运算或者异或逻辑运算的电路结构。如图10a所示，各条位线上均连接一个放大器(相当于读写电路的读写单元)，各放大器的输出端均连接至计数器，计数器对读取的数据中表示1的数据进行计数，计数结果作为非易失性存内计算模块的运算结果。

可以将运算数据B＝{b₁,b₂,…,b_M}(针对神经网络运算，B相当于某一层的权重数据，针对卷积神经网络运算，B相当于卷积核数据)存储于某一行非易失性存储单元中(通过读写电路配合行列译码器，通过控制位线与源线的电压差实现)，将表征A＝{a₁,a₂,…,a_M}的信号加载在该行非易失性存储单元的位线，将同或运算指令{1,1,…,1}加载在非易失性存储单元的源线，当所有位线为高时，在A的作用下，在每一个单元中执行XNOR操作，对应每一行执行A与B的XNOR操作，最后通过选通不同的WL,读取每一行单元1的状态并通过计数器累加，即可实现MAC操作。

本领域技术人员可以理解的是，也可将异或运算指令{0,0,…,0}加载在非易失性存储单元的源线，在A的作用下，在每一个单元中执行XOR操作，对应每一行执行A与B的XOR操作，最后通过选通不同的WL,读取每一行单元0的状态并通过计数器累加，也可实现MAC操作。

图10b示出了利用图5所示非易失性存储单元阵列实现同或逻辑运算或者异或逻辑运算的另一种电路结构；如图10b所示，放大器连接各条位线，用于将各条位线上的总的模拟电流/电压与参考信息进行对比，输出非易失性存内计算模块的运算结果。

可将运算数据B＝{b₁,b₂,…,b_M}(针对神经网络运算，B相当于某一层的权重数据，针对卷积神经网络运算，B相当于卷积核数据)存储于某一行非易失性存储单元中(通过读写电路配合行列译码器，通过控制位线与源线的电压差实现)，将表征A＝{a₁,a₂,…,a_M}的信号加载在该行非易失性存储单元的位线，将同或运算指令{1,1,…,1}加载在非易失性存储单元的源线，当所有位线为高时，在A的作用下，在每一个单元中执行XNOR操作，对应每一行执行A与B的XNOR操作，通过读取所有单元总的模拟电流/电压的方式，通过放大器将所有单元总的模拟电流/电压与参考信号的对比，并将对比结果作为MAC操作结果。

图11a示出了利用图7所示非易失性存储单元阵列实现同或逻辑运算或者异或逻辑运算的电路结构。图11b示出了利用图7所示非易失性存储单元阵列实现同或逻辑运算或者异或逻辑运算的另一种电路结构。其运算原理和电路描述参考图10a和图10b，在此不再赘述。

图12示出了图1中后处理模块30的具体结构。参见图12，该后处理模块30包括多个PE通道，分别实现不同中预算组配的后处理功能，该PE通道1包括：非线性函数+池化+批归一化+激活函数。不同PE通道由不同种运算按所需顺序组配实现。

值得说明的是，后处理模块为本领域常见的技术，在此不再赘述。

值得说明的是，本发明实施例中所采用的非易失性存储单元优选为阻变存储单元、相变存储单元、铁电存储单元、自旋存储单元等。

其中，该非易失性存内计算芯片还可以包括控制器，用于控制整个芯片的状态与时序。

图13示出了本发明实施例中基于非易失性存内计算实现乘积累加运算的控制方法的流程图一；如图13所示，该基于非易失性存内计算实现乘积累加运算的控制方法可以用于控制上述的非易失性存内计算芯片实现乘积累加运算。

该基于非易失性存内计算实现乘积累加运算的控制方法可以包括以下内容：

步骤S100：将第一二进制运算信号存入一行非易失性存储单元。

其中，每个非易失性存储单元中存储所述第一二进制运算信号的一位。

具体地，通过行列译码器、读写电路配合，控制非易失性存储单元位线和源线上的电压差将每个二进制位写入一个非易失性存储单元中。

值得说明的是，第一二进制运算信号表征第一二进制运算数据。

步骤S200：将第二二进制运算信号加载至该行非易失性存储单元。

其中，第一二进制运算信号和第二二进制运算信号执行乘积累加运算时的对应位施加于同一非易失性存储单元；

具体地，通过行列译码器、读写电路配合，根据第二二进制运算信号配置该行非易失性存储单元对应存储单元的位线。

值得说明的是，第二二进制运算信号表征第二二进制运算数据。

步骤S300：将同或运算指令加载至该行非易失性存储单元，以使该行非易失性存储单元响应于所述同或运算指令执行所述第一二进制运算信号和所述第二二进制运算信号对应位的同或运算，并将运算结果存储在对应的非易失性存储单元中。

其中，同或运算指令可以设置为全1或全0，根据电路情况进行配置，异或运算指令与同或运算指令相反即可。

具体地，通过行列译码器、读写电路配合，根据同或运算指令配置该行非易失性存储单元。

步骤S400：读取该行非易失性存储单元中每个非易失性存储单元中的数据并累加，得到所述第一二进制运算信号和第二二进制运算信号各位的乘积累加运算结果。

具体地，可以通过行列译码器、读写电路配合，读取该行非易失性存储单元中每个非易失性存储单元中的数据，通过计数器对读取的该行各非易失性存储单元的某一特定状态进行计数，即可实现MAC操作，参考图10a和图11a,首先，读取该行非易失性存储单元中每个非易失性存储单元中的数据；然后，对读取的数据中表示1的数据进行计数；最后，将计数结果作为所述第一二进制运算信号和第二二进制运算信号各位的乘积累加运算结果。

或者，通过读取所有单元总的模拟电流/电压的方式，通过放大器将所有单元总的模拟电流/电压与参考信号的对比，并将对比结果作为MAC操作结果，参考图10b和图11b，首先，读取该行非易失性存储单元中所有非易失性存储单元的总模拟电流/电压；然后，将所述总模拟电流/电压与第一参考信号进行比较；最后，将比较结果作为所述第一二进制运算信号和第二二进制运算信号各位的乘积累加运算结果。

通过上述技术方案可以的值，本发明可以采用上述控制方法控制上述基于非易失性存内计算实现乘积累加运算，不需要在存储器与处理器之间传输数据，降低功耗与时延。

图14示出了本发明实施例中基于非易失性存内计算实现乘积累加运算的控制方法的流程图二；如图14所示，该基于非易失性存内计算实现乘积累加运算的控制方法可以用于控制上述的非易失性存内计算芯片实现乘积累加运算。

该图14示出的基于非易失性存内计算实现乘积累加运算的控制方法与图13示出的控制方法原理相同，区别在于步骤S300’中将异或运算指令加载至该行非易失性存储单元，利用同或运算为异或运算取反的原理，在读取运算结果时，对读取的数据中表示0的数据进行计数；最后，将计数结果作为所述第一二进制运算信号和第二二进制运算信号各位的乘积累加运算结果。

或者，通过读取所有单元总的模拟电流/电压的方式，通过放大器将所有单元总的模拟电流/电压与参考信号的对比，并将对比结果作为MAC操作结果时，所采用的参考信号与执行同或运算时所采用的参考信号不同，其他原理与采用同或运算时相同，在此不再赘述。

图15示出了本发明实施例中基于非易失性存内计算实现二值神经网络运算的控制方法的流程图。如图15所示，该基于非易失性存内计算实现二值神经网络运算的控制方法可以包括以下内容：

步骤S1000：将至少一个二值权重信号(相当于Bi)存入至少一行非易失性存储单元；

值得说明的是，参见图16，神经网络运算包括多层，每层用于对输入数据和权重数据进行MAC运算，并将运算结果作为下一层的输入。

其中，每个非易失性存储单元中存储所述二值权重信号的一位。

另外，针对卷积神经网络来说，一层可能对应多个卷积核，此时，将每个卷积核对应的数据作为一权重数据，将多个卷积核对应的多个权重数据分别写入多行非易失性存储单元中，以便同时实现多个卷积核对应的运算。

步骤S2000：将特征信号(相当于A)加载至该行非易失性存储单元。

二值权重信号和特征信号执行乘积累加运算时的对应位施加于同一非易失性存储单元；

具体地，通过行列译码器、读写电路配合，根据特征信号配置该行非易失性存储单元对应存储单元的位线。

步骤S3000：将同或运算指令加载至该行非易失性存储单元，以使该行非易失性存储单元响应于所述同或运算指令执行所述二值权重信号和所述特征信号对应位的同或运算，并将运算结果存储在对应的非易失性存储单元中；

步骤S4000：读取该行非易失性存储单元中每个非易失性存储单元中的数据并累加，得到所述二值权重信号和所述特征信号各位的乘积累加运算结果。

具体地，可以通过行列译码器、读写电路配合，读取该行非易失性存储单元中每个非易失性存储单元中的数据，通过计数器对该行各非易失性存储单元的某一状态进行计数，即可实现MAC操作，参考图10a和图11a,首先，读取该行非易失性存储单元中每个非易失性存储单元中的数据；然后，对读取的数据中表示1的数据进行计数；最后，将计数结果作为权重信号和特征信号各位的乘积累加运算结果。

或者，通过读取所有单元总的模拟电流/电压的方式，通过放大器将所有单元总的模拟电流/电压与参考信号的对比，并将对比结果作为MAC操作结果，参考图10b和图11b，首先，读取该行非易失性存储单元中所有非易失性存储单元的总模拟电流/电压；然后，将所述总模拟电流/电压与第一参考信号进行比较；最后，将比较结果作为所述权重信号和特征信号各位的乘积累加运算结果。

值得说明的是，假设权重数据本身存储在非易失性存储单元阵列中，那么，首先需要把权重数据B_i读出到缓存模块(因为运算过程中，运算结果B_i+1存储在当前单元中，意味着初始的权重数据B_i会被破坏，因此在执行MAC运算时，需要把B_i先拷贝到缓存模块，执行完之后，再写回)；

另外，如果权重数据存储于片外存储器中，那么首先把权重数据导入非易失性存储单元阵列当中。

通过上述技术方案可以得知，本发明可以采用上述控制方法控制上述基于非易失性存内计算实现神经网络运算，尤其对于卷积神经网络运算，效果更佳明显，不需要在存储器与处理器之间传输数据，降低功耗与时延。

在一个可选的实施例中，该基于非易失性存内计算实现二值神经网络运算的控制方法还可以包括：

缓存所述乘积累加运算结果，作为下一层的特征信号。

具体地，将乘积累加运算结果缓存至缓存模块中，以便后续使用。

对所述乘积累加运算结果进行后处理，得到二值神经网络运算结果。

本领域技术人员可以理解的是，针对上述基于非易失性存内计算实现二值神经网络运算的控制方法，可以采用异或运算指令替代该同或运算指令，因为异或运算与同或运算的结果互为相返，因此，若采用同或运算时统计存储单元中1的个数，那么采用异或运算时统计存储单元中0的个数即可，原理与上述方法相同，在此不再赘述。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅是本发明的较佳实施例而已，并非对本发明做任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案的范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种非易失性存内计算芯片，其特征在于，包括：

缓存模块，用于缓存数据；

非易失性存内计算模块，连接所述缓存模块，用于对所述缓存模块发送的数据执行运算；

后处理模块，连接所述非易失性存内计算模块，用于对所述非易失性存内计算模块的运算结果进行后处理；

其中，所述非易失性存内计算模块包括：非易失性存储单元阵列、连接所述非易失性存储单元阵列的行列译码器、连接所述非易失性存储单元阵列的读写电路；

所述非易失性存内计算模块的各条位线上均连接一个放大器，各放大器的输出端均连接至计数器，所述计数器对读取的数据中表示1的数据进行计数，计数结果作为所述非易失性存内计算模块的运算结果；或

将所述各条位线上的总的模拟电流/电压与参考信息进行对比，输出所述非易失性存内计算模块的运算结果。

2.根据权利要求1所述的非易失性存内计算芯片，其特征在于，所述缓存模块包括：第一缓存单元和第二缓存单元，

所述第一缓存单元连接在所述非易失性存内计算模块的前端，用于接收并缓存输入数据以及特征图数据；

所述第二缓存单元连接所述非易失性存内计算模块，用于缓存权重数据。

3.根据权利要求1所述的非易失性存内计算芯片，其特征在于，所述行列译码器包括：行译码器和列译码器，所述非易失性存储单元阵列包括：多个阵列排布的非易失性存储单元；

每列非易失性存储单元均通过一位线连接列译码器，每行非易失性存储单元均通过一字线连接所述行译码器，每行非易失性存储单元的位线和源线均连接所述读写电路。

4.根据权利要求3所述的非易失性存内计算芯片，其特征在于，所述非易失性存储单元包括：串联连接的非易失性存储器件以及三端开关元件；

所述非易失性存储器件一端连接所述位线，另一端连接所述三端开关元件的第一端，所述三端开关元件的第二端连接所述字线，所述三端开关元件的第三端连接所述源线。

5.根据权利要求1所述的非易失性存内计算芯片，其特征在于，所述行列译码器包括：行译码器和列译码器，所述非易失性存储单元阵列包括：多个阵列排布的非易失性存储单元；

6.根据权利要求5所述的非易失性存内计算芯片，其特征在于，所述非易失性存储单元包括：串联连接的非易失性存储器件以及两端开关元件；

由所述非易失性存储器件以及所述两端开关元件形成的串联支路一端连接所述位线，另一端连接所述源线。

7.根据权利要求3或5任一项所述的非易失性存内计算芯片，其特征在于，还包括：放大器，所述放大器连接各条位线，用于将各条位线上的总的模拟电流/电压与参考信息进行对比，输出非易失性存内计算模块的运算结果。

8.根据权利要求3或5任一项所述的非易失性存内计算芯片，其特征在于，还包括：计数器，所述计数器连接所述读写电路，所述计数器的输出作为非易失性存内计算模块的运算结果。

9.根据权利要求4或6任一项所述的非易失性存内计算芯片，其特征在于，所述非易失性存储单元为阻变存储单元、相变存储单元、铁电存储单元、自旋存储单元。

10.一种基于非易失性存内计算实现乘积累加运算的控制方法，其特征在于，包括：

将第一二进制运算信号存入一行非易失性存储单元，每个非易失性存储单元中存储所述第一二进制运算信号的一位；

将同或运算指令加载至该行非易失性存储单元，以使该行非易失性存储单元响应于所述同或运算指令执行所述第一二进制运算信号和所述第二二进制运算信号对应位的同或运算，并将运算结果存储在对应的非易失性存储单元中；

读取该行非易失性存储单元中每个非易失性存储单元中的数据并累加，得到所述第一二进制运算信号和第二二进制运算信号各位的乘积累加运算结果；

其中，所述非易失性存储单元位于非易失性存内计算模块内；所述非易失性存内计算模块的各条位线上均连接一个放大器，各放大器的输出端均连接至计数器，所述计数器对读取的数据中表示1的数据进行计数，计数结果作为所述非易失性存内计算模块的运算结果；或

11.一种基于非易失性存内计算实现二值神经网络运算的控制方法，其特征在于，包括：

将至少一个二值权重信号存入至少一行非易失性存储单元，每个非易失性存储单元中存储所述二值权重信号的一位；

将同或运算指令加载至该行非易失性存储单元，以使该行非易失性存储单元响应于所述同或运算指令执行所述二值权重信号和所述特征信号对应位的同或运算，并将运算结果存储在对应的非易失性存储单元中；

读取该行非易失性存储单元中每个非易失性存储单元中的数据并累加，得到所述二值权重信号和所述特征信号各位的乘积累加运算结果；

12.根据权利要求11所述的基于非易失性存内计算实现二值神经网络运算的控制方法，其特征在于，还包括：

缓存所述乘积累加运算结果，作为下一层的特征信号。

13.根据权利要求11所述的基于非易失性存内计算实现二值神经网络运算的控制方法，其特征在于，还包括：