CN109359731B

CN109359731B - 一种基于芯片设计缺陷的神经网络处理方法及装置

Info

Publication number: CN109359731B
Application number: CN201811127453.5A
Authority: CN
Inventors: 欧耿洲
Original assignee: Jeejio Beijing Technology Co ltd
Current assignee: Zhongke Wuqi (Nanjing) Technology Co.,Ltd.
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2022-01-28
Anticipated expiration: 2038-09-27
Also published as: CN109359731A

Abstract

本发明实施例涉及一种基于芯片设计缺陷的神经网络处理方法及装置，所述方法包括：获取芯片的设计缺陷的类型；根据所述类型对神经网络进行调整，以使所述神经网络在所述芯片上正常运行；其中，所述芯片的设计缺陷的类型至少包括以下之一：输入/输出数据缓存处于非正常工作状态、运算单元设计出错、加速器不能适应神经网络的规模，通过对深度神经网络模型进行修改或调整，使得神经网络重新适应出现错误的硬件结构，完成运算目标。

Description

一种基于芯片设计缺陷的神经网络处理方法及装置

技术领域

本发明实施例涉及神经网络技术领域，尤其涉及一种基于芯片设计缺陷的神经网络处理方法及装置。

背景技术

随着深度神经网络(Deep Neural Network，DNN)在人工智能领域的快速发展，越来越多的应用需要更加大量的计算和更加应用专用的计算模式。因此神经网络的运算逐渐从通用平台(CPU，GPU)向专用平台(FPGA，DSP，专用处理器和加速器)延申，这也催生了大量处理神经网络的专用电路和专用处理器的研发设计和制造，成为了DNN发展的一个新兴领域。神经网络处理器结构上一般包含多组运算单元，这些运算单元或者组成脉动阵列，或者组成多级流水进行并行运算，并形成一个灵活的数据通路，一个新的专用架构可以带来50到1000倍运算效率的提升。然而由于设计缺乏经验，开发周期短，开发链条长，神经网络快速演进等原因，支持神经网络的集成电路研发设计难免出现漏洞、差错和预估不足，使得流片生产后的芯片达不到预期的效果甚至神经网络内核失效，造成很大的时间和经济损失，结果是灾难性的。

处理器设计缺陷一般情况下为某一个或者某一组电路造成，神经网络/深度学习算法作为灵活的具有丰富的静态或者动态连接的运算模型，其对一定的处理器设计缺陷具有纠正能力。在传统的处理器设计领域，一旦某个内核模块损坏，则会造成整个内核的失效。

因此，现有方案中缺少在应对芯片设计缺陷对神经网络的处理方法。

发明内容

本发明实施例提供一种基于芯片设计缺陷的神经网络处理方法及装置，通过对深度神经网络模型进行修改或调整，使得神经网络重新适应出现错误的硬件结构，完成运算目标。

第一方面，本发明实施例提供一种基于芯片设计缺陷的神经网络处理方法，包括：

获取芯片的设计缺陷的类型；

根据所述类型对神经网络进行调整，以使所述神经网络在所述芯片上正常运行；

其中，所述芯片的设计缺陷的类型至少包括以下之一：

输入/输出数据缓存处于非正常工作状态、加速器不能适应神经网络的规模或运算单元设计失误。

在一个可能的实施方式中，所述根据所述类型对神经网络进行调整，包括：

当所述芯片的设计缺陷的类型为输入/输出数据缓存处于非正常工作状态时，调整所述输入/输出数据缓存的输入/输出数据的速率进行调整。

在一个可能的实施方式中，所述设置调整所述输入/输出数据缓存的输入/输出数据速率，包括：

修改神经网络模型的层数与每层的规模，每个输入数据读取权重的数量，调整运算单元从输入数据缓存读取数据和输出到输出缓存的频率。

在一个可能的实施方式中，所述设置调整所述输入输出数据缓存的数据地址，包括：

修改神经网络模型的输入输出层的规模，调整读取输入输出缓存的地址范围，绕开缓存失效位点。

当所述芯片的设计缺陷的类型为加速器不能适应神经网络的规模时，将所述神经网络拆分成多个子网络，以使所述加速器能适应每个子网络。

当所述芯片的设计缺陷的类型为运算单元设计失误时，将运算单元对应的运算模式加入到神经网络的训练过程中，使在训练过程中的运算与失效的运算单元运算模式保持相同，以使神经网络适应加速器不正确的运算模式。

第二方面，本发明实施例提供一种基于芯片设计缺陷的神经网络处理装置，包括：

获取模块，用于获取芯片的设计缺陷的类型；

调整模块，用于根据所述类型对神经网络进行调整，以使所述神经网络在所述芯片上正常运行；

其中，所述芯片的设计缺陷的类型至少包括以下之一：

在一个可能的实施方式中，所述调整模块，具体用于当所述芯片的设计缺陷的类型为输入/输出数据缓存处于非正常工作状态时，使得所述输入/输出数据缓存的输入/输出数据的速率进行调整。

在一个可能的实施方式中，所述调整模块，具体用于修改神经网络模型的层数和每层的规模，以及每个输入数据读取权重的数量，调整运算单元从输入数据缓存读取数据或者写到输出缓存数据的频率。

在一个可能的实施方式中，所述调整模块，具体用于修改神经网络模型的输入输出层的规模，调整运算单元从输入数据缓存读取数据或者写到输出缓存数据的地址范围。

在一个可能的实施方式中，所述调整模块，具体用于当所述芯片的设计缺陷的类型为加速器不能适应神经网络的规模时，将所述神经网络拆分成多个子网络，以使所述加速器能适应每个子网络。

在一个可能的实施方式中，所述调整模块，具体用于当所述芯片的设计缺陷的类型为运算单元设计失误时，将对应的运算模式加入到神经网络的训练过程中，使在训练过程中的运算与加速器失效的运算单元的运算模式保持相同，以使神经网络适应加速器不正确的运算模式。

本发明实施例提供的基于芯片设计缺陷的神经网络处理方案，通过该获取芯片的设计缺陷的类型；根据所述类型对神经网络进行调整，以使所述神经网络在所述芯片上正常运行；通过对深度神经网络模型进行修改或调整，使得神经网络重新适应出现错误的硬件结构，完成运算目标。

附图说明

图1为本发明实施例提供的一种基于芯片设计缺陷的神经网络处理方法流程示意图；

图2为本发明实施例提供一种基于芯片设计缺陷的神经网络处理装置的结构示意图；

图3为本发明实施例提供一种基于芯片设计缺陷的神经网络处理设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

图1为本发明实施例提供的一种基于芯片设计缺陷的神经网络处理方法流程示意图，如图1所示，该方法具体包括：

S101、获取芯片的设计缺陷的类型。

其中，所述芯片的设计缺陷的类型至少包括以下之一：

输入输出数据缓存处于非正常工作状态、加速器不能适应神经网络的规模或运算单元设计失误。

S101、根据所述类型对神经网络进行调整，以使所述神经网络在所述芯片上正常运行。

具体地，当所述芯片的设计缺陷的类型为输入/输出数据缓存处于非正常工作状态时，调整所述输入/输出数据缓存的输入/输出数据速率。如，神经网络加速器由于输入数据缓存(神经网络输入层数据缓存，IDB)控制器不能正常工作造成控制通路失效，失效的触发原因为该数据缓存内容为空时，缓存控制器状态机进入错误状态，进而导致数据通路混乱，一部分读取到的输入数据变为乱码，可以修改每个输入数据读取权重的数量，降低运算单元从输入数据缓存读取数据的频率。

其中，神经网络加速器的运算模式为，取得一个输入数据x(i),使其与该层所有的权重w逐个相乘，得到本层的输出一部分y，最后求和。

假设，一个输入层为300，隐层为30，输出层为10的三层DNN网络在该加速器上是不能正常工作的，因为运算单元每读取30个权重就需要读取一次输入数据缓存。现在重新更改其模型，使其成为300x100x30的三层DNN模型并重新训练该模型，由于隐层有更多神经元需要运算，每个输入数据都要得到100个权重才取下一个输入数据，从而有效降低了运算单元从输入数据缓存取数据的频率，避免了错误状态，在只修改了神经网络模型层的情况下规避了上述加速器设计错误。

假设，神经网络加速器设计时只能支持所有连接节点小于10000个，输入层不能超过1024个，输出层不能超过64个的神经网络。现在有一个输入层为960，隐藏层为480，输出层为10的DNN网络，该网络是不能在该加速器上运行的，因为其全部连接节点达到了465600个，远远超出了设计要求。

可以采用将神经网络拆分成多个子网络方式，如对神经网络进行拆分，共分为9个子网络，其中8个子网络为第1、2层的拆分，每个子网络的大小为120x60，每个子网络连接节点为7200；剩余1个子网络为第2、3层的拆分，大小为480x10，子网络连接节点数为4800。这样每个子网络都符合设计要求。其中前8个子网络之间的数据联系被部分删除以实现有效纵切。这样在训练的时候，还是对整个960x480x10的大网络进行训练，在推理时则采用拆分的子网络进行逐次计算，从而扩展了该加速器的能力。

除上述拆分外，还可以采用其它方式将神经网络进行拆分，拆成的子网络的个数不仅仅局限于9个，可根据实际需求进行拆分，对此本实施例不作具体限定。

当所述芯片的设计缺陷的类型为运算单元运算模式设计出错时，将对应的运算模式加入到神经网络的训练过程中，使在训练过程中的运算与加速器失效的运算单元的运算模式保持相同，以使神经网络适应加速器运算模式对应的失效。如，一个神经网络是使用FANN软件进行的训练，该软件采用了浮点对神经网络进行运算，不存在舍入误差。现在更改FANN的运算模式，使得其每次输出的值都进行断尾舍入到一个整数，这样FANN软件变得和硬件一致。重新利用该软件进行神经模型训练，则该模型已经将舍入误差考虑在内，在硬件中保持了一致。

本发明实施例提供的基于芯片设计缺陷的神经网络处理方法，通过该获取芯片的设计缺陷的类型；根据所述类型对神经网络进行调整，以使所述神经网络在所述芯片上正常运行；通过对深度神经网络模型进行修改或调整，使得神经网络重新适应出现错误的硬件结构，完成运算目标。

图2为本发明实施例提供一种基于芯片设计缺陷的神经网络处理装置的结构示意图，如图2所示，该装置具体包括：

获取模块201，用于获取芯片的设计缺陷的类型；

调整模块202，用于根据所述类型对神经网络进行调整，以使所述神经网络在所述芯片上正常运行；

其中，所述芯片的设计缺陷的类型至少包括以下之一：

输入/输出数据缓存处于非正常工作状态、加速器不能适应神经网络的规模、运算单元设计失误。

可选地，所述调整模块202，具体用于当所述芯片的设计缺陷的类型为输入/输出数据缓存处于非正常工作状态时，调整所述输入/输出数据缓存的输入/输出数据速率。

可选地，所述调整模块202，具体用于修改神经网络模型的层数、每层的规模，与每个输入数据读取权重的数量，调整运算单元从输入数据缓存读取数据或者写入到输出缓存数据的频率。

可选地，所述调整模块202，具体用于修改神经网络模型的输入输出层的规模，调整运算单元从输入数据缓存读取数据或者写到输出缓存数据的地址范围。

可选地，所述调整模块202，具体用于当所述芯片的设计缺陷的类型为加速器不能适应神经网络的规模时，将所述神经网络拆分成多个子网络，以使所述加速器能适应每个子网络。

可选地，所述调整模块202，具体用于当所述芯片的设计缺陷的类型为运算单元运算模式设计出错时，将对应的运算模式加入到神经网络的训练过程中，使在训练过程中的运算与加速器失效的运算单元的运算模式保持相同，以使神经网络适应加速器不正确的运算模式。

本发明实施例提供的基于芯片设计缺陷的神经网络处理装置，通过该获取芯片的设计缺陷的类型；根据所述类型对神经网络进行调整，以使所述神经网络在所述芯片上正常运行；通过对深度神经网络模型进行修改或调整，使得神经网络重新适应出现错误的硬件结构，完成运算目标。

图3为本发明实施例提供一种基于芯片设计缺陷的神经网络处理设备的硬件结构示意图，如图3所示，该设备具体包括：

处理器310、存储器320、收发器330。

处理器310可以是中央处理器(英文：central processing unit，CPU)，或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(英文：application-specificintegrated circuit，ASIC)，可编程逻辑器件(英文：programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logicdevice，CPLD)，现场可编程门阵列(英文：field-programmable gate array，FPGA)，通用阵列逻辑(英文：generic array logic,GAL)或其任意组合。

存储器320用于存储各种应用，操作***和数据。存储器320可以将存储的数据传输给处理器310。存储器320可以包括易失性存储器，非易失性动态随机存取内存(英文：nonvolatile random access memory，NVRAM)、相变化随机存取内存(英文：phase changeRAM，PRAM)、磁阻式随机存取内存(英文：magetoresistive RAM，MRAM)等，例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(英文：electrically erasable programmableread-only memory，EEPROM)、闪存器件，例如反或闪存(NOR flash memory)或是反及闪存(NAND flash memory)、半导体器件，例如固态硬盘(英文：solid state disk，SSD)等。存储器320还可以包括上述种类的存储器的组合。

收发器330，用于发送和/或接收数据，收发器330可以是天线等。

所述各器件的工作过程如下：

处理器310，用于获取芯片的设计缺陷的类型。

处理器310，还用于根据所述类型对神经网络进行调整，以使所述神经网络在所述芯片上正常运行。

其中，所述芯片的设计缺陷的类型至少包括以下之一：

可选地，处理器310，还用于当所述芯片的设计缺陷的类型为输入输出数据缓存处于非正常工作状态时，调整所述输入输出数据缓存的输入数据速率。

可选地，处理器310，还用于当所述芯片的设计缺陷的类型为输入/输出数据缓存处于非正常工作状态时，调整运算单元从输入数据缓存读取数据或者写到输出缓存数据的地址范围。

可选地，处理器310，还用于修改每个输入数据读取权重的数量，调整运算单元从输入/输出数据缓存存取数据的频率。

可选地，处理器310，还用于当所述芯片的设计缺陷的类型为加速器不能适应神经网络的规模时，将所述神经网络拆分成多个子网络，以使所述加速器能适应每个子网络。

可选地，处理器310，还用于当所述芯片的设计缺陷的类型为运算单元运算模式设计出错时，将对应的运算模式加入到神经网络的训练过程中，使在训练过程中的运算与加速器失效的运算单元的运算模式保持相同，以使神经网络适应加速器不正确的运算模式。

本实施例提供的基于芯片设计缺陷的神经网络处理设备可以是如图3中所示的基于芯片设计缺陷的神经网络处理设备，可执行如图1中基于芯片设计缺陷的神经网络处理方法的所有步骤，进而实现图1所示基于芯片设计缺陷的神经网络处理方法的技术效果，具体请参照图1相关描述，为简洁描述，在此不作赘述。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于芯片设计缺陷的神经网络处理方法，其特征在于，包括：

获取芯片的设计缺陷的类型；

其中，所述芯片的设计缺陷的类型包括：

输入/输出数据缓存处于非正常工作状态、加速器不能适应神经网络的规模、运算单元设计失误；

所述根据所述类型对神经网络进行调整，包括：

当所述芯片的设计缺陷的类型为输入/输出数据缓存处于非正常工作状态时，调整神经网络中间各层的规模以及权重等参数的数量，使得所述输入/输出数据缓存的输入/输出数据的速率进行调整；

当所述芯片的设计缺陷的类型为加速器不能适应神经网络的规模时，将所述神经网络拆分成多个子网络，以使所述加速器能适应每个子网络；

2.根据权利要求1所述的方法，其特征在于，设置所述输入/输出数据缓存的数据地址进行调整，包括：

调整神经网络输入层的规模，使得所述神经网络可以充分利用数据缓存未失效的部分，绕开故障地址。

3.一种基于芯片设计缺陷的神经网络处理装置，其特征在于，包括：

获取模块，用于获取芯片的设计缺陷的类型；

其中，所述芯片的设计缺陷的类型包括：

所述调整模块，具体用于当所述芯片的设计缺陷的类型为输入/输出数据缓存处于非正常工作状态时，调整神经网络模型各层的规模以及权重等参数的数量，使得所述输入/输出缓存的输入/输出数据的速率进行调整；

当所述芯片的设计缺陷的类型为运算单元设计失误时，将对应的运算模式加入到神经网络的训练过程中，使在训练过程中的运算与失效的运算单元运算模式保持相同，以使神经网络适应加速器不正确的运算模式。

4.根据权利要求3所述的装置，其特征在于，所述调整模块，具体用于调整神经网络输入层的规模，使得所述神经网络可以充分利用数据缓存未失效的部分，绕开故障地址。