CN109844775A

CN109844775A - 神经网络电路装置、神经网络、神经网络处理方法及神经网络的执行程序

Info

Publication number: CN109844775A
Application number: CN201780052989.2A
Authority: CN
Inventors: 中原启贵; 米川晴义
Original assignee: Tokyo Institute of Technology NUC
Current assignee: Tokyo Institute of Technology NUC
Priority date: 2016-12-02
Filing date: 2017-11-28
Publication date: 2019-06-04
Also published as: JP2018092377A; WO2018101275A1; US20200005131A1; EP3564865A1; JP6183980B1; EP3564865A4

Abstract

本发明提供一种无需批归一化电路的神经网络电路装置、神经网络、神经网络处理方法及神经网络的执行程序。二值化神经网络电路(100)具备：输入输入值x1～xn(xi)(二值)的输入节点及输入加权w1～wn(wi)的输入部(101)、接收输入值x1～xn及加权w1～wn并采用XNOR逻辑的XNOR门电路(102)、输入多位偏置W'的多位偏置W'输入部(110)、取各XNOR逻辑值和多位偏置W'的总和的求和电路(103)及对于取总和后的信号Y仅输出符号位的激活电路(120)。

Description

神经网络电路装置、神经网络、神经网络处理方法及神经网络的执行程序

技术领域

本发明涉及一种神经网络电路装置、神经网络、神经网络处理方法及神经网络的执行程序。

背景技术

已有经典的前馈神经网络(FFNN：Feedforward Neural Network)、RBF(RadialBasis Function)网络、归一化RBF网络、自组织映射神经网络等。RBFN在用于误差反向传播法的激活函数中使用径向基函数。但是，存在不能获得较多的中间层从而难以进行高精度识别判定，或HW規模较大而耗费处理時间等问题，在手写文字识别等应用领域受到限制。

近年来，作为因用于ADAS(advanced driver assistance system)的图像识别及自动翻译等而备受关注的新方式，出现了卷积神经网络(CNN：Convolutional NeuralNetwork)(层之间不是全连接的NN)及递归型神经网络(双向传播)。CNN是在深度神经网络(DNN：Deep Neural Network)中追加卷积运算。

专利文献1中记载了具备如下处理部的处理装置，该处理部基于纠错码的校验矩阵，使用在递阶型神经网络中的松耦合的节点间所学习到的加权的值和输入信号来解决问题。

现有的CNN由短精度(多位)的积和运算电路构成，需要大量的乘法电路。因此，存在面积及功耗巨大的缺点。因此，提出了仅使用二值化精度即+1和-1来构成CNN的电路(例如，参见非专利文献1～4)。

现有技术文献

专利文献

专利文献1：日本特开2016-173843号公报

非专利文献

非专利文献1：M.Courbariaux、I.Hubara、D.Soudry、R.E.Yaniv、Y.Bengio“二值化神经网络:通过限制为+1或-1的加权或激活来训练深层神经网络(Binarized neuralnetworks:Training deep neural networks with weights and activationsconstrained to+1or-1)"计算机研究库(CoRR)(Computer Research Repository(CoRR))、二值化NN的算法[在线]、2016年3月、[平成28年10月5日检索]<URL:http://arxiv.org/pdf/1602.02830v3.pdf>

非专利文献2：Mohammad Rastegari、Vicente Ordonez、Joseph Redmon、AliFarhadi“XNOR-网络:使用二进制卷积神经网络的ImageNet分类(XNOR-Net:ImageNetClassification Using Binary Convolutional Neural Networks)”计算机视觉及模式识别(Computer Vision and Pattern recognition)、“二值化NN的算法”、[在线]、2016年3月、[平成28年10月5日检索]<URL:https://arxiv.org/pdf/1603.05279v4>

非专利文献3：Hiroki Nakahara、Haruyoshi Yonekawa、Tsutomu Sasao、HisashiIwamoto及Masato Motomura“基于内存实现二值化深度卷积神经网络(A Memory-BasedRealization of a Binarized Deep Convolutional Neural Network)”有关现场可编程技术(FPT)的2016国际会议的会报、中国西安、2016年12月(To Appear)(Proc.ofthe2016International Conference on Field-Programmable Technology(FPT),Xi'an,China,Dec 2016(To Appear)).

非专利文献4：Eriko Nurvitadhi、David Sheffield、Jaewoong Sim、AsitMishra、Ganesh Venkatesh、Debbie Marr“加快二值化神经网络:FPGA、CPU、GPU及ASIC的比较(Accelerating Binarized Neural Networks:Comparison of FPGA,CPU,GPU,andASIC)”有关现场可编程技术(FPT)的2016国际会议的会报、中国西安、2016年12月(ToAppear)(Proc.of the 2016International Conference on Field-ProgrammableTechnology(FPT),Xi'an,China,Dec 2016(To Appear)).

发明内容

发明想要解决的课题

在非专利文献1～4的技术中，因将精度降低为二值，也降低了CNN的识别精度。为了避免这种情况并维持二值化CNN的精度，需要批归一化电路，但批归一化电路是一种复杂的电路，存在面积及功耗增大的问题。

本发明是鉴于这样的情况而完成的，其课题在于提供一种无需批归一化电路的神经网络电路装置、神经网络、神经网络处理方法及神经网络的执行程序。

用于解决课题的手段

为了解决所述课题，在至少包括输入层、一个以上中间层及输出层的神经网络中，本发明的神经网络电路装置在所述中间层中，将输入值与权重和偏置相乘，其特征在于，所述神经网络电路装置具备：接收输入值xi及加权wi并进行逻辑运算的逻辑电路部、接收多位偏置W’并取所述逻辑电路部的输出和所述多位偏置W’的总和的求和电路部、及相对取总和后的多位信号Y仅输出符号位的激活电路部。

发明效果

根据本发明，能够提供一种无需批归一化电路的神经网络电路装置、神经网络、神经网络处理方法及神经网络的执行程序。

附图说明

图1为深度神经网络(DNN)的一种结构的说明图。

图2为表示比较例的神经网络的神经网络电路的一种构成的图。

图3为表示图2所示的神经网络电路中的激活函数fact(Y)的图。

图4为表示将图2所示的神经网络电路的乘法电路替换为XNOR门电路的二值化神经网络电路的一种构成的图。

图5为表示图4所示的二值化神经网络电路中的激活函数f sgn(B)的图。

图6为表示具备比较例的批归一化电路的二值化神经网络电路的一种构成的图。

图7为表示利用神经网络的二值化神经网络电路的缩放(γ)来进行的归一化的图。

图8为表示利用神经网络的二值化神经网络电路的转移(β)来进行的-1～+1的限制的图。

图9为表示本发明的实施方式的深度神经网络的二值化神经网络电路的构成的图。

图10为表示本发明的实施方式的深度神经网络的二值化神经网络电路的激活电路的图。

图11为本发明的实施方式的深度神经网络的多位构成的神经网络电路和二值化神经网络电路的识别精度的说明图。

图12为将本发明的实施方式的深度神经网络的二值化神经网络电路和现有的多位安装法的比较结果制成表而表示的图。

图13为本发明的实施方式的深度神经网络的二值化神经网络电路的安装例的说明图。

图14为表示变形例的深度神经网络的二值化神经网络电路的构成的图。

图15为表示变形例的二值化神经网络电路的LUT的构成的图。

具体实施方式

下面，参考附图对用于实施本发明的方式(下面，称为“本实施方式”)中的深度神经网络进行说明。

(背景说明)

图1为深度神经网络(DNN)的一种结构的说明图。

如图1所示，深度神经网络(DNN)1由输入层(input layer)11、任意数量的作为中间层的隐藏层(hidden layer)12及输出层(output layer)13构成。

输入层(input layer)11具有多个(这里为8个)输入节点(神经元)。隐藏层12为多个(这里为3层(hidden layer1、hidden layer2、hidden layer3))。实际上，隐藏层12的层数n达到例如20～100。输出层13具有识别对象的数量(这里为4)的输出节点(神经元)。需要指出，层数及节点的数量(神经元数量)为一例。

深度神经网络1的输入层11和隐藏层12的节点间全部耦合，隐藏层12和输出层13的节点间全部耦合。

在输入层11、隐藏层12及输出层13中存在任意数量的节点(参见图1的○标记)。该节点为接收输入并输出值的函数。除输入节点以外，输入层11中具有输入独立的值的偏置(bias)节点。构成通过重叠具有多个节点的层而构建。传播是指对接收到的输入加上加权(weight)，并通过激活函数(activation function)转换接收到的输入并输出给下一层。激活函数具有sigmoid函数及tanh函数等非线性函数、ReLU(Rectified Linear Unitfunction：归一化线性函数)。通过增加节点数量，能够增加所处理的变量，从而考虑到多个要素而确定值/边界。通过增加层的数量，能够表现直线边界的组合及复杂的边界。学***方和误差。为了提高泛化能力，在误差中加上正则化项。误差反向传播法使误差从输出层13传播下去，并调节各层的加权。

能够通过二维地展开图1的深度神经网络1的构成来构建适合图像处理的CNN。另外，通过向深度神经网络1中加入反馈，能够构成信号沿双方向传播的RNN(RecurrentNeural Network：递归型神经网络)。

如图1的粗虚线三角部所示，深度神经网络1由实现多层神经网络的电路(下面，称为神经网络电路)2构成。

本技术以神经网络电路2为对象。神经网络电路2的应用位置及应用数量没有限定。例如，当隐藏层12的层数n为20～30时，可以应用于这些层的任意位置，另外可以将任意节点作为输入输出节点。而且，不限定于深度神经网络1，也可以为任意神经网络。其中，对于输入层11或输出层13的节点输出，要求多位输出而不是二值化输出，因此神经网络电路2不包括在内。其中，即使构成输出层13的节点的电路中残留有乘法电路，也不会造成面积上的问题。

需要指出，前提是针对输入数据评价已经学习完毕的数据。因此，作为学习结果，已经获得了加权wi。

<神经网络电路>

图2为表示比较例的神经网络电路的一种构成的图。

比较例的神经网络电路20能够应用于图1的构成深度神经网络1的神经网络电路2。需要指出，在下面各图的标记中，当值为多位时，用粗实线箭头表示，当值为二值时，用较细的粗实线箭头表示。

神经网络电路20具备下述部件而构成：输入输入值(判断数据)X1～Xn(多位)的输入节点和输入加权W1～Wn(多位)及偏置W0(多位)的输入部21、接收输入值X1～Xn及加权W1～Wn，并分别将输入值X1～Xn与加权W1～Wn相乘的多个乘法电路22、取各乘积值和偏置W0的总和的求和电路23、及通过激活函数fact(Y)变换取总和后的信号Y的激活函数电路24。

在上面的构成中，神经网络电路20在接收输入值X1～Xn(多位)并乘以加权W1～Wn之后，使取包含偏置W0的总和后的信号Y通过激活函数电路24，由此实现了模拟人类神经元的处理。

图3为表示所述图2所示的神经网络电路20中的激活函数fact(Y)的图。图3的横轴采用取总和后的信号Y、纵轴采用激活函数fact(Y)的值。图3的符号○标记为取±1的范围内的值的正侧的激活值(状态值)，图3的符号×标记为取±1的范围内的值的负侧的激活值。

神经网络电路20(参见图2)通过多位而实现了高识别精度。因此，在激活函数电路24(参见图2)中，能够使用非线性激活函数fact(Y)。即，如图4所示，非线性激活函数fact(Y)能够设置为在斜率不为零的部分(参见图4的被虚线圈住的部分)取±1的范围内的值的激活值。因此，神经网络电路20能够实现各种活性，识别精度达到实用值。但是，神经网络电路20需要大量的乘法电路22。而且，神经网络电路20由于输入输出及加权为多位，因此需要大量的存储器，读写的速度(存储器容量及带宽)也是一个问题。

<仅二值化的二值化神经网络电路>

图2所示的比较例的神经网络电路20由短精度(多位)的积和运算电路构成。因此，存在需要大量的乘法电路22，从而导致面积及功耗巨大的缺点。另外，由于输入输出及加权为多位而需要大量的存储器，读写的速度(存储器容量及带宽)是个问题。

因此，提出了仅使用二值化后的精度即+1和-1来构成神经网络电路2(参见图1)的电路(非专利文献1～4)。具体而言，考虑将图2所示的神经网络电路20的乘法电路22替换为逻辑门(例如XNOR门电路)。

图4为表示将图2所示的神经网络电路20的乘法电路22替换为XNOR门电路的二值化神经网络电路的一种构成的图。

比较例的二值化神经网络电路30能够应用于图1的神经网络电路2。

如图4所示，比较例的二值化神经网络电路30具备下述部件而构成：输入输入值x1～xn(二值)的输入节点和输入加权w1～wn(二值)及偏置w0(二值)的输入部31、接收输入值x1～xn及加权w1～wn并采用XNOR(Exclusive NOR：异或非)逻辑的多个XNOR门电路32、取XNOR门电路32的各XNOR逻辑值和偏置w0的总和的求和电路33、及通过激活函数f sgn(B)转换取总和后的信号Y的批归一化信号B的激活函数电路34。

二值化神经网络电路30被替换为XNOR门电路32，在XNOR门电路32中，乘法电路22(参见图2)实现XNOR逻辑。因此，能够减少构成乘法电路22时所需的面积。另外，由于输入值x1～xn、输出值z及加权w1～wn均为二值(-1和+1)，因此与多值时相比，能够大幅度减少存储器量，能够提高存储器带宽。

图5为表示所述图4所示的二值化神经网络电路30中的激活函数f sgn(B)的图。图5的横轴采用取总和后的信号Y、纵轴采用激活函数f sgn(B)的值。图5的符号○标记为取±1的范围内的值的正侧的激活值，图5的符号×标记为取±1的范围内的值的负侧的激活值。

二值化神经网络电路30仅将输入值x1～xn及加权w1～wn二值化。因此，如图5的符号A所示，由于只能处理仅处理±1的激活函数，因此频繁产生误差。另外，斜率不为零的区间(参见图5的虚线圈住的部分)变得不均匀，从而不会顺利地进行学习。即，如图6的符号b所示，由于宽度不均匀而不能定义微分。作为其结果，仅二值化的二值化神经网络电路30的识别精度大幅度降低。

因此，非专利文献1～4中记载了进行批归一化以保持现有二值化神经网络的精度的技术。

<具备批归一化电路的二值化神经网络电路>

图6为表示具备批归一化电路的二值化神经网络电路40的一种构成的图，该批归一化电路更正二值化后的精度从而保持CNN的识别精度。与图4相同的构成部分带有相同符号。

如图6所示，比较例的二值化神经网络电路40具备下述部件而构成：输入输入值x1～xn(二值)的输入节点x1～xn和输入加权w1～wn(二值)及偏置w0(二值)的输入部31、接收输入值x1～xn及加权w1～wn并采用XNOR(Exclusive NOR：异或非)逻辑的多个XNOR门电路32、取XNOR门电路32的各XNOR逻辑值和偏置w0(二值)的总和的求和电路33、通过扩大归一化范围并转移中心这一处理来更正由二值化引起的分散的偏重的批归一化电路41、及通过激活函数f sgn(B)来转换取总和后的信号Y的批归一化信号B的激活函数电路34。

批归一化电路41由乘法电路42及加法器43构成，该乘法电路42在总和加权后，利用缩放(γ)值(多位)进行归一化；及该加法器43在利用缩放(γ)值进行归一化后，通过转移(β)值(多位)转移并进行二分类。缩放(γ)值及转移(β)值的各参数事先在学习时求取。

二值化神经网络电路40具备批归一化电路41，由此，更正二值化后的精度从而保持CNN的识别精度。

需要指出，只要为采用输入值x1～xn和加权w1～wn的XNOR逻辑的逻辑电路即可，不限定于XNOR门，可以为任意逻辑门。

但是，如图6所示，批归一化电路40需要乘法电路42和加法器43。另外，需要预先将缩放(γ)值及转移(β)值保存于存储器。存储器为外部附件，面积增大，造成读取速度降低。

虽然二值化神经网络电路40如图2所示的神经网络电路20那样不需要大量的乘法电路22，但在批归一化电路41中，需要面积较大的乘法电路42和加法器43。在批归一化电路41中，也需要用于保存参数的存储器，需要减少面积和存储器带宽。

<需要批归一化电路的理由>

下面，对比较例的二值化神经网络电路40需要批归一化电路41的理由进行说明。

图7及图8为由比较例的二值化神经网络电路40的批归一化所产生的效果的说明图。图7为表示利用缩放(γ)进行的归一化的图，图8为利用转移(β)进行-1～+1的限制的图。

批归一化是指更正由二值化引起的分散的偏重的电路，总和加权之后，利用缩放(γ)值进行归一化，然后利用转移(β)值进行适当的激活，由此进行二分类。这些参数事先在学习时求取。具体而言，如下所述。

如图7的中空箭头及符号c所示，批归一化电路41的乘法电路42(参见图6)通过缩放(γ)值将总和加权后的信号(结果)Y归一化为宽度“2”(参见图7的阴影部)。由此，与图5的宽度(参见图5的阴影)相比较可知，在仅二值化的二值化神经网络电路30中，针对由于不均匀的宽度而不能定义微分的问题，通过利用缩放(γ)值归一化为宽度“2”来抑制不均匀的宽度。

除此之外，如图8的中空箭头及符号d所示，批归一化电路41的加法器43(参见图6)通过转移(β)值限制利用缩放(γ)值进行归一化后的值，以使其在-1～+1的范围内。即，与图5的宽度(参见图5的阴影部)相比较可知，当图5的宽度(参见图5的阴影部)进一步向+1侧转移时，通过转移(β)值将利用缩放(γ)值归一化后的值限制于-1～+1，从而使该宽度的中心为0。在图5的例子中，负侧的激活值(参见图5的虚线围绕部的符号×标记)返回其原本应所处的负侧。由此，能够减少误差的产生，从而提高识别精度。

这样一来，二值化神经网络电路40中需要批归一化电路41。

<具备批归一化电路的二值化神经网络电路的课题>

通过导入上述批归一化电路41，二值化神经网络电路40的识别精度变得几乎与图2所示的神经网络电路20相等。但是，批归一化电路41需要乘法电路42和加法器43，需要将多位的缩放(γ)值及转移(β)值预先保存于存储器。因此，二值化神经网络电路40依然是复杂的电路，仍存在想要降低面积及功耗这一切实的需求。

在二值化神经网络电路20中，例如将8、9位降低为1位，因此计算精度下降。当用于NN时，错误识别(识别失败率)增加到80％，经不起使用。因此，通过批归一化应对。但是，批归一化电路41需要除法或者浮点的乘法和加法，硬件(HW)化并安装非常困难。另外，需要外部存储器，由于与外部存储器的存取导致延时。

(本发明的原理的说明)

本发明人等着眼点于发现了若相对导入了批归一化的操作的NN，分析求取与其等价的NN，则能够获得无需批归一化的NN。例如，目前，当相对如图3那样的非线性激活函数fact(Y)得到了图3的符号○标记所示的状态值时，将不均匀的宽度归一化，因此进行了缩放。这是为了确保将多位二值化并相乘时的运算精度。但是，本发明人等着眼于神经网络电路中的二值化的本质仅返回于是否激活(二值)。无需缩放，仅转移就能应对。

即，若将加权积和后被输入二值化神经网络电路40的批归一化电路41(参见图6)的信号设为Y，则从批归一化电路41输出的信号(与Y同等的信号)Y’由下式(1)表示。

[数学式1]

其中，

γ：缩放值

β：转移值

μ_B：平均值

σ² _B：平方和误差

ε：参数(用于调节)

因此，二值化激活函数的值f’sgn(Y)在下述式(2)的条件下确定。

[数学式2]

由此，如下述式(3)那样，由这些分析性操作获得加权积和运算。

[数学式3]

其中，

W’：多位偏置

批归一化学习之后，通过这些数学操作获得与批归一化同等的NN的运算。

上述式(3)表示在电路方面仅将偏置值形成多位构成即可。虽然电路简单，但仅通过只将偏置值设为多位无法提高识别精度，如果没有这些分析性观察则不成立。

[实施方式的构成]

图9为表示本发明的实施方式的神经网络的二值化神经网络电路的构成的图。本实施方式的二值化神经网络电路提供向深度神经网络的安装的技术。

二值化神经网络电路100能够应用于图1的神经网络电路2。

如图9所示，二值化神经网络电路100(神经网络电路装置)具备下述部件而构成：输入输入值x1～xn(xi)(二值)的输入节点及输入加权w1～wn(wi)(二值)的输入部101、接收输入值x1～xn及加权w1～wn并采用XNOR逻辑的XNOR门电路102(逻辑电路部)、输入多位偏置W’(参见式(3))的多位偏置W’输入部110、取各XNOR逻辑值和多位偏置W’的总和的求和电路103(求和电路部)、及相对取总和后的信号Y仅输出符号位的激活电路120(激活电路部)。

上述输入值xi(二值)及加权wi(二值)为二值信号。

上述多位信号Y及多位偏置W’由所述式(3)表示。

二值化神经网络电路100应用于深度神经网络1的隐藏层12(参见图1)。在这里，前提为在深度神经网络1中，相对输入值评价已经学习完毕的数据。因此，作为学习结果，已经获得了加权的多位偏置W’。多位偏置W’为学习后的多位偏置值。另外，在图2的神经网络电路20中，虽然使用多位的加权W1～Wn及偏置W0，但本实施方式的多位偏置W’与图2的神经网络电路20中的多位的偏置W0不同。

需要指出，在NN中，加权根据每个客户的识别物体而均不相同。另外，有时根据学习而每次不同。在图像处理中，系数完全相同，在这一点上，NN和图像处理中，HW大不相同。

XNOR门电路102可以为包括异或非的任意逻辑电路部。即，只要为采用输入值x1～xn和加权w1～wn的逻辑的逻辑电路即可，不限定于XNOR门，可以为任意门电路。例如，只要为逻辑上相等即可，可以为任意电路，例如，使XOR门与NOT门组合；与AND、OR门组合；而且使用晶体管开关制造等。

激活电路120为模拟相对取总和后的信号Y仅输出符号位的激活函数电路的电路。符号位为由以是否激活取总和后的多位信号Y所示的二值信号。

这样一来，二值化神经网络电路100具备激活电路120，该激活电路120仅将偏置值形成多位构成，并从包括偏置值的总和中仅输出符号位。即，二值化神经网络电路100形成如下构成：通过仅输出符号位的激活电路120替换图6所示的二值化神经网络电路40的批归一化电路41及激活函数电路34。因此，二值化神经网络电路100形成为无需复杂批归一化电路41的神经网络电路。

图10为表示二值化神经网络电路的激活电路的图。

如图10所示，激活电路120为从包括偏置值的总和的输出Y中仅输出符号位的电路。在图10的电路中，若符号位为输出y[0]、y[1]、…、y[n-1]中的最高位y[n-1]，则作为符号位仅输出最高位y[n-1]。作为激活电路120，仅最高位Y[n-1]被作为输出z而输出。图9中，激活电路120记作激活函数f sgn(Y)，但它是未进行利用图6所示的缩放(γ)进行的归一化及利用转移(β)进行的-1～+1的限制，而仅输出最高位y[n-1]的电路。

下面，对如上所述那样构成的二值化神经网络电路100的动作进行说明。

二值化神经网络电路100用于图1所示的深度神经网络1的神经网络电路2。此时，二值化神经网络电路100的输入节点x1～xn为图1所示的深度神经网络1的hidden layer1的输入节点。向输入部101输入隐藏层12的hidden layer1的输入节点的输入值x1～xn(二值)及加权w1～wn(二值)。

在XNOR门电路102中，接收输入值x1～xn及加权w1～wn，并通过XNOR逻辑进行二值(-1/+1)的乘法。

二值化神经网络电路100替换为XNOR门电路102，在该XNOR门电路102中，多位构成的乘法电路21(参见图2)实现XNOR逻辑。因此，能够减少构成乘法电路21时所需要的面积。另外，由于输入值x1～xn及加权w1～wn均为二值(-1/+1)，因此与其为多位(多值)时相比较能够大幅度减少存储器容量，能够提高存储器带宽。

另一方面，输入符合所述式(3)的多位偏置W’。多位偏置W’不是如二值化神经网络电路30、40(参见图4及图6)那样的二值的偏置w0。另外，即使其为多位，也与二值化神经网络电路20(参见图2)那样的偏置W0不同。如所述式(3)所示，多位偏置W’为由所述偏置w0(二值)调节批归一化量而得到的学习后的偏置值。

向求和电路103输入仅将偏置值形成为多位构成的多位偏置W’。求和电路103取XNOR门电路102的各XNOR逻辑值和多位偏置W’的总和，并将总和的输出Y(多位)输出给激活电路120。

如图10所示，在激活电路120中，从包括偏置值的总和的输出Y(多位)中仅输出符号位。在图10的电路中，符号位为输出Y[0]、y[1]、…、y[n-1]中的最高位y[n-1]。从包括偏置值的总和的输出Y中，激活电路120仅将的最高位y[n-1]作为输出z输出。换而言之，激活电路120不输出y[0]、Yy1]、…、y[n-2]的数值(不使用y[0]、y[1]、…、y[n-2]的数值)。

例如，当作为激活电路120的输入Y输入了4～5bit的信号时，在HW中，通常仅将最高位作为符号位，因此仅输出最高位(符号位)。即，从激活电路120中输出是否激活的两种(二值，即+1か-1)，其被传递给后级的中间层(隐藏层)的节点。

如所述式(3)所示，二值化神经网络电路100为与导入了批归一化的操作的NN同等的NN。所述式(3)由下述实现。即，将形成为二值(仅1位)的输入值xi和加权wi、多位偏置W’作为输入，并采用XNOR逻辑而取代乘法之后，取包括偏置值的这些的总和(所述式(3)的第一项)，激活电路120从包括偏置值的总和的输出Y中仅输出符号位(所述式(3)的第二项)。

因此，激活电路120为从包括偏置值的总和的输出Y中仅输出符号位的电路，但在功能上，它是具有与激活函数电路f sgn(Y)相同的功能，即，形成为模拟激活函数电路fsgn(Y)的电路。

为了确认本实施方式的效果，安装了VGG16(隐藏层为16层)基准NN。VGG16为经常使用的基准，它具有重现性。

图11为多位构成的神经网络电路和二值化神经网络电路的识别精度的说明图。图11(a)表示由多位(32位浮点)构成的神经网络电路20(参见图2)的识别精度，图11(b)表示二值化神经网络电路100的识别精度。图11的横轴为相对所利用的学习数据结束更新的周期即定型周期(epoch)的数量，纵轴为错误识别(误差)(Classification error)。图11通过VGG16基准NN实现并确认本实施方式。另外，图11(a)使用了用于深度神经网络的框架软件Chainer(注册商标)的float32CNN。另外，图11(b)使用了用于深度神经网络的框架软件Chainer(注册商标)的float32CNN。另外，示出了无批归一化、有批归一化。

如图11(a)所示，在多位构成的神经网络电路20中，误差(Classification error)低，识别精度高。下面，将该多位构成的神经网络电路20的识别精度作为比较对象来探讨二值化神经网络电路的识别精度。

如图11(b)的“无批归一化”所示，在仅二值化的二值化神经网络电路30(参见图4)中，误差率(Classification error)大(约80％)，识别精度差。另外，即使继续学习，也未见误差率改善(学习不收敛)。

我们证实了，与此相对，与多位构成的神经网络电路20相比较，由图11(b)的“有批归一化”所示的本实施方式的二值化神经网络电路100具有约6％的误差(使用VGG-16)。其中，由于神经元数量相同，因此若增加神经元数量，则该差收缩。另外还证实了，与多位构成的神经网络电路20相同地，本实施方式的二值化神经网络电路100随着继续学习而收敛。

在本实施方式中，不需要二值化神经网络电路40(参见图6)中必须的批归一化电路41(参见图6)自身，也不需要它们的参数，因此能够减少面积，也能够减少存储器量。另外，图11(a)的“有批归一化”和图11(b)的“有批归一化”相比较可知，本实施方式的二值化神经网络电路100的识别精度与多位构成的神经网络电路20(参见图2)仅相差数％。

图12为将本实施方式的二值化神经网络电路100安装于FPGA(Digilent公司NetFPGA-1G-CML)上，并将与现有的多位安装法的比较结果制成表而表示的图。

在图12的表中，当表下栏外部记载的[1]～[4]的学会发表人(论文发表年度)的神经网络和本实施方式的神经网络在FPGA上实现时，将各项目对比表示。将下述各项目对比表示：“Platform”(平台)、“Clock(MHz)”(用于同步的内部时钟)、“Bandwidth(GB/s)”(数据传输的带宽/外部带有存储器时的传输速度)、“Quantization Strategy”(量子化位数)、“Power(W)”(功耗)、“Performance(GOP/s)”(相对芯片面积的性能)、“ResourceEfficiency(GOP/s/Slices)”(资源效率)、及“Power Efficiency(GOP/s/W)”(性能功率效率)。在该表中，特别需要注意的事项如下所述。

<功耗>

作为本实施方式的二值化神经网络电路100，与表中的现有例相比，可举出：获得电力平衡。在现有例中，如“Power(W)”所示，功耗较大。由于功耗较大，因此回避该情况的控制方法很复杂。如“Power(W)”所示，在本实施方式中，与现有例相比较能够将功耗减少至1/2～1/3。

<芯片面积>

在本实施方式的二值化神经网络电路100中，没有批归一化电路且无需存储器；乘法电路为二值逻辑门；激活函数简单(不是激活函数电路，而是模拟激活函数电路的激活电路120)，因此如表中的“Performance(GOP/s)”所示，相对于芯片面积的性能与现有例相比较达到约30倍。即，具有如下等效果：芯片面积减小；无需外部存储器；存储器控制器及激活函数变得简单。芯片面积与价格成正比，因此价格也有望降低2位数左右。

<性能同等>

如表中的“Bandwidth(GB/s)”所示，本实施方式的二值化神经网络电路100与现有例相比较大致同等。另外，如表中的“Power(W)”所示，即使不看面积而仅看功率效率，性能功率效率也达到约2倍。而且，如表中的“Power Efficiency(GOP/s/W)”所示，每单位瓦数的处理能力(基板整体的瓦数)也达到约2倍。

[安装例]

图13为本发明的实施方式的二值化神经网络电路的安装例的说明图。

<步骤1>

首先，使用现有的用于深度神经网络的框架软件Chainer(注册商标)，在具有CPU(Central Processing Unit)101的电脑上学习所提供的数据集(本次为ImageNet，提供数据以用于图像识别任务)。该电脑具有ARM处理器等CPU101、存储器、硬盘等存储组件(存储部)、及包括网络接口在内的I/O端口。该电脑通过由CPU101执行读取至存储器上的程序(二值化后的神经网络的执行程序)而使由下述的各处理部所构成的控制部(控制组件)进行操作。

<步骤2>

接着，使用自动生成工具，自动生成与本实施方式的二值化神经网络电路100同等的C++编码，从而得到C++编码102。

<步骤3>

接着，使用FPGA厂商的高级合成工具(Xilinx公司SDSoC)(注册商标)，生成HDL(hardware description language)以用于FPGA(field-programmable gate array)合成。

<步骤4>

接着，使用现有的FPGA合成工具Vivado(注册商标)，在FPGA上实现并验证图像识别任务。

<步骤5>

验证之后，完成基板103。二值化神经网络电路100作为硬件安装于基板103。

如上所述，本实施方式的二值化神经网络电路100(参见图9)具备：输入输入值x1～xn(xi)(二值)的输入节点及输入加权w1～wn(wi)(二值)的输入部101、接收输入值x1～xn及加权w1～wn并采用XNOR逻辑的XNOR门电路102、输入多位偏置W’(参见式(3))的多位偏置W’输入部110、取各XNOR逻辑值和多位偏置W’的总和的求和电路103、及相对取总和后的信号Y仅输出符号位的激活电路120。

通过该构成，无需批归一化电路自身，也不需要它们的参数，因此能够减少面积，也能够减少存储器量。另外，在本实施方式中，虽然没有批归一化电路，但形成了在性能上与具备批归一化电路41的二值化神经网络电路40(参见图6)同等的电路构成。这样一来，能够消除批归一化电路的面积和保存参数的存储器面积及存储器带宽，而且，能够实现在性能上同等的电路构成。例如，如图12的表所示，本实施方式的二值化神经网络电路100能够将功耗减少至一半，能够将面积减少至约三十分之一。

根据本实施方式发现，与现有的具备批归一化电路的二值化神经网络电路相比较，能够构成面积减少至三十分之一，同时识别精度大致同等的CNN。作为用于利用深度学习的ADAS(Advanced Driver Assistance System：先进驾驶辅助***)相机图像识别的边缘嵌入式设备硬件方式，有望得到实际应用。特别是在ADAS中，除车载以外还要求高可靠性和低发热。如图12的表所示，本实施方式的二值化神经网络电路100的功耗大大降低，而且不需要外部存储器，因此也不需要用于冷却存储器的冷却风扇或冷却片。优选搭载于ADAS相机。

[变形例]

图14为表示变形例的深度神经网络的二值化神经网络电路的构成的图。与图9相同的构成部分带有相同符号。

本变形例为使用LUT(Look-Up Table)代替了作为乘法电路的逻辑门的例子。

二值化神经网络电路200能够应用于图1的神经网络电路2。

如图14所示，二值化神经网络电路200(神经网络电路装置)具备下述部件而构成：输入输入值x1～xn(xi)(二值)的输入节点x1～xn及输入加权w1～wn(二值)的输入部101、接收输入值x1～xn及加权w1～wn，并保存用于进行二值(-1/+1)的乘法的表值以在运算时用作参考的LUT202(逻辑电路部)、输入多位偏置W’(参见式(3))的多位偏置W’输入组件110、取从LUT202所参考的各表值和多位偏置W’的总和的求和电路103、及模拟对取总和后的信号Y仅输出符号位的激活函数电路的激活电路120。

变形例为使用LUT(Look-Up Table)代替了作为乘法电路的逻辑门的例子。

LUT202使用作为FPGA的基本构成要素的查询表来代替进行XNOR逻辑的XNOR门电路102(参见图9)。

图15为表示变形例的二值化神经网络电路200的LUT202的构成的图。

如图15所示，LUT202保存相对于两个输入(x1、w1)的二值(-1/+1)的XNOR逻辑结果Y。

这样一来，变形例的二值化神经网络电路200形成将图9的XNOR门电路102替换为LUT202的构成。在变形例中，与实施方式相同地，能够消除批归一化电路的面积和保存参数的存储器面积及存储器带宽，而且，能够实现在性能上同等的电路构成。

另外，在本变形例中，作为进行XNOR运算的逻辑门，使用LUT202。LUT202为FPGA的基本构成要素，在合成FPGA时的亲和性较高，容易利用FPGA进行安装。

本发明不限定于上述实施方式的例子，只要不脱离权利要求书中记载的本发明的主旨，则包括其它变形例、应用例。

另外，为了使本发明易于理解而对上述实施方式例进行了详细说明，但不限定于具备所说明的全部构成的方式。另外，可以将某实施方式的例子的部分构成替换为其它实施方式的例子的构成，另外，也可以在某实施方式例子的构成中添加其它实施方式例子的构成。另外，实施方式例子可以以其它各种方式实施，能够在不脱离发明的主旨的范围内进行各种省略、置换及变更。这些实施方式及其变形例包含于发明的范围及主旨，同时也包含于权利要求书中所记载的发明及其同等的范围。

另外，在上述实施方式中所说明的各处理中，作为自动进行的处理所说明的处理的全部或一部分也可以手动进行，或者，作为手动处理所说明的处理的全部或一部分也可以通过公知的方法自动进行。另外，除非另有说明，否则可以对上述文本中或附图中所示的处理流程、控制流程、具体名称、包括各种数据及参数的信息进行更改。

另外，图示的各种设备的各构成要素为功能概念上的要素，物理上不一定必须如图所示那样构成。即，各种设备的分散及整合的具体方式不限定于图示的方式，其的全部或一部分能够根据各种负载或使用状况等，以任意的单位在功能上或物理上分散及整合而构成。

另外，作为上述各构成、功能、处理部、处理组件等，它们的一部分或全部也可以例如通过利用集成电路进行设计等而作为硬件实现。另外，上述各构成、功能等也可以通过软件来实现，该软件用于解释并执行处理器实现各种功能的程序。实现各功能的程序、表、文件等信息能够保持在存储器或硬盘、SSD(Solid State Drive)等记录装置、或IC(Integrated Circuit)卡、SD(Secure Digital)卡、光盘等记录媒体。

另外，在上述实施方式中，虽然装置使用了神经网络电路装置这一名称，但这仅是为了方便说明，名称也可以为深度神经网络电路、神经网络装置、感知器等。另外，虽然方法及程序使用了神经网络处理方法这一名称，但也可以为神经网络运算方法、神经网络程序等。

符号说明

1 深度神经网络

2 神经网络电路

11 输入层

12 隐藏层(中间层)

13 输出层

100、200 二值化神经网络电路(神经网络电路装置)

101 输入部

102 XNOR门电路(逻辑电路部、逻辑电路组件)

103 求和电路(求和电路部、求和电路组件)

110 多位偏置输入部

120 激活电路(激活电路部、激活电路组件)

202 LUT(逻辑电路部)

x1～xn(xi) 输入值(二值)

w1～wn(wi) 加权(二值)

W’ 多位偏置

Claims

1.一种神经网络电路装置，在至少包括输入层、一个以上中间层及输出层的神经网络中，所述神经网络电路装置在所述中间层中，将输入值与权重和偏置相乘，其特征在于，所述神经网络电路装置具备：

接收输入值xi及加权wi并进行逻辑运算的逻辑电路部；

接收多位偏置W’并取所述逻辑电路部的输出和所述多位偏置W’的总和的求和电路部；及

相对取总和后的多位信号Y仅输出符号位的激活电路部。

2.根据权利要求1所述的神经网络电路装置，其特征在于，具备：

输入所述输入值xi及所述加权wi的输入部；

输入所述多位偏置W’的多位偏置输入部。

3.根据权利要求1或权利要求2所述的神经网络电路装置，其特征在于，所述输入值xi及所述加权wi为二值信号。

4.根据权利要求1或权利要求2所述的神经网络电路装置，其特征在于，所述多位偏置W’为学习后的多位偏置值。

5.根据权利要求1所述的神经网络电路装置，其特征在于，所述逻辑电路部包括异或非或异或。

6.根据权利要求1所述的神经网络电路装置，其特征在于，所述逻辑电路部为LUT(Look-Up Table)。

7.根据权利要求1所述的神经网络电路装置，其特征在于，所述符号位为由是否激活取总和后的所述多位信号Y所表示的二值信号。

8.根据权利要求1所述的神经网络电路装置，其特征在于，所述多位信号Y及多位偏置W’由下述式表示。

[数学式3]

9.一种具备权利要求1至8中任一项所述的神经网络电路装置的神经网络。

10.一种神经网络处理方法，在至少包括输入层、一个以上中间层及输出层的神经网络中，所述神经网络处理方法在所述中间层中，将输入值与权重和偏置相乘，其特征在于，所述神经网络处理方法具有下述步骤：

接收输入值xi及加权wi并进行逻辑运算；

接收多位偏置W’并取逻辑运算步骤的输出和所述多位偏置W’的总和；

相对取总和后的多位信号Y仅输出符号位。

11.一种神经网络的执行程序，在至少具备输入层、一个以上中间层及输出层的神经网络中，神经网络电路装置在所述中间层中，将输入值与权重和偏置相乘，所述执行程序使作为所述神经网络电路装置的电脑作为下述组件起作用：

接收输入值xi及加权wi并进行逻辑运算的逻辑电路组件；

接收多位偏置W’并取所述逻辑电路组件的输出和所述多位偏置W’的总和的求和电路组件；

相对取总和后的多位信号Y仅输出符号位的激活电路组件。