CN111738403A

CN111738403A - 一种神经网络的优化方法及相关设备

Info

Publication number: CN111738403A
Application number: CN202010338373.5A
Authority: CN
Inventors: 韩凯; 王云鹤; 许奕星; 许春景
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-10-02
Anticipated expiration: 2040-04-26
Also published as: CN111738403B

Abstract

本申请实施例公开了一种神经网络的优化方法及相关设备，可应用于人工智能领域，通过第一神经网络对第二神经网络的权重矩阵进行二值化操作，得到第一权重矩阵，即第一权重矩阵中各权重值被第一神经网络调整为+1或‑1，之后通过训练数据对这两个神经网络进行联合迭代训练，得到训练后的第二神经网络(其中包括训练后的第一权重矩阵)，该训练好的第二神经网络就可部署在任意目标设备上。在本申请中，第一神经网络可以灵活地判断各个权重取值是否为+1或‑1，第一神经网络也考虑到了权重间的关联性，且第一神经网络是可训练的，能找到更优解。训练后的第二神经网络由于参数量少、计算量低，使得其体积更小、运行更快，能够高效应用于各种移动端。

Description

一种神经网络的优化方法及相关设备

技术领域

本申请涉及深度学习领域，尤其涉及一种神经网络的优化方法及相关设备。

背景技术

神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术，是深度学习的基础，目前的神经网络一般采用浮点计算，需要较大的存储空间和计算量，严重阻碍在边缘设备(如，摄像头)及端侧设备(如，手机)上的应用。二值神经网络以其高模型压缩率和快计算速度的潜在优势，近些年成为深度学习的热门研究方向。

二值神经网络(Binary Neural Network，BNN)是在神经网络的基础上，将神经网络各层的各个权重二值化为1或者-1。通过二值化操作，使模型的参数占用更小的存储空间(原来的每个权重需要32位浮点数存储，现在只要一个bit就可以存下来，内存消耗理论上减少为原来的1/32倍)；同时利用位操作来代替网络中的乘加运算，大大降低了运算时间。BNN的实质是将原来的神经网络各层的各个权重二值化(即取值为+1或-1)，并没有改变网络的结构，主要在梯度下降、权值更新等做了一些优化处理。

目前，神经网络的二值化的方式大部分采用的是基于符号函数Sign的确定性方法，即神经网络各层的各个权重的取值若大于等于1就赋值为+1，若小于1就赋值为-1，这种二值化的方式仅是对神经网络各层的每个权重单独进行量化，没有考虑各个权重之间是否存在相关性，不够灵活。

发明内容

本申请实施例提供了一种神经网络的优化方法及相关设备，用于通过第一神经网络来调整第二神经网络各层权重的取值为+1或-1，即第一神经网络的输入数据为第二神经网络各层的初始权重矩阵，输出数据为初始权重矩阵中各个权重的取值调整为+1或-1的第一权重矩阵，这种优化方式使得第一权重矩阵中的各个权重的取值不仅和自身相关，也与权重矩阵中其他权重的取值相关，使得神经网络的训练和使用更加高效。

基于此，本申请实施例提供以下技术方案：

第一方面，本申请首先提供一种神经网络的优化方法，该方法包括：首先，将第二神经网络各层的初始权重矩阵作为第一神经网络的输入，得到第一神经网络的输出结果，该输出结果为第一权重矩阵，并且会将该第一权重矩阵作为第二神经网络各层优化后的权重矩阵，该输出的第一权重矩阵实质为第二神经网络各层的初始权重矩阵中各个权重的取值通过该第一神经网络调整为+1或-1的权重矩阵，确定好了第一神经网络的输入数据、输出数据以及第一神经网络的具体功能后(即对第二神经网络各层的初始权重矩阵中的各个权重的取值调整为+1或-1)，训练设备将根据训练集中的训练数据对第一神经网络及第二神经网络进行联合迭代训练，从而得到训练后的第二神经网络，训练后的第二神经网络可称为目标神经网络，该训练后的第二神经网络中包括训练后的第一权重矩阵，最后，将训练后的第二神经网络部署在目标设备上。

在本申请上述实施方式中，通过第一神经网络对第二神经网络的权重矩阵进行二值化操作，得到第一权重矩阵，即第一权重矩阵中各权重值被第一神经网络调整为+1或-1，之后根据训练集中的各个训练数据对这两个神经网络进行联合迭代训练，得到训练后的第二神经网络(其中包括训练后的第一权重矩阵)，最后将该训练好的第二神经网络部署在任意目标设备上。在本申请实施例中，第一神经网络可以灵活地判断各个权重取值是否为+1或-1，不像Sign函数单独量化每个权重，而第一神经网络考虑到了权重之间的关联性；不像sign函数是人工设计的，第一神经网络是可学的、可训练的，能够找到更优解。训练后的第二神经网络由于参数量少、计算量低，使得其体积更小、运行更快，能够高效应用于各种移动端。

在第一方面的一种可能实现方式中，第一神经网络与第二神经网络联合训练的过程具体可以是：首先，训练设备根据训练集中的训练数据对第二神经网络进行训练，得到训练后的初始权重矩阵，之后，根据训练后的初始权重矩阵，利用第一损失函数对第一神经网络进行迭代训练，得到经过训练的第一权重矩阵，最后，将经过训练的第一权重矩阵作为该第二神经网络的初始权重矩阵，对第二神经网络进行迭代训练，直至通过训练后的第二神经网络输出的预测结果满足预设条件，其中，最后一次得到的经过训练的第一权重矩阵为最终训练后的第一权重矩阵。

在本申请上述实施方式中，具体阐述了如何对第一神经网络以及第二神经网络进行联合迭代训练的，具备可实现性。

在第一方面的一种可能实现方式中，第一损失函数学习的标签为该训练后的初始权重矩阵通过二值化方式的赋值操作后得到的权重矩阵(可称为第二权重矩阵)，该二值化方式为将该初始权重矩阵中的各个权重按照预设方法赋值为+1或-1的操作方式。

在本申请上述实施方式中，说明了作为第一神经网络的第一损失函数学习的标签应该符合哪些要求，具备灵活性。

在第一方面的一种可能实现方式中，由于对第一神经网络的训练的目的实质是为了调整第一神经网络的权重矩阵(可称为预测权重矩阵)，以使得第一神经网络的预测权重矩阵与第二神经网络的初始权重矩阵最终运算出来的第一权重矩阵的各个权重取值为+1或-1。因此，第一权重矩阵可通过多种运算方式得到，如，第一权重矩阵可通过第一神经网络的预测权重矩阵与第二神经网络的初始权重矩阵的内积运算得到，即第一权重矩阵中第i行第j列的权重的取值为初始权重矩阵的第i行中各个权重的取值及第一神经网络的权重矩阵的第j列中各个权重的取值的内积。

在本申请上述实施方式中，阐述了一种得到第一权重矩阵的运算方式，该方式使得第一权重矩阵的各个权重的取值不再是被单一的赋值为+1或-1，而是与第二神经网络的初始权重矩阵中的多个权重矩阵相关，这使得在训练过程以及实际应用中更加高效。

在第一方面的一种可能实现方式中，第一权重矩阵除了可通过第一神经网络的预测权重矩阵与第二神经网络的初始权重矩阵的内积运算得到之外，还可以通过其他方式得到，包括但不限于如下方式：该第一权重矩阵通过该第一神经网络的权重矩阵与该第二神经网络的初始权重矩阵的卷积运算得到；或，该第一权重矩阵通过该第一神经网络的权重矩阵与该第二神经网络的初始权重矩阵的哈达马积运算得到。

在本申请上述实施方式中，具体阐述了另外几种得到第一权重矩阵的运算方式，具备可选择性。

在第一方面的一种可能的设计中，由于二值化方式为将初始权重矩阵中的各个权重按照预设方法赋值为+1或-1的操作方式。因此，该二值化方式具体可以是上述所述的Sign函数(详见实施例中的公式(1))，即将第二神经网络的初始权重矩阵中权重的取值大于等于0的权重均赋值为+1且将该初始权重矩阵中权重的取值小于0的权重均赋值为-1的操作方式。该二值化方式具体还可以是通过统计法得到将初始权重矩阵中的各个权重赋值为+1或-1的操作方式(详见实施例中的公式(2))，具体此处对预设方法不做限定。

在本申请上述实施方式中，给出了几种二值化方式的具体操作形式，具备灵活性。

在第一方面的一种可能的设计中，第一神经网络可以是任意类型、任意网络结构的神经网络，比如，可以是一个CNN；第二神经网络也可以是任意类型、任意网络结构的神经网络，如，CNN，具体此处对第一神经网络以及第二神经网络的类型及结构做限定。

在本申请上述实施方式中，说明第一神经网络及第二神经网络可以是任意类型及网络结构的神经网络，具备普适性。

在第一方面的一种可能的设计中，目标设备的类型具体可以是移动端的设备，如摄像头、智能家居等边缘设备，也可以是如手机、个人计算机、计算机工作站、平板电脑、智能可穿戴设备(如，智能手表、智能手环、智能耳机等)、游戏机、机顶盒、媒体消费设备等端侧设备，具体此处对目标设备的类型不做限定。

在本申请上述实施方式中，阐述了目标设备的类型可以多种多样，具备普适性。

本申请实施例第二方面还提供了一种图像处理方法，该方法包括：首先获取目标图像，之后将该目标图像作为第二神经网络的输入，输出对该目标图像的识别结果，该第二神经网络的权重矩阵为经由第一神经网络调整后且经过迭代训练后得到的第一权重矩阵，该第一权重矩阵中的各个权重的取值由该第一神经网络调整为+1或-1。

本申请实施例第三方面还提供了一种音频处理方法，该方法包括：首先获取目标音频，之后将该目标音频作为第二神经网络的输入，输出对该目标音频的识别结果，该第二神经网络的权重矩阵为经由第一神经网络调整后且经过迭代训练后得到的第一权重矩阵，该第一权重矩阵中的各个权重的取值由该第一神经网络调整为+1或-1。

本申请实施例第四方面提供一种训练设备，该训练设备具有实现上述第一方面或第一方面任意一种可能实现方式的方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

本申请实施例第五方面提供一种执行设备，该执行设备具有实现上述第二方面或第三方面的方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

本申请实施例第六方面提供一种训练设备，可以包括存储器、处理器以及总线***，其中，存储器用于存储程序，处理器用于调用该存储器中存储的程序以执行本申请实施例第一方面或第一方面任意一种可能实现方式的方法。

本申请实施例第七方面提供一种执行设备，可以包括存储器、处理器以及总线***，其中，存储器用于存储程序，处理器用于调用该存储器中存储的程序以执行本申请上述第二方面或第三方面的方法。

本申请第八方面提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机可以执行上述第一方面或第一方面任意一种可能实现方式的方法，或，使得计算机可以执行上述第二方面的方法，或，使得计算机可以执行上述第三方面的方法。

本申请实施例第九方面提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任意一种可能实现方式的方法，或，使得计算机可以执行上述第二方面的方法，或，使得计算机可以执行上述第三方面的方法。

附图说明

图1为本申请实施例提供的人工智能主体框架的一种结构示意图；

图2为本申请实施例的应用流程的一种示意图；

图3为本申请实施例提供的任务处理***的一种***架构图；

图4为本申请实施例提供的神经网络的优化方法的一种流程示意图；

图5为本申请实施例提供的第一神经网络与第二神经网络联合训练的过程的一种示意图；

图6为通过Sign函数二值化得到的第一权重矩阵的一种示意图；

图7为本申请实施例通过第一神经网络二值化得到的第一权重矩阵的一种示意图；

图8为本申请实施例提供的通过内积运算得到第一权重矩阵的一种示意图；

图9为本申请实施例训练后的第二神经网络在终端手机上进行物体检测的一个应用场景的示意图；

图10为本申请实施训练后的第二神经网络在轮式移动设备上进行自动驾驶场景分割的一个应用场景的示意图；

图11为本申请实施训练后的第二神经网络在人脸识别应用上的一个应用场景的示意图；

图12为本申请实施训练后的第二神经网络在语音识别应用上的一个应用场景的示意图；

图13为本申请实施例提供的训练设备的一种示意图；

图14为本申请实施例提供的执行设备的一种示意图；

图15为本申请实施例提供的训练设备的另一示意图；

图16为本申请实施例提供的执行设备的另一示意图；

图17为本申请实施例提供的芯片的一种结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

在介绍本申请实施例之前，先对目前神经网络二值化的技术(即BNN)及相关背景进行简单介绍，使得后续便于理解本申请实施例。先介绍BNN被提出的相关背景，在深度学***衡依然是个亟待解决的问题。

限制深度神经网络在移动端上应用的主要是两个技术问题：1)计算量过大；2)神经网络的参数量过大。以CNN为例，卷积操作的计算量巨大，一个含有几十万个参数量的卷积核，卷积操作的浮点运算次数(floating point of operations，FLOPs)可达几千万，现有的一个普通的具有n层的CNN总共的计算量则可高达几十亿个FLOPs，在GPU上能够实时运算的CNN到了移动端则十分缓慢，在移动端的计算资源难以满足现有CNN的实时运算的情况下，就需要考虑如何降低卷积计算量；此外，在目前常用的CNN中，每个卷积层的参数量常常能够达到几万、几十万甚至更多，整个网络n层的参数加起来，能够达到几千万，并且每个参数都是用32位浮点数表示，这样就需要上百兆字节的内存或缓存来存储这些参数，而在移动端中，内存和缓存资源非常有限，如何减低卷积层的参数量，以使得CNN适配移动端的相关设备，也是个亟待解决的问题，在此背景下，BNN应运而生。

BNN是在现有的神经网络的基础上，对权值和隐藏层的激活值(即特征值)做二值化处理，即将原来神经网络各层的权重矩阵中的各个权重的取值以及激活值赋值为+1或-1(由于本申请实施例不涉及激活值，因此仅讨论权重的二值化情况)。BNN并不会改变原本的神经网络的网络结构，其主要是在梯度下降、权值更新、卷积运算上做了一些优化处理。如何对浮点型的神经网络进行二值化，目前主要有两种方式，第一种方式是基于符号函数(也称为Sign函数)的确定性方法，公式(1)如下：

其中，W_f为原来神经网络各层的权重矩阵中的各个权重的取值，W_b为将W_f二值化后原来的神经网络各层的权重矩阵中各个权重的取值，从公式中可以看出，不管原来的W_f具体是多少，最终都被二值化为+1或-1。

第二种方式是随机式的二值化方法(可称为统计法)，公式(2)如下：

其中，

即W_f以一定的概率σ(W_f)随机被二值化为+1或-1。

理论上来说，第二种方式更合理，但是，实际操作需要用硬件生成随机数，比较困难。因此，在实际应用中，第二种方式目前还未能应用，采用的均是第一种方式，即通过Sign函数来进行二值化。然而，这种二值化的方式仅是对神经网络各层的每个权重单独进行二值化，没有考虑各个权重之间是否存在相关性。此外，在前向传播过程中，通过第一种方式的Sign函数，可以将浮点型的各层的权重矩阵的各个权重赋值为+1或-1，因此当用于预测时，权重的取值仅为+1或-1，可以减小参数的内存占用和存取量；但是，在训练时，仍需要对浮点型的权重计算梯度，并以此更新权重的取值，也就是说，在训练时需要进行反向传播运算，反向传播运算在计算梯度时需要对Sign函数进行求导，而对Sign函数求导的结果如下公式(3)所示：

因此，在对BNN进行训练时，上述导数不可用，这种情况下，一般会采用直通估计器(Straight Through Estimator，STE)的方式近似为如公式(4)所示的导数：

公式(4)中的这个导数是近似得到的，并不准确，因此会在训练过程中，影响神经网络参数的更新精度。

基于上述所述，为解决上述所述问题，本申请实施例提供了一种神经网络的优化方法，用于通过第一神经网络来调整第二神经网络各层权重的取值为+1或-1，也就是说，将第一神经作为权重量化器，来对第二神经网络各层权重矩阵进行二值化操作。

下面结合附图，对本申请的实施例进行描述。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

首先，对人工智能***总体工作流程进行描述，请参见图1，图1示出的为人工智能主体框架的一种结构示意图，下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中，“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到***的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施

基础设施为人工智能***提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算***中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有***的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能***中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用***，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能***在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能终端、智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶、平安城市等。

本申请实施例可以应用在神经网络的网络结构的优化设计上，而通过本申请优化过权重矩阵的神经网络具体可以应用在人工智能领域的各个细分领域中，如，图像处理领域，计算机视觉领域，语义分析领域等等，具体的，结合图1来讲，本申请实施例中基础设施获取的数据集中的数据可以是通过摄像头、雷达等传感器获取到的不同类型的多个数据(也可称为训练数据，多个训练数据就构成训练集)，也可以是多个图像数据或多个视频数据，只要该训练集满足用于对神经网络进行迭代训练并能用于实现本申请的神经网络的权重矩阵进行优化的功能即可，具体此处对训练集内的数据类型不限定。

本申请的应用流程如图2所示，第一神经网络与第二神经网络组成一个联合训练***，其中，第一神经网络作为权重量化器，第一神经网络的输入数据是第二神经网络(即本申请中待优化的神经网络)各层的初始权重矩阵，输出数据是第一权重矩阵，该初始权重矩阵中的每个权重均是用32位浮点数表示，该第一权重矩阵是该初始权重矩阵中各个权重的取值经过第一神经网络调整为+1或-1的权重矩阵，之后，在联合训练***的训练过程中，每次第一神经网络输出的第一权重矩阵又作为第二神经网络的初始权重矩阵进行迭代训练，直至训练后的第二神经网络输出的预测结果满足预设条件，此时该训练后的第二神经网络就可以作为最终的目标神经网络部署在目标设备上进行使用。基于上述图2所提供的应用流程，本申请提供的方法可对任意类型的神经网络的权重矩阵二值化为+1或-1，对于给定的任务、训练集和神经网络，本申请能够优化神经网络的权重矩阵，使得训练后的神经网络的权重矩阵中的各个权重的取值不仅和自身相关，也与权重矩阵中其他权重的取值相关，使得训练后的第二神经网络的训练和使用更加高效。

需要说明的是，图2所述的应用流程可部署在训练设备上，请参阅图3，图3为本申请实施例提供的任务处理***的一种***架构图，在图3中，任务处理***200包括执行设备210、训练设备220、数据库230、客户设备240、数据存储***250和数据采集设备260，执行设备210中包括计算模块211。其中，数据采集设备260用于获取用户需要的开源的大规模数据集(即训练集)，并将训练集存入数据库230中，训练设备220基于数据库230中的维护的训练集对目标模型/规则201(即上述所述的联合训练***)进行训练，训练得到的训练后的第二神经网络再在执行设备210上进行运用。执行设备210可以调用数据存储***250中的数据、代码等，也可以将数据、指令等存入数据存储***250中。数据存储***250可以置于执行设备210中，也可以为数据存储***250相对执行设备210是外部存储器。

经由训练设备220训练的目标模型/规则201后得到的训练后的第二神经网络可以应用于不同的***或设备(即执行设备210)中，具体可以是边缘设备或端侧设备，例如，手机、平板、笔记本电脑、监控***(如，摄像头)、安防***等等。在图3中，执行设备210配置有I/O接口212，与外部设备进行数据交互，“用户”可以通过客户设备240向I/O接口212输入数据。如，客户设备240可以是监控***的摄像设备，通过该摄像设备拍摄的目标图像作为输入数据输入至执行设备210的计算模块211，由计算模块211对输入的该目标图像进行检测后得出检测结果，再将该检测结果输出至摄像设备或直接在执行设备210的显示界面(若有)进行显示；此外，在本申请的一些实施方式中，客户设备240也可以集成在执行设备210中，如，当执行设备210为手机时，则可以直接通过该手机获取到目标任务(如，可以通过该手机的摄像头拍摄到目标图像，或，通过该手机的录音模块录取到的目标语音等，此处对目标任务不做限定)或者接收其他设备(如，另一个手机)发送的目标任务，再由该手机内的计算模块211对该目标任务进行检测后得出检测结果，并直接将该检测结果呈现在手机的显示界面。此处对执行设备210与客户设备240的产品形态不做限定。

值得注意的，图3仅是本申请实施例提供的一种***架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图3中，数据存储***250相对执行设备210是外部存储器，在其它情况下，也可以将数据存储***250置于执行设备210中；在图3中，客户设备240相对执行设备210是外部设备，在其他情况下，客户设备240也可以集成在执行设备210中。

接下来介绍本申请实施例所提供的神经网络的优化方法，请参阅图4，图4为本申请实施例提供的神经网络的优化方法的一种流程示意图，具体可以包括：

401、将第二神经网络各层的初始权重矩阵作为第一神经网络的输入，得到输出的第一权重矩阵。

首先，训练设备会将第二神经网络各层的初始权重矩阵作为第一神经网络的输入，得到第一神经网络的输出结果，该输出结果为第一权重矩阵，并且会将该第一权重矩阵作为第二神经网络各层优化后的权重矩阵，该输出的第一权重矩阵实质为第二神经网络各层的初始权重矩阵中各个权重的取值通过该第一神经网络调整为+1或-1的权重矩阵。

需要说明的是，在本申请的一些实施方式中，第二神经网络各层的初始权重矩阵可以是未经过任何训练的、随机初始化的权重矩阵，也可以是经过预训练后得到的权重矩阵，具体此处不做限定。不同的地方仅在于，若初始权重矩阵的随机初始化的，那么在后续第一神经网络与第二神经网络的联合训练过程中，迭代训练的次数或训练时间会相对多一些；若初始权重矩阵是预训练的，即先用训练集中的训练数据对第二神经网络进行了预先的迭代训练，那么在后续第一神经网络与第二神经网络的联合训练过程中，迭代训练的次数或训练时间会相对少一些。但无论初始权重矩阵是否预先训练，对最后联合训练的结果不会有影响。

402、根据训练集中的训练数据对第一神经网络及第二神经网络进行联合迭代训练，得到训练后的第二神经网络，训练后的第二神经网络中包括训练后的第一权重矩阵。

确定好了第一神经网络的输入数据、输出数据以及第一神经网络的具体功能后(即对第二神经网络各层的初始权重矩阵中的各个权重的取值调整为+1或-1)，训练设备将根据训练集中的训练数据对第一神经网络及第二神经网络进行联合迭代训练，从而得到训练后的第二神经网络，训练后的第二神经网络可称为目标神经网络，该训练后的第二神经网络中包括训练后的第一权重矩阵。

这里先对神经网络的训练过程进行介绍，每个神经网络中的每一层的工作可以用数学表达式

来描述，从物理层面神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包括：1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中1、2、3的操作由

完成，4的操作由“+b”完成，5的操作则由“a()”来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物，而是一类事物，空间是指这类事物所有个体的集合，其中，W是神经网络各层的权重矩阵，该矩阵中的每一个值表示该层神经网络中的一个神经元的权重值。该矩阵W决定着上文所述的输入空间到输出空间的空间变换，即神经网络每一层的W控制着如何变换空间。训练神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵。因此，神经网络的训练过程本质上就是学习控制空间变换的方式，更具体的就是学习权重矩阵。在本申请实施例中，第一神经网络的输入空间就是第二神经网络各层的初始权重矩阵，第一神经网络的输出空间就是各个权重的取值被调整为+1或-1的第一权重矩阵；第二神经网络的输入空间就是训练集中的各个训练数据，第二神经网络的输出空间就是对训练数据的识别结果(也可称为检测结果)。

因为希望神经网络的输出尽可能的接近真正想要预测的值，可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重矩阵(当然，在第一次更新之前通常会有初始化的过程，即为神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重矩阵让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么神经网络的训练就变成了尽可能缩小这个loss的过程。

每个神经网络在训练的过程中，均是基于上述所述的这么一个过程，在本申请实施例中，则进一步阐述两个神经网络具体如何联合训练，第一神经网络与第二神经网络联合训练的过程具体可以是：首先，训练设备根据训练集中的训练数据对第二神经网络进行训练，得到训练后的初始权重矩阵，之后，根据训练后的初始权重矩阵，利用第一损失函数对第一神经网络进行迭代训练，得到经过训练的第一权重矩阵，最后，将经过训练的第一权重矩阵作为该第二神经网络的初始权重矩阵，对第二神经网络进行迭代训练，直至通过训练后的第二神经网络输出的预测结果满足预设条件，其中，最后一次得到的经过训练的第一权重矩阵为最终训练后的第一权重矩阵。

为便于理解，下面以图5为例，对上述第一神经网络与第二神经网络联合训练的过程进行示意，在图5中，以第二神经网络为CNN、训练集中的数据为图像数据为例进行说明，在训练前，第二神经网络CNN会对初始权重矩阵先随机初始化，随后将训练集中的多个图像数据作为训练数据(如，图5中正在输入的训练数据为“猫”的图片)输入到第二神经网络CNN中，在经过上述所述的神经网络的训练过程后(对第二神经网络CNN进行训练利用的是图5中的第二损失函数)，得到第二神经网络CNN各个卷积层的特征图及各个卷积层训练后的初始权重矩阵(即如图5中的初始权重矩阵)，每个卷积层的初始权重矩阵的尺寸为n*c*h*w，其中，n为每个卷积层的输出通道数，c为每个卷积层的输入通道数，h和w分别该权重矩阵的高和宽。每一次训练得到的第二神经网络各个卷积层的初始权重矩阵又会作为第一神经网络的训练数据输入到第一神经网络，同样地，第一神经网络也会有自己的权重矩阵(可称为预测权重矩阵)，该预测权重矩阵在训练前也需要先随机初始化，类似地，当作为训练数据的第二神经网络各个卷积层的初始权重矩阵输入到第一神经网络后，也会得到第一神经网络各个层的特征图以及各层训练后的预测权重矩阵(图5未示出第一神经网络的特征图及预测权重矩阵)，利用第一损失函数，第一神经网络在经过上述所述的神经网络的迭代训练过程后，输出第二神经网络各个卷积层的初始权重矩阵中权重的取值均被调整为+1或-1的第一权重矩阵，该经过训练的第一权重矩阵又作为第二神经网络的初始权重矩阵，对第二神经网络CNN再进行迭代训练，直至通过多次的迭代训练后该第二神经网络输出的预测结果满足预设条件，如，图5中的训练集中当前输入的图像数据为“猫”，该第二神经网络输出的预测结果能准确预测为“猫”，或者，对多次输入的不同图像数据进行预测的准确率达到一定预设值(如，98％)，此处不做限定。当通过多次的迭代训练后该第二神经网络输出的预测结果能满足预设条件，则认为该第二神经网络CNN训练好了，此时可确定最后一次得到的经过训练的第一权重矩阵为最终训练好的第一权重矩阵。

需要说明的是，在本申请实施例中，第二损失函数作为第二神经网络CNN的损失函数，按照常规的CNN对图像数据的训练过程选取损失函数即可，此处不予赘述。而该第一神经网络作为第二神经网络的权重量化器，第一损失函数的确定至关重要，第一损失函数的选取直接决定了作为第一神经网络的输出数据的第一权重矩阵是否训练的合格。依然参阅图5，在本申请的一些实施方式中，第一损失函数学习的标签为训练后的初始权重矩阵通过二值化方式的赋值操作后得到的权重矩阵(可称为第二权重矩阵)，所述二值化方式为将初始权重矩阵中的各个权重按照预设方法赋值为+1或-1的操作方式。例如，该二值化方式具体可以是上述所述的Sign函数，即将第二神经网络的初始权重矩阵中权重的取值大于等于0的权重均赋值为+1且将该初始权重矩阵中权重的取值小于0的权重均赋值为-1的操作方式。该二值化方式具体还可以是上述所述的通过统计法得到将初始权重矩阵中的各个权重赋值为+1或-1的操作方式，具体此处对预设方法不做限定。

这里以二值化方式为Sign函数为例，对第一损失函数的具体选定过程进行说明，若第二神经网络的初始权重矩阵使用普通的Sign函数二值化为如下公式(5)所示的第二权重矩阵：

其中，W为第二神经网络各层的初始权重矩阵中各个权重的取值，

为通过对该初始权重矩阵进行Sign函数的二值化操作后得到的第二权重矩阵，具体请参阅图6，初始权重矩阵经过Sign函数二值化操作后，输出第二权重矩阵如图6所示。

而在本申请实施例中，以第一神经网络f_θ为权重量化器对第二神经网络的初始权重矩阵进行二值化操作，得到的第一权重矩阵如下公式(6)所示的第一权重矩阵：

为由第一神经网络f_θ对该初始权重矩阵进行二值化操作后得到的第一权重矩阵。具体请参阅图7，初始权重矩阵经过第一神经网络f_θ二值化操作后，输出第一权重矩阵如图7所示。

在得到了第一权重矩阵

与第二权重矩阵

之后，这里使用一种去噪损失函数

(即上述所述的第一损失函数)来监督第一神经网络f_θ的学习，学习的标签就是上述通过Sign函数二值化操作得到的第二权重矩阵

在本申请的一些实施方式中，可定义均方误差损失函数为如下公式(7)所示：

其中，F为求平方和运算，

为第一权重矩阵

中的一个权重的取值，

为第二权重矩阵

中的一个权重的取值。

基于上述公式(7)，去噪损失函数

就为如下公式(8)所示：

其中，ρ₊₁是第二权重矩阵

中正标签被错标为负的概率，ρ_-1是第二权重矩阵

中负标签被错标为正的概率，是两个超参数，可以调整。使用上述去噪损失函数去训练第一神经网络，由该第一神经网络输出的第一权重矩阵

能够去除第二权重矩阵

中的噪声(该噪声是指第二权重矩阵

取值被标错的权重，如，本来应该标为+1，错标为-1)，从而做到了去噪(即纠正第二权重矩阵

的标错的权重)以及对各个权重的校正。如图7所示，初始权重矩阵W的第2行第3列的权重取值原来为-0.1，通过第一神经网络f_θ二值化操作后，输出的权重取值为+1，若通过Sign函数进行二值化操作，则输出的权重取值就会为图6中第二权重矩阵

第2行第3列的-1，从而做到了对初始权重矩阵的校正。

这里需要说明的是，第一神经网络f_θ可以是任意类型、任意网络结构的神经网络，比如，可以是一个2层的CNN；第二神经网络也可以是任意类型、任意网络结构的神经网络，如，上述图5对应实施例中所述的CNN，具体此处对第一神经网络以及第二神经网络的类型及结构做限定。

还需要说明的是，在本申请实施例中，对第一神经网络的训练的目的实质是为了调整第一神经网络的权重矩阵(可称为预测权重矩阵)，以使得第一神经网络的预测权重矩阵与第二神经网络的初始权重矩阵最终运算出来的第一权重矩阵的各个权重取值为+1或-1。如，第一权重矩阵可通过第一神经网络的预测权重矩阵与第二神经网络的初始权重矩阵的内积运算得到，即第一权重矩阵中第i行第j列的权重的取值为初始权重矩阵的第i行中各个权重的取值及第一神经网络的权重矩阵的第j列中各个权重的取值的内积。

举个例子，假设第一神经网络f_θ为一个一层的全连接神经网络，其预测权重矩阵用U表示，那么由该第一神经网络f_θ输出的第一权重矩阵

可以通过如下公式(9)的矩阵乘法得到：

其中，U为第一神经网络f_θ的权重矩阵(即预测权重矩阵)，W为第二神经网络的初始权重矩阵，基于上述公式(9)，第一权重矩阵

中的第i行第j列的权重的取值就为第二神经网络的初始权重矩阵W的第i行W_i,:和第一神经网络f_θ的预测权重矩阵U的第j列U_:,j的内积：

如图8所示，以图8中的灰色底的权重为例，该权重在第二神经网络的初始权重矩阵W中的位置为第1行第3列，其取值从-0.1二值化为+1的过程为：<[+0.3,-0.4,-0.1],[1.6,0.4,-6.8]>＝0.3*1.6-0.4*0.4-0.1*(-6.8)＝+1。该权重矩阵二值化为+1后位于第一权重矩阵的第1行第3列。类似地，对第二神经网络的初始权重矩阵W中的其他各个权重进行如上所述的内积运算，即可得到每个权重均二值化为+1或-1的第一权重矩阵

具体此处不予赘述。

需要说明的是，在本申请的一些实施方式中，第一权重矩阵除了可通过第一神经网络的预测权重矩阵与第二神经网络的初始权重矩阵的内积运算得到之外，还可以通过其他方式得到，包括但不限于如下方式：

1、第一权重矩阵通过预测权重矩阵与初始权重矩阵的卷积运算得到。

具体地，假设U为第一神经网络f_θ的权重矩阵(即预测权重矩阵)，W为第二神经网络的初始权重矩阵，则第一神经网络f_θ输出的第一权重矩阵

可以通过如下公式(11)的卷积运算得到：

其中，W_i,:为第二神经网络中初始权重矩阵中的第i行的权重，U_:,j为第一神经网络f_θ的预测权重矩阵U的第j列的权重，

为第一权重矩阵

中的第i行第j列的权重的取值。

2、第一权重矩阵通过预测权重矩阵与初始权重矩阵的哈达马积运算得到。

可以通过如下公式(12)的哈达马积运算得到：

其中，W_i,j为第二神经网络中初始权重矩阵中的第i行第j列的权重，U_i,j为第一神经网络f_θ的预测权重矩阵U的第i行第j列的权重，

为第一权重矩阵

中的第i行第j列的权重的取值，1≤i≤m，1≤j≤n，所有的

构成第一权重矩阵

由上述可知，本申请实施例提供的二值化的方式具备至少两个好处，一个好处是得到的第一权重矩阵在进行反向传播过程中，第一权重矩阵的各个权重不管是通过内积运算得到的，还是通过卷积运算、哈达马积运算得到，其都是完全可导的，以上述公式(10)为例，对其求导得到的导数如下公式(13)所示：

这样，在反向传播过程中，不需要进行近似求导(如，上述公式(4)中采用的STE的近似求导方式)，上述公式(13)的导数是准确的，在训练过程中，不会影响第二神经网络参数的更新精度。类似的，上述公式(11)、(12)的导数也是准确的，此处不予赘述。

第二个好处是第二神经网络的初始权重矩阵中，每个权重的二值化操作不仅和自身有关，也会考虑到初始权重矩阵中的其他权重，如上述图8所示，从而使得神经网络的训练和使用更加高效。

为验证上述所述的第二神经网络的优化方法在训练和使用上更加高效，本申请将本发明在CIFAR10图像分类任务上进行实验。相比其他BNN，本申请提出的神经网络的二值化的方式在计算量相同的情况下，精度更高；此外，将本申请的第二神经网络在大规模图像分类数据集ImageNet上进行实验，同样地，相比其他CNN，本申请提出的神经网络在计算量相同的情况下，精度更高。

因此，综上所述，Sign函数以0作为阈值，大于等于0的权重均赋值为+1且小于0的权重均赋值为-1，并且Sign函数是单独量化每个权重，而第一神经网络不像Sign函数以0作为阈值，第一神经网络可以灵活地判断各个权重取值是否为+1或-1，不像Sign函数单独量化每个权重，并且，第一神经网络可以考虑权重之间的关联性；不像sign函数是人工设计的，第一神经网络是可学的、可训练的，能够找到更优解。

403、将训练后的第二神经网络部署在目标设备上。

利用训练集中的训练数据，训练设备将第一神经网络与第二神经网络联合训练后，就可得到训练好的第二神经网络以及最终优化好的第一权重矩阵，即该训练好的第二神经网络的权重矩阵就为上述训练好、各个权重的取值为+1或-1的第一权重矩阵。在实际应用中，该训练好的第二神经网络可部署在任意的目标设备上。

需说明的是，在本申请实施例中，目标设备具体可以是移动端的设备，如摄像头、智能家居等边缘设备，也可以是如手机、个人计算机、计算机工作站、平板电脑、智能可穿戴设备(如，智能手表、智能手环、智能耳机等)、游戏机、机顶盒、媒体消费设备等端侧设备，具体此处对目标设备的类型不做限定。

由于智能安防、平安城市、智能终端等领域中都可以用到本申请实施例中的训练好的第二神经网络来进行任务处理(如，图像处理、音频处理、语义分析等)，例如，本申请训练好的第二神经网络可应用于计算机视觉等领域的各种场景和问题，比如常见的一些任务：人脸识别、图像分类、目标检测、语义分割等。其中每类场景中都会涉及很多可用本申请来构建二值化的高效神经网络模型，下面将对多个落地到产品的多个应用场景进行介绍。

作为一种示例，本申请训练好的第二神经网络可用于终端(如，手机、智能手表、个人电脑等)的物体检测，具体请参阅图9，以终端为手机为例，手机端的物体检测是一个目标检测问题。当用户使用手机拍照时，自动抓取人脸、动物等目标，可以帮助手机自动对焦、美化等。所以手机需要一个体积小、运行快的目标检测的神经网络模型，因此本申请训练好的第二神经网络就可作为该神经网络模型应用于手机，该训练好的第二神经网络由于权重矩阵是二值化的，其计算量和神经网络的参数量都比之前的神经网络大大降低了，这使得手机在执行上述目标检测时更为流畅，而流畅可以给用户带来更好的用户体验，提升手机产品品质。

作为另一示例，本申请训练好的第二神经网络还可用于轮式移动设备(如，自动驾驶车辆、辅助驾驶车辆等)的自动驾驶场景分割，具体请参阅图10，以轮式移动设备为自动驾驶车辆为例，自动驾驶场景分割是一个语义分割问题。自动驾驶车辆的摄像头捕捉到道路画面，需要对画面进行分割，分出路面、路基、车辆、行人等不同物体，从而保持车辆行驶在正确的安全区域。对于安全型要求极高的自动驾驶，则需要实时对画面进行理解，那么能够实时运行的进行语义分割的卷积神经网络至关重要，而由于本申请训练好的第二神经网络参数量与计算量相对之前的神经网络都大大降低了，其体积更小、运行更快，能够很好的满足自动驾驶车辆上述对卷积神经网络的一系列要求，因此本申请训练好的第二神经网络也可作为神经网络模型应用于轮式移动设备的自动驾驶场景分割。

需要说明的是，本申请所述的轮式移动设备可以是轮式机器人、轮式施工设备、自动驾驶车辆等，只要是具备轮式可移动的设备均属于本申请所述的轮式移动设备。另外，还需要说明的是，本申请上述所述的自动驾驶车辆可以为轿车、卡车、摩托车、公共汽车、船、飞机、直升飞机、割草机、娱乐车、游乐场车辆、施工设备、电车、高尔夫球车、火车、和手推车等，本申请实施例不做特别的限定。

作为另一示例，本申请训练好的第二神经网络还可用于人脸识别(如，入口闸机处的人脸验证)，具体请参阅图11，人脸识别是一个图像相似度比对问题。在高铁、机场等入口的闸机上，乘客进行人脸认证时，摄像头会拍摄人脸图像，使用卷积神经网络抽取特征，和存储在***中的身份证件的图像特征进行相似度计算，如果相似度高就验证成功。其中，卷积神经网络抽取特征是最耗时的，要快速进行人脸验证，需要高效的卷积神经网络进行特征提取。而本申请训练好的第二神经网络由于参数量少、计算量低，使得其体积更小、运行更快，能够很好的满足上述人脸识别的应用场景中对卷积神经网络的一系列要求。

作为另一示例，本申请训练好的第二神经网络还可用于语音识别(如，翻译机同声传译)，具体请参阅图12，翻译机同声传译是一个语音识别和机器翻译问题。在语音识别和机器翻译问题上，卷积神经网络也是常用的一种识别模型，在需要同声传译的场景，必须达到实时语音识别并进行翻译，这就要求部署在设备上的卷积神经网络需要计算速度快，而本申请训练好的第二神经网络由于参数量少、计算量低，使得其体积更小、运行更快，也能够很好的满足上述语音识别的应用场景对卷积神经网络的一系列要求。

需要说明的是，本申请所述的训练好的第二神经网络不仅可以应用于上述图9至图12所述的应用场景中，还可以应用在人工智能领域的各个细分领域中，如，图像处理领域，计算机视觉领域，语义分析领域等等，只要能使用神经网络的领域和设备，都可应用本申请实施例提供的训练好的第二神经网络，此处不再举例示意。

在上述所对应的实施例的基础上，为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关设备。具体参阅图13，图13为本申请实施例提供的训练设备的一种结构示意图，训练设备1300包括：计算模块1301、训练模块1302以及部署模块1303，其中，计算模块1301，用于将第二神经网络各层的初始权重矩阵作为第一神经网络的输入，得到输出的第一权重矩阵，并将该第一权重矩阵作为该第二神经网络各层优化后的权重矩阵，该第一权重矩阵为该初始权重矩阵中各个权重的取值通过该第一神经网络调整为+1或-1的权重矩阵；训练模块1302，用于根据训练集中的训练数据对该第一神经网络及该第二神经网络进行联合迭代训练，得到训练后的第二神经网络，该训练后的第二神经网络中包括训练后的第一权重矩阵；部署模块1303，用于将该训练后的第二神经网络部署在目标设备上。

在本申请上述实施方式中，训练设备的计算模块1301通过第一神经网络对第二神经网络的权重矩阵进行二值化操作，得到第一权重矩阵，即第一权重矩阵中各权重值被第一神经网络调整为+1或-1，之后通过训练模块1302，根据训练集中的各个训练数据对这两个神经网络进行联合迭代训练，得到训练后的第二神经网络(其中包括训练后的第一权重矩阵)，最后部署模块1303就将该训练好的第二神经网络部署在任意目标设备上。在本申请实施例中，第一神经网络可以灵活地判断各个权重取值是否为+1或-1，不像Sign函数单独量化每个权重，而第一神经网络考虑到了权重之间的关联性；不像sign函数是人工设计的，第一神经网络是可学的、可训练的，能够找到更优解。训练后的第二神经网络由于参数量少、计算量低，使得其体积更小、运行更快，能够高效应用于各种移动端。

在一种可能的设计中，该训练模块1302具体用于：首先，根据训练集中的训练数据对第二神经网络进行训练，得到训练后的初始权重矩阵，之后，根据训练后的初始权重矩阵，利用第一损失函数对第一神经网络进行迭代训练，得到经过训练的第一权重矩阵，最后，将经过训练的第一权重矩阵作为该第二神经网络的初始权重矩阵，对第二神经网络进行迭代训练，直至通过训练后的第二神经网络输出的预测结果满足预设条件，其中，最后一次得到的经过训练的第一权重矩阵为最终训练后的第一权重矩阵。

在本申请上述实施方式中，具体阐述了训练模块1302是如何对第一神经网络以及第二神经网络进行联合迭代训练的，具备可实现性。

在一种可能的设计中，第一损失函数学习的标签为该训练后的初始权重矩阵通过二值化方式的赋值操作后得到的权重矩阵(可称为第二权重矩阵)，该二值化方式为将该初始权重矩阵中的各个权重按照预设方法赋值为+1或-1的操作方式。

在一种可能的设计中，由于对第一神经网络的训练的目的实质是为了调整第一神经网络的权重矩阵(可称为预测权重矩阵)，以使得第一神经网络的预测权重矩阵与第二神经网络的初始权重矩阵最终运算出来的第一权重矩阵的各个权重取值为+1或-1。因此，第一权重矩阵可通过多种运算方式得到，如，第一权重矩阵可通过第一神经网络的预测权重矩阵与第二神经网络的初始权重矩阵的内积运算得到，即第一权重矩阵中第i行第j列的权重的取值为初始权重矩阵的第i行中各个权重的取值及第一神经网络的权重矩阵的第j列中各个权重的取值的内积。

在一种可能的设计中，第一权重矩阵除了可通过第一神经网络的预测权重矩阵与第二神经网络的初始权重矩阵的内积运算得到之外，还可以通过其他方式得到，包括但不限于如下方式：该第一权重矩阵通过该第一神经网络的权重矩阵与该第二神经网络的初始权重矩阵的卷积运算得到；或，该第一权重矩阵通过该第一神经网络的权重矩阵与该第二神经网络的初始权重矩阵的哈达马积运算得到。

在一种可能的设计中，由于二值化方式为将初始权重矩阵中的各个权重按照预设方法赋值为+1或-1的操作方式。因此，该二值化方式具体可以是上述所述的Sign函数(详见公式(1))，即将第二神经网络的初始权重矩阵中权重的取值大于等于0的权重均赋值为+1且将该初始权重矩阵中权重的取值小于0的权重均赋值为-1的操作方式。该二值化方式具体还可以是通过统计法得到将初始权重矩阵中的各个权重赋值为+1或-1的操作方式(详见公式(2))，具体此处对预设方法不做限定。

在一种可能的设计中，第一神经网络可以是任意类型、任意网络结构的神经网络，比如，可以是一个CNN；第二神经网络也可以是任意类型、任意网络结构的神经网络，如，上述图5对应实施例中所述的CNN，具体此处对第一神经网络以及第二神经网络的类型及结构做限定。

在一种可能的设计中，目标设备的类型具体可以是移动端的设备，如摄像头、智能家居等边缘设备，也可以是如手机、个人计算机、计算机工作站、平板电脑、智能可穿戴设备(如，智能手表、智能手环、智能耳机等)、游戏机、机顶盒、媒体消费设备等端侧设备，具体此处对目标设备的类型不做限定。

需要说明的是，训练设备1300中各模块/单元之间的信息交互、执行过程等内容，与本申请中上述各方法实施例基于同一构思，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

本申请实施例还提供了一种执行设备，请参阅图14，图14为本申请实施例提供的执行设备的一种结构示意图，执行设备1400包括：获取模块1401以及识别模块1402，其中，获取模块1401，用于获取目标数据；识别模块1402，用于将该目标数据作为第二神经网络的输入，输出对该目标数据的识别结果，该第二神经网络的权重矩阵为经由第一神经网络调整后且经过迭代训练后得到的第一权重矩阵，该第一权重矩阵中的各个权重的取值由该第一神经网络调整为+1或-1。

在一种可能的设计中，该目标数据具体可以是目标图像、目标音频、目标视频或目标文本中的任意一种，此处不做限定。

需要说明的是，执行设备1400中各模块/单元之间的信息交互、执行过程等内容，具体可应用于本申请中图9至图12对应的方法实施例中的各种应用场景，具体内容可参见本申请前述图9至图12所示的方法实施例中的叙述，此处不再赘述。

本申请实施例还提供了一种训练设备，请参阅图15，图15是本申请实施例提供的训练设备一种结构示意图，为便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。训练设备1500上可以部署有图13对应实施例中所描述的训练设备的模块，用于实现图13对应实施例中训练设备的功能，具体的，训练设备1500由一个或多个服务器实现，训练设备1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1522(例如，一个或一个以***处理器)和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对训练设备中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储介质1530通信，在训练设备1500上执行存储介质1530中的一系列指令操作。例如，在对第一神经网络与第二神经网络联合迭代训练的过程中，中央处理器1522可以先根据训练集中的训练数据对第二神经网络进行训练，得到训练后的初始权重矩阵，之后，根据训练后的初始权重矩阵，利用第一损失函数对第一神经网络进行迭代训练，得到经过训练的第一权重矩阵，最后，将经过训练的第一权重矩阵作为该第二神经网络的初始权重矩阵，对第二神经网络进行迭代训练，直至通过训练后的第二神经网络输出的预测结果满足预设条件，其中，最后一次得到的经过训练的第一权重矩阵为最终训练后的第一权重矩阵。

训练设备1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作***1541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在本申请实施例中，上述各图对应的实施例中由训练设备所执行的步骤可以基于该图15所示的结构实现，具体此处不予赘述。

接下来介绍本申请实施例提供的一种执行设备，请参阅图16，图16为本申请实施例提供的执行设备的一种结构示意图，执行设备1600具体可以表现为端侧设备或边缘设备，如，虚拟现实VR设备、手机、平板、笔记本电脑、智能可穿戴设备等，此处不做限定。其中，执行设备1600上可以部署有图14对应实施例中所描述的各个模块，用于实现图14对应实施例中执行设备的功能。具体的，执行设备1600包括：接收器1601、发射器1602、处理器1603和存储器1604(其中执行设备1600中的处理器1603的数量可以一个或多个，图16中以一个处理器为例)，其中，处理器1603可以包括应用处理器16031和通信处理器16032。在本申请的一些实施例中，接收器1601、发射器1602、处理器1603和存储器1604可通过总线或其它方式连接。

存储器1604可以包括只读存储器和随机存取存储器，并向处理器1603提供指令和数据。存储器1604的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory，NVRAM)。存储器1604存储有处理器和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。

处理器1603控制执行设备的操作。具体的应用中，执行设备1600的各个组件通过总线***耦合在一起，其中总线***除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线***。

上述本申请实施例揭示的方法可以应用于处理器1603中，或者由处理器1603实现。处理器1603可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1603中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1603可以是通用处理器、数字信号处理器(digital signal processing，DSP)、微处理器或微控制器，还可进一步包括专用集成电路(application specific integratedcircuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器1603可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1604，处理器1603读取存储器1604中的信息，结合其硬件完成上述方法的步骤。

接收器1601可用于接收输入的数字或字符信息，以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器1602可用于通过第一接口输出数字或字符信息；发射器1602还可用于通过第一接口向磁盘组发送指令，以修改磁盘组中的数据；发射器1602还可以包括显示屏等显示设备。

本申请实施例中，在一种情况下，处理器1603，用于执行图9至图12对应实施例中各种应用场景下对训练好的第二神经网络的各种应用。例如，用于获取目标数据，并将该目标数据作为第二神经网络的输入，输出对该目标数据的识别结果，该第二神经网络的权重矩阵为经由第一神经网络调整后且经过迭代训练后得到的第一权重矩阵，该第一权重矩阵中的各个权重的取值由该第一神经网络调整为+1或-1。

本申请实施例中还提供一种包括计算机程序产品，当其在计算机上运行时，使得计算机执行如前述所示实施例描述的方法中执行设备所执行的步骤，或者，使得计算机执行如前述所示实施例描述的方法中训练设备所执行的步骤。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于进行信号处理的程序，当其在计算机上运行时，使得计算机执行如前述所示实施例描述的方法中执行设备所执行的步骤，或者，使得计算机执行如前述所示实施例描述的方法中训练设备所执行的步骤。

本申请实施例提供的执行设备、训练设备具体可以为芯片，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使训练设备执行上述所示实施例描述的神经网络的优化方法，或者，执行设备内的芯片执行上述所示实施例描述的图像处理方法或音频处理方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

具体的，请参阅图17，图17为本申请实施例提供的芯片的一种结构示意图，所述芯片可以表现为神经网络处理器NPU 200，NPU 200作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路2003，通过控制器2004控制运算电路2003提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路2003内部包括多个处理单元(Process Engine,PE)。在一些实现中，运算电路2003是二维脉动阵列。运算电路2003还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路2003是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器2002中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器2001中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)2008中。

统一存储器2006用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller，DMAC)2005，DMAC被搬运到权重存储器2002中。输入数据也通过DMAC被搬运到统一存储器2006中。

BIU为Bus Interface Unit即，总线接口单元2010，用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer，IFB)2009的交互。

总线接口单元2010(Bus Interface Unit，简称BIU)，用于取指存储器2009从外部存储器获取指令，还用于存储单元访问控制器2005从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器2006或将权重数据搬运到权重存储器2002中或将输入数据数据搬运到输入存储器2001中。

向量计算单元2007包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/全连接层网络计算，如Batch Normalization(批归一化)，像素级求和，对特征平面进行上采样等。

在一些实现中，向量计算单元2007能将经处理的输出的向量存储到统一存储器2006。例如，向量计算单元2007可以将线性函数和/或非线性函数应用到运算电路2003的输出，例如对卷积层提取的特征平面进行线性插值，再例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元2007生成归一化的值、像素级求和的值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路2003的激活输入，例如用于在神经网络中的后续层中的使用。

控制器2004连接的取指存储器(instruction fetch buffer)2009，用于存储控制器2004使用的指令；

统一存储器2006，输入存储器2001，权重存储器2002以及取指存储器2009均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

其中，上述所示的第一神经网络中各层的运算、第二神经网络各层的运算以及这两个神经网络的联合迭代训练过程可以由运算电路2003或向量计算单元2007执行。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述第一方面方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

1.一种神经网络的优化方法，其特征在于，包括：

将第二神经网络各层的初始权重矩阵作为第一神经网络的输入，得到输出的第一权重矩阵，并将所述第一权重矩阵作为所述第二神经网络各层优化后的权重矩阵，所述第一权重矩阵为所述初始权重矩阵中各个权重的取值通过所述第一神经网络调整为+1或-1的权重矩阵；

根据训练集中的训练数据对所述第一神经网络及所述第二神经网络进行联合迭代训练，得到训练后的第二神经网络，所述训练后的第二神经网络中包括训练后的第一权重矩阵；

将所述训练后的第二神经网络部署在目标设备上。

2.根据权利要求1所述的方法，其特征在于，所述根据训练集中的训练数据对所述第一神经网络及所述第二神经网络进行联合迭代训练，得到训练后的第二神经网络包括：

根据所述训练集中的训练数据对所述第二神经网络进行训练，得到训练后的初始权重矩阵；

根据所述训练后的初始权重矩阵，利用第一损失函数对所述第一神经网络进行迭代训练，得到经过训练的第一权重矩阵；

将所述经过训练的第一权重矩阵作为所述第二神经网络的初始权重矩阵，对所述第二神经网络进行迭代训练，直至通过训练后的第二神经网络输出的预测结果满足预设条件，其中，最后一次得到的所述经过训练的第一权重矩阵为所述训练后的第一权重矩阵。

3.根据权利要求2所述的方法，其特征在于，所述第一损失函数学习的标签为所述训练后的初始权重矩阵通过二值化方式的赋值操作后得到的权重矩阵，所述二值化方式为将所述初始权重矩阵中的各个权重按照预设方法赋值为+1或-1的操作方式。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述第一权重矩阵通过所述第一神经网络的权重矩阵与所述第二神经网络的初始权重矩阵的内积运算得到，其中，所述第一权重矩阵中第i行第j列的权重的取值为所述初始权重矩阵的第i行中各个权重的取值及所述第一神经网络的权重矩阵的第j列中各个权重的取值的内积。

5.根据权利要求1-3中任一项所述的方法，其特征在于，

所述第一权重矩阵通过所述第一神经网络的权重矩阵与所述第二神经网络的初始权重矩阵的卷积运算得到；

或，

所述第一权重矩阵通过所述第一神经网络的权重矩阵与所述第二神经网络的初始权重矩阵的哈达马积运算得到。

6.根据权利要求3-5中任一项所述的方法，其特征在于，所述二值化方式包括：

Sign函数，所述Sign函数为将所述初始权重矩阵中权重的取值大于等于0的权重均赋值为+1且将所述初始权重矩阵中权重的取值小于0的权重均赋值为-1的操作方式。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述第一神经网络或所述第二神经网络的类型包括：

卷积神经网络。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述目标设备的类型包括：边缘设备或端侧设备。

9.一种图像处理方法，其特征在于，包括：

获取目标图像；

将所述目标图像作为第二神经网络的输入，输出对所述目标图像的识别结果，所述第二神经网络的权重矩阵为经由第一神经网络调整后且经过迭代训练后得到的第一权重矩阵，所述第一权重矩阵中的各个权重的取值由所述第一神经网络调整为+1或-1。

10.一种音频处理方法，其特征在于，包括：

获取目标音频；

将所述目标音频作为第二神经网络的输入，输出对所述目标音频的识别结果，所述第二神经网络的权重矩阵为经由第一神经网络调整后且经过迭代训练后得到的第一权重矩阵，所述第一权重矩阵中的各个权重的取值由所述第一神经网络调整为+1或-1。

11.一种训练设备，其特征在于，包括：

计算模块，用于将第二神经网络各层的初始权重矩阵作为第一神经网络的输入，得到输出的第一权重矩阵，并将所述第一权重矩阵作为所述第二神经网络各层优化后的权重矩阵，所述第一权重矩阵为所述初始权重矩阵中各个权重的取值通过所述第一神经网络调整为+1或-1的权重矩阵；

训练模块，用于根据训练集中的训练数据对所述第一神经网络及所述第二神经网络进行联合迭代训练，得到训练后的第二神经网络，所述训练后的第二神经网络中包括训练后的第一权重矩阵；

部署模块，用于将所述训练后的第二神经网络部署在目标设备上。

12.根据权利要求11所述的设备，其特征在于，所述训练模块具体用于：

13.根据权利要求12所述的设备，其特征在于，所述第一损失函数学习的标签为所述训练后的初始权重矩阵通过二值化方式的赋值操作后得到的权重矩阵，所述二值化方式为将所述初始权重矩阵中的各个权重按照预设方法赋值为+1或-1的操作方式。

14.根据权利要求11-13中任一项所述的设备，其特征在于，所述第一权重矩阵通过所述第一神经网络的权重矩阵与所述第二神经网络的初始权重矩阵的内积运算得到，其中，所述第一权重矩阵中第i行第j列的权重的取值为所述初始权重矩阵的第i行中各个权重的取值及所述第一神经网络的权重矩阵的第j列中各个权重的取值的内积。

15.根据权利要求11-13中任一项所述的设备，其特征在于，

或，

16.根据权利要求13-15中任一项所述的设备，其特征在于，所述二值化方式包括：

17.根据权利要求11-16中任一项所述的设备，其特征在于，所述第一神经网络或所述第二神经网络的类型包括：

卷积神经网络。

18.根据权利要求11-17中任一项所述的设备，其特征在于，所述目标设备的类型包括：边缘设备或端侧设备。

19.一种执行设备，其特征在于，包括：

获取模块，用于获取目标图像；

识别模块，用于将所述目标图像作为第二神经网络的输入，输出对所述目标图像的识别结果，所述第二神经网络的权重矩阵为经由第一神经网络调整后且经过迭代训练后得到的第一权重矩阵，所述第一权重矩阵中的各个权重的取值由所述第一神经网络调整为+1或-1。

20.一种执行设备，其特征在于，包括：

获取模块，用于获取目标音频；

识别模块，用于将所述目标音频作为第二神经网络的输入，输出对所述目标音频的识别结果，所述第二神经网络的权重矩阵为经由第一神经网络调整后且经过迭代训练后得到的第一权重矩阵，所述第一权重矩阵中的各个权重的取值由所述第一神经网络调整为+1或-1。

21.一种训练设备，包括处理器和存储器，所述处理器与所述存储器耦合，其特征在于，

所述存储器，用于存储程序；

所述处理器，用于执行所述存储器中的程序，使得所述执行设备执行如权利要求1-8中任一项所述的方法。

22.一种执行设备，包括处理器和存储器，所述处理器与所述存储器耦合，其特征在于，

所述存储器，用于存储程序；

所述处理器，用于执行所述存储器中的程序，使得所述执行设备执行如权利要求9所述的方法，或，使得所述执行设备执行如权利要求10所述的方法。

23.一种计算机可读存储介质，包括程序，当其在计算机上运行时，使得计算机执行如权利要求1-8中任一项所述的方法，或，使得计算机执行如权利要求9所述的方法，或使得计算机执行如权利要求10所述的方法。

24.一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如权利要求1-8中任一项所述的方法，或，使得计算机执行如权利要求9所述的方法，或使得计算机执行如权利要求10所述的方法。