WO2019001418A1

WO2019001418A1 - 数据共享***及其数据共享方法

Info

Publication number: WO2019001418A1
Application number: PCT/CN2018/092829
Authority: WO
Inventors: 陈天石; 杜子东; 刘少礼; 王在; 胡帅; 周徐达; 周聖元; 郝一帆; 高钰峰
Original assignee: 上海寒武纪信息科技有限公司
Priority date: 2017-06-26
Filing date: 2018-06-26
Publication date: 2019-01-03
Also published as: US20200117519A1; US11726844B2; EP3637272A1; US20200118004A1; US10901815B2; EP3637272A4

Abstract

一种数据共享***，包括存储模块和至少两个处理模块，其中：至少两个处理模块共用存储模块；至少两个处理模块之间进行通信，以实现数据共享。以及一种数据共享***的数据共享方法。本公开可降低存储通信的开销，有效降低数据访问的延时。

Description

数据共享***及其数据共享方法

技术领域

本公开涉及一种共享***，尤其涉及一种数据共享***及其数据共享方法。

背景技术

随着人工智能技术的不断发展，机器学习技术和深度神经网络技术得到了广泛的应用，如可应用于语音识别、图像处理、数据分析、广告推荐***、汽车自动驾驶等等，可以说，机器学习和深度神经网络已经被应用在了生活的各个方面。这些技术能够取得如此广泛的应用，和其能够很好地处理大数据的优势是分不开的。但随着数据量的越来越大，其计算量也随之增加，因此如何有效的组织和存储数据，成为了设计片上***芯片(SoC芯片)时一个不得不面对的问题。

如图1所示，在现有的SoC芯片中，机器学习(可以做深度学习或其他)专用集成电路(ASIC模块)的数据时，通常都存在私有的静态随机存取存储器(SRAM)里，通过先进的可扩展接口(AXI)总线将数据放到片外动态随机存取存储器(DRAM)或片内的SRAM(类似缓存SRAM(Cache))里，再间接和其他模块交互。这使得***开销提高、数据读取延时增大、数据共享和交互的能耗增多。

发明内容

基于以上问题，本公开的主要目的在于提出一种数据共享***及其数据共享方法，用于解决以上技术问题的至少之一。

为了实现上述目的，作为本公开的一个方面，本公开提出了一种数据共享***，包括存储模块和至少两个处理模块，其中：

至少两个处理模块共用存储模块；

至少两个处理模块之间通过预设的规则进行通信，以实现数据共享。

在本公开的一些实施例中，上述预设的规则包括通信协议、传送协议、握手协议和/或总线协议。

在本公开的一些实施例中，上述通过预设的规则通信包括：至少两个处理模块包括第一处理模块和第二处理模块，第一处理模块向第二处理模块发送请求信号和相应的数据地址，第二处理模块根据请求信号和相应的数据地址，向第一处理模块回复有效信号和数据，以实现数据共享。

在本公开的一些实施例中，上述至少两个处理模块包括物理处理器。

在本公开的一些实施例中，上述物理处理器包括神经网络处理器。

在本公开的一些实施例中，上述神经网络处理器包括用于执行人工神经网络正向运算的装置。

在本公开的一些实施例中，上述用于执行人工神经网络正向运算的装置包括指令缓存单元和直接内存访问单元，其中：

指令缓存单元用于通过直接内存访问单元读入指令并缓存读入的指令。

在本公开的一些实施例中，上述用于执行人工神经网络正向运算的装置还包括：

控制器单元，用于从指令缓存单元读取指令，并将该指令译码成微指令。

在本公开的一些实施例中，上述用于执行人工神经网络正向运算的装置还包括H树模块，H树模块可以包括分支处理模块，其中，

主运算模块与分支处理模块连接，分支处理模块与多个从处理模块连接；

分支处理模块，用于执行转发主运算模块与从处理模块之间的数据或指令。

在本公开的一些实施例中，上述直接内存访问单元，还用于从外部地址空间向主运算模块和各从运算模块的相应数据缓存单元中写数据，或从所述数据缓存单元向外部地址空间读数据。

在本公开的一些实施例中，上述至少两个处理模块包括两个互异结构的处理器；该两个互异结构的处理器的其中之一为神经网络处理器。

在本公开的一些实施例中，上述至少两个处理模块包括处理器的至少两个处理器内核；该至少两个处理器内核为相同/互异结构的处理器内核。

在本公开的一些实施例中，上述至少两个处理模块包括处理器内核的至少两个运算单元；该至少两个运算单元为相同/互异结构的运算单元。

在本公开的一些实施例中，上述共享***还包括：

至少两个存储单元，分别连接至少两个运算单元的至少一个，至少两个运算单元中的任一个连接一个或多个存储单元；且至少两个存储单元共享所述存储模块。

在本公开的一些实施例中，上述至少两个运算单元共享同一个存储单元、或独享一个存储单元、或部分共享同一个存储单元，且部分独享一个存储单元。

在本公开的一些实施例中，上述至少两个处理模块包括处理器内核的三个运算单元，至少两个存储单元为两个，其中的两个运算单元同时连接其中的一个存储单元，其中的另外一个运算单元连接其中的另一个存储单元。

为了实现上述目的，作为本公开的另一个方面，本公开提出了一种数据共享方法，包括以下步骤：

至少两个处理模块之间通过预设的规则进行通信，以实现数据共享；

其中，两个处理模块共用存储模块。

指令缓存单元通过直接内存访问单元读入指令，并缓存读入指令。

在本公开的一些实施例中，上述用于执行人工神经网络正向运算的装置还包括控制器单元，该控制器单元从指令缓存单元读取指令，并译码该指令生成微指令。

在本公开的一些实施例中，上述用于执行人工神经网络正向运算的装置还包括H数模块、主运算模块、以及多个从运算模块，其中：

H树模块，在每层神经网络反向训练开始计算的阶段，主运算模块通过H树模块向所有的从运算模块传输本层的输入神经元向量，以及在从计算模块的计算过程完成后，H树模块逐级将各从计算模块的输出神经元值拼成中间结果向量；

主运算模块，利用中间结果向量完成后续计算。

在本公开的一些实施例中，上述直接内存访问单元，还从外部地址空间向主运算模块和各从运算模块的相应数据缓存单元中写数据，或从数据缓存单元向外部地址空间读数据。

在本公开的一些实施例中，上述数据共享方法还采用：

本公开一方面提供了一种信息处理装置，该装置包括存储模块和数据处理模块，其中，存储模块，用于接收并存储输入数据、指令和输出数据，其中输入数据包含一个或多个关键特征；数据处理模块，用于对输入数据包含的关键特征进行判断，并根据判断结果对存储模块中的输入数据进行评分。

上述方案中，所述输入数据为原始输入数据，或对原始输入数据进行预处理后的数据。

上述方案中，所述数据处理模块对输入数据包含的关键特征进行判断，包括：数据处理模块计算输入数据包含的关键特征的置信度，该置信度即为判断结果。

上述方案中，所述存储模块中存储有数据和指令，所述数据包括输入数据，输入神经元，权值，输出神经元，输出数据；输入数据传给人工神经网络中的各个输入神经元，从而参与后续运算；输出神经元的值即判断结果和评分，作为输出数据。

上述方案中，所述数据处理模块包括运算模块，用于根据所述存储模块中存储的指令对所述存储模块中存储的数据执行相应的计算，并将运算结果输出至存储模块。

上述方案中，所述运算模块用于根据所述存储模块中存储的指令对所述存储模块中存储的数据执行相应的计算，在神经网络的各个层中，运算模块执行运算包括：

第一部分为乘法器；

第二部分为一个或者多个加法器；

第三部分为激活函数单元；以及

第四部分为向量处理单元。

上述方案中，第二部分为多个加法器时，多个加法器组成加法树。

上述方案中，所述激活函数是sigmoid、tanh、relu、softmax。

上述方案中，第四部分为向量处理单元，该向量处理单元进行池化运算。

上述方案中，所述数据处理模块还包括指令缓存和神经网络数据缓存；指令缓存，用于缓存指令；神经网络数据缓存，用于缓存所述存储模块中的权值数据、输入神经元和输出神经元。

上述方案中，所述神经网络数据缓存包括权值缓存、输入神经元缓存和输出神经元缓存；权值缓存，用于缓存权值数据；输入神经元缓存，用于缓存输入神经元；输出神经元缓存，用于缓存并输出运算模块输出的运算结果，即判断结果和/或评分。

上述方案中，所述数据处理模块还包括直接内存存取，该直接内存存取起到沟通存储模块和各个缓存之间桥梁的作用，用于对存储模块中存储的数据和/或指令进行读写，将读写出的指令存储至指令缓存，将读出的权值存储至权值缓存，将读出的输入神经元，即输入数据存储至输入神经元缓存，并将接收自输出神经元缓存的输出神经元，即将判断结果和/或评分存储至存储模块。

上述方案中，所述数据处理模块还包括控制单元，该控制单元用于从所述指令缓存中读取指令，将其译码为运算模块能够执行的指令并输出至运算模块。

上述方案中，所述数据处理模块还包括评分单元，该评分单元用于：当信息处理装置中运行的人工神经网络得到判断结果，进而得到评分时，该评分单元不参与数据处理；当信息处理装置中运行的人工神经网络仅得到判断结果而不得到评分时，该评分单元用于根据判断结果得到评分。

上述方案中，所述判断结果，即信息处理装置中运行的人工神经网络的最终输出层的输出神经元的值，输出神经元的值即为关键特征出现的置信度，置信度为一定范围内的自然数；所述评分，为在信息处理装置中运行的人工神经网络的最终输出层后面再加一层作为新的最终输出层，该新的最终输出层的输入神经元值为各个关键特征出现的置信度；该层只有一个输出神经元，其值即为评分；该新的最终输出层运算中的权值对应各个关键特征的重要程度；或者该层有N+1个输出神经元，评分的取值范围为[0,N]，若将该层输出神经元编号为0,1,2,...,N，则第i个输出神经元的值对应评分值取i的置信度P _i，最终评分为置信度最大的评分值，即评分＝i ₀,

上述方案中，所述评分或者为：在信息处理装置中运行的人工神经网络的最终输出层得到各关键特征出现的置信度后，将其作为评分单元的输入，评分单元据此得到评分。

上述方案中，该信息处理装置为人工神经网络芯片。

本公开另一方面提供了一种信息处理方法，采用所述的信息处理装置，包括：

存储模块接收并存储输入数据、指令和输出数据，其中输入数据包含一个或多个关键特征；

数据处理模块对输入数据包含的关键特征进行判断，并根据判断结果对存储模块中的输入数据进行评分。

上述方案中，所述输入数据采用原始输入数据，或采用对原始输入数据进行预处理后的数据。

上述方案中，所述存储模块存储有数据和指令，所述数据包括输入数据，输入神经元，权值，输出神经元，输出数据；输入数据传给人工神经网络中的各个输入神经元，从而参与后续运算；输出神经元的值即判断结果和评分，作为输出数据。

上述方案中，所述数据处理模块包括运算模块，该运算模块根据所述存储模块中存储的指令对所述存储模块中存储的数据执行相应的计算，并将运算结果输出至存储模块。

上述方案中，所述运算模块根据所述存储模块中存储的指令对所述存储模块中存储的数据执行相应的计算，在神经网络的各个层中，运算模块执行运算包括：

第一部分为乘法器；

第二部分为一个或者多个加法器；

第三部分为激活函数单元；以及

第四部分为向量处理单元。

上述方案中，所述激活函数采用sigmoid、tanh、relu、softmax。

上述方案中，所述数据处理模块还包括指令缓存和神经网络数据缓存；使用指令缓存缓存指令；使用神经网络数据缓存缓存所述存储模块中的权值数据、输入神经元和输出神经元。

上述方案中，所述神经网络数据缓存包括权值缓存、输入神经元缓存和输出神经元缓存；使用权值缓存缓存权值数据；使用输入神经元缓存缓存输入神经元；使用输出神经元缓存缓存并输出运算模块输出的运算结果，即判断结果和/或评分。

上述方案中，所述数据处理模块还包括直接内存存取，该直接内存存取起到沟通存储模块和各个缓存之间桥梁的作用，并对存储模块中存储的数据和/或指令进行读写，将读写出的指令存储至指令缓存，将读出的权值存储至权值缓存，将读出的输入神经元，即输入数据存储至输入神经元缓存，并将接收自输出神经元缓存的输出神经元，即将判断结果和/或评分存储至存储模块。

上述方案中，所述数据处理模块还包括控制单元，该控制单元读取指令缓存中的指令，将其译码为运算模块能够执行的指令并输出至运算模块。

上述方案中，所述数据处理模块还包括评分单元，当信息处理装置中运行的人工神经网络得到判断结果，进而得到评分时，该评分单元不参与数据处理；当信息处理装置中运行的人工神经网络仅得到判断结果而不得到评分时，该评分单元根据判断结果得到评分。

上述方案中，该信息处理方法采用的信息处理装置为人工神经网络芯片。

本公开再一方面还提供了一种信息处理***，包括信息获取装置、所述的信息处理装置、交互界面和控制装置，其中：

信息获取装置，用于获取外部数据，并传递给信息处理装置；

信息处理装置，用于对接收自信息获取装置的外部数据进行运算处理，并将运算处理结果输出给交互界面；

交互界面，用于显示接收自信息处理装置的运算结果，以及将接收自外部的操作或命令传输给控制装置；

控制装置，用于根据接收自交互界面的操作或命令控制信息获取装置、信息处理装置和交互界面的运作。

上述方案中，所述信息获取装置包括字符识别装置、图像识别装置和语音识别装置；

所述字符识别装置，用于获取外部数据中的文字信息；

所述图像识别装置，用于获取外部数据中的图片或视频信息；

所述语音识别装置，用于获取外部数据中的音频信息。

上述方案中，交互界面为手机、电脑、笔记本或平板电脑的显示屏。

本公开再一方面还提供了一种信息处理方法，采用所述的信息处理***，包括：

信息获取装置获取外部数据，并将外部数据直接或经预处理后传递给信息处理装置；

信息处理装置对接收自信息获取装置的外部数据或经预处理后的外部数据进行运算处理，并将运算处理结果输出给交互界面；以及

交互界面显示接收自信息处理装置的运算结果。

上述方案中，所述信息获取装置包括字符识别装置、图像识别装置和语音识别装置，所述信息获取装置获取外部数据，包括：

信息获取装置采用字符识别装置获取外部数据中的文字信息；

信息获取装置采用图像识别装置获取外部数据中的图片或视频信息；

信息获取装置采用语音识别装置获取外部数据中的音频信息。

根据本公开的一个方面，提供了一种任务切分装置，包括：粒度任务切分单元，用于采用至少一种粒度对任务进行切分形成子任务；以及任务切分粒度选择单元，用于选择采用的粒度。

在一些实施例中，任务切分装置用于神经网络，粒度任务切分单元包括以下单元中的至少一个,第一粒度任务切分单元，用于将任务整体作为一子任务；第二粒度任务切分单元，用于将选取任务中部分样本计算作为子任务来切分任务；第三粒度任务切分单元，用于按照神经网络的层类型进行任务切分，相同类型层的计算作为一子任务；第四粒度任务切分单元，用于按照神经网络的层间结构进行任务切分，若干相邻层的计算作为一子任务；第五粒度任务切分单元，用于按照神经网络的层内结构进行任务切分，将神经网络层内的计算切分为子任务。

在一些实施例中，所述任务切分粒度选择单元基于神经网络需要处理的样本数量、神经网络的拓扑结构以及每一层的计算量中的至少一个选择第一至第五粒度任务切分单元中的至少一个来进行任务切分。

在一些实施例中，所述按照神经网络的层内结构进行任务切分包括：对神经网络的卷积层计算、全连接层计算、池化层计算或激活层计算进行任务切分。

在一些实施例中，所述对神经网络的卷积层计算进行切分包括：当所述神经网络的卷积层输入神经元是三维矩阵(Nfin，Nxin，Nyin)，权值是四维矩阵(Nfout，Nfout，Kx，Ky),输出神经元是三维矩阵(Nfout，Nxout，Nyout)时，其中Nfin是输入特征图像数量，(Nxin，Nyin)是输入特征图像大小，Nfout是输出特征图像数量，(Kx，Ky)是卷积核大小，(Nxout，Nyout)是输出特征图像大小，Nfin，Nxin,Nyin，Kx，Ky，Nfout，Nxout，Nyout均为正整数，将输出神经元按照(Bfout，Bxout，Byout)的块大小进行切分，同时对权值按照(Bfout，Bfin，Bx，By)的块大小进行切分，其中，Bfout,Bxout,Byout，Bfout，Bfin，Bx，By均为正整数，且0＜Bfout≤Nfout，0＜Bxout≤Nxout，0＜Byout≤Nyout，0＜Bfin≤Nfin，0＜Bx≤Kx，0＜By≤Ky。

根据本公开的另一个方面，提供一种任务处理装置，包括：任务切分装置；以及任务调度装置，所述任务调度装置包括：任务队列单元，用于缓存未调度的任务，监测单元，用于实时监测多核处理器各核工作状态；任务调度单元，用于从未调度任务中选择待调度任务，并根据所述各核工作状态向目标核分配调度待调度任务。

在一些实施例中，所述任务调度单元采用以下方式中的至少一种来分配调度待调度任务至目标核：统计每一个核私有任务队列中任务数量，选择私有任务队列中任务最少的核作为目标核；统计每一个核完成私有任务队列中所有任务的时间，选择完成任务时间最短的核作为目标核；统计待调度任务所需资源在所有核的分布情况，选择拥有资源数量最多的核作为目标核；以及采用启发式算法将待调度任务分配到目标核。

在一些实施例中，所述启发式算法包括遗传算法，蚁群算法，模拟退火算法中的至少一个。

在一些实施例中，所述任务调度单元每隔时间T进行一次任务调度，待调度任务采用以下方式中的至少一种进行选择：随机选择未调度的任务；

选择预计执行时间最长的未调度的任务；选择预计执行时间最短的未调度的任务；选择占用资源最多的未调度的任务；选择占用资源最少的未调度的任务。

在一些实施例中，所述各核工作状态包括利用率，工作负载，工作频率，核内私有任务队列中的任务数量，核内任务完成时间中的至少一个。

根据本公开的另一个方面，提供一种多核处理器，包括：J个处理核，J为正整数；以及任务处理装置。

在一些实施例中，所述处理核之间的拓扑结构采用一维线性、二维mesh，二维星形、三维立方中的至少一种。

在一些实施例中，所述处理核包括神经网络处理核，所述神经网络处理核包括：存储单元，用于存储神经网络的神经元、权值以及指令；选数单元，用于接收输入神经元和非零权值位置信息，选出非零权值对应的神经元；运算单元，用于接收输入非零权值对应的神经元和对应的非零权值，完成神经网络训练运算；以及控制单元，用于接收神经网络的指令，经过译码后生成控制信息控制所述选数单元和运算单元。

在一些实施例中，所述指令包括控制指令，数据传输指令，运算指令和逻辑指令中的至少一个。

在一些实施例中，所述运算指令用于完成神经网络的算术运算，包括矩阵运算指令，向量运算指令,标量运算指令,卷积神经网络运算指令，全连接神经网络运算指令，池化神经网络运算指令，RBM神经网络运算指令，LRN神经网络运算指令，LCN神经网络运算指令，LSTM神经网络运算指令，RNN神经网络运算指令，RELU神经网络运算指令，PRELU神经网络运算指令，SIGMOID神经网络运算指令，TANH神经网络运算指令，MAXOUT神经网络运算指令中的至少一个。

根据本公开的再一个方面，提供一种任务切分方法，用于神经网络，选择以下任务切分方式中的至少一个来进行任务切分：将任务整体作为一子任务；将选取任务中部分样本计算作为子任务来切分任务；按照神经网络的层类型进行任务切分，相同类型层的计算作为一子任务；按照神经网络的层间结构进行任务切分，若干相邻层的计算作为一子任务；按照神经网络的层内结构进行任务切分，将神经网络层内的计算切分为子任务。

在一些实施例中，基于神经网络需要处理的样本数量、神经网络的拓扑结构以及每一层的计算量中的至少一个来选择所述任务切分装置中的至少一个来进行任务切分。

根据本公开的进一步的一个方面，提供一种任务处理方法，包括：务切分方法；以及任务调度方法，所述任务调度方法包括：缓存未调度的任务，所述任务包括权利要求中任一任务切分装置切分的子任务；实时监测多核处理器各核工作状态；以及从未调度任务中选择待调度任务并根据所述各核工作状态向目标核分配调度待调度任务。

在一些实施例中，所述向目标核分配调度所述待调度任务采用以下方式中的至少一种执行：统计每一个核私有任务队列中任务数量，选择私有任务队列中任务最少的核作为目标核；统计每一个核完成私有任务队列中所有任务的时间，选择完成任务时间最短的核作为目标核；统计待调度任务所需资源在所有核的分布情况，选择拥有资源数量最多的核作为目标核；以及采用启发式算法将待调度任务分配到目标核。

在一些实施例中，每隔时间T进行一次任务调度，待调度任务采用以下方式中的至少一种进行选择：随机选择未调度的任务；选择预计执行时间最长的未调度的任务；选择预计执行时间最短的未调度的任务；选择占用资源最多的未调度的任务；选择占用资源最少的未调度的任务。

根据本公开的一个方面，提供了一种处理器，包括：

任务切分装置，用于根据任务切分粒度进行任务切分；以及

硬件资源划分装置，用于根据任务切分结果对所述处理器的硬件资源进行划分。

在一些实施例中，所述处理器还包括多个计算单元，所述硬件资源划分装置用于根据任务切分结果对所述处理器的多个计算单元进行划分，即所述多个计算单元根据所述任务切分结果分成多个计算组，以分别计算batch中不同的正向和反向通路，或运行不同的服务的请求。

在一些实施例中，所述处理器在运行过程中，根据所述任务切分结果对所述多个计算单元的分组进行动态调整。

在一些实施例中，所述任务切分装置包括：

任务切分粒度选择单元，用于选择采用的粒度；以及

粒度任务切分单元，用于采用至少一种粒度对任务进行切分形成子任务。

在一些实施例中，所述粒度任务切分单元包括以下单元中的至少一个：

第一粒度任务切分单元，用于将任务整体作为一子任务；

第二粒度任务切分单元，用于将选取任务中部分样本计算作为子任务来切分任务；

第三粒度任务切分单元，用于按照神经网络的层类型进行任务切分，相同类型层的计算作为一子任务；

第四粒度任务切分单元，用于按照神经网络的层间结构进行任务切分，若干相邻层的计算作为一子任务；

第五粒度任务切分单元，用于按照神经网络的层内结构进行任务切分，将神经网络层内的计算切分为子任务。

在一些实施例中，所述的处理器还包括：任务调度装置；其中，所述处理器为多核处理器；所述任务调度装置包括：

任务队列单元，用于缓存未调度的任务；

监测单元，用于实时监测各核的工作状态；以及

任务调度单元，用于从未调度任务中选择待调度任务，并根据所述各核的工作状态向目标核分配调度待调度任务。

在一些实施例中，所述任务调度单元采用以下方式中的至少一种来分配调度待调度任务至目标核：

统计每一个核私有任务队列中任务数量，选择私有任务队列中任务最少的核作为目标核；

统计每一个核完成私有任务队列中所有任务的时间，选择完成任务时间最短的核作为目标核；

统计待调度任务所需资源在所有核的分布情况，选择拥有资源数量最多的核作为目标核；以及

采用启发式算法将待调度任务分配到目标核。

根据本公开的另一个方面，提供了一种组合处理装置，其中，所述组合处理装置包括所述的处理器，通用互联接口和其他处理装置进行交互，共同完成用户指定的计算操作。

根据本公开的另一个方面，提供了一种神经网络芯片，其中，所述神经网络芯片包括所述的处理器或所述的组合处理装置。

根据本公开的另一个方面，提供了一种电子设备，其中，所述电子设备包括所述的芯片。

根据本公开的另一个方面，提供了一种处理方法，包括：

任务切分装置根据任务切分粒度进行任务切分；以及

硬件资源划分装置根据任务切分结果对处理器的硬件资源进行划分。

在一些实施例中，在所述硬件资源划分装置根据任务切分结果对处理器的硬件资源进行划分的步骤中：

所述硬件资源划分装置根据任务切分结果对所述处理器的多个计算单元进行划分，即所述多个计算单元根据所述任务切分结果分成多个计算组，以分别计算batch中不同的正向和反向通路，或运行不同的服务的请求。

在一些实施例中，所述任务切分装置根据任务切分粒度进行任务切分的步骤包括：

任务切分粒度选择单元选择采用的任务切分粒度；以及

粒度任务切分单元采用至少一种所述粒度对划分后的各硬件资源的任务进行切分形成子任务。

在一些实施例中，所述任务切分粒度选择单元基于神经网络需要处理的样本数量、神经网络的拓扑结构以及每一层的计算量中的至少一个选择多个所述粒度任务切分单元中的至少一个来进行任务切分。

在一些实施例中，所述的处理方法还包括：在任务切分之后，对任务进行分配调度，其包括：

缓存未调度的任务；

实时监测所述处理器各核工作状态；以及

从未调度任务中选择待调度任务，并根据所述各核工作状态向目标核分配调度待调度任务。

在一些实施例中，采用以下方式中的至少一种来分配调度待调度任务至目标核：

采用启发式算法将待调度任务分配到目标核。

根据本公开的一方面，提供一种信息处理装置，包括：存储模块，用于获取信息数据，所述信息数据包括至少一个关键特征，所述存储模块预存所述关键特征对应的真实置信度；运算电路，根据所述信息数据，确定所述关键特征对应的预测置信度，并判断所述关键特征的预测置信度是否超过关键特征对应的真实置信度预设阈值范围；控制电路，当所述预测置信度超过真实置信度预设阈值，控制所述存储模块修改关键特征，或向外部发出修改信号。

在进一步的实施方案中，所述存储模块包括直接内存存取DMA，所述直接内存存取DMA与所述运算电路电性连接，用于存储所述运算电路运算确定的预测置信度，并将所述真实置信度和预测置信度送入所述运算电路以进行比较。

在进一步的实施方案中，所述存储模块还包括存储单元，所述存储单元用于从信息处理装置外部获取信息数据，并传入所述直接存储存取DMA，供运算电路调用。

在进一步的实施方案中，所述存储模块还用于存储神经网络专用指令、神经网络中的输入神经元、输出神经元和权值，所述信息处理装置还包括：

指令缓存，用于从所述存储模块缓存专用指令，供控制电路调用；输入神经元缓存，用于从所述存储模块缓存神经元，供运算电路调用；权值缓存，用于从所述存储模块缓存权值，供运算电路调用；输入神经元缓存，用于存储从所述运算电路运算获得的输出神经元。

在进一步的实施方案中，所述运算电路还用于根据各关键特征的判断结果对所述信息数据进行评分，或者所述运算电路还用于对所述神经网络进行自适应性训练。

在进一步的实施方案中，所述运算电路中，根据所述信息数据，确定所述关键特征对应的预测置信度包括：以所述信数据作为神经网络的输入，进行神经网络运算，所述预测置信度作为神经网络的输出。

在进一步的实施方案中，所述信息数据包括以下至少一种：图片、文本、音频、视频帧和视频。

在进一步的实施方案中，还包括预处理模块，用于对外部的原始信息数据进行预处理后传入所述存储模块；优选的，所述预处理包括对原始信息数据切分、高斯滤波、二值化、正则化和/或归一化，以获得符合神经网络输入格式的数据。

根据本公开的另一方面，提供一种信息处理设备，包括：信息获取装置，用于获取外部的信息数据；以上所述的信息处理装置，用于处理所述信息数据，获得关键特征的预测置信度，且当所述预测置信度超过真实置信度阈值时，修改所述关键特征，或发出修改信号。

根据本公开的再一方面，提供一种信息处理设备，包括：信息获取装置，用于获取外部的信息数据；以上所述的信息处理装置，用于处理所述信息数据，获得关键特征的预测置信度，且当所述预测置信度超过真实置信度预设阈值时，修改所述关键特征，或发出修改信号；交互界面，接收修改的关键特征或者修改信号，向用户示出修改内容。

在进一步的实施方案中，所述交互装置还包括预处理模块，用于对信息获取装置获取的信息数据进行预处理后送入信息处理装置。

在进一步的实施方案中，还包括控制器，用于控制所述信息获取装置、信息处理装置和/或交互界面。

在进一步的实施方案中，所述交互界面还用于响应用户的操作或命令，对预设阈值进行修改。

根据本公开的又一方面，提供一种信息处理方法，包括：通过存储模块获取信息数据，所述信息数据包括至少一个关键特征，所述存储模块预存所述关键特征对应的真实置信度；运算电路根据所述信息数据，确定所述关键特征对应的预测置信度，并判断所述关键特征的预测置信度是否超过关键特征对应的真实置信度预设阈值范围；当所述预测置信度超过真实置信度预设阈值范围，控制电路控制存储模块修改所述关键特征，或发出修改信号。

在进一步的实施方案中，所述存储模块包括直接内存存取DMA，所述方法还包括步骤：采用直接内存存取DMA存储运算电路所确定的预测置信度，并将所述真实置信度和预测置信度送入所述运算电路以进行比较。

在进一步的实施方案中，所述通过存储模块获取信息数据包括：使用存储单元从外部获取信息数据，并传入所述直接存储存取DMA，供运算电路调用。

在进一步的实施方案中，还包括步骤：使用存储模块存储神经网络专用指令；通过指令缓存从所述存储模块缓存专用指令，供控制电路调用；

采用存储模块存储神经网络中的输入神经元、输出神经元和权值；采用输入神经元缓存从所述存储模块缓存神经元，供运算电路调用；采用权值缓存从所述存储模块缓存权值，供运算电路调用；采用输入神经元缓存，存储从所述运算电路运算获得的输出神经元。

在进一步的实施方案中，还包括步骤：采用运算电路根据各关键特征的所述判断结果对所述信息数据进行评分，或者通过运算电路对所述神经网络进行自适应性训练。

在进一步的实施方案中，所述运算电路根据所述信息数据，确定所述关键特征对应的预测置信度包括：以所述信数据作为神经网络的输入，进行神经网络运算，所述预测置信度作为神经网络的输出。

在进一步的实施方案中，还包括步骤：通过预处理模块对外部的原始信息数据进行预处理后传入所述存储模块。

根据本公开的一方面，提供一种用于执行生成对抗网络的处理装置，包括：

存储器，用于接收输入数据，所述输入数据包括随机噪声和参考数据，以及存储判别器神经网络参数与生成器神经网络参数；

运算器，用于将随机噪声输入数据传入生成器神经网络进行运算，得到噪声生成结果；还用于将噪声生成结果和参考数据共同输入判别器神经网络进行运算，得到判别结果；还用于根据所述判别结果更新所述判别器神经网络参数与生成器神经网络参数。

根据本公开的另一方面，提供一种应用上述处理装置进行机器创作的方法，包括：

输入随机噪声和参考数据至存储器；

运算器将随机噪声输入数据传入生成器神经网络进行运算，得到噪声生成结果；

通过运算器将噪声生成结果和参考数据共同输入判别器神经网络进行运算，得到判别结果；

通过运算器，根据所述判别结果更新所述判别器神经网络参数与生成器神经网络参数。

根据本公开的再一方面，提供一种电子设备，包括权上述的处理装置。

本公开提出的数据共享***及其数据共享方法，具有以下有益效果：

本公开中的至少两个处理模块之间可通过预设的规则直接通信，实现数据共享；因此无需通过共享的存储模块，从而可降低存储通信的开销，有效降低数据访问的延时；本公开的至少两个处理模块可包括不同结构的处理器，及不同结构处理器中的内核，因此可维护相同或不同结构的处理器的外部存储模块和内核对应的核外部存储模块；本公开在不降低原有的存储效率和不增加原有的存储成本的情况下，每个存储单元可以允许一个或多个运算单元进行直接访问，其具体数量无需固定和同意，支持非对称的结构，允许根据需求进行配置和调整，从而减少了片内外访存的交互次数，降低了功耗；本公开对于运算单元独自享有的私有存储模块，允许其可以将数据传递给其他运算单元。即在保护数据私有性的同时，允许数据的快速交互，提高了数据利用率，避免了片上存储多份相同数据带来的资源浪费和反复读取相同数据的访存开销，进一步提高了访存速度，降低了访存功耗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中的数据处理***的结构示意图；

图2是本公开一实施例提出的数据共享***的结构示意图；

图3是图2***中处理器的结构示意图；

图4是图3中H树模块的结构示意图；

图5是图3中主运算模块的结构示意图；

图6是图3中从运算模块的结构示意图；

图7是本公开另一实施例提出的数据共享***的结构示意图；

图8是本公开另一实施例提出的数据共享***的结构示意图；

图9是本公开另一实施例提出的数据共享***的结构示意图；

图10是本公开实施例中的信息处理装置结构示意图；

图11是本公开实施例中的包括运算模块的信息处理装置结构示意图；

图12是本公开实施例中的包括指令缓存和神经网络数据缓存的信息处理装置结构示意图；

图13是本公开实施例中的神经网络数据缓存的结构示意图；

图14是本公开实施例中的包括直接内存存取和控制单元的信息处理装置结构示意图；

图15是本公开实施例中的信息处理装置的具体结构示意图；

图16是本公开实施例中的信息处理装置的信息处理方法流程图；

图17是本公开实施例中的信息处理***结构示意图；

图18是本公开实施例中的信息处理***的信息处理方法流程图；

图19是本公开一实施例任务切分装置的结构框图；

图20是本公开一实施例任务调度装置的结构框图；

图21是本公开再一实施例多核处理器的结构框图；

图22是本公开再一实施例中神经网络处理的每一个神经网络处理核的结构框图；

图23是本公开一实施例处理器的结构框图；

图24是本公开另一实施例处理器的结构框图；

图25是本公开另一实施例处理器的结构框图；

图26是本公开另一实施例处理器的结构框图；

图27是本公开另一实施例处理器的结构框图；

图28是本公开实施例任务切分装置的结构框图；

图29是本公开实施例任务调度装置的结构框图；

图30是本公开实施例多核处理器的结构框图；

图31是本公开实施例中神经网络处理的每一个神经网络处理核的结构框图；

图32是本公开实施例组合处理装置的结构框图；

图33是本公开实施例处理方法流程图；

图34是本公开一实施例计算单元划分后的结构示意图；

图35是本公开另一实施例计算单元划分后的结构示意图；

图36是本公开另一实施例计算单元划分后的结构示意图；

图37是本公开实施例信息处理装置的方框图；

图38是本公开另一实施例信息处理装置的方框图；

图39是本公开再一实施例信息处理装置的方框图；

图40是本公开实施例的信息处理设备的方框图；

图41是本公开实施例的信息处理方法流程图；

图42是本公开实施例的用于执行生成对抗网络的处理装置的基本方块图；

图43是本公开又一实施例的用于执行生成对抗网络的处理装置的基本方块图；

图44是本公开实施例的进行机器创作的方法的流程图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开作进一步的详细说明。

本公开提出了机器学习ASIC运算单元可以直接访问SoC片内存储模块，与其他SoC内的其他模块实现快速的数据交互的方法。该方法能够有效提高数据交互效率，大大降低交互延迟。对于各层次公用的存储模块，可以由有权限的访问单元进行访问，对于私有的存储模块，访问单元间可以直接或者通过某种规则或者某种协议完成数据的交互和访问。

本公开提出了一种数据共享***，包括存储模块和至少两个处理模块，其中：

至少两个处理模块共用存储模块；

至少两个处理模块之间通过预设的规则通信，以实现数据共享。

本公开的数据共享***，支持异构的多处理器情况。处理器外部有外部存储模块，是多个处理器的公用存储模块，这些处理器可以为相同的处理器、可以为不同的处理器，亦或是部分相同的情况。

在本公开的一些实施例中，上述至少两个处理模块可包括相同/互异结构的处理器、相同/互异结构的处理器内核，及相同/互异结构处理器内核中相同/互异结构的运算单元。

在本公开的一些实施例中，上述通过预设的规则通信包括：至少两个处理模块包括第一处理模块和第二处理模块，第一处理模块向第二处理模块发送请求信号和相应的数据地址，第二处理模块根据所述请求信号和相应的数据地址，向第一处理模块回复有效信号和数据，以实现数据共享。需要说明的是，此处的至少两个处理模块并不以包括第一处理模块和第二处理模块为限，例如还可包括第三处理模块，则此三个模块中的任意两个均可采用上述预设的规则进行通信。

本公开还提出了一种数据共享方法，包括以下步骤：

其中，该两个处理模块共用一存储模块。

如图2所示，在本公开的一些实施例中，至少两个处理模块包括两个处理器，例如可以为处理器1、处理器2，两个处理器之间的通信是指处理器内部的内部存储模块之间的通信。外部存储模块允许处理器1和处理器2直接进行访问，分别读取数据至内部存储模块1和内部存储模块2所需要的位置。通过某种一致性协议维护外部存储模块和处理器内部存储模块的数据的一致性问题。现有技术中，如当处理器1改变了自己内部存储模块中的数据时，采用“写穿透”的方式，改变内部存储模块1中的相应位置的数据，同时改变外部存储模块中该数据的相应位置；则外部存储模块同时给内部存储模块2中的相应数据发送一个失效信号。待处理器2使用该数据时，发现失效信号后，从外部存储模块读取新值，并写到内部存储模块2中的相应位置。在本实施例中，对于内部存储模块1中的数据，处理器2可以通过某种预设的规则，如先向处理器1发送请求信号和相应的数据地址，处理器1收到请求信号后，回复有效信号和数据来完成数据交互；因此对于具有多个处理器的结构，可维护同一个存储空间，且可通过某种定义好的规则实现多个处理器相互之间的直接通信，从而降低存储通信开销，降低数据访问延时。

其中，本实施例中涉及的处理器1、处理器2等可以为相同的处理器，也可以为不同的处理器。可以适用于新型的人工神经网络处理器和传统的通用处理器之间的合作。如可假定处理器1为通用处理器CPU，处理器2为人工神经网络处理器。

具体地，如图3所示，人工神经网络处理器可包括用于执行人工神经网络正向运算的结构，执行人工神经网络正向运算的结构包括指令缓存单元1、控制器单元2、直接内存访问单元3、H树模块4、主运算模块5和多个从运算模块6。其中，指令缓存单元1、控制器单元2、直接内存访问单元3、H树模块4、主运算模块5和从运算模块6均可以通过硬件电路(例如专用集成电路ASIC)实现。

指令缓存单元1通过直接内存访问单元3读入指令并缓存读入的指令；控制器单元2从指令缓存单元1中读取指令，将指令译成控制其他模块行为的微指令，其中的其他模块例如可以为直接内存访问单元3、主运算模块5和从运算模块6等；直接内存访问单元3能够访存外部地址空间，直接向处理器内部的各个缓存单元读写数据，完成数据的加载和存储。

如图4所示，H树模块可以包括分支处理模块103；其具体的连接结构如图4所示，其中，

主运算模块101与分支处理模块103连接，分支处理模块103与多个从处理模块102连接；

分支处理模块103，用于执行转发主运算模块101与从处理模块102之间的数据或指令。

在一种可选实施例中，以神经网络运算中的全连接运算为例，过程可以为：y＝f(wx+b)，其中，x为输入神经元矩阵，w为权值矩阵，b为偏置标量，f为激活函数，具体可以为：sigmoid函数，tanh、relu、softmax函数中的任意一个。这里假设为二叉树结构，具有8个从处理电路，其实现的方法可以为：

控制器单元从存储模块内获取输入神经元矩阵x，权值矩阵w以及全连接运算指令，将输入神经元矩阵x，权值矩阵w以及全连接运算指令传输给主运算模块；

主运算模块将输入神经元矩阵x拆分成8个子矩阵，然后将8个子矩阵通过树型模块分发给8个从处理模块，将权值矩阵w广播给8个从处理模块；

从处理模块并行执行8个子矩阵与权值矩阵w的乘法运算和累加运算得到8个中间结果，将8个中间结果发送给主运算模块；

主运算模块，用于将8个中间结果排序得到wx的运算结果，将该运算结果执行偏置b的运算后执行激活操作得到最终结果y，将最终结果y发送至控制器单元，控制器单元将该最终结果y输出或存储至存储模块。

如图5所示，为主运算模块5的结构示例框图，主运算模块5包括运算单元51、数据依赖关系判断单元52和神经元缓存单元53。神经元缓存单元53用于缓存主运算模块5在计算过程中用到的输入数据和输出数据，运算单元51完成主运算模块5的各种运算功能，数据依赖关系判断单元52是运算单元51读写神经元缓存单元53的端口，同时能够保证神经元缓存单元中数据的读写一致性。同时，数据依赖关系判断单元52也用于将读取数据通过H树模块4发送给从计算模块6，而从计算模块6的输出数据通过H树模块4直接发送给运算单元51。控制器单元2输出的指令发送给计算单元51和数据依赖关系判断单元52，来控制其行为。

如图6所示，为从运算模块6的结构示例框图，每个从运算模块6包括运算单元61、数据依赖关系判断单元62、神经元缓存单元63和权值缓存单元64。运算单元61用于接收控制器单元2发出的微指令并进行算数逻辑运算；数据依赖关系判断单元62用于计算过程中对神经元缓存单元63的读写操作。数据依赖关系判断单元62执行读写操作之前会首先保证指令之间所用的数据不存在读写一致性冲突，例如，所有发往数据依赖关系单元62的微指令都会被存入数据依赖关系单元62内部的指令队列里，在该队列中，读指令的读取数据的范围如果与队列位置靠前的写指令写数据的范围发生冲突，则该指令必须等到所依赖的写指令被执行后才能够执行；神经元缓存单元63缓存该从运算模块6的输入神经元向量数据和输出神经元值数据。权值缓存单元64缓存该从运算模块6在计算过程中需要的权值数据。对于每一个从运算模块6，都只会存储全部输入神经元与部分输出神经元之间的权值。以全连接层为例，输出神经元按照从运算单元的个数N进行分段，每段的第n个输出神经元对应的权值存放在第n个从运算单元中。

从运算模块6实现每层人工神经网络正向运算过程中可以并行的算数逻辑运算。以人工神经网络全连接层(MLP)为例，过程为y＝f(wx+b)，其中权值矩阵w和输入神经元向量x的乘法可以划分为不相关的并行计算子任务，即由于out与in是列向量，每个从运算模块6只计算in中相应的部分标量元素与权值矩阵w对应的列的乘积，得到的每个输出向量都是最终结果的一个待累加的部分和，这些部分和在H树模块4中逐级两两相加得到最后的结果。所以计算过程变成了并行的计算部分和的过程和后面的累加的过程。每个从运算模块6计算出输出神经元值，所有的输出神经元值在H树模块4中拼成最后的中间结果向量。因此，每个从运算模块6只需要计算出中间结果向量y中与本模块对应的输出神经元的值即可。H树模块4对所有从运算模块6输出的神经元值求和，得到最终的中间结果向量y。主运算模块5基于中间结果向量y进行后续计算，比如加偏置、池化(例如最大值池化(MAXPOOLING)或平均值池化(AVGPOOLING)等)、做激活和做采样等。

在该结构中，包括一个CPU和人工神经网络处理器的公用存储模块，允许两个处理器直接进行访问，分别读取数据至CPU的缓存之中和人工神经网络处理器的缓存单元之中。当CPU将要改变缓存中的数据时，采用“写穿透”的方式，改变缓存中数据的相应位置的同时，改变外部存储模块中该数据的相应位置，同时给人工神经网络处理器中的相应数据发送一个失效信号。待人工神经网络处理器使用该数据时，发现失效信号后，从外部存储模块读取新值，并写到人工神经网络处理器中的缓存单元的相应位置。另外，对于CPU中的数据，人工神经网络处理器可以通过定义好的规则，即先向CPU发送请求信号和相应的数据地址，CPU收到请求信号后，回复有效信号和数据来完成数据交互。从而，对于异构的多处理器结构，本实施例提出的数据共享***通过维护同一个存储空间，可降低存储通信开销，降低数据访问延时。

每个处理器内有多个核，核内有核内部存储模块和核外部存储模块，核外部存储模块的数据可以由几个或者所有的核直接进行访问。在本公开的一些实施例中，如图7所示，提出一种数据共享***，其中至少两个处理模块为两个处理器内核，其之间的数据共享通过其内部的核内部存储模块来实现，存储模块则指核外部存储模块。在本实施例中，一个核1需要访问核2的核内部存储模块时，可通过通信协议进行访问。核外部存储模块允许核1和核2进行访问，那么，核1和核2分别读取所需要的数据至核内部存储模块1和核内部存储模块2的相应的位置。通过某种一致性协议维护核外部存储模块和核内部存储模块的数据的一致性问题。现有技术中，当核1改变了自己核内部存储模块中的数据，采用“写回”的方式，只改变核内部存储模块1中的相应位置的数据，同时核外部存储模块发送无效信号至核内部存储模块2。待核内部存储模块1中该部分数据被换出时，或者待核2使用该数据时，发现失效信号后，从核外部存储模块读取新值，并写到核内部存储模块2中的相应位置。但在本实施例中，对于核内部存储模块1中的数据，核2还可以通过某种定义好的规则，如先向核1发送请求信号和相应的数据地址，核1收到请求信号后，回复有效信号和数据来完成数据交互。其中，核与核的种类可以相同，如均为神经网络核，也可以不同，如神经网络核和CPU核。这样能够在对数据进行一定的保护的同时，允许相同或不同结构核对数据存储的访问，维护了数据的一致性。同时降低了访存开销，减少了访存延时。

每个神经网络核内包含多个神经网络运算单元，因此，如图8所示，在本公开的一些实施例中，提出一种数据共享***，其中的至少两个处理模块是指三个运算单元，该三个运算单元可以直接访问核内部存储模块，也可以以一定方向直接传递相关数据，以此，有利于通过数据在运算单元之间的传递，减少对存储模块的访问次数，从而降低功耗和访问延时。不妨假定在完成神经网络运算时，运算单元1计算输出值1，其结果用out1表示，对应的神经元为n＝(n1，n2，……，nk)，突触值为w＝(w1，w2，……，wk)，那么，out1＝n1*w1+n2*w2+……+nk*wk。类似的，运算单元2的输出结果为out2，对应的神经元为m＝(m1，m2，……，mk)，突触值为w＝(w1，w2，……，wk)，那么，out2＝m1*w1+m2*w2+……+mk*wk。运算单元3的输出结果为out3，对应的神经元为q＝(q1，q2，……，qk)，突触值为w＝(w1，w2，……，wk)，那么，out3＝q1*w1+q2*w2+……+qk*wk。具体的，首先运算单元1从核内部存储模块中读取出n和w，直接进行运算，得到out1；运算单元2从核内部存储模块中读取出m，并接收从运算单元1中传来的突触值w进行相应的运算，得到out2；运算单元3从核内部存储模块中读取出q，并接收从运算单元1中传来的突触值w进行相应的运算，得到out3。从而，减少了对核内部存储模块的访存次数，降低了延迟和功耗，提升了运算速度，节省了运算能耗。

在本公开的一些实施例中，上一实施例中的数据共享***中，还可以在核内增设一层或多层存储单元，允许1个存储单元被几个运算单元共用或1个存储单元被1个运算单元私有。如图9所示，此处假定共享***包括两个存储单元，且存储单元1由运算单元1和运算单元2所共用，运算单元1和运算单元2可以直接访问存储单元1，运算单元3不能直接访问；存储单元2为运算单元3所私有，运算单元3可以直接访问，而运算单元1和运算单元2不能直接访问。这样，如果运算单元1想要访问运算单元3中的运算结果，可以直接通过运算单元3获取，无需经过存储单元1访问核内部存储模块，而后让存储单元2更新核内部存储模块后传入存储单元1，再允许运算单元1进行访问这样一个漫长的过程，从而在对数据进行有效保护作用的同时，即其他无权限的运算单元(如运算单元1)不能随意更改存储单元(如存储单元2)的同时，又可大大缩减访存次数，避免了片上存储多份相同数据对片上存储资源的浪费，从而，降低了延迟和功耗，进一步提升运算速度，节省运算能耗。

图10是本公开实施例中的信息处理装置结构示意图，该装置包括存储模块和数据处理模块；存储模块，用于接收并存储输入数据、指令和输出数据；其中，输入数据包含一个或多个关键特征，输入数据为原始输入数据，或对原始输入数据进行预处理后的数据；数据处理模块，用于对输入数据包含的关键特征进行判断，即数据处理模块计算输入数据包含的关键特征的置信度，置信度即判断结果，并根据判断结果对存储模块中的输入数据进行评分。

存储模块中存储有数据和指令，数据包括输入数据，输入神经元，权值，输出神经元，输出数据；输入数据传给人工神经网络中的各个输入神经元，从而参与后续运算；输出神经元的值即判断结果和/或评分，作为输出数据。

图11是本公开实施例中的包括运算模块的信息处理装置结构示意图，其中，数据处理模块包括运算模块，用于根据存储模块中存储的指令对存储模块中存储的数据执行相应的计算，并将运算结果输出至存储模块。

运算模块执行运算包括神经网络计算，运算模块包括但不仅限于：第一部分乘法器；第二部分一个或者多个加法器(更具体的，第二个部分的加法器组成加法树)；第三部分为激活函数单元；和/或第四部分向量处理单元。更具体的，向量处理单元可以处理向量运算和/或池化运算。第一部分将输入数据1(in1)和输入数据2(in2)相乘得到相乘之后的输出(out)，过程为：out＝in1×in2；第二部分将输入数据in1通过加法器相加得到输出数据(out)。更具体的，第二部分为加法树时，将输入数据in1通过加法树逐级相加得到输出数据(out)，其中in1是一个长度为N的向量，N大于1，过称为：out＝in1[1]+in1[2]+...+in1[N]，和/或将输入数据(in1)通过加法数累加之后和输入数据(in2)相加得到输出数据(out)，过程为：out＝in1[1]+in1[2]+...+in1[N]+in2,或者将输入数据(in1)和输入数据(in2)相加得到输出数据(out)，过称为：out＝in1+in 2；第三部分将输入数据(in)通过激活函数(active)运算得到激活输出数据(out)，过程为：out＝active(in)，激活函数active可以是sigmoid、tanh、relu、softmax等，除了做激活操作，第三部分可以实现其他的非线性函数，可将将输入数据(in)通过运算(f)得到输出数据(out)，过程为：out＝f(in)。向量处理单元将输入数据(in)通过池化运算得到池化操作之后的输出数据(out)，过程为out＝pool(in)，其中pool为池化操作，池化操作包括但不限于：平均值池化，最大值池化，中值池化，输入数据in是和输出out相关的一个池化核中的数据。以上几个部分的运算可以自由选择一个多个部分进行不同顺序的组合，从而实现各种不同功能的运算。

图12是本公开实施例中的包括指令缓存和神经网络数据缓存的信息处理装置结构示意图；如图12所示，其中，该信息处理装置的数据处理模块还包括指令缓存和神经网络数据缓存；指令缓存，用于缓存指令；神经网络数据缓存，用于缓存存储模块中的权值数据、输入神经元和输出神经元。

图13是本公开实施例中的神经网络数据缓存的结构示意图；如图13所示，神经网络数据缓存包括权值缓存、输入神经元缓存和输出神经元缓存；指令缓存，用于缓存指令；神经网络数据缓存，用于缓存所述存储模块中的权值数据、输入神经元和输出神经元。

图14是本公开实施例中的包括直接内存存取和控制单元的信息处理装置结构示意图；如图14所示，其中，该信息处理装置的数据处理模块还包括直接内存存取，起到沟通存储模块和各个缓存之间桥梁的作用，用于对存储模块中存储的数据和/或指令进行读写，将读写出的指令存储至指令缓存，将读出的权值存储至权值缓存，将读出的输入神经元，即输入数据存储至输入神经元缓存，并将接收自输出神经元缓存的输出神经元，即判断结果和/或评分存储至存储模块；指令缓存，用于存储直接内存存取缓存的指令；权值缓存，用于缓存直接内存存取缓存的权值数据；输入神经元缓存，用于缓存直接内存存取缓存的输入神经元。同样地，如图14所示，该信息处理装置的数据处理模块还包括控制单元，用于从指令缓存中读取指令，将其译码为运算模块能够执行的指令并输出至运算模块；输出神经元缓存，用于缓存运算模块输出的运算结果，即判断结果和/或评分，并输出给直接内存存取。

图15是本公开实施例中的信息处理装置的具体结构示意图；如图15所示，数据处理模块还可以包括评分单元，该单元用于：当信息处理装置中运行的人工神经网络得到判断结果，进而得到评分时，该单元不参与数据处理；当信息处理装置中运行的人工神经网络仅得到判断结果而不得到评分时，该单元用于根据判断结果得到评分。

其中，判断结果即信息处理装置中运行的人工神经网络的最终输出层的输出神经元的值，输出神经元的值即为关键特征出现的置信度，置信度为一定范围内的自然数，例如：置信度在【0,1】之间，表示关键特征出现的概率；置信度二值化{0,1}，0表示未出现关键特征，1表示出现关键特征或1表示不出现关键特征，0表示出现关键特征。置信度的表示方式不仅限于以上两种。

其中，评分为在信息处理装置中运行的人工神经网络的最终输出层后面再加一层作为新的最终输出层，该新的最终输出层的输入神经元值为各个关键特征出现的置信度；该层只有一个输出神经元，其值即为评分，该新的最终输出层运算中的权值对应各个关键特征的重要程度；或者该层有N+1个输出神经元，评分的取值范围为[0,N]，若将该层输出神经元编号为0,1,2,...,N，则第i个输出神经元的值对应评分值取i的置信度P _i，最终评分为置信度最大的评分值，即评分＝i ₀,

其中，评分还可以为：在信息处理装置中运行的人工神经网络的最终输出层得到各关键特征出现的置信度后，将其作为评分单元的输入，评分单元据此得到评分。评分单元得到评分的方法有很多种，可以是复杂的机器学***均，然后乘100得到百分制的评分。

其中，如上所述的信息处理装置为人工神经网络芯片。

图16是本公开实施例中的信息处理装置的信息处理方法流程图；具体包括：

S101：存储模块接收并存储输入数据，输入数据包含一个或多个关键特征；

S102：数据处理模块对输入数据包含的关键特征进行判断，并根据判断结果对存储模块中的输入数据进行评分，其中评分即可以由信息处理装置中运行的人工神经网络得到，也可以由数据处理模块中的评分单元得到。

图17是本公开实施例中的信息处理***结构示意图，该信息处理***包括：

信息获取装置，用于获取外部数据，并将外部数据直接或经预处理后传递给信息处理装置；外部数据包括文字、图片、音频和/或视频；其中，信息获取装置至少包括字符识别装置、图像识别装置和语音识别装置，字符识别装置用于获取外部数据中的文字信息，文字信息为一种或多种语言文字和/或符号的组合，一种或多种语言文字和/或符号的组合至少为语文、数学、物理等科目的试卷答案；图像识别装置用于获取外部数据中的图片或视频信息，图像识别装置是摄像头；所述图片为二维图和/或二维透视图，二维图和/或二维透视图至少为美术、制图等科目的试卷答案；语音识别装置用于获取外部数据中的音频信息，语音识别装置是麦克风。预处理操作能使输入数据更适于人工神经网络处理，去除输入数据中的噪声和冗余，提高分类、识别精度等。

信息处理装置，用于对接收自信息获取装置的外部数据或经预处理后的外部数据进行运算处理，并将运算结果输出给交互界面；在公开的实施例中信息处理装置采用人工神经网络芯片实现。运算结果即判断结果或评分。

其中判断结果，即信息处理装置中运行的人工神经网络的最终输出层的输出神经元的值，输出神经元的值即为关键特征出现的置信度，置信度为一定范围内的自然数，例如：置信度在【0,1】之间，表示关键特征出现的概率；置信度二值化{0,1}，0表示未出现关键特征，1表示出现关键特征或1表示不出现关键特征，0表示出现关键特征。置信度的表示方式不仅限于以上两种。评分为：在信息处理装置中运行的人工神经网络的最终输出层后面再加一层作为新的最终输出层，该新的最终输出层的输入神经元值为各个关键特征出现的置信度；该层只有一个输出神经元，其值即为评分，该新的最终输出层运算中的权值对应各个关键特征的重要程度；或者该层有N+1个输出神经元，评分的取值范围为[0,N]，若将该层输出神经元编号为0,1,2,...,N，则第i个输出神经元的值对应评分值取i的置信度P _i，最终评分为置信度最大的评分值，即评分＝i ₀,

所述评分，还可以为：在信息处理装置中运行的人工神经网络的最终输出层得到各关键特征出现的置信度后，将其作为评分单元的输入，评分单元据此得到评分。评分单元得到评分的方法有很多种，可以是复杂的机器学***均，然后乘100得到百分制的评分。

本公开的具体实施例的信息处理装置，采用人工神经网络芯片。人工神经网络芯片能够自适应性训练，芯片积累用户的数据自我学习，会逐渐适应用户的譬如笔迹，习惯书写错误，体态特征，习惯动作，不断提高准确率和提高对用户的动作/姿势调整能力。人工神经网络芯片计算能力强大，支持离线运行神经网络，在没有云端服务器协助计算的情况下用户终端/前端离线即可实现

自动评分监控的工作；当芯片联网，获得云端服务器协助计算的时候，芯片计算能力更加强大。人工神经网络芯片的使用，对手写，文字，图片动作自动评分，代替了人工，而且相对人工评分更精确，快速；对主观题评价更客观，忽略了人的喜好影响和测试者书法水平的影响。

交互界面，用于显示接收自信息处理装置的输出结果，以及将接收自外部的操作或命令传输给控制装置。其中，用户交互界面为手机，电脑，笔记本，平板电脑等的显示屏。

图18是本公开实施例中的信息处理***的信息处理方法流程图，如图所示，该信息处理方法，包括：

S201：信息获取装置获取外部数据，并将外部数据直接或经预处理后传递给信息处理装置；

S202：信息处理装置对接收自信息获取装置的外部数据或经预处理后的外部数据进行运算处理，并将运算结果输出给交互界面；

S203：交互界面，用于显示接收自信息处理装置的运算结果。

其中，信息获取装置获取外部数据，并将外部数据直接或经预处理后传递给信息处理装置，外部输入数据包括文字、图片、音频和/或视频，进行预处理，得到与信息处理装置相契合的数据，预处理包括切分、高斯滤波、二值化、正则化或归一化等；预处理能使输入数据更适于人工神经网络处理，去除输入数据中的噪声和冗余，提高分类、识别精度等。

人工神经网络芯片能够自适应性训练，芯片积累用户的数据自我学***的影响。

实施例一

本实施例的信息处理装置，用于对信息获取装置中识别字符装置获取的一组包含一个或多个关键特征的试卷进行评分，试卷中的关键特征包括关键词，通过人工神经网络芯片的运算，人工神经网络芯片的最终输出层的输出神经元输出判断结果，判断结果即试卷的关键特征出现的置信度，例如关键词出现的置信度，置信度在【0,1】之间，表示关键特征出现的概率；其中，置信度越高，该关键词出现的概率越大。置信度二值化{0,1}，0表示未出现关键特征，1表示出现关键特征，或1表示不出现关键特征，0表示出现关键特征；置信度的表示方式不仅限于以上两种。在人工神经网络芯片的最终输出层上面再加一层作为新的最终输出层，该新的最终输出层的输入神经元值为各个关键特征出现的置信度。

其中，评分可以为：在信息处理装置中运行的人工神经网络的最终输出层后面再加一层作为新的最终输出层，该新的最终输出层的输入神经元值为各个关键特征出现的置信度。该层只有一个输出神经元，其值即为评分值，该新的最终输出层运算中的权值对应各个关键特征的重要程度；或者该层有N+1个输出神经元，评分的取值范围为[0,N]，若将该层输出神经元编号为0,1,2,...,N，则第i个输出神经元的值对应评分值取i的置信度P _i，最终评分为置信度最大的评分值，即评分＝i ₀,

通过获取试卷中关键词，经人工神经网络的运算给出关键词及出现的概率，进而通过增加新的一层最终输出层或将其作为评分单元的输入给出试卷的评分。该评分显示于手机，电脑，笔记本，平板电脑等的显示屏上。用户能够通过显示屏获得试卷的评分。

请参照图12，在人工神经网络芯片中对关键词的具体处理过程为：

步骤1，信息获取装置中的字符识别装置、图像识别装置、语音识别装置获取的外部数据经预处理或直接传入人工神经网络芯片的存储模块；外部数据经预处理，能使外部数据更适于人工神经网络处理，去除输入数据中的噪声和冗余，提高分类、识别精度等。

步骤2，直接内存存取(DMA)将存储模块中的数据分批传入相应的片上缓存(即指令缓存，输入神经元缓存，权值缓存)中；人工神经网络芯片中，采用专用的片上缓存(即指令缓存、输入神经元缓存、输出神经元缓存和权值缓存)和专用的人工神经网络运算、访存指令能有效提高运算、访存效率。

步骤3，控制单元从指令缓存中读取指令，将其译码后传入运算模块；

步骤4，运算模块根据指令执行相应的运算，在神经网络的各个层中，运算模块执行运算包括但不仅限于：第一部分乘法器；第二部分一个或者多个加法器(更具体的，第二个部分的加法器组成加法树)；第三部分为激活函数单元；和/或第四部分向量处理单元。更具体的，向量处理单元可以处理向量运算和/或池化运算。第一部分将输入数据1(in1)和输入数据2(in2)相乘得到相乘之后的输出(out)，过程为：out＝in1×in2；第二部分将输入数据in1通过加法器相加得到输出数据(out)。更具体的，第二部分为加法树时，将输入数据in1通过加法树逐级相加得到输出数据(out)，其中in1是一个长度为N的向量，N大于1，过称为：out＝in1[1]+in1[2]+...+in1[N]，和/或将输入数据(in1)通过加法树累加之后和输入数据(in2)相加得到输出数据(out)，过程为：out＝in1[1]+in1[2]+...+in1[N]+in2,或者将输入数据(in1)和输入数据(in2)相加得到输出数据(out)，过称为：out＝in1+in2；第三部分将输入数据(in)通过激活函数(active)运算得到激活输出数据(out)，过程为：out＝active(in)，激活函数active可以是sigmoid、tanh、relu、softmax等，除了做激活操作，第三部分可以实现其他的非线性函数，可将输入数据(in)通过运算(f)得到输出数据(out)，过程为：out＝f(in)。向量处理单元将输入数据(in)通过池化运算得到池化操作之后的输出数据(out)，过程为out＝pool(in)，其中pool为池化操作，池化操作包括但不限于：平均值池化，最大值池化，中值池化，输入数据in是和输出out相关的一个池化核中的数据。以上几个部分的运算可以自由选择一个多个部分进行不同顺序的组合，从而实现各种不同功能的运算。

人工神经网络芯片中，运算模块采用的加法树运算能对多组权值和输入神经元并行处理，能够提高运算效率。

步骤5，重复步骤2到步骤4，直到存储模块中所有的数据运算完毕，即得到功能需求的最终结果。其中所述最终结果由神经网络最后一层的输出神经元得到，从运算模块输出到输出神经元缓存中，然后经DMA返回存储模块。

根据所述功能需求：若要求得到判断结果，则上述神经网络最后一层输出神经元的值即为关键词出现的置信度；该层只有一个输出神经元，其值即为试卷评分，该新的最终输出层运算中的权值对应各个关键特征的重要程度；或者该层有N+1个输出神经元，评分的取值范围为[0,N]，若将该层输出神经元编号为0,1,2,...,N，则第i个输出神经元的值对应评分值取i的置信度P _i，最终评分为置信度最大的评分值，即评分＝i ₀,

该最大的评分值即试卷评分。

评分还可以为：在信息处理装置中运行的人工神经网络的最终输出层得到各关键特征出现的置信度后，将其作为评分单元的输入，评分单元据此得到评分。评分单元得到评分的方法有很多种，可以是复杂的机器学***均，然后乘100得到百分制的评分。

实施例二：

本实施例的信息处理装置，用于对视频进行评分，视频即一组包含一个或多个关键特征的图片。人工神经网络芯片中的存储模块预存一个或多个关键图片；存储模块从外部获取视频，并将其传入至运算模块，通过人工神经网络芯片的运算，人工神经网络芯片的最终输出层的输出神经元输出判断结果，判断结果即各个输入图片与每个关键图片的相似度，详细来说，如果输入图片有N个，关键图片有M个，则得到NM个相似度。该实施例的相似度即置信度，置信度为一定范围内的自然数，置信度在【0,1】之间，表示关键特征出现的概率；置信度二值化{0,1}，0表示未出现关键特征，1表示出现关键特征或1表示不出现关键特征，0表示出现关键特征；置信度的表示方式不仅限于以上两种。

在人工神经网络芯片的最终输出层上面再加一层作为新的最终输出层，该新的最终输出层的输入神经元值为各个关键特征出现的置信度，置信度即输入图片与每个关键图片的相似度，如果该层只有一个输出神经元，其值即为对视频的评分，该新的最终输出层运算中的权值对应各个相似度的重要程度。或者该层有N+1个输出神经元，评分的取值范围为[0,N]，若将该层输出神经元编号为0,1,2,...,N，则第i个输出神经元的值对应评分值取i的置信度P _i，最终评分为置信度最大的评分值，即评分＝i ₀,

置信度最大的评分值即对视频的评分。

该评分显示于手机，电脑，笔记本，平板电脑等的显示屏上。用户能够通过显示屏获得对视频的评分。

其中，视频还包括音频，音频分为多段音频，多段音频与多个图片对应。芯片可以比较视频中所有图片与各个关键图片的相似度，和/或比较视频中所有音频分解得到的各个波形和关键波形的相似度，对视频进行评分。

其中，获得相似度的另一种方法为：神经网络的最终输出层的每个输出神经元对应一个输入图片，输出神经元的值即为与该输入图片最相似的关键图片与该输入图片的相似度。如果和前面的例子保持一致，则该层共N个输出神经元。

其中，得到相似度的再一种方法为：神经网络的最终输出层的每个输出神经元对应一个关键图片，输出神经元的值即为与该关键图片最相似的输入图片与该关键图片的相似度。如果和前面的例子保持一致，则该层共M个输出神经元。

请参照图12，在人工神经网络芯片中对视频数据的具体处理过程为：步骤1，信息获取装置中的字符识别装置、图像识别装置、语音识别

装置获取的外部数据经预处理或直接传入人工神经网络芯片的存储模块；装置中的预处理模块，能使输入数据更适于人工神经网络处理，去除输入数据中的噪声和冗余，提高分类、识别精度等。

步骤2，直接内存存取(DMA)将存储模块中的数据分批传入相应的片上缓存中，即指令缓存，输入神经元缓存，权值缓存中；人工神经网络芯片中，采用专用的片上缓存(即指令缓存、输入神经元缓存、输出神经元缓存和权值缓存)和专用的人工神经网络运算、访存指令能有效提高运算、访存效率。

步骤4，运算模块根据指令执行相应的运算：在神经网络的各个层中，

运算模块执行运算包括神经网络计算。

运算模块包括但不仅限于：第一部分乘法器；第二部分一个或者多个加法器(更具体的，第二个部分的加法器组成加法树)；第三部分为激活函数单元；和/或第四部分向量处理单元。更具体的，向量处理单元可以处理向量运算和/或池化运算。第一部分将输入数据1(in1)和输入数据2(in2)相乘得到相乘之后的输出(out)，过程为：out＝in1×in2；第二部分将输入数据in1通过加法器相加得到输出数据(out)。更具体的，第二部分为加法树时，将输入数据in1通过加法树逐级相加得到输出数据(out)，其中in1是一个长度为N的向量，N大于1，过称为：out＝in1[1]+in1[2]+...+in1[N]，和/或将输入数据(in1)通过加法数累加之后和输入数据(in2)相加得到输出数据(out)，过程为：out＝in1[1]+in1[2]+...+in1[N]+in2,或者将输入数据(in1)和输入数据(in2)相加得到输出数据(out)，过称为：out＝in1+in 2；第三部分将输入数据(in)通过激活函数(active)运算得到激活输出数据(out)，过程为：out＝active(in)，激活函数active可以是sigmoid、tanh、relu、softmax等，除了做激活操作，第三部分可以实现其他的非线性函数，可将将输入数据(in)通过运算(f)得到输出数据(out)，过程为：out＝f(in)。向量处理单元将输入数据(in)通过池化运算得到池化操作之后的输出数据(out)，过程为out＝pool(in)，其中pool为池化操作，池化操作包括但不限于：平均值池化，最大值池化，中值池化，输入数据in是和输出out相关的一个池化核中的数据。以上几个部分的运算可以自由选择一个多个部分进行不同顺序的组合，从而实现各种不同功能的运算。

人工神经网络芯片中，运算模块采用的加法树运算能对多组权值和输入神经元并行处理，有效提高运算效率。

步骤5，重复步骤2到步骤4，直到存储模块中所有数据运算完毕，即得到功能需求的最终结果。其中所述最终结果由神经网络最后一层的输出神经元得到，从运算模块输出到输出神经元缓存中，然后经DMA返回存储模块。

根据所述功能需求：若要求得到相似度，则上述神经网络最后一层输出神经元的值即为相似度值；若要求进行评分，在最后一层输出层上面再加一层作为新的最终输出层，该新的最终输出层的输入神经元值为相似度值；该新的最终输出层包括一个输出神经元，其值即为视频评分；该新的最终输出层运算中的权值对应各个相似度值的重要程度。或者该层有N+1个输出神经元，评分的取值范围为[0,N]，若将该层输出神经元编号为0,1,2,...,N，则第i个输出神经元的值对应评分值取i的置信度P _i，最终评分为置信度最大的评分值，即评分＝i ₀,

该最大的评分值即视频评分。

人工神经网络芯片计算能力强大，支持离线运行神经网络，在没有云端服务器协助计算的情况下用户终端/前端离线即可实现自动评分监控的工作；当芯片联网，获得云端服务器协助计算的时候，芯片计算能力更加强大。人工神经网络芯片，对视频中的图片动作自动评分，代替了人工，而且相对人工评分更精确，快速；对主观题评价更客观，忽略了人的喜好影响。本实施例的装置和方法，即时监控用户的动作/姿势，自动即时发出提醒调整用户的动作/姿势，代替了人工的教练和监护工作，并且相对人工更准确，即时。

人工神经网络芯片的自适应性训练使得芯片积累用户的数据，自我学习，会逐渐适应用户的譬如笔迹，习惯书写错误，体态特征，习惯动作，不断提高准确率和提高对用户的动作/姿势调整能力。

本公开的实施例中的所有的模块都可以是硬件结构，硬件结构的物理实现包括但不局限于物理器件，物理器件包括但不局限于晶体管，忆阻器，DNA计算机。

本公开一实施例提供了任务切分装置，图19为本公开一实施例任务切分装置的结构框图，如图19所示，任务切分装置100包括粒度任务切分单元10和任务切分粒度选择单元20。粒度任务切分单元10采用至少一种粒度对任务进行切分形成子任务，为神经网络应用提供多粒度的任务切分选择，任务切分粒度选择单元20选择任务划分采用的粒度，指导神经网络选择最合适的任务切分粒度，使得切分后的子任务能够满足***实时性。

在一实施例中，如图19所示，粒度任务切分单元10包括第一粒度任务切分单元11、第二粒度任务切分单元12、第三粒度任务切分单元13、第四粒度任务切分单元以及第五粒度任务切分单元15。

以下具体介绍该五个粒度任务切分单元假设神经网络应用需要完成M个样本计算，神经网络拓扑结构结构由N个层组成。其中M，N是大于0的正整数。

第一粒度任务切分单元11将任务整体作为一子任务，具体的，将完成M个样本计算作为一个子任务。这种任务切分方式只生成一个子任务，子任务之间不存在依赖关系。

第二粒度任务切分单元12将完成若干个样本计算作为一个子任务。神经网络被切分成为m个子任务，第i个任务完成Mi个样本的计算，其中m是大于1小于等于M的正整数，i＝1,2,3，……m，Mi是大于0小于M的正整数，且满足M1+M2+…+Mm＝M。这种任务切分方式的m个子任务之间不存在依赖关系。

第三粒度任务切分单元13可以按照神经网络的层类型对神经网络应用进行任务切分，相同类型层的计算作为一个任务。神经网络的层类型包括但不仅限于卷积层，全连接层，LSTM层，池化层，激活层，LRN层，BN层。这种任务切分方式的子任务之间存在复杂的依赖关系。

第四粒度任务切分单元14可以按照神经网络的层间结构对神经网络应用进行任务切分，相邻若干个层的计算作为一个子任务。神经网络应用被切分为n个子任务，第一个子任务完成神经网络第一层到第N1层，共计N1层计算，第二个子任务完成第N1+1层到第N1+N2层，共计N2层神经网络计算，第i个子任务完成第N1+…+Ni-1+1层到第N1+…+Ni层，共计Ni层计算。其中n是大于0小于等于N的正整数，i＝1,2,3，……n，Ni是大于0小于等于N的正整数且满足N1+N2+…+Ni+…+Nn＝N。这种任务切分方式的子任务之间存在链式的依赖关系，其中第i个子任务是第i+1个子任务的前驱任务，第i+1个任务是第i个任务的后继任务，第i+1个任务必须等待第i个任务完成才能开始执行。

第五粒度任务切分单元15可以按照神经网络的层内结构对神经网络应用进行任务切分，神经网络层内的计算可以进一步被切分为子任务。按神经网络层内的计算的切分包括但不限于对神经网络的一卷积层计算、全连接层计算、池化层计算或激活层计算进行任务切分。

对神经网络的一个卷积层计算进行任务切分，卷积层输入神经元是三维矩阵(Nfin,Nxin,Nyin),权值是四维矩阵(Nfout,Nfout,Kx,Ky),输出神经元是三维矩阵(Nfout,Nxout,Nyout),其中Nfin是输入特征图像数量，(Nxin,Nyin)是输入特征图像大小，Nfout是输出特征图像数量，(Kx,Ky)是卷积核大小，(Nxout,Nyout)是输出特征图像大小。完成一个输出神经元需要Nfin×Kx×Ky次乘加运算,输出神经元数量为Nfout×Nxout×Nyout,完成整个卷积层总共需要Nfout×Nxout×Nyout×Nfin×Kx×Ky次乘加运算。在进行任务切分时，将输出神经元按照(Bfout,Bxout,Byout)的块大小进行切分，同时对权值按照(Bfout,Bfin,Bx,By)的块大小进行切分，则每一个子任务用(Bfout,Bfin,Bx,By)权值计算Bfout×Bxout×Byout个输出神经元的中间结果，每个输出神经元中间结果进行Bfin×Bx×By次乘加运算，共需要完成Bfout×Bxout×Byout×Bfin×Bx×By次乘加运算。其中Bfout是大于0小于等于Nfout的正整数，Bxout是大于0小于等于Nxout的正整数，Byout是大于0小于等于Nyout的正整数，Bfin是大于0小于等于Nfin的正整数，Bx是大于0小于等于Kx的正整数，By是大于0小于等于Ky的正整数。这种任务切分方式的子任务之间不存在依赖关系。

对神经网络的一个全连接层计算进行任务切分，全连接层输入神经元是Nin,权值是二维矩阵(Nout,Nin),输出神经元Nout,其中Nin是输入神经元数量，Nout是输出神经元数量。完成一个输出神经元需要Nin次乘加运算,输出神经元数量为Nout,完成整个全连接层总共需要Nout×Nin次乘加运算。在进行任务切分时，将输出神经元按照Bout的块大小进行切分，同时对权值按照(Bout,Bin)的块大小进行切分，则每一个子任务用(Bout,Bin)的权值矩阵计算Bout个输出神经元的中间结果，每一个输出神经元的中间需要完成Bin 次乘加运算，共需要完成Bout×Bin次乘加运算。其中Bout是大于0小于等于Nout的正整数，Bin是大于0小于等于Nin的正整数。这种任务切分方法的子任务之间不存在依赖关系。

对神经网络的一个池化层计算进行任务切分，池化层输入神经元是Nin,输出神经元Nout，其中Nin,Nout是大于0的正整数，池化操作包括但不仅限于平均值池化，最大值池化，中值池化。在进行任务切分时，将输出神经元按照Bout的块大小进行切分，则每一个子任务完成Bout个输出神经元的计算。其中Bout是大于0小于等于Nout的正整数，Bin是大于0小于等于Nin的正整数。这种任务切分方式的子任务之间不存在依赖关系。

对神经网络的一个激活层计算进行任务切分，激励输入神经元是Nin,输出神经元Nout，其中Nin,Nout是大于0的正整数，激活函数包括但不仅限于sigmoid、tanh、relu、softmax。在进行任务切分时，将输出神经元按照Bout的块大小进行切分，则每一个子任务完成Bout个输出神经元的计算。其中Bout是大于0小于等于Nout的正整数。这种任务切分方式的子任务之间不存在依赖关系。

任务切分粒度选择单元20选择任务划分采用的粒度，并不限于仅选择上述的一种粒度，还可以是多种粒度的组合，例如一个神经网络应用可以组合第四粒度任务单元和第五粒度任务切分单元的切分方式。将神经网络应用首先按照第四粒度任务切分单元14的切分方法分为n个子任务，再将其中的p个子任务按照第五粒度任务切分单元1的切分方式进行切分。

在其他实施例中，粒度任务切分单元10可以包括第一至第五粒度任务切分单元中的至少一个，不一定包括全部第一至第五粒度任务切分单元。

在其他实施例中，粒度任务切分单元10还可以包括混合粒度任务切分单元，用于组合第一至第五粒度任务切分单元的切分方式，供任务切分粒度选择单元20选择。

本公开另一实施例提供一任务调度装置，图20为本公开一实施例任务调度装置的结构框图，如图20所示，任务调度装置300包括任务队列单元30、监测单元40以及任务调度单元50。神经网络任务调度装置300能够综合考虑任务之间的依赖关系，任务的局部性，任务切分粒度，核的运行频率及负载进行任务调度，提高服务质量，提高核的利用率，保证核之间的任务均衡，减少能耗。

任务队列单元30缓存所有未调度的神经网络任务，并且可选择性地存储每一个待调度任务的执行时间，任务依赖关系图，任务资源在核内处理分布情况，神经网络任务例如是上一实施例中切分的子任务。

监测单元40实时检测多核神经网络处理器的整体服务质量以及各核的工作状态，例如为每一个核的利用率，工作负载，工作频率，核内私有任务队列中的任务数量，任务完成时间。

任务调度单元50从未调度任务中选择待调度任务，根据待调度任务信息及所述各核工作状态，确定待调度任务和目标核之间的映射关系，将待调度任务分配到目标核中。

任务调度单元50可以每隔时间T对任务队列中未调度任务进行调度，T是大于0的实数。若未调度任务t的与其他任务存在依赖关系且前驱任务没有完成，则任务调度单元50不会调度任务t。

任务调度单元50选择从未调度任务中选择待调度任务方式可以采用如下至少一种方式：随机选择任务，选择预计执行时间最长的任务，选择预计执行时间最短的任务，选择占用资源最多的任务，选择占用资源最少的任务。

任务调度单元50可以采用以下调度方式中的至少一种将待调度任务分配调度至目标核。

第一种调度方式：统计每一个核私有任务队列中任务数量，选择私有任务队列中任务最少的核作为目标核，将待调度任务分给该目标核；

第二种调度方式：统计每一个核完成私有任务队列中所有任务的时间，选择完成任务时间最短的核作为目标核，将待调度任务分给该目标核；

第三种调度方式：统计待调度任务所需资源在所有核的分布情况，选择拥有资源数量最多的核作为目标核，将待调度任务分给该目标核；

第四种调度方式：采用启发式算法将待调度任务分配到目标核，启发式算法包括但不仅限于是遗传算法，蚁群算法，模拟退火算法。

本公开再一实施例提供一种多核处理器，例如为多核神经网络处理器，图21为本公开再一实施例多核处理器的结构框图，如图21所示，多核神经网络处理器1000包括：J个处理核，J是大于1的正整数，前述实施例中的任务切分装置100以及任务调度装置300。

任务切分装置100切分输入的神经网络应用，使得切分后的子任务能够满足***实时性，任务调度装置300进行神经网络子任务调度，能够提高服务质量，提高处理核的利用率，保证处理核之间的任务均衡，减少能耗。神经网络处理核进行神经网络运算，完成神经网络子任务，J个神经网络处理核之间的拓扑结构包括但不仅限于是一维线性，二维mesh，二维星形，三维立方等。

图22为本公开再一实施例中神经网络处理的每一个神经网络处理核的结构框图，如图22所示，神经网络处理核500包括存储单元501，控制单元502、选数单元503和运算单元504。

存储单元501，用于存储神经网络的神经元、权值以及指令；当神经网络子任务处理稀疏神经网络时，存放的权值为非零权值以及非零权值的位置信息。

指令控制单元502，用于接收神经网络专用指令，经过译码后生成控制信息控制选数单元和运算单元；

所述神经网络专用指令，包括所有专用于完成人工神经网络运算的指令。神经网络专用指令包括但不仅限于控制指令，数据传输指令，运算指令和逻辑指令。其中控制指令控制神经网络执行过程。数据传输指令完成不同存储介质之间的数据传输，数据格式包括但不仅限于矩阵，向量和标量。运算指令完成神经网络的算术运算，包括但不仅限于矩阵运算指令，向量运算指令,标量运算指令,卷积神经网络运算指令，全连接神经网络运算指令，池化神经网络运算指令，RBM神经网络运算指令，LRN神经网络运算指令，LCN神经网络运算指令，LSTM神经网络运算指令，RNN神经网络运算指令，RELU神经网络运算指令，PRELU神经网络运算指令，SIGMOID神经网络运算指令，TANH神经网络运算指令，MAXOUT神经网络运算指令。逻辑指令完成神经网络的逻辑运算，包括但不仅限于向量逻辑运算指令和标量逻辑运算指令。

其中，RBM神经网络运算指令用于实现Restricted Boltzmann Machine(RBM)神经网络运算。

其中，LRN神经网络运算指令用于实现Local Response Normalization(LRN)神经网络运算。

其中，LSTM神经网络运算指令用于实现Long Short-Term Memory(LSTM)神经网络运算。

其中，RNN神经网络运算指令用于实现Recurrent Neural Networks(RNN)神经网络运算。

其中，RELU神经网络运算指令用于实现Rectified linear unit(RELU)神经网络运算。

其中，PRELU神经网络运算指令用于实现Parametric Rectified Linear Unit(PRELU)神经网络运算。

其中，SIGMOID神经网络运算指令用于实现S型生长曲线(SIGMOID)神经网络运算

其中，TANH神经网络运算指令用于实现双曲正切函数(TANH)神经网络运算。

其中，MAXOUT神经网络运算指令用于实现(MAXOUT)神经网络运算。

更具体的，它包括Cambricon指令集。

所述Cambricon指令集的特征在于，指令集中每一条指令长度为64bit，指令由操作码和操作数组成。指令集包含四种类型的指令，分别是控制指令(control instructions),数据传输指令(data transfer instructions),运算指令(computational instructions),逻辑指令(logical instructions)。

进一步的，控制指令用于控制执行过程。控制指令包括跳转(jump)指令和条件分支(conditional branch)指令。

进一步的，数据传输指令用于完成不同存储介质之间的数据传输。数据传输指令包括加载(load)指令,存储(store)指令,搬运(move)指令。load指令用于将数据从主存加载到缓存，store指令用于将数据从缓存存储到主存，move指令用于在缓存与缓存或者缓存与寄存器或者寄存器与寄存器之间搬运数据。数据传输指令支持三种不同的数据组织方式，包括矩阵，向量和标量。

进一步的，运算指令用于完成神经网络算术运算。运算指令包括矩阵运算指令，向量运算指令和标量运算指令。

更进一步的，矩阵运算指令完成神经网络中的矩阵运算，包括矩阵乘向量(matrix multiply vector)，向量乘矩阵(vector multiply matrix)，矩阵乘标量(matrix multiply scalar)，外积(outer product)，矩阵加矩阵(matrix add matrix)，矩阵减矩阵(matrix subtract matrix)。

更进一步的，向量运算指令完成神经网络中的向量运算，包括向量基本运算(vector elementary arithmetics)，向量超越函数运算(vector transcendental functions)，内积(dot product)，向量随机生成(random vector generator)，向量中最大/最小值(maximum/minimum of a vector)。其中向量基本运算包括向量加，减，乘，除(add,subtract,multiply,divide)，向量超越函数是指那些不满足任何以多项式作系数的多项式方程的函数，包括但不仅限于指数函数，对数函数，三角函数，反三角函数。

更进一步的，标量运算指令完成神经网络中的标量运算，包括标量基本运算(scalar elementary arithmetics)和标量超越函数运算(scalar transcendental functions)。其中标量基本运算包括标量加，减，乘，除(add,subtract,multiply,divide)，标量超越函数是指那些不满足任何以多项式作系数的多项式方程的函数，包括但不仅限于指数函数，对数函数，三角函数，反三角函数。

进一步的，逻辑指令用于神经网络的逻辑运算。逻辑运算包括向量逻辑运算指令和标量逻辑运算指令。

更进一步的，向量逻辑运算指令包括向量比较(vector compare)，向量逻辑运算(vector logical operations)和向量大于合并(vector greater than merge)。其中向量比较包括但大于，小于，等于，大于等于，小于等于和不等于。向量逻辑运算包括与，或，非。

更进一步的，标量逻辑运算包括标量比较(scalar compare)，标量逻辑运算(scalar logical operations)。其中标量比较包括但大于，小于，等于，大于等于，小于等于和不等于。标量逻辑运算包括与，或，非。

选数单元503，用于接收输入神经元和非零权值位置信息，选出非零权值对应的神经元。也就是说：对于每个输出神经元数据，选数单元去除掉与该输出神经元数据没有对应的非零权值数据的输入神经元数据。

运算单元504，用于接收输入非零权值对应的神经元和对应的非零权值，完成神经网络训练运算并将输出神经元重新传输给存储部分。

具体地，运算单元504根据存储单元中存储的指令对所述数据执行相应运算。运算单元504包括但不仅限于三个部分，第一部分为乘法器，第二部分为一个或多个加法器，第三部分为激活函数单元。优选的，第二部分的一个或多个加法器组成加法树。第一部分将输入数据1(in1)和输入数据2(in2)相乘得到相乘之后的输出(out)，过程为：out＝in1×in2；第二部分将输入数据in1通过加法树逐级相加得到输出数据(out)，其中in1是一个长度为N的向量，N大于1，过称为：out＝in1[1]+in1[2]+...+in1[N]，和/或将输入数据(in1)通过加法数累加之后和输入数据(in2)相加得到输出数据(out)，过程为：out＝in1[1]+in1[2]+...+in1[N]+in2,或者将输入数据(in1)和输入数据(in2)相加得到输出数据(out)，过称为：out＝in1+in2；第三部分将输入数据(in)通过激活函数(active)运算得到激活输出数据(out)，过程为：out＝active(in)，激活函数active可以是sigmoid、tanh、relu、softmax等，除了做激活操作，第三部分可以实现其他的非线性函数，可将将输入数据(in)通过运算(f)得到输出数据(out)，过程为：out＝f(in)。

运算单元还可以包括池化单元，池化单元将输入数据(in)通过池化运算得到池化操作之后的输出数据(out)，过程为out＝pool(in)，其中pool为池化操作，池化操作包括但不限于：平均值池化，最大值池化，中值池化，输入数据in是和输出out相关的一个池化核中的数据。

所述运算单元执行运算包括但不仅限于，第一部分是将所述输入数据1和输入数据2相乘，得到相乘之后的数据；第二部分执行加法树运算，用于将输入数据1通过加法树逐级相加，或者将所述输入数据1通过和输入数据2相加得到输出数据；第三部分执行激活函数运算，对输入数据通过激活函数(active)运算得到输出数据。以上几个部分的运算可以自由组合，从而实现各种不同功能的运算。

神经网络处理核500还可包括预处理模块505，如图4所示，该模块对原始数据进行预处理，包括切分、高斯滤波、二值化、正则化、归一化等等。

神经网络处理核500还可包括指令缓存506，非零权值缓存507，非零权值位置缓存508，输入神经元缓存509，输出神经元缓存510。指令缓存506，用于存储专用指令；非零权值缓存507，用于缓存非零权值数据；非零权值位置缓存508，用于缓存非零权值位置数据并根据非零权值位置数据将输入数据中每个权值一一对应到相应的输入神经元；输入神经元缓存509，用于缓存输入神经元；输出神经元缓510，用于缓存运算单元输出的输出神经元。

非零权值位置数据表示每个输入神经元数据和每个输出神经元数据是否有对应的权值非零的权值数据。

一种情形下非零权值位置缓存一一对应的方法为采用1表示有连接，0表示无连接，每组输出神经元与所有输入神经元的连接状态组成一个0和1的字符串来表示该输出神经元的连接关系。另一种情形下非零权值位置缓存一一对应的方法为采用1表示有连接，0表示无连接，每组输入神经元与所有输出神经元的连接状态组成一个0和1的字符串来表示该输入神经元的连接关系。另一种情形下非零权值位置缓存一一对应的方法为将一组输出神经元第一个连接所在的输入神经元位置距离第一个输入神经元的距离、所述输出神经元第二组输入神经元距离上一个输入神经元的距离，所述输出神经元第三组输入神经元距离上一个输入神经元的距离，……，依次类推，直到穷举所述输出神经元的所有输入神经元，来表示所述输出神经元的连接关系。

上述的有连接关系为每个输入神经元数据和每个输出神经元数据有对应的非零的权值数据，无连接意思为每个输入神经元数据和每个输出神经元数据是否有对应的非零的权值数据。

神经网络处理核500还可包括直接数据存取单元DMA 512(direct memory access)。

DMA用于在所述存储单元、指令缓存、非零权值缓存、非零权值位置缓存，输入神经元缓存和输出神经元缓存中进行数据或者指令读写。

在一些实施例里，公开了一种芯片，其包括了上述神经网络处理器。

在一些实施例里，公开了一种芯片封装结构，其包括了上述芯片。

在一些实施例里，公开了一种板卡，其包括了上述芯片封装结构。

在一些实施例里，公开了一种电子装置，其包括了上述板卡。

电子装置包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备交通工具、家用电器、和/或医疗设备。

所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

本公开又一实施例提供一种任务切分方法，用于神经网络，选择以下五种粒度任务切分方式中的至少一个来进行任务切分。

第一粒度任务切分方式将任务整体作为一子任务，具体的，将完成M个样本计算作为一个子任务。这种任务切分方式只生成一个子任务，子任务之间不存在依赖关系。

第二粒度任务切分方式将完成若干个样本计算作为一个子任务。神经网络被切分成为m个子任务，第i个任务完成Mi个样本的计算，其中m是大于1小于等于M的正整数，i＝1,2,3，……m，Mi是大于0小于M的正整数，且满足M1+M2+…+Mm＝M。这种任务切分方式的m个子任务之间不存在依赖关系。

第三粒度任务切分方式可以按照神经网络的层类型对神经网络应用进行任务切分，相同类型层的计算作为一个任务。神经网络的层类型包括但不仅限于卷积层，全连接层，LSTM层，池化层，激活层，LRN层，BN层。这种任务切分方式的子任务之间存在复杂的依赖关系。

第四粒度任务切分方式可以按照神经网络的层间结构对神经网络应用进行任务切分，相邻若干个层的计算作为一个子任务。神经网络应用被切分为n个子任务，第一个子任务完成神经网络第一层到第N1层，共计N1层计算，第二个子任务完成第N1+1层到第N1+N2层，共计N2层神经网络计算，第i个子任务完成第N1+…+Ni-1+1层到第N1+…+Ni层，共计Ni层计算。其中n是大于0小于等于N的正整数，，i＝1,2,3，……n，Ni是大于0小于等于N的正整数且满足N1+N2+…+Ni+…+Nn＝N。这种任务切分方式的子任务之间存在链式的依赖关系，其中第i个子任务是第i+1个子任务的前驱任务，第i+1个任务是第i个任务的后继任务，第i+1个任务必须等待第i个任务完成才能开始执行。

第五粒度任务切分单元方式按照神经网络的层内结构对神经网络应用进行任务切分，神经网络层内的计算可以进一步被切分为子任务。按神经网络层内的计算的切分包括但不限于对神经网络的一卷积层计算、全连接层计算、池化层计算或激活层计算进行任务切分。

本公开进一步一实施例提供一种任务调度方法，能够综合考虑任务之间的依赖关系，任务的局部性，任务切分粒度，核的运行频率及负载进行任务调度，提高服务质量，提高核的利用率，保证核之间的任务均衡，减少能耗。该任务调度方法包括以下步骤：

缓存所有未调度的神经网络任务；

具体地，可选择性地存储每一个待调度任务的执行时间，任务依赖关系图，任务资源在核内处理分布情况，神经网络任务例如是上一实施例中切分的子任务；

实时检测多核神经网络处理器的整体服务质量以及各核的工作状态；

具体地，各核的工作状态，例如为每一个核的利用率，工作负载，工作频率，核内私有任务队列中的任务数量，任务完成时间。

从未调度任务中选择待调度任务，根据待调度任务信息及所述各核工作状态，确定待调度任务和目标核之间的映射关系，将待调度任务分配到目标核中。

任务调度可以每隔时间T对任务队列中未调度任务进行调度，T是大于0的实数。若未调度任务t的与其他任务存在依赖关系且前驱任务没有完成，则不调度任务t。

选择从未调度任务中选择待调度任务方式可以采用如下至少一种方式：随机选择任务，选择预计执行时间最长的任务，选择预计执行时间最短的任务，选择占用资源最多的任务，选择占用资源最少的任务。

将待调度任务分配调度至目标核可以采用以下调度方式中的至少一种：第一种调度方式：统计每一个核私有任务队列中任务数量，选择私有任务队列中任务最少的核作为目标核，将待调度任务分给该目标核；

前面的附图中所描绘的进程或方法可通过包括硬件(例如，电路、专用逻辑等)、固件、软件(例如，被承载在非瞬态计算机可读介质上的软件)，或两者的组合的处理逻辑来执行。虽然上文按照某些顺序操作描述了进程或方法，但是，应该理解，所描述的某些操作能以不同顺序来执行。此外，可并行地而非顺序地执行一些操作。

本公开提供了一种处理器，如图23所示，所述处理器，包括：

任务切分装置，用于根据任务切分粒度进行任务切分；以及

在一实施例中，如图24-25所示，所述硬件资源划分装置可包括分发配置模块，用于分发所述配置信息。所述配置信息可包括根据任务切分结果所确定的对硬件资源进行划分的配置信息(此时，根据任务切分结果确定相应的配置信息，根据配置信息对硬件资源进行划分)。

所述处理器还包括计算模块，该计算模块包括多个计算单元，所述硬件资源划分装置用于根据任务切分结果对所述处理器的多个计算单元进行划分，即所述多个计算单元根据所述任务切分结果分成多个计算组，以分别计算batch中不同的正向和反向通路，或运行不同的服务的请求。

在一实施例中，如图26所示，所述处理器还包括：外部存储模块，内部存储模块，以及控制模块。

外部存储模块，用于存储计算模块、内部存储模块、控制模块和分发配置模块的数据信息。以神经网络计算为例，该数据信息包括：权值数据、神经元数据(包括输入)、指令数据，配置信息等。

另外，所述外部存储模块，可提供对外部存储器的读写接口，并且可以配置相关寄存器以灵活实现对不同外部存储器的操作。

内部存储模块，用于存储供计算模块使用的数据，包括：权值、神经元(包括输入)、指令数据等。

内部存储模块，还提供和外部存储模块的读写接口，用以完成内部存储模块和外部存储模块的数据交换。

控制模块，提供和外部存储模块进行控制信号交换的接口，用以接受并解析外部控制信号，从而完成对其他模块的控制。

控制模块，还提供和计算模块的信号交换接口，用以配置和控制计算模块，从而完成不同的计算。

控制模块，还提供和硬件资源划分装置的分发配置模块的信号交换接口，用以发送配置信号到分发配置模块，从而控制分发配置所完成的功能。所述控制模块可包括存储单元，也可在其外部配置存储单元，用于存储不同的控制信息。

控制模块，还提供和任务切分装置的信号交换接口，用以控制任务切分装置进行任务切分。

分发配置模块，提供和计算模块的信号交换接口，从而分发配置信息，该配置信息用以配置计算模块中的功能和数据连接，从而支持计算模块完成batch和多服务请求。其中，所述功能主要是完成内积操作、外积操作、非线性函数操作、超越函数操作等计算功能；相应的，数据连接则是根据计算功能计算模块所需的连接状态，例如，具体将计算模块包括的多个计算单元分成多少个计算组。

其中，所述的分发配置模块可包括存储单元，也可在其外部配置存储单元，用于存储不同的配置信息。

任务切分装置，提供和计算模块的信号交换接口，从而在计算模块上进行任务进行划分。其中，任务切分装置可在计算模块的全部计算单元上对任务进行划分，也可选择性的在计算模块的部分计算单元上对任务进行划分。

所述的计算模块，包括多个计算单元(processing elements，简称PE)。

所述多个计算单元可以分成多个计算组，用以完成不同的操作。进一步的，所述多个计算单元可以是同样的计算单元，即同构模式；也可以是不同的计算单元，即异构模式。

具体的，所述的计算单元，其结构可以是完成简单运算的计算单元，如完成如标量乘法、标量加法、标量乘加等简单操作；也可以是完成向量运算的计算单元，如完成向量乘法、向量加法、向量内积等操作；也可以是混合计算单元，如用于矩阵乘法加法等操作的矩阵计算单元、用于包含向量内积计算和非线性计算的混合计算单元、包含脉冲阵列积进行卷积计算的混合计算单元。

在一实施例中，如图27所示，所述处理器，包括：外部存储模块、控制模块；还包括：权值缓存单元、输入神经元缓存单元、输出神经元缓存单元以及指令缓存单元。

其中，所述指令缓存单元，用于缓存指令；

所述权值缓存单元，用于缓存权值数据；

所述输入神经元缓存单元，用于缓存输入神经元数据；

所述输出神经元缓存单元，用于缓存计算模块输出的运算结果，并输出给外部存储模块。

进一步的，所述控制模块用于从指令缓存中读取指令，将其译码为计算模块能够执行的指令并输出至计算模块。本实施例中，其他模块及功能可与上一实施例相同，此处不再赘述。

上述实施例中，所述处理器的输入数据，包括图片、视频、音频、文字等。所述装置的输出数据包括数值数据，其结果表示含义包括但不限于分类结果、生成结果。

所述处理器的控制模块根据控制信号对计算模块、硬件资源划分装置及任务切分装置进行控制，其控制方式包括直接控制和解析控制，直接控制方式为直接将控制信号输入其他到其他模块中，而不需要经过控制模块解析；解析控制方式为控制信号需要在控制模块中完成解析，得到解析后的控制信号再输入到其他模块中用于配置和控制。

在一实施例中，如图28所示，任务切分装置包括粒度任务切分单元和任务切分粒度选择单元。粒度任务切分单元采用至少一种粒度对任务进行切分形成子任务，为神经网络应用提供多粒度的任务切分选择，任务切分粒度选择单元选择任务划分采用的粒度，指导神经网络选择最合适的任务切分粒度，使得切分后的子任务能够满足***实时性。

如图28所示，粒度任务切分单元可包括第一粒度任务切分单元、第二粒度任务切分单元、第三粒度任务切分单元、第四粒度任务切分单元以及第五粒度任务切分单元。

第一粒度任务切分单元将任务整体作为一子任务，具体的，将完成M个样本计算作为一个子任务。这种任务切分方式只生成一个子任务，子任务之间不存在依赖关系。

第二粒度任务切分单元将完成若干个样本计算作为一个子任务。神经网络被切分成为m个子任务，第i个任务完成Mi个样本的计算，其中m是大于1小于等于M的正整数，i＝1,2,3,……m，Mi是大于0小于M的正整数，且满足M1+M2+…+Mm＝M。这种任务切分方式的m个子任务之间不存在依赖关系。

第三粒度任务切分单元可以按照神经网络的层类型对神经网络应用进行任务切分，相同类型层的计算作为一个任务。神经网络的层类型包括但不仅限于卷积层，全连接层，LSTM层，池化层，激活层，LRN层，BN层。这种任务切分方式的子任务之间存在复杂的依赖关系。

第四粒度任务切分单元可以按照神经网络的层间结构对神经网络应用进行任务切分，相邻若干个层的计算作为一个子任务。神经网络应用被切分为n个子任务，第一个子任务完成神经网络第一层到第N1层，共计N1层计算，第二个子任务完成第N1+1层到第N1+N2层，共计N2层神经网络计算，第i个子任务完成第N1+…+Ni-1+1层到第N1+…+Ni层，共计Ni层计算。其中n是大于0小于等于N的正整数， i＝1,2,3,……n，Ni是大于0小于等于N的正整数且满足N1+N2+…+Ni+…+Nn＝N。这种任务切分方式的子任务之间存在链式的依赖关系，其中第i个子任务是第i+1个子任务的前驱任务，第i+1个任务是第i个任务的后继任务，第i+1个任务必须等待第i个任务完成才能开始执行。

第五粒度任务切分单元可以按照神经网络的层内结构对神经网络应用进行任务切分，神经网络层内的计算可以进一步被切分为子任务。按神经网络层内的计算的切分包括但不限于对神经网络的一卷积层计算、全连接层计算、池化层计算或激活层计算进行任务切分。

上述提及的各任务切分功能可以采用独立的硬件单元分别来实现，例如采用第一粒度任务切分单元、第二粒度任务切分单元、第三粒度任务切分单元、第四粒度任务切分单元和第五粒度任务切分单元分别实现上述各功能，也可以采用同一个硬件单元实现上述这些功能。

对神经网络的一个卷积层计算进行任务切分，卷积层输入神经元是三维矩阵(Nfin,Nxin,Nyin)，权值是四维矩阵(Nfout,Nfout,Kx,Ky)，输出神经元是三维矩阵(Nfout,Nxout,Nyout)，其中Nfin是输入特征图像数量，(Nxin,Nyin)是输入特征图像大小，Nfout是输出特征图像数量，(Kx,Ky)是卷积核大小，(Nxout,Nyout)是输出特征图像大小。完成一个输出神经元需要Nfin×Kx×Ky次乘加运算，输出神经元数量为Nfout×Nxout×Nyout，完成整个卷积层总共需要Nfout×Nxout×Nyout×Nfin×Kx×Ky次乘加运算。在进行任务切分时，将输出神经元按照(Bfout,Bxout,Byout)的块大小进行切分，同时对权值按照(Bfout,Bfin,Bx,By)的块大小进行切分，则每一个子任务用(Bfout,Bfin,Bx,By)权值计算Bfout×Bxout×Byout个输出神经元的中间结果，每个输出神经元中间结果进行Bfin×Bx×By次乘加运算，共需要完成Bfout×Bxout×Byout×Bfin×Bx×By次乘加运算。其中Bfout是大于0小于等于Nfout的正整数，Bxout是大于0小于等于Nxout的正整数，Byout是大于0小于等于Nyout的正整数，Bfin是大于0小于等于Nfin的正整数，Bx是大于0小于等于Kx的正整数，By是大于0小于等于Ky的正整数。这种任务切分方式的子任务之间不存在依赖关系。

对神经网络的一个全连接层计算进行任务切分，全连接层输入神经元是Nin，权值是二维矩阵(Nout,Nin)，输出神经元Nout，其中Nin是输入神经元数量，Nout是输出神经元数量。完成一个输出神经元需要Nin次乘加运算，输出神经元数量为Nout，完成整个全连接层总共需要Nout×Nin次乘加运算。在进行任务切分时，将输出神经元按照Bout的块大小进行切分，同时对权值按照(Bout,Bin)的块大小进行切分，则每一个子任务用(Bout,Bin)的权值矩阵计算Bout个输出神经元的中间结果，每一个输出神经元的中间需要完成Bin次乘加运算，共需要完成Bout×Bin次乘加运算。其中Bout是大于0小于等于Nout的正整数，Bin是大于0小于等于Nin的正整数。这种任务切分方法的子任务之间不存在依赖关系。

对神经网络的一个池化层计算进行任务切分，池化层输入神经元是Nin，输出神经元Nout，其中Nin,Nout是大于0的正整数，池化操作包括但不仅限于平均值池化，最大值池化，中值池化。在进行任务切分时，将输出神经元按照Bout的块大小进行切分，则每一个子任务完成Bout个输出神经元的计算。其中Bout是大于0小于等于Nout的正整数，Bin是大于0小于等于Nin的正整数。这种任务切分方式的子任务之间不存在依赖关系。

对神经网络的一个激活层计算进行任务切分，激励输入神经元是Nin，输出神经元Nout，其中Nin,Nout是大于0的正整数，激活函数包括但不仅限于sigmoid、tanh、relu、softmax。在进行任务切分时，将输出神经元按照Bout的块大小进行切分，则每一个子任务完成Bout个输出神经元的计算。其中Bout是大于0小于等于Nout的正整数。这种任务切分方式的子任务之间不存在依赖关系。

任务切分粒度选择单元选择任务划分采用的粒度，并不限于仅选择上述的一种粒度，还可以是多种粒度的组合，例如一个神经网络应用可以组合第四粒度任务单元和第五粒度任务切分单元的切分方式。将神经网络应用首先按照第四粒度任务切分单元的切分方法分为n个子任务，再将其中的p个子任务按照第五粒度任务切分单元的切分方式进行切分。

在其他实施例中，粒度任务切分单元可以包括第一至第五粒度任务切分单元中的至少一个，不一定包括全部第一至第五粒度任务切分单元。

在其他实施例中，粒度任务切分单元还可以包括混合粒度任务切分单元，用于组合第一至第五粒度任务切分单元的切分方式，供任务切分粒度选择单元选择。

在一实施例中，所述处理器可以为多核处理器，其还包括任务调度装置，如图29所示，任务调度装置包括任务队列单元、监测单元以及任务调度单元。神经网络任务调度装置能够综合考虑任务之间的依赖关系，任务的局部性，任务切分粒度，核的运行频率及负载进行任务调度，提高服务质量，提高核的利用率，保证核之间的任务均衡，减少能耗。

其中，任务队列单元缓存所有未调度的神经网络任务，并且可选择性地存储每一个待调度任务的执行时间，任务依赖关系图，任务资源在核内处理分布情况，神经网络任务例如是上一实施例中切分的子任务。

监测单元实时检测多核神经网络处理器的整体服务质量以及各核的工作状态，例如为每一个核的利用率，工作负载，工作频率，核内私有任务队列中的任务数量，任务完成时间。

任务调度单元从未调度任务中选择待调度任务，根据待调度任务信息及所述各核工作状态，确定待调度任务和目标核之间的映射关系，将待调度任务分配到目标核中。

任务调度单元可以每隔时间T对任务队列中未调度任务进行调度，T是大于0的实数。若未调度任务t的与其他任务存在依赖关系且前驱任务没有完成，则任务调度单元不会调度任务t。

任务调度单元选择从未调度任务中选择待调度任务方式可以采用如下至少一种方式：随机选择任务，选择预计执行时间最长的任务，选择预计执行时间最短的任务，选择占用资源最多的任务，选择占用资源最少的任务。

任务调度单元可以采用以下调度方式中的至少一种将待调度任务分配调度至目标核。

在一实施例中，所述处理器为一种多核处理器，例如为多核神经网络处理器，如图30所示，多核神经网络处理器包括：J个处理核，J是大于1的正整数，前述实施例中的任务切分装置以及任务调度装置。

任务切分装置切分输入的神经网络应用，使得切分后的子任务能够满足***实时性，任务调度装置进行神经网络子任务调度，能够提高服务质量，提高处理核的利用率，保证处理核之间的任务均衡，减少能耗。神经网络处理核进行神经网络运算，完成神经网络子任务，J个神经网络处理核之间的拓扑结构包括但不仅限于是一维线性，二维mesh，二维星形，三维立方等。

在一实施例中，如图31所示，神经网络处理核包括存储单元，控制单元、选数单元和运算单元。

存储单元，用于存储神经网络的神经元、权值以及指令；当神经网络子任务处理稀疏神经网络时，存放的权值为非零权值以及非零权值的位置信息。

指令控制单元，用于接收神经网络专用指令，经过译码后生成控制信息控制选数单元和运算单元；

所述神经网络专用指令，包括所有专用于完成人工神经网络运算的指令。神经网络专用指令包括但不仅限于控制指令，数据传输指令，运算指令和逻辑指令。其中控制指令控制神经网络执行过程。数据传输指令完成不同存储介质之间的数据传输，数据格式包括但不仅限于矩阵，向量和标量。运算指令完成神经网络的算术运算，包括但不仅限于矩阵运算指令，向量运算指令，标量运算指令，卷积神经网络运算指令，全连接神经网络运算指令，池化神经网络运算指令，RBM神经网络运算指令，LRN神经网络运算指令，LCN神经网络运算指令，LSTM神经网络运算指令，RNN神经网络运算指令，RELU神经网络运算指令，PRELU神经网络运算指令，SIGMOID神经网络运算指令，TANH神经网络运算指令，MAXOUT神经网络运算指令。逻辑指令完成神经网络的逻辑运算，包括但不仅限于向量逻辑运算指令和标量逻辑运算指令。

更具体的，它包括Cambricon指令集。

所述Cambricon指令集中每一条指令长度为64bit，指令由操作码和操作数组成。指令集包含四种类型的指令，分别是控制指令(control instructions)，数据传输指令(data transfer instructions)，运算指令(computational instructions)，逻辑指令(logical instructions)。

进一步的，数据传输指令用于完成不同存储介质之间的数据传输。数据传输指令包括加载(load)指令，存储(store)指令，搬运(move)指令。load指令用于将数据从主存加载到缓存，store指令用于将数据从缓存存储到主存，move指令用于在缓存与缓存或者缓存与寄存器或者寄存器与寄存器之间搬运数据。数据传输指令支持三种不同的数据组织方式，包括矩阵，向量和标量。

选数单元，用于接收输入神经元和非零权值位置信息，选出非零权值对应的神经元。也就是说：对于每个输出神经元数据，选数单元去除掉与该输出神经元数据没有对应的非零权值数据的输入神经元数据。

运算单元，用于接收输入非零权值对应的神经元和对应的非零权值，完成神经网络训练运算并将输出神经元重新传输给存储部分。

具体地，运算单元根据存储单元中存储的指令对所述数据执行相应运算。运算单元包括但不仅限于三个部分，第一部分为乘法器，第二部分为一个或多个加法器，第三部分为激活函数单元。优选的，第二部分的一个或多个加法器组成加法树。第一部分将输入数据1(in1)和输入数据2(in2)相乘得到相乘之后的输出(out)，过程为：out＝in1×in2；第二部分将输入数据in1通过加法树逐级相加得到输出数据(out)，其中in1是一个长度为N的向量，N大于1，过称为：out＝in1[1]+in1[2]+...+in1[N]，和/或将输入数据(in1)通过加法数累加之后和输入数据(in2)相加得到输出数据(out)，过程为：out＝in1[1]+in1[2]+...+in1[N]+in2，或者将输入数据(in1)和输入数据(in2)相加得到输出数据(out)，过称为：out＝in1+in2；第三部分将输入数据(in)通过激活函数(active)运算得到激活输出数据(out)，过程为：out＝active(in)，激活函数active可以是sigmoid、tanh、relu、softmax等，除了做激活操作，第三部分可以实现其他的非线性函数，可将将输入数据(in)通过运算(f)得到输出数据(out)，过程为：out＝f(in)。

神经网络处理核还可包括预处理模块，如图31所示，该模块对原始数据进行预处理，包括切分、高斯滤波、二值化、正则化、归一化等等。

神经网络处理核还可包括指令缓存，非零权值缓存，非零权值位置缓存，输入神经元缓存，输出神经元缓存。指令缓存，用于存储专用指令；非零权值缓存，用于缓存非零权值数据；非零权值位置缓存，用于缓存非零权值位置数据并根据非零权值位置数据将输入数据中每个权值一一对应到相应的输入神经元；输入神经元缓存，用于缓存输入神经元；输出神经元缓，用于缓存运算单元输出的输出神经元。

神经网络处理核还可包括直接数据存取单元DMA(direct memory access)。

在一实施例中，本公开还提供了一种组合处理装置，如图32所示，所述组合处理装置包括所述的处理器，通用互联接口和其他处理装置进行交互，共同完成用户指定的计算操作。

所述其他处理装置，包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为神经网络运算装置与外部数据和控制的接口，包括数据搬运，完成对本神经网络运算装置的开启、停止等基本控制；其他处理装置也可以和神经网络运算装置协作共同完成运算任务。

通用互联接口，用于在所述神经网络运算装置与其他处理装置间传输数据和控制指令。该神经网络运算装置从其他处理装置中获取所需的输入数据，写入神经网络运算装置片上的存储装置；可以从其他处理装置中获取控制指令，写入神经网络运算装置片上的控制缓存；也可以读取神经网络运算装置的存储模块中的数据并传输给其他处理装置。

该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上***，有效降低控制部分的核心面积，提高处理速度，降低整体功耗。此情况时，该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口。

在一实施例中，本公开还提供了一种处理方法，如图33所示，所述处理方法包括：

S1、任务切分装置根据任务切分粒度进行任务切分；以及

S2、硬件资源划分装置根据任务切分结果对处理器的硬件资源进行划分。

在一实施例中，在所述硬件资源划分装置根据任务切分结果对处理器的硬件资源进行划分的步骤中：

输入数据和控制信号序列被存储至外部存储模块以供使用；

数据和控制信号被载入至内部存储器；

控制模块解析控制信号，分发配置模块解析分发配置信号；例如，在执行过程中，由任务切分结果确定相应的配置信息之后，控制模块解析的控制信号包括指令及配置信息(配置信息也可以指令的方式给出)，若控制模块确定是配置信息，则将配置信息发送给分发配置模块，由分发配置模块进一步将配置信息发送给计算模块；处理器根据不同的信号含义调度各个模块完成相应的操作；例如，在执行多batch操作时，调度分发配置模块分发配置信息，调度计算模块分组并进行计算，调度存储模块发送或接收数据等。另外，配置信息除了由外部存储模块经由控制模块发送至分发配置模块之外，也可以在控制模块的控制下由外部存储模块直接发送至分发配置模块；

相应的计算结果从计算模块输出至内部存储模块，再传输至外部存储模块，以供后续或其他使用。

采用本公开处理器，在执行batch计算神经网络时，包括训练过程和测试过程，可以并行执行batch中的每个正向通路，其中并行执行的每个正向通路计算是独立的(特别的，权值可以共享也可以不共享)，此时装置根据配置将计算单元划分成N个独立的计算组以独立计算batch中不同的正向通路。如若是测试过程，则该装置可以离线计算最优配置并配置完成，其中所述最优配置可以是计算组的个数配置，例如针对一具体的计算场景，将计算模块中的多个计算单元分成多少个计算组可达到最优的计算效果；也可在执行过程中动态调整配置以达到最优的过程，其中，所述动态调整配置例如可以是在执行卷积层的时，配置成多个独立的计算组分别计算不同的输出图像，而在计算全连接层时，配置成1个计算组，也即全部的计算单元用来计算同样的层。另外，在训练过程中，相较于测试过程，需要反向计算梯度并更新网络中的权值，此时可以将装置划分成多个组完成batch中不同输入样本对应的梯度，在线将装置配置成一个组从而快速的进行权值的更新计算(特别的，也可以在线配置成一个组完成batch中对应不同的输入样本的对应的梯度计算)。

采用本公开处理器，在执行多服务计算过程中，包括训练过程和测试过程，不同服务所需要的输入和权值可能是不同的，也可能是相同的。此时装置需要配置成不同的独立的组以运行不同的服务所对应的请求。这里由于不同服务所对应的计算负载可能截然不同，对应所需要的计算资源需求也不相同。装置在运行过程中对于计算单元的分组动态的进行调整，以满足多服务中对于服务质量的要求。

在一实施例中，如图34所示，所述处理器的计算模块中，PE按照一维阵列组织，多个PE可以配置成为不同的组，不同的组可以用来计算不同的输入。

下面以卷积神经网络中卷积层正向计算为例，详细说明本实施例处理器和相应PE配置如何计算卷积神经网络的batch。

1)神经网络的不同输入通过外部存储经内部存储模块输入到不同的计算组，而权值则通过外部存储经内部存储模块广播至不同的组，也即不同的组采用同样的权值数据。

2)不同的组开始计算属于各自的样本，直到该组的样本的正向过程完成。

3)不同的组将其计算结果写回内部存储，该结果或被写回外部存储，或被暂存在内部存储以便后续计算。

4)处理器载入新的一批输入，分配至不同的组继续进行计算。

在一实施例中，如图35所示，所述PE按照二维阵列组织，多个相邻的PE可以配置成不同的组，不同的组可以用来计算不同的输入。

在一实施例中，如图36所示，所述PE按照二维阵列组织，多个相邻的PE可以配置成不同的组，不同的组可以用来计算不同的输入。

其中，所述计算单元执行运算包括神经网络计算。

具体的，所述计算模块包括：乘法器，用于将输入其中的数据相乘得到相乘之后的输出；和/或一个或多个加法器，用于将输入其中的数据相加得到输出数据。其中，所述多个加法器可构成加法树，用于进行加法树运算，即将输入其中的数据逐级相加得到输出数据。

更具体而言，计算模块包括但不仅限于：第一部分乘法器，第二部分加法树，第三部分为激活函数单元，和/或第四部分池化单元。第一部分将输入数据1(in1)和输入数据2(in2)相乘得到相乘之后的输出(out)，过程为：out＝in1*in2；第二部分将输入数据in1通过加法树逐级相加得到输出数据(out)，其中in1是一个长度为N的向量，N大于1，过称为：out＝in1[1]+in1[2]+...+in1[N]，和/或将输入数据(in1)通过加法数累加之后和输入数据(in2)相加得到输出数据(out)，过程为：out＝in1[1]+in1[2]+...+in1[N]+in2，或者将输入数据(in1)和输入数据(in2)相加得到输出数据(out)，过称为：out＝in1+in2；第三部分将输入数据(in)通过激活函数(active)运算得到激活输出数据(out)，过程为：out＝active(in)，激活函数active可以是sigmoid、tanh、relu、softmax等，除了做激活操作，第三部分可以实现其他的非线性函数，可将输入数据(in)通过运算(f)得到输出数据(out)，过程为：out＝f(in)。池化单元将输入数据(in)通过池化运算得到池化操作之后的输出数据(out)，过程为out＝pool(in)，其中pool为池化操作，池化操作包括但不限于：平均值池化，最大值池化，中值池化，输入数据in是和输出out相关的一个池化核中的数据。

相应的，所述计算模块执行运算包括第一部分是将所述输入数据1和输入数据2相乘，得到相乘之后的数据；和/或第二部分执行加法树运算，用于将输入数据1通过加法树逐级相加，或者将所述输入数据1通过和输入数据2相加得到输出数据；和/或第三部分执行激活函数运算，对输入数据通过激活函数(active)运算得到输出数据；和/或第四部分执行池化运算，out＝pool(in)，其中pool为池化操作，池化操作包括但不限于：平均值池化，最大值池化，中值池化，输入数据in是和输出out相关的一个池化核中的数据。以上几个部分的运算可以自由选择一个多个部分进行不同顺序的组合，从而实现各种不同功能的运算。

以上几个部分的运算元件可以自由选择一个多个部分进行不同顺序的组合，从而实现各种不同功能的运算。

在一实施例中，所述处理方法用于神经网络，所述任务切分装置根据任务切分粒度在划分后的各硬件资源上进行任务切分的步骤中，选择以下五种粒度任务切分方式中的至少一个来进行任务切分。

第二粒度任务切分方式将完成若干个样本计算作为一个子任务。神经网络被切分成为m个子任务，第i个任务完成Mi个样本的计算，其中m是大于1小于等于M的正整数，i＝1,2,3,……m，Mi是大于0小于M的正整数，且满足M1+M2+…+Mm＝M。这种任务切分方式的m个子任务之间不存在依赖关系。

第四粒度任务切分方式可以按照神经网络的层间结构对神经网络应用进行任务切分，相邻若干个层的计算作为一个子任务。神经网络应用被切分为n个子任务，第一个子任务完成神经网络第一层到第N1层，共计N1层计算，第二个子任务完成第N1+1层到第N1+N2层，共计N2层神经网络计算，第i个子任务完成第N1+…+Ni-1+1层到第N1+…+Ni层，共计Ni层计算。其中n是大于0小于等于N的正整数，i＝1,2,3,……n，Ni是大于0小于等于N的正整数且满足N1+N2+…+Ni+…+Nn＝N。这种任务切分方式的子任务之间存在链式的依赖关系，其中第i个子任务是第i+1个子任务的前驱任务，第i+1个任务是第i个任务的后继任务，第i+1个任务必须等待第i个任务完成才能开始执行。

在一实施例中，为了综合考虑任务之间的依赖关系，任务的局部性，任务切分粒度，核的运行频率及负载进行任务调度，提高服务质量，提高核的利用率，保证核之间的任务均衡，减少能耗，所述处理方法还包括：在任务切分之后，对任务进行分配调度。具体而言，任务调度方法包括：

缓存所有未调度的神经网络任务；

具体的，各核的工作状态，例如为每一个核的利用率，工作负载，工作频率，核内私有任务队列中的任务数量，任务完成时间。

另外，在一些实施例中，分发配置模块的信号输入也可直接有外部信号输入，采用直接控制或解析控制的方式。

在一些实施例中，PE组织可以为三维组织，甚至于多维组织。

在一些实施例中，PE的分组也可以按照列来组织，不同的分组方式也可以在运行过程中进行切换。

在一些实施例中，多个分组后的PE也可以执行同一个输入对应的不同运算操作。

在一些实施例中，计算单元可以是任意的计算元件，从简单的计算元件到完成复杂功能的计算元件。

本领域技术人员应当理解的是，本公开处理器及处理方法除了进行神经网络计算之外，还可进行图像处理、视频处理计算等；且神经网络也不限于卷积神经网络，还可以是全连接神经网络、RBM神经网络、及循环神经网络(RNN,Recurrent Neural Networks)等；且不限于卷积层，还可以是全连接层、pooling层等。

在一些实施例中，还提供了一种芯片，其包括了上述神经网络运算装置或组合处理装置。

在一些实施例中，还提供了一种芯片封装结构，其包括了上述芯片。

在一些实施例中，还提供了一种板卡，其包括了上述芯片封装结构。

在一些实施例中，还提供了一种电子设备，其包括了上述板卡。

电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

参见图37所示，本公开实施例一方面提供一种信息处理装置，包括：存储模块，用于获取信息数据，所述信息数据包括至少一个关键特征，所述存储模块预存所述关键特征对应的真实置信度；运算电路，根据所述信息数据，确定所述关键特征对应的预测置信度，并判断所述关键特征的预测置信度是否超过关键特征对应的真实置信度预设阈值范围；以及控制电路，当所述预测置信度超过真实置信度预设阈值范围，控制所述存储模块修改关键特征，或向外部发出修改信号。通过上述信息处理装置，可以对信息数据自动批改修正，代替了人工，而且相对人工评分更精确，快速。

以上已经按照类型描述了信息数据的种类，下面将介绍其功能分类，具体的可以涉及学生的作业或试卷，或者运动项目的动作或表情数据，或者益智类项目操作方式或步骤。例如作业或试卷，可以是电子文本、手写文字和/或图形，所述手写文字和/或图形包括手写的一种或多种语言文字和/或符号的组合，手写的二维图，手写的二维透视图。更进一步的，所述的手写的一种或多种语言文字和/或符号的组合为语文，数学，物理等科目的试卷手写答案。更进一步的，所述的手写的二维图和/或二维透视图为美术，制图等科目的试卷手写答案。例如动作或表情，可以是摄录的图片和/或视频；例如益智类项目操作方式或步骤，可以是体现操作方式或步骤的电子数据、图片或视频。通过对上述种类的信息数据进行及时自动化修改，可以提高教练或教师的效率，使学员及时准确的对错误进行调整。

本公开中，存储模块可以用于存储数据和指令，其中所述数据可以包括信输入神经元(例如经预处理后的数据)，输出神经元(例如对应所述关键特征的预测置信度)，权值，在神经网络运算和输出过程中的损失函数、梯度和评分，以及错误模式判断结果。

本公开中，运算电路可以用于根据所述存储模块中存储的指令对所述数据执行相应的运算；所述运算电路可以执行三步运算，第一步是将输入神经元和权值数据相乘；第二步执行加法树运算，用于将第一步的结果通过加法树逐级相加，得到加权和，根据需要可以对加权和加偏置或不做处理；第三步对第二步得到的结果执行激活函数运算，得到输出神经元。该输出神经元的值为该关键特征的预测置信度。所述激活函数可以是sigmoid函数、tanh函数、ReLU函数或softmax函数等。

本公开实施例中，预测置信度可为任意自然数——例如置信度的值越大，包含该关键特征的可信度越高。置信度还可以归范化为一定范围内的自然数——例如置信度在【0,1】之间，置信度表示包含该关键特征的置信概率。

在一些实施例中，存储模块可以包括直接内存存取DMA，所述直接内存存取DMA与所述运算电路电性连接，用于存储所述运算电路运算确定的预测置信度，并将所述真实置信度和预测置信度送入所述运算电路以进行比较。

如图38所示，所述存储模块还包括存储单元，存储单元用于从信息处理装置外部获取信息数据，并传入直接存储存取DMA，供运算电路调用。

在一些实施例中，如图38所示，存储模块还用于存储神经网络专用指令，信息处理装置还包括：指令缓存，用于从所述存储模块缓存专用指令，供控制电路调用。

在一些实施例中，存储模块还用于存储神经网络中的输入神经元、输出神经元和权值，信息处理装置还包括：输入神经元缓存，用于从所述存储模块缓存神经元，供运算电路调用；权值缓存，用于从所述存储模块缓存权值，供运算电路调用；输入神经元缓存，用于存储从所述运算电路运算获得的输出神经元。

在一些实施例中，运算电路还用于根据各关键特征的判断结果对所述信息数据进行评分。该评分过程可以是对各关键特征对应的输出神经元进行加权后综合评分。

在一些实施例中，所述运算电路中，根据所述信息数据，确定所述关键特征对应的预测置信度包括：以所述信数据作为神经网络的输入，进行神经网络运算，所述预测置信度作为神经网络的输出。

参见图39所示，在一些实施例中，信息处理装置还包括预处理模块，用于对外部的原始信息数据进行预处理后传入所述存储模块。通过设置预处理模块，一方面能使输入数据更适于人工神经网络处理，去除输入数据中的噪声和冗余，提高分类、识别精度等等，另一方面减少后续存储模块中的空间占用。优选的，所述预处理包括对原始信息数据切分、高斯滤波、二值化、正则化和/或归一化，以获得神经网络输入数据格式的数据；优选的，神经网络输入数据格式包括但不限于：图像的大小、色彩模式、平均亮度和/或数据规模。

在一些实施例中，所述运算电路还用于对所述神经网络进行自适应性训练。可以通过计算出的预测置信度和已知的真实置信度对比，自适应地更新网络中的参数(如权值、偏置等等)，进而提高装置的识别、预测精度。优选的，上述自适应性训练过程是离线处理的。

在一些实施例中，本公开的信息处理装置可以是集成其所包含的各单元、模块和电路的集成芯片，优选的为可以实现神经网络运算的人工神经网络芯片。

参见图40所示，根据本公开的再一方面，提供一种信息处理设备，包括：信息获取装置，用于获取外部的信息数据；以上实施例所述的信息处理装置，用于处理所述信息数据，获得关键特征的预测置信度，且当所述预测置信度超过真实置信度预设阈值时，修改所述关键特征，或发出修改信号。

参见图40所示，根据本公开的又一方面，提供一种信息处理设备，包括：信息获取装置，用于获取外部的信息数据；以上实施例所述的信息处理装置，用于处理所述信息数据，获得关键特征的预测置信度，且当所述预测置信度超过真实置信度预设阈值时，修改所述关键特征，或发出修改信号；交互界面，接收修改的关键特征或者修改信号，向用户示出修改内容。

上述信息处理设备的实施例中，上述信息获取装置可以为仅具有摄像功能的相机、摄影机、扫面仪等。也可以是信息获取装置与交互界面装配为一体的终端性设备(例如手机、电脑或者可穿戴设备)。

本实施例中，交互界面可以包括显示屏、触摸式显示屏和/或数据输出接口。交互界面可以接收信息获取装置的数据(例如包含修改后关键特征)，或者接收信息获取装置的原始信息数据以及修改信号，在控制器的控制下对原始信息数据(例如图片)进行修改(包括但不限于涂鸦、添加修改标记、添加视频、添加局部图片、添加文字、添加语音)，并通过可视听方式显示。

在一些实施例中，交互装置还可以包括预处理装置，用于对信息获取装置获取的信息数据进行预处理后送入信息处理装置。该处的预处理装置所实现功能与上述的预处理模块类此，可以参照上述实施例，在此不予赘述。

在一些实施例中，信息处理设备还包括控制器，用于控制所述信息获取装置、信息处理装置和/或交互界面。具体的，可以控制信息获取装置从外部获取原始的信息数据，控制信息处理装置接收信息数据后进行处理，以及进行判断、改写或者发出改写信号操作，控制交互界面显示改写内容等。

在一些实施例中，交互界面还用于响应用户的操作或命令，对设定阈值进行修改。例如，当用户对特定关键特征(例如具体的某段文字、某段语音或某段视频)的预定置信度对应的阈值进行调整时，可以通过触摸屏、鼠标、语音命令或者键盘等方式进行该信息获取设备的操作。

如图41所示，本公开实施例的另一方面，还提供一种信息处理方法，包括：

S301：通过存储模块获取信息数据，所述信息数据包括至少一个关键特征，所述存储模块预存所述关键特征对应的真实置信度；

S302：运算电路根据所述信息数据，确定所述关键特征对应的预测置信度，并判断所述关键特征的预测置信度是否超过关键特征对应的真实置信度设定阈值范围；

S303：当所述预测置信度超过真实置信度阈值范围，控制电路控制存储模块修改所述关键特征，或发出修改信号。

该处理方法可对应于上述处理装置的执行步骤，具体执行方式可参照上述步骤的描述，在此不予赘述。

为进一步说明本公开，以下例举具体的实施例进行详细阐述。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。在其他情况下，公知的结构和装置以图示的方式体现以简化附图。应当理解，以下的详细说明不对本公开构成限制，相反，它们提供本领域内技术人员理解由所附权利要求书的范围描述的实施例涵盖的替代形式、等效物、和修正例的基础。

其中，实施例三对应于对信息数据为图片的处理装置，实施例四对应于信息数据为音频和/或视频的处理装置，实施例五对应于一种信息处理设备。

实施例三：

本实施例中信息处理装置的存储单元接收信息数据，信息数据可包括但不仅限于一组包含一个或多个关键特征的图片；装置计算出信息数据包含各个关键特征的置信度，给出一个判断结果；装置根据判断结果，对存储单元中的信息数据进行评分。其中信息数据可以是原始信息数据，也可以是对原始数据进行预处理后得到的结果。

这里的信息处理装置可以进行自适应性训练，例如：该装置输入一组包含一个或多个关键特征的图片，如包括手写文字的图片，组成视频的图片等等。每个关键特征对应一个置信度，置信度为一个自然数。对用于自适应训练的输入图片来说，其包含各个关键特征的置信度都是已知的，即真实置信度；装置以这些图片作为信息数据，计算出含有各个关键特征的置信度，即预测置信度。计算出的预测置信度和已知的真实置信度对比，自适应地更新网络中的参数(如权值、偏置等等)，进而提高装置的识别、预测精度。

其中，置信度可为任意自然数——例如置信度的值越大，包含该关键特征的可信度越高。置信度还可以归范化为一定范围内的自然数——例如置信度在【0,1】之间，置信度表示包含该关键特征的置信概率。

训练集的真实置信度取值二选一——例如{0,1}，0表示输入图片不包含该关键特征，为1表示包含该特征；当然也可以反过来，1表示不包含，0表示包含。

其中，上述自适应性训练过程可以是离线处理的。这里的信息处理装置可以为人工神经网络芯片，包括：存储单元，用于存储数据和指令，其中所述数据包括输入神经元，输出神经元，权值，评分，错误模式判断结果等等；运算电路，用于根据所述存储单元中存储的指令对所述数据执行相应的运算；所述运算电路主要执行三步运算，第一步是将输入神经元和权值数据相乘；第二步执行加法树运算，用于将第一步的结果通过加法树逐级相加，得到加权和，根据需要对加权和加偏置或不做处理；第三步对第二步得到的结果执行激活函数运算，得到输出神经元。

信息处理装置还可以包括DMA(Direct Memory Access，直接内存存取)，用于在所述存储单元、指令缓存、权值缓存、输入神经元缓存和输出神经元缓存中进行数据或者指令读写；

信息处理装置中，控制电路，用于从所述指令缓存中读取专用指令，并将其译码成运算电路指令并输入至运算电路；指令缓存，用于存储专用指令；权值缓存，用于缓存权值数据；输入神经元缓存，用于缓存输入到映射单元的输入神经元；输出神经元缓存，用于缓存运算电路输出的输出神经元(对应各关键特征的置信度)；

DMA(直接内存存取)与运算电路之间的直接数据通路，用于直接对DMA存储数据进行运算并返回。

作为优选，芯片还包括预处理模块。该模块对原始信息数据，即一个或多个包含手写文字或图形的图片，进行预处理，得到与芯片所使用的人工神经网络的位于最底层的输入层规模相契合的图像数据。其中预处理包括切分、高斯滤波、二值化、正则化、归一化等等。

作为优选，人工神经网络芯片得到判断结果的方法包括：神经网络的最终输出层的每个输出神经元对应一个关键词，输出神经元的值为该关键词出现的置信度。

修改的方法包括：将标准答案拆分成许多标准关键特征的集合，这些关键特征可以是字、词、短语(文本数据输入)或者图片的一部分(图像数据输入)，芯片的存储单元中预先存储有每个关键特征标准正确模式。神经网络最终输出层的各个输出神经元给出各个关键特征部分与相应标准正确模式的置信度。(若某错误模式出现或其出现的置信度大于预设的阈值，则将该错误模式修改为标准答案中对应的关键特征)输出神经元的结果存入DMA中，并再次传入运算电路进行修改置信度阈值比较，如果该关键特征置信度低于预设阈值，则根据该关键特征的标准正确模式对该关键特征进行修改。

上述得到判断结果、评分及修改的过程均在人工神经网络芯片中完成：

步骤1，信息数据经预处理模块或直接传入存储单元；

步骤2，DMA将其分批传入相应的片上缓存(即指令缓存，输入神经元缓存，权值缓存)中；

步骤3，控制电路从指令缓存中读取指令，将其译码后传入运算电路；

步骤4，根据指令，运算电路执行相应的运算，在神经网络的各个层中，运算主要分为三步：步骤4.1，,将对应的输入神经元和权值相乘；步骤4.2，执行加法树运算，即将步骤4.1的结果通过加法树逐级相加，得到加权和，根据需要对加权和加偏置或不做处理；步骤4.3，对步骤4.2得到的结果执行激活函数运算，得到输出神经元，并将其传入输出神经元缓存中。

步骤5，重复步骤2到步骤4，直到所有数据运算完毕，即得到功能需求的最终结果。其中所述最终结果由神经网络最后一层的输出神经元得到，从运算电路输出到输出神经元缓存中，然后暂存入DMA等待下一步运算。

步骤6，将DMA中的神经网络输出神经元中存储的评分结果，即各关键特征置信度通过DMA与运算器之间的数据通路直接输入到运算器中与预设阈值进行比较，如果关键特征置信度比预设阈值小，则将DMA中的输入关键特征置换为相应关键特征的标准正确模式。当所有关键特征均按照上述步骤进行比较并替换后，DMA中完成了信息数据的修改工作。

步骤7，将修改过后的DMA中信息数据存回存储单元中，并作为最终修改后的输出数据输出。

根据所述功能需求：若要求得到判断结果，则上述神经网络最后一层输出神经元的值即为关键词出现的置信度；若要求进行修改，则最终经过步骤7后的存储单元中的修改数据，即为最终修改后的数据。

根据功能要求，本结构可实现评分和/或修改的功能，评分的结果输出为步骤1-5执行完毕后的输出；修改的输出为完整执行步骤1-7的最终存储单元输出。

实施例四：

本实施例提供的人工神经网络芯片(对应于信息处理装置)中的存储单元用于预存一个或多个关键帧图片(对应关键特征)；存储单元从外部获取视频，并将其传入至运算电路，其中视频包括多个输入图片；运算电路计算出各个输入图片与每个关键帧图片的相似度(详细来说，如果输入图片有N个，关键图片有M个，则得到NM个相似度)和/或对视频进行规范化修改。

更进一步的，所述视频还包括音频，音频分为多段音频，所述多段音频与所述多个图片对应。芯片可以比较视频中所有图片与各个关键帧图片的相似度，和/或比较视频中所有音频分解得到的各个波形和关键波形的相似度，对视频进行规范化修改。

更进一步的，所述视频为一个或多个测试者的动作视频。更进一步的，所述动作视频为跳舞,武术,或者课间操表演，体育运动的动作和/或姿势，写字动作和/或姿势，打字动作和/或姿势，看书动作和/或姿势。

其中得到相似度的方法可以是：神经网络的最终输出层的每个输出神经元对应一个相似度，输出神经元的值即为相似度值。(如果和前面的例子保持一致，则该层共NM个输出神经元)

其中得到相似度的方法也可以是：神经网络的最终输出层的每个输出神经元对应一个输入图片，输出神经元的值即为与该输入图片最相似的关键帧图片与该输入图片的相似度。(如果和前面的例子保持一致，则该层共N个输出神经元)

其中得到相似度的方法还可以是：神经网络的最终输出层的每个输出神经元对应一个关键图片，输出神经元的值即为与该关键帧图片最相似的输入图片与该关键帧图片的相似度。(如果和前面的例子保持一致，则该层共M个输出神经元)

其中评分的方法可以是：在神经网络中上述最终输出层的上面再加一层作为新的最终输出层，以前的最终输出层中的输出神经元作为该层的输入神经元；该层只有一个输出神经元，其值即为评分；该层中的权值对应各个相似度的重要程度，即权重。

其中修改的方法可以是：将上述得到的相似度计算结果从DMA中直接输入到运算电路中，并与预设阈值进行比较，如果相似度低于预设阈值，则判定该关键特征(在此可表述为视频关键帧图片)不符合规范化标准，需要进行修改。从而将相应输入图片用相应标准关键帧图片进行置换，并写回DMA，最终输出到存储单元中准备输出。

对视频和音频等连续数据输入，将其按时间分解为多个关键帧，并将关键帧图片与标准关键帧图片进行相似度计算，相似度低于预设阈值则利用标准图片对输入进行修改。

上述得到相似度和评分过程均在人工神经网络芯片中完成，可以包括如下步骤：

步骤1，信息数据经预处理模块或直接传入存储单元；

步骤4，根据指令，运算电路执行相应的运算,：在神经网络的各个层中，运算主要分为三步：步骤4.1，,将对应的输入神经元和权值相乘；步骤4.2，执行加法树运算，即将步骤4.1的结果通过加法树逐级相加，得到加权和，根据需要对加权和加偏置或不做处理；步骤4.3，对步骤4.2得到的结果执行激活函数运算，得到输出神经元，并将其传入输出神经元缓存中。

步骤5，重复步骤2到步骤4，直到所有数据运算完毕，即得到功能需求的最终结果。其中所述最终结果由神经网络最后一层的输出神经元得到，从运算电路输出到输出神经元缓存中，然后写入DMA中准备下一步操作。

步骤6，将DMA中的神经网络输出神经元中存储的相似度结果，即各关键特征(关键帧)评分通过DMA与运算器之间的数据通路直接输入到运算器中与预设阈值进行比较，如果关键特征置信度比预设阈值小，则将DMA中的输入关键特征置换为相应标准关键帧。当所有关键特征均按照上述步骤进行比较并替换后，DMA中完成了信息数据的修改工作。

根据所述功能需求：若要求得到判断结果，则上述神经网络最后一层输出神经元的值即为各关键帧与标准关键帧的相似度(评分)；若要求进行修改，则最终经过步骤7后的存储单元中的修改数据，即为最终修改后的数据。

实施例五：

装置包括信息获取装置，信息处理装置(例如人工神经网路芯片)(结构同实施例三)，交互界面和控制电路。

其中信息获取装置(这个装置可以是预处理装置的扩展，相当于接口+预处理装置)用于接收外部信息，信息包括文字、图像、音频、视频等等。并将原始数据或经预处理后的数据作为信息数据传递给人工神经网络芯片。

其中交互界面用于和用户进行交互，即接收用户的操作或命令，并将其传给控制电路。交互界面还用于接收人工神经网络芯片的输出数据，并将其转化为合适形式的反馈信息显示给用户。其中控制电路接收用户的操作或命令，并控制整个装置的运作。

交互界面可以让用户自由修改上述预设阈值，以达到不同程度效果的修改结果，更加友好。同时交互界面还可以给用户反馈信息，如坐姿错误是的报警以及握笔方式的修改矫正等。

更进一步的，信息获取装置为图像获取装置，声音获取装置。图像获取装置为摄像头。声音获取装置为麦克风。更进一步的，所述终端为识别字符装置，手机，电脑，笔记本，平板电脑。

本公开所提供的实施例中，应理解到，所揭露的相关设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述部分或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个部分或模块可以结合或者可以集成到一个***，或一些特征可以忽略或者不执行。

本公开中各功能部分/单元/子单元/模块/子模块/部件都可以是硬件，比如该硬件可以是电路，包括数字电路，模拟电路等等。硬件结构的物理实现包括但不局限于物理器件，物理器件包括但不局限于晶体管，忆阻器等等。所述计算装置中的计算模块可以是任何适当的硬件处理器，比如CPU、GPU、FPGA、DSP和ASIC等等。所述存储单元可以是任何适当的磁存储介质或者磁光存储介质，比如RRAM，DRAM，SRAM，EDRAM,HBM,HMC等等。

在本公开中所述的“存储器”可以集成在用于执行生成对抗网络的处理装置的内部，也可以是一个单独的器件，作为外部存储器与用于执行生成对抗网络的处理装置进行数据传输。

根据本公开的基本构思，提供一种用于执行生成对抗网络的处理装置，如图42所示，包括：

存储器110，用于接收输入数据，所述输入数据包括随机噪声和参考数据，以及存储判别器神经网络参数与生成器神经网络参数；

运算器120，用于将随机噪声输入数据传入生成器神经网络进行运算，得到噪声生成结果；还用于将噪声生成结果和参考数据共同输入判别器神经网络进行运算，得到判别结果；还用于根据所述判别结果更新所述判别器神经网络参数与生成器神经网络参数。

本公开实施例的处理装置，针对对抗网络的具体实现方式规划出合理的运算器以及存储器相配合的硬件结构，提高了计算效率。用于执行生成对抗网络的处理装置的存储器110接收输入数据，输入数据包括随机噪声和参考数据(包括但不限于真实图片、语音或文字)。参考数据包括但不仅限于一组包含一个或多个关键特征的图片,一组包含一个或多个关键采样点的音频,一组包含一个或多个具有词性标签的词组或短语；运算器120根据输入数据进行训练，得到一组生成函数参数，根据该生成函数参数和参考数据(例如参考图像)得到噪声生成结果(如创作图像)。其中输入数据可以是原始输入数据，也可以是对原始数据进行预处理后得到的结果。

在一些实施例中，所述存储器还用于存储计算指令，所述处理装置还包括控制器130，该控制器130用于根据提取所述计算指令并解析为运算指令，并发送至所述运算器。具体的，控制器130用于从所述存储器提取计算指令，解析该计算指令得到多个运算指令，将该多个运算指令以及输入数据发送给所述运算器。

如图43所示，所述存储器110包括：判别器参数存储单元112，用于存储判别器神经网络参数；生成器参数存储单元113，用于存储生成器神经网络参数；判别器指令存储单元114，用于存储进行判别器神经网络运算的计算指令；生成器指令存储单元115，用于存储进行生成器神经网络运算的计算指令；以及数据存储单元111，用于存储数据，这里的数据存储单元包括随机噪声、噪声生成结果(即负样本，例如随机噪声生成的图片)以及参考数据(从外部获得的真实图片、语音或文字等。此处结构主要是为了适应gan(对抗生成网络)具有的生成器与判别器的结构特点，故而可以将生成器与判别器的权值存储进行物理区分，更加高效的利用存储资源，同时为了适应这种存储结构可以对I/O指令进行修改，以区分判别器I/O指令与生成器I/O指令。

其中，数据存储单元111，用于获取并存储数据，进一步的还可以包括获取并存储网络模型(包括判别器神经网络和生成器神经网络)以及计算指令。

可选的，还包括输入/输出单元150，用于获取外部数据以及将内部计算结果输出至外部设备或其他部件。

可选的，还包括DMA140，把生成器神经网络参数从存储器转发给运算器120，通过DMA把随机噪声和参考数据从数据存储单元111转发给运算器120。

可选的，存储器还可以包括存储介质，存储介质可以为片外存储器，当然在实际应用中，也可以为片内存储器，用于存储数据块，该数据块具体可以为n维数据，n为大于等于1的整数，例如，n＝1时，为1维数据，即向量，如n＝2时，为2维数据，即矩阵，如n＝3或3以上时，为多维张量。

在一些实施例中，上述控制器130包括：指令缓存单元110、指令存储单元111和存储队列单元113。指令缓存单元110，用于存储所述网络模型关联的计算指令；所述指令处理单元111，用于对所述计算指令解析得到多个运算指令；存储队列单元113，用于存储指令队列，该指令队列包括：按该队列的前后顺序待执行的多个运算指令或计算指令。

如下表1所示，该计算指令可以包括：一个或多个操作域以及一个操作码。该计算指令可以包括神经网络运算指令。以神经网络运算指令为例，如表1所示，其中，寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以为操作域。其中，每个寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以是一个或者多个寄存器的号码。

CONFIG指令在每层人工神经网络计算开始前配置当前层计算需要的各种常数；COMPUTE指令完成每层人工神经网络的算术逻辑计算；IO指令实现从外部地址空间读入计算需要的输入数据以及在计算完成后将数据存回至外部空间；NOP指令负责清空当前装至内部所有微指令缓存队列中的微指令，保证NOP指令之前的所有指令全部指令完毕。NOP指令本身不包含任何操作；JUMP指令负责控制器将要从指令存储单元读取的下一条指令地址的跳转，用来实现控制流的跳转；MOVE指令负责将装置内部地址空间某一地址的数据搬运至装置内部地址空间的另一地址，该过程独立于运算单元，在执行过程中不占用运算单元的资源。

表1

所述依赖关系处理单元，用于在具有多个运算指令时，确定第一运算指令与所述第一运算指令之前的第零运算指令是否存在关联关系，如所述第一运算指令与所述第零运算指令存在关联关系，则将所述第一运算指令缓存在所述指令存储单元内，在所述第零运算指令执行完毕后，从所述指令存储单元提取所述第一运算指令传输至所述运算器；

所述确定该第一运算指令与第一运算指令之前的第零运算指令是否存在关联关系包括：

依据所述第一运算指令提取所述第一运算指令中所需数据(例如矩阵)的第一存储地址区间，依据所述第零运算指令提取所述第零运算指令中所需矩阵的第零存储地址区间，如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域，则确定所述第一运算指令与所述第零运算指令具有关联关系，如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域，则确定所述第一运算指令与所述第零运算指令不具有关联关系。

根据本公开实施例的另一方面，还提供一种应用以上所述的处理装置进行机器创作的方法，如图44所示，包括：

S110：输入随机噪声和参考数据至存储器(例如随机噪声和参考数据存储至存储单元)；

随后，可以通过DMA把生成器神经网络参数从存储器转发给运算器120里，通过DMA把随机噪声和参考数据从111转发给运算器120里；

S120：运算器将随机噪声输入数据和生成器神经网络参数进行生成器神经网络运算，得到噪声生成结果；

S130：运算器将噪声生成结果和参考数据进行判别器神经网络运算，得到判别结果；

S140：运算器根据所述判别结果更新所述判别器神经网络参数与生成器神经网络参数。

在一些实施例中，对于步骤S140，其具体包括：根据判别结果分别计算的生成器神经网络与判别器神经网络的损失值；然后根据损失值减小的最大梯度方向，自适应地更新判别器神经网络中的参数，进而提高判别器的判别精度；根据判别器判别的损失值增大的最大梯度方向，自适应地更新同时生成器神经网络中的参数。

通过重复进行步骤S110-S140，也就是进行训练，直至当判别器神经网络的判别精度在设定范围内变化时，输出生成器神经网络进行运算所得到噪声生成结果作为最终创作结果。

以下将结合具体实施例，对本公开的处理装置和利用装置的创作方法进行具体说明，但本领域技术人员应当知晓的是，以下具体的细节仅用于理解本公开，而并不应理解为对本公开的限定。

实施例六：

该实施例中的用于执行生成对抗网络的处理装置用于进行视频和/或图像的创作。

用于执行生成对抗网络的处理装置的存储器接收输入数据，输入数据包括但不仅限于一组包含一个或多个关键特征的图片；运算器根据输入数据进行训练，得到一组生成函数参数，根据该生成函数参数和输入参考图像生成输出创作图像。其中输入数据可以是原始输入数据，也可以是对原始数据进行预处理后得到的结果。

用于执行生成对抗网络的处理装置进行自适应性训练，例如：该装置输入一组包含一个或多个关键特征的训练图片，如包括手绘图片，实景照片，视频关键帧图片等等。装置将输入的训练图片作为真实图片与生成模型根据噪声生成的虚假图片一起混合输入到判别器中判别真假，并根据判别结果加权分别计算的生成器与判别器的损失值，然后根据损失值减小的最大梯度方向，自适应地更新判别器中的参数(如权值、偏置等等)，进而提高判别器的判别精度；同时生成器根据判别器判别的损失值增大的最大梯度方向，自适应地更新生成器中的参数(如权值、偏置等等)，进而提高生成器的生成能力，使得其根据噪声生成的图像更加接近真实图像，降低判别器的判别精度。最终，当判别器的判别精度在设定范围内变化时，达到最优生成器标准，以这个生成器的参数根据参考真实图片就可以将随机噪声生成创作图片。

判别器的输入图片真假取值二选一——例如{0,1}，0表示输入图片为输入训练图片，为1表示输入图片为生成器根据噪声生成的虚假图片；当然也可以反过来，1表示真，0表示假。优选的，上述自适应性训练过程是离线处理的。

具体的视频或图像创造步骤可以包括：

步骤1，将随机噪声输入数据经预处理单元传入存储器或直接传入存储器；

步骤2，DMA(Direct Memory Access，直接内存存取)将其分批传入指令缓存，输入神经元缓存，权值缓存中；

步骤3，控制器从指令缓存中读取指令，将其译码后传入运算器；

步骤4，根据指令，运算器执行相应的运算：在神经网络的各个层中，运算主要分为三步：步骤4.1，在乘法器中将对应的输入神经元和权值相乘；步骤4.2，在加法树中执行加法树运算，即将步骤4.1的结果通过加法树逐级相加，得到加权和，根据需要对加权和加偏置或不做处理；步骤4.3，在激活函数运算单元中对步骤4.2得到的结果执行激活函数运算，得到输出神经元，并将其传入输出神经元缓存中。

步骤5，重复步骤2到步骤4，直到所有数据运算完毕，其中所述生成器的噪声生成结果可以根据神经网络最终输出层得到，结果由DMA存入生成器输出缓存；

步骤6，将部分输入数据与生成器生成结果混合作为判别器模型的输入数据，重复步骤2到步骤4，知道所有数据运算完毕，其中所述判别器的判别结果可以根据神经网络最终输出层的结果得到，结果由DMA存入判别器输出缓存；

步骤7，由DMA将判别器输出结果传入运算器，做偏导运算后分别得到生成器的优化梯度和判别器的优化梯度，分别将其与生成器、判别器的神经元权值相加后，将相应结果存入相应神经元缓存；

步骤8，重复步骤5，6，7直到生成器和判别器损失函数达到最优；

步骤9，输入参考数据经过数据预处理单元后传入存储器或直接传入存储器；

步骤10，重复步骤2到步骤4，生成器模型神经网络输出层输出结果即为创作结果。

根据所述功能需求：需要在自适应训练阶段预设输出创作图片大小(也是人工神经网络最终输出层的神经元个数)、与训练数据(输入训练特征)和网络参数更新方式(随机梯度下降、Adam算法等)。

实施例七：

该实施例中的用于执行生成对抗网络的处理装置用于进行音频的创作。

用于执行生成对抗网络的处理装置，用于执行生成对抗网络的处理装置的存储器接收输入数据，输入数据包括但不仅限于一组包含一个或多个关键采样点的音频；运算器根据输入数据进行训练，得到一组生成函数参数，根据该生成函数参数和输入参考图像生成输出生成音频。其中输入数据可以是原始输入数据，也可以是对原始数据进行预处理后得到的结果。

用于执行生成对抗网络的处理装置进行自适应性训练，例如：该装置输入一组包含一个或多个关键采样点的音频数据，如包括语音片段，合成编辑电子音效音频等等。然后将输入的训练音频作为真实音频与生成模型根据噪声生成的虚假音频一起混合输入到判别器中判别真假，并根据判别结果加权分别计算的生成器与判别器的损失值，然后根据损失值减小的最大梯度方向，自适应地更新判别器中的参数(如权值、偏置等等)，进而提高判别器的判别精度；同时生成器根据判别器判别的损失值增大的最大梯度方向，自适应地更新生成器中的参数(如权值、偏置等等)，进而提高生成器的生成能力，使得其根据噪声生成的音频采样点分布更加接近特征采样点分布，降低判别器的判别精度。最终，当判别器的判别精度不再变化时，达到最优生成器标准，以这个生成器的参数根据参考音频就可以将随机噪声生成具有参考风格的音频。

判别器的输入音频真假取值二选一——例如{0,1}，0表示输入图片为输入训练图片，为1表示输入图片为生成器根据噪声生成的虚假图片；当然也可以反过来，1表示真，0表示假。优选的，上述自适应性训练过程是离线处理的。

人工神经网络芯片得到创造图片(视频关键帧)的方法为：根据训练得到的最优生成器权值参数，与输入参考图片进行矩阵乘，得出最终的创作图片(视频关键帧)。

具体的语音创作步骤可以包括：

步骤1，将随机噪声(生成器模型的生成源是随机噪声，根据权值不断生成才会能够生成有意义的音频)输入数据经预处理单元传入存储单元或直接传入存储单元；

步骤4，根据指令，运算器执行相应的运算：在神经网络的各个层中，运算主要分为三步：步骤4.1，,将对应的输入神经元和权值相乘；步骤4.2，执行加法树运算，即将步骤4.1的结果通过加法树逐级相加，得到加权和，根据需要对加权和加偏置或不做处理；步骤4.3，对步骤4.2得到的结果执行激活函数运算，得到输出神经元，并将其传入输出神经元缓存中。

步骤9，输入参考数据经过数据预处理单元后传入存储单元或直接传入存储单元；

根据所述功能需求：需要在自适应训练阶段预设输出创作音频采样点个数及音频时间长短(也是人工神经网络最终输出层的神经元个数)、与训练数据(输入训练特征)和网络参数更新方式(随机梯度下降、Adam算法等)。

实施例八：

该实施例中的用于执行生成对抗网络的处理装置用于进行文字类型的创作。

用于执行生成对抗网络的处理装置的存储器接收输入数据，输入数据包括但不仅限于一组包含一个或多个具有词性标签的词组或短语(文字类型)；装置根据输入数据进行训练，得到一组生成函数参数，根据该生成函数参数和输入参考文字段落生成输出创作文字段落。其中输入数据可以是原始输入数据，也可以是对原始数据进行预处理后得到的结果。输出数据可以是文字段落，也可以是诗句等严格格式的特殊格式。

用于执行生成对抗网络的处理装置进行自适应性训练，例如：

该装置输入一组包含一个或多个具有词性标签的词组或短语，如包括语音片段，合成编辑电子音效音频等等。装置将输入的训练文字段落作为特征文字段落与生成模型根据噪声在同词性词语组中选择的创造文字段落一起混合输入到判别器中判别真假，并根据判别结果加权分别计算的生成器与判别器的损失值，然后根据损失值减小的最大梯度方向，自适应地更新判别器中的参数(如权值、偏置等等)，进而提高判别器的判别精度；同时生成器根据判别器判别的损失值增大的最大梯度方向，自适应地更新生成器中的参数(如权值、偏置等等)，进而提高生成器的生成能力，使得其根据噪声生成的音频采样点分布更加接近特征采样点分布，降低判别器的判别精度。最终，当判别器的判别精度不再变化时，达到最优生成器标准，以这个生成器的参数根据参考文字段落就可以将随机噪声生成具有参考风格的文字创作。

判别器的输入文字段落真假取值二选一——例如{0,1}，0表示输入词组或短语为输入训练段落包含的词组或短语，为1表示输入图片为生成器根据噪声生成的随机短语；当然也可以反过来，1表示真，0表示假。

优选的，上述自适应性训练过程是离线处理的。优选的，用于执行生成对抗网络的处理装置为人工神经网络芯片。

具体的文字类型创作步骤可以包括：

本公开实施例还提供了一种电子设备，其包括了上述用于执行生成对抗网络的处理装置。

电子设备可包括但不限于机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备交通工具、家用电器、和/或医疗设备。

所述交通工具可包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

本公开中各功能单元/模块/子模块/子单元都可以是硬件，比如该硬件可以是电路，包括数字电路，模拟电路等等。硬件结构的物理实现包括但不局限于物理器件，物理器件包括但不局限于晶体管，忆阻器等等。所述计算装置中的计算模块可以是任何适当的硬件处理器，比如CPU、GPU、FPGA、DSP和ASIC等等。所述存储单元可以是任何适当的磁存储介质或者磁光存储介质，比如RRAM，DRAM，SRAM，EDRAM,HBM,HMC等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种数据共享***，包括存储模块和至少两个处理模块，其中：

所述至少两个处理模块共用所述存储模块；

所述至少两个处理模块之间通过预设的规则进行通信，以实现数据共享。
如权利要求1所述的数据共享***，其中，所述预设的规则包括通信协议、传送协议、握手协议和/或总线协议。
如权利要求1至2中任一项所述的数据共享***，其中，所述通过预设的规则通信包括：至少两个处理模块包括第一处理模块和第二处理模块，第一处理模块向第二处理模块发送请求信号和相应的数据地址，所述第二处理模块根据所述请求信号和相应的数据地址，向第一处理模块回复有效信号和数据，以实现数据共享。
如权利要求1至3中任一项所述的数据共享***，其中，所述至少两个处理模块包括物理处理器。
如权利要求4所述的数据共享***，其中，所述物理处理器包括神经网络处理器。
如权利要求5所述的数据共享***，其中，所述神经网络处理器包括用于执行人工神经网络正向运算的装置。
如权利要求6所述的数据共享***，其中，所述用于执行人工神经网络正向运算的装置包括指令缓存单元和直接内存访问单元，其中：

所述指令缓存单元用于通过直接内存访问单元读入指令并缓存读入的指令。
如权利要求7所述的数据共享***，其中，所述用于执行人工神经网络正向运算的装置还包括：

控制器单元，用于从指令缓存单元读取指令，并将该指令译码成微指令。
如权利要求7至8中任一项所述的数据共享***，其中，所述用于执行人工神经网络正向运算的装置还包括H树模块、主运算模块、以及多个从运算模块，其中：

所述H树模块，用于在每层神经网络反向训练开始计算的阶段，主运算模块通过H树模块向所有的从运算模块传输本层的输入神经元向量，以及在从计算模块的计算过程完成后，H树模块用于逐级将各从计算模块的输出神经元值拼成中间结果向量；

主运算模块，用于利用中间结果向量完成后续计算。
如权利要求9所述的数据共享***，其中，所述直接内存访问单元，还用于从外部地址空间向主运算模块和各从运算模块的相应数据缓存单元中写数据，或从所述数据缓存单元向外部地址空间读数据。