CN111126581A

CN111126581A - 数据处理方法、装置及相关产品

Info

Publication number: CN111126581A
Application number: CN201911309819.5A
Authority: CN
Inventors: 不公告发明人
Original assignee: Cambricon Technologies Corp Ltd
Current assignee: Cambricon Technologies Corp Ltd
Priority date: 2018-12-18
Filing date: 2019-12-18
Publication date: 2020-05-08
Anticipated expiration: 2039-12-18
Also published as: CN111126581B; CN109657788A

Abstract

本申请涉及一种数据处理方法、装置及相关产品，所述相关产品包括板卡，所述板卡包括：多个人工智能处理器，所述多个人工智能处理器对应的内存为多通道内存；其中，目标人工智能处理器用于在通过目标并行线程接收通用处理器CPU发出的人工智能处理器计算指令后，通过与所述目标并行线程对应的内存通道。采用本方法能够实现自定义激活函数在神经网络处理器中顺畅运行。

Description

数据处理方法、装置及相关产品

相关申请的交叉引用

本申请要求申请日为2018年12月18日、申请号为201811554134.2、申请人为北京中科寒武纪科技有限公司、名称为“数据处理方法、装置及相关产品”的中国专利申请的优先权的权益，所述申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种数据处理方法、装置及相关产品。

背景技术

随着人工智能技术的发展，出现了各种各样的神经网络算法，而激活操作是神经网络算法中非常重要的计算步骤。现有的神经网络处理器中，支持的激活函数种类很少，只有不超过十种。

现有的神经网络处理器在处理激活函数的过程中对激活函数的种类兼容性差，无法对自定义的激活函数进行处理。

发明内容

基于此，有必要针对现有神经网络处理器在处理激活函数的过程中对激活函数的种类兼容性差，无法对自定义的激活函数进行处理的问题，提供一种数据处理方法、装置及相关产品。

一种数据处理方法，所述方法包括：

获取激活函数的拟合配置表和输入数据；

判断所述输入数据对应所述拟合配置表中的分段区间；

根据所述输入数据对应所述拟合配置表中的分段区间，确定所述输入数据在所述拟合配置表中对应的配置信息；

根据所述配置信息对所述输入数据执行拟合运算，得到所述激活函数的输出数据。

在其中一个实施例中，所述根据所述配置信息对所述输入数据执行拟合运算，得到所述激活函数的输出数据包括：

获取硬件指令集；

根据所述硬件指令集和所述配置信息，编译生成控制指令；

将所述控制指令翻译为机器指令；

根据所述配置信息及机器指令对所述输入数据执行拟合运算，得到所述激活函数的输出数据。

在其中一个实施例中，所述根据所述输入数据对应所述拟合配置表中的分段区间，确定所述输入数据在所述拟合配置表中对应的配置信息包括：

根据所述输入数据，确定各所述分段区间的区间拟合函数。

获取所述激活函数的拟配置函数；

根据所述输入数据，确定所述拟合配置表中的各所述分段区间的拟合参数；

根据所述拟合参数，配置得到各所述分段区间对应所述拟配置函数的配置拟合函数。

在其中一个实施例中，所述方法还包括创建拟合配置表，所述创建拟合配置表包括如下步骤：

获取激活函数；

根据预设规则选取所述激活函数的采样点；

根据所述激活函数计算各所述采样点的函数值；

根据所述采样点以及所述采样点的函数值对所述激活函数进行拟合运算，得到拟合配置表。

在其中一个实施例中，所述获取激活函数包括：

获取所述激活函数的定义域；以及

获取所述激活函数的切分段数。

在其中一个实施例中，所述根据预设规则选取所述激活函数的采样点，包括：

根据所述切分段数，在每个分段中选取所述采样点。

在其中一个实施例中，所述根据所述采样点以及所述采样点的函数值对所述激活函数进行拟合运算，得到拟合配置表包括：

通过最小二乘法对所述激活函数进行拟合运算，得到拟合配置表。

在其中一个实施例中，所述方法还包括：

确定所述激活函数包含的各函数点的斜率；

根据所述各函数点的斜率，在所述各函数点中，确定子区间的端点；

根据所述激活函数的起始函数点、终止函数点和确定出的子区间的端点，将所述激活函数对应的定义域划分为至少一个子区间；

针对每个子区间，根据该子区间包含的各函数点的斜率和预设的分段区间端点确定规则，在该子区间包含的各函数点中，确定分段区间的端点；

根据该子区间的起始函数点、终止函数点和确定出的分段区间的端点，将该子区间对应的定义域划分为至少一个分段区间。

在其中一个实施例中，所述根据所述各函数点的斜率，在所述各函数点中，确定子区间的端点，包括：

针对所述激活函数包含的各函数点中的每个函数点，确定与该函数点相邻的第一函数点和第二函数点，所述第一函数点的自变量小于该函数点的自变量，所述第二函数点的自变量大于该函数点的自变量；

计算该函数点的斜率与所述第一函数点的斜率的第一差值，并计算该函数点的斜率与所述第二函数点的斜率的第二差值；

如果所述第一差值和所述第二差值均为正数或负数，则确定该函数点为子区间的端点。

在其中一个实施例中，所述针对每个子区间，根据该子区间包含的各函数点的斜率和预设的分段区间端点确定规则，在该子区间包含的各函数点中，确定分段区间的端点，包括：

针对每个子区间，从该子区间的起始函数点开始，将斜率与该子区间的起始函数点的斜率的差值的绝对值等于第一预设差值阈值的函数点，确定为第一分段区间的端点；

从所述第一分段区间的端点开始，将斜率与所述第一分段区间的端点的斜率的差值的绝对值等于所述第一预设差值阈值的函数点，确定为第二分段区间的端点，直到该子区间的终止函数点的斜率与所述第二分段区间的端点的斜率的差值的绝对值小于或等于所述第一预设差值阈值。

针对每个子区间，从该子区间的终止函数点开始，将斜率与该子区间的终止函数点的斜率的差值的绝对值等于第二预设差值阈值的函数点，确定为第三分段区间的端点；

从所述第三分段区间的端点开始，将斜率与所述第三分段区间的端点的斜率的差值的绝对值等于所述第二预设差值阈值的函数点，确定为第四分段区间的端点，直到该子区间的起始函数点的斜率与所述第四分段区间的端点的斜率的差值的绝对值小于或等于所述第二预设差值阈值。

在其中一个实施例中，所述方法还包括：

针对每个分段区间，确定该分段区间的起始函数点的函数值与终止函数点的函数值的第三差值；

在差值与拟合函数的对应关系中，确定所述第三差值对应的目标拟合函数，并将所述目标拟合函数确定为该分段区间对应的拟合函数。

一种数据处理装置，所述装置包括：

接口模块，用于获取激活函数的拟合配置表和输入数据；

比较模块，用于判断所述输入数据对应所述拟合配置表中的分段区间；以及用于根据所述输入数据对应所述拟合配置表中的分段区间，确定所述拟合配置表中对应的配置信息；

运算模块，用于根据所述拟合配置表对所述输入数据执行拟合运算，得到所述激活函数的输出数据。

一种板卡，应用于异构计算架构中，所述板卡包括：多个人工智能处理器，所述多个人工智能处理器对应的内存为多通道内存；其中，目标人工智能处理器用于在通过目标并行线程接收通用处理器CPU发出的人工智能处理器计算指令后，通过与所述目标并行线程对应的内存通道，根据所述人工智能处理器计算指令对所述内存通道对应的物理内存进行访问；所述目标人工智能处理器为所述多个人工智能处理器中的任一人工智能处理器，所述目标并行线程为所述CPU启动的多个并行线程中的任一个；所述多个并行线程中至少有两个线程对应不同的内存通道，所述多个人工智能处理器执行预先存储的程序指令实现上述的数据处理方法步骤。

一种主板，应用于异构计算架构中，所述主板包括：通用处理器CPU和上述的板卡。

一种电子设备，应用于异构计算架构中，所述电子设备包括如上述的主板。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上任一实施例所述方法的步骤。

上述数据处理方法、装置及相关产品，通过输入数据确定拟合配置表中的配置信息，对输入数据执行拟合运算，得到激活函数经过拟合后的输出数据，实现了自定义激活函数在神经网络处理器中顺畅运行，使得神经网络处理器对不同的激活函数的执行具备更好的兼容性。

附图说明

图1为一个实施例中数据处理方法的应用装置图；

图2为一个实施例中数据处理方法的流程示意图；

图3为一个实施例中，根据所述配置信息对所述输入数据执行拟合运算，得到所述激活函数的输出数据步骤的流程示意图；

图4为一个实施例中，创建拟合配置表步骤的流程示意图；

图5为一个实施例中，分段区间的确定方法的流程示意图；

图6为一个实施例中，分段区间的拟合函数的确定方法的流程示意图；

图7为一个实施例中，拟合配置表创建模块和神经网络处理器的装置示意图；

图8为一实施例中，用于数据处理的板卡结构示意图；

图9为一实施例中，用于数据处理的主板结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据处理方法，可以应用于如图1所示的应用环境中。图1所示的应用环境中包括神经网络开发装置100以及神经网络处理装置200。在其中一个实施例中，神经网络开发装置100获取输入的激活函数。进一步地，神经网络开发装置100根据预设规则对激活函数进行采样处理，得到拟合配置表。在其中一个实施例中，神经网络开发装置100将拟合配置表发送至神经网络处理装置200。进一步地，神经网络处理装置200获取激活函数的拟合配置表和输入数据，并确定输入数据在所述拟合配置表中对应的配置信息；更进一步地，神经网络处理装置200，根据配置信息对输入数据执行拟合运算，得到激活函数的输出数据。

在一个实施例中，如图2所示，提供了一种数据处理方法，以该方法应用于图1中的神经网络开发装置100和神经网络处理装置200为例进行说明，包括以下步骤：

步骤S202，获取激活函数的拟合配置表和输入数据。其中，拟合配置表是指对激活函数进行拟合处理所参照的信息表。根据拟合配置表能够确定对激活函数的拟合处理方法。其中，所述输入数据指利用激活函数进行运算的数据。

步骤S204，判断所述输入数据对应所述拟合配置表中的分段区间。具体地，拟合配置表中可以有多个连续的分段区间，分段区间组成激活函数的定义域。可以理解地，输入数据是定义域内的数据，进而输入数据对应拟合配置表中的分段区间。其中，定义域为激活函数自变量的取值范围。

步骤S206，根据所述输入数据对应所述拟合配置表中的分段区间，确定所述输入数据在所述拟合配置表中对应的配置信息。具体地，每一段分段区间可以对应各自的配置信息。可以根据输入数据确定分段区间，进而可以得到输入数据对应的配置信息。其中，配置信息是指对拟合函数进行拟合处理的信息。

步骤S208，根据所述配置信息对所述输入数据执行拟合运算，得到所述激活函数的输出数据。具体地，根据配置信息对输入数据具体执行的处理过程，是对激活函数进行拟合得到拟合函数的输出数据的处理过程。

上述数据处理方法，通过输入数据确定拟合配置表中的配置信息，对输入数据执行拟合运算，得到激活函数经过拟合后的输出数据。实现了自定义激活函数在神经网络处理装置中顺畅运行，使得神经网络处理器对不同的激活函数的执行具备更好的兼容性。

在一个实施例中，请一并参阅图3，步骤S208包括：

步骤S2081，获取硬件指令集。其中，硬件指令集是硬件设备的基础指令格式。在其中一个实施例中，硬件指令集是指神经网络处理器所适用的基础指令格式。

步骤S2082，根据所述硬件指令集和所述配置信息，编译生成控制指令。具体地，神经网络开发工具100生成的配置信息发送给神经网络处理装置200，神经网络处理装置200不能直接读取配置信息。为此，神经网络处理装置200或神经网络开发工具100要根据神经网络处理装置200的基础指令生成对应配置信息的控制指令。

步骤S2083，将所述控制指令翻译为机器指令。具体地，通过步骤S2082的编译生成的控制指令传输到神经网络处理装置200后不能直接被机器识别。进一步地，神经网络处理装置200对控制指令进行译码，把控制指令翻译成神经网络处理装置200直接可以识别的机器指令。在其中一个实施例中，机器指令为二进制指令。

步骤S2084，根据所述配置信息及机器指令对所述输入数据执行拟合运算，得到所述激活函数的输出数据。具体地，神经网络处理装置200通过识别机器指令，根据输入数据读取拟合配置表，获取拟合配置表中对应输入数据的配置信息。进一步地，根据配置信息，确定对输入数据具体执行的处理过程，通过机器指令控制神经网络处理装置200完成拟合运算，得到激活函数的输出数据。

在其中一个实施例中，步骤S204包括：步骤S2041a,根据所述输入数据，确定各所述分段区间的区间拟合函数。具体地，区间拟合函数是指分别对应各个分段区间的拟合函数，即一个分段区间可以对应一个区间拟合函数。可选地，区间拟合函数可以是各不相同的，也可以是都相同的，还可以是部分相同部分不同的。

作为一种具体的实施方式，激活函数的定义域为[0,16]，在区间[0，8)内的区间拟合函数为y＝2x+1,在区间[8,16]内的区间拟合函数为y＝2x²+3x+4，则集合配置表如下：

取值起点X<sub>start</sub>	取值终点X<sub>end</sub>	拟合函数
			0	8	y＝2x+1
8	16	y＝2x<sup>2</sup>+3x+4

当输入数据在区间[0，8)时，则通过区间拟合函数y＝2x+1计算输出数据，例如当输入数据为6，则读取如下配置信息：

0

8

y＝2x+1

根据上述配置信息，对输入数据6执行相应拟合运算，即y＝2*6+1＝13，则输入数据6对应的输出数据为13。

在另一个实施例中，步骤S204包括：

步骤S2041b，获取所述激活函数的拟配置函数。具体地，拟配置函数是指在进行拟合运算前，预先设定对激活函数进行拟合操作的函数类别。例如拟配置函数可以包括：一元一次函数、一元二次函数、正比例函数、反比例函数。

步骤S2042，根据所述输入数据，确定所述拟合配置表中的各所述分段区间的拟合参数。具体地，拟合参数是拟配置函数中的除自变量和因变量之外的参数，例如一元一次函数中的斜率和截距。

步骤S2043，根据所述拟合参数，配置得到各所述分段区间对应所述拟配置函数的配置拟合函数。具体地，每个拟配置函数对应一种函数种类。进而一种函数种类可以对应多个不同的具体函数。当拟合参数确定，则对应的具体的函数也就确定了。例如y＝ax，则当拟合参数a被赋值为1，则能够得到具体的配置拟合函数y＝x。

作为一种具体的实施方式，拟配置函数为y＝kx+b,定义域为[0,16]，则拟合配置表如下：

取值起点X<sub>start</sub>	取值终点X<sub>end</sub>	k	b
				0	8	1	1
8	16	2	3

当输入数据为6时，则读取对应的配置信息：

0

8

1

根据以上配置信息得到输入数据6的输出数据为y＝1*6+1＝7。

通过上述实施例，使得通过拟合配置表确定各个分段内的特征参数或拟合函数，能够便于在激活函数执行过程中方便快捷的得到拟合后的运算结果，提高运算效率。

在一个实施例中，如图4所示，所述方法还包括创建拟合配置表，所述创建拟合配置表包括如下步骤：

步骤S2010，获取激活函数。具体地，神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值，并将输入值传递给下一层，输入层神经元节点会将输入属性值直接传递给下一层。在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为激活函数。可选地，激活函数可以包括ReLU、sigmoid、tanh、ReLU1以及ReLU6。根据不同的需求场景，自定义激活函数可以是多种多样的，例如ReLU5：

步骤S2012，根据预设规则选取所述激活函数的采样点。

其中，激活函数的采样点是指根据预定规则在激活函数图像中选取的自变量的值。具体地，选取采样点的预设规则可以是等距选取或随机选取，还可以根据其他规则进行选取。

步骤S2014，根据所述激活函数计算各所述采样点的函数值。具体地，根据激活函数以及自变量的值，计算得到对应采样点的函数值。

步骤S2016，根据所述采样点以及所述采样点的函数值对所述激活函数进行拟合运算，得到拟合配置表。其中，通过拟合运算能够将原本图像复杂、变化多样的激活函数拟合为简单函数图像的组合，简化了激活函数的运算过程，提高了运算效率。可选地，拟合运算可以通过最小二乘法和/或二次拟合实现。通过上述实施例简化了激活运算的运算过程，提高了激活函数的处理效率。

在一个实施例中，步骤S2010，获取激活函数包括：

获取所述激活函数定义域；以及获取所述激活函数对应函数图像的切分段数。

具体地，激活函数图像是指将自变量和函数值的关系在坐标系中表现出来的图像。切分段数是指将在定义域内的激活函数进行分段。在其中一个实施例中，将定义域内的自变量进行分段。可以理解地，分段数量取决于函数曲线形状和对精度的要求，最少1段，最多不设限。具体地，如果需要高精度的结果，或者激活函数图像比较复杂，则分段较多。例如，sigmoid函数可以分60段。在另一个实施例中，若对精度要求不高，或者若激活函数图像比较简单，则分段较少，例如ReLU函数可以分2段。通过上述实施例，将激活函数分段处理，能够通过不同的具体函数来拟合整个激活函数，更加接近激活函数的原始特性，使得拟合结果更加准确。

在一个实施例中，步骤S2012根据预设规则选取所述激活函数的采样点，包括：

根据所述切分段数，在每个分段中选取所述采样点。

可选地，分段内采样可以采取等距采样，例如每段等分19份。在其中一个实施例中，在激活函数的边界段可采20个样点。当然，采样点数并不固定，也不限于上述等距采样的方法，其他采样方法例如随机采样也可以。

在其中一个实施例中，各个分段的长度相同，各个分段内的采样点数也相同。在另一个实施例中，各个分段的长度不同，每段内的采样点数也不同。

作为一种具体的实施方式，在sigmoid函数中，将函数图像分为60段，每段等距选取20个采样点。

本申请实施例还提供了一种分段区间的确定方法，如图5所示，具体处理过程如下。

步骤501，确定激活函数包含的各函数点的斜率。

具体的，当神经网络开发装置100需要将激活函数的定义域划分为多个分段区间时，可以对该激活函数进行求导处理，从而得到该激活函数包含的各函数点的斜率。其中，函数点包括自变量和自变量对应的输出值。

步骤502，根据各函数点的斜率，在各函数点中，确定子区间的端点。

具体的，神经网络开发装置100得到各函数点的斜率后，可以根据各函数点的斜率，在各函数点中，确定子区间的端点。其中，该激活函数在子区间中为单调函数。可选的，神经网络开发装置100根据各函数点的斜率，在各函数点中，确定子区间的端点的具体处理过程如下：

步骤一，针对激活函数包含的各函数点中的每个函数点，确定与该函数点相邻的第一函数点和第二函数点。其中，第一函数点的自变量小于该函数点的自变量，第二函数点的自变量大于该函数点的自变量。

具体的，神经网络开发装置100得到各函数点的斜率后，针对激活函数包含的各函数点中的每个函数点，神经网络开发装置100可以在各函数点中，确定自变量小于该函数点的自变量、且与该函数点相邻的第一函数点，并确定自变量大于该函数点的自变量、且与该函数点相邻的第二函数点。

步骤二，计算该函数点的斜率与第一函数点的斜率的第一差值，并计算该函数点的斜率与第二函数点的斜率的第二差值。

具体的，神经网络开发装置100得到该函数点相邻的第一函数点和第二函数点后，可以计算该函数点的斜率与第一函数点的斜率的第一差值，并计算该函数点的斜率与第二函数点的斜率的第二差值。然后，神经网络开发装置100可以判断第一差值和第二差值是否均为正数或负数。如果第一差值和第二差值均为正数或负数，则执行步骤三。否则，则说明该函数点与第一函数点和第二函数点所在的子区间为同一单调递增子区间或同一单调递减子区间。

步骤三，如果第一差值和第二差值均为正数或负数，则确定该函数点为子区间的端点。

具体的，如果第一差值和第二差值均为正数，则说明该函数点与第一函数点所在的子区间为单调递增子区间，而该函数点与第二函数点所在的子区间为单调递减子区间。相应的，神经网络开发装置100可以确定该函数点为子区间的端点。同理，如果第一差值和第二差值均为负数，则说明该函数点与第一函数点所在的子区间为单调递减子区间，而该函数点与第二函数点所在的子区间为单调递增子区间。相应的，神经网络开发装置100可以确定该函数点为子区间的端点。

步骤503，根据激活函数的起始函数点、终止函数点和确定出的子区间的端点，将激活函数对应的定义域划分为至少一个子区间。

具体的，神经网络开发装置100得到各子区间的端点后，可以进一步根据激活函数的起始函数点、终止函数点和确定出的各子区间的端点，将激活函数对应的定义域划分为至少一个子区间。

步骤504，针对每个子区间，根据该子区间包含的各函数点的斜率和预设的分段区间端点确定规则，在该子区间包含的各函数点中，确定分段区间的端点。

具体的，神经网络开发装置100得到各子区间后，针对每个子区间，神经网络开发装置100可以根据该子区间包含的各函数点的斜率和预设的分段区间端点确定规则，在该子区间包含的各函数点中，确定分段区间的端点。可选的，神经网络开发装置100根据该子区间包含的各函数点的斜率和预设的分段区间端点确定规则，在该子区间包含的各函数点中，确定分段区间的端点的处理过程可以是多种多样的，本申请实施例提供了两种可行的实施方式，具体如下：

方式一，针对每个子区间，神经网络开发装置100从该子区间的起始函数点开始，确定分段区间的端点，具体处理过程如下：

步骤一，针对每个子区间，从该子区间的起始函数点开始，将斜率与该子区间的起始函数点的斜率的差值的绝对值等于第一预设差值阈值的函数点，确定为第一分段区间的端点。

具体的，神经网络开发装置100中可以预先存储有第一预设差值阈值。该第一预设差值阈值可以由技术人员根据经验进行设置。针对每个子区间，神经网络开发装置100可以从该子区间的起始函数点开始，计算各函数点的斜率与该起始函数点的斜率的差值。然后，神经网络开发装置100可以将差值的绝对值等于第一预设差值阈值的函数点，确定为第一分段区间的端点(也即第一分段区间的终止函数点)。其中，当存在差值的绝对值等于第一预设差值阈值的多个函数点时，神经网络开发装置100可以选择自变量大于起始函数点的自变量，且自变量最小的函数点。

步骤二，从第一分段区间的端点开始，将斜率与第一分段区间的端点的斜率的差值的绝对值等于第一预设差值阈值的函数点，确定为第二分段区间的端点，直到该子区间的终止函数点的斜率与第二分段区间的端点的斜率的差值的绝对值小于或等于第一预设差值阈值。

具体的，神经网络开发装置100得到第一分段区间的端点后，可以从第一分段区间的端点开始，计算各函数点的斜率与该第一分段区间的端点的斜率的差值。然后，神经网络开发装置100可以将差值的绝对值等于第一预设差值阈值的函数点，确定为第二分段区间的端点(也即第二分段区间的终止函数点)。其中，当存在差值的绝对值等于第一预设差值阈值的多个函数点时，神经网络开发装置100可以选择自变量大于第一分段区间的端点的自变量，且自变量最小的函数点。直到该子区间的终止函数点的斜率与第二分段区间的端点的斜率的差值的绝对值小于或等于第一预设差值阈值。

方式二，针对每个子区间，神经网络开发装置100从该子区间的起始函数点开始，确定分段区间的端点，具体处理过程如下：

步骤一，针对每个子区间，从该子区间的终止函数点开始，将斜率与该子区间的终止函数点的斜率的差值的绝对值等于第二预设差值阈值的函数点，确定为第三分段区间的端点。

具体的，神经网络开发装置100中可以预先存储有第二预设差值阈值。该第二预设差值阈值可以由技术人员根据经验进行设置。针对每个子区间，神经网络开发装置100可以从该子区间的终止函数点开始，计算各函数点的斜率与该终止函数点的斜率的差值。然后，神经网络开发装置100可以将差值的绝对值等于第二预设差值阈值的函数点，确定为第三分段区间的端点(也即第三分段区间的起始函数点)。其中，当存在差值的绝对值等于第二预设差值阈值的多个函数点时，神经网络开发装置100可以选择自变量小于终止函数点的自变量，且自变量最大的函数点。

步骤二，从第三分段区间的端点开始，将斜率与第三分段区间的端点的斜率的差值的绝对值等于第二预设差值阈值的函数点，确定为第四分段区间的端点，直到该子区间的起始函数点的斜率与第四分段区间的端点的斜率的差值的绝对值小于或等于第二预设差值阈值。

具体的，神经网络开发装置100得到第三分段区间的端点后，可以从第三分段区间的端点开始，计算各函数点的斜率与该第三分段区间的端点的斜率的差值。然后，神经网络开发装置100可以将差值的绝对值等于第二预设差值阈值的函数点，确定为第四分段区间的端点(也即第四分段区间的起始函数点)。其中，当存在差值的绝对值等于第二预设差值阈值的多个函数点时，选择自变量小于第三分段区间的端点的自变量，且自变量最大的函数点。直到该子区间的起始函数点的斜率与第四分段区间的端点的斜率的差值的绝对值小于或等于第二预设差值阈值。

步骤505，根据该子区间的起始函数点、终止函数点和确定出的分段区间的端点，将该子区间对应的定义域划分为至少一个分段区间。

具体的，神经网络开发装置100得到分段区间的端点后，可以进一步根据该子区间的起始函数点、终止函数点和确定出的分段区间的端点，将该子区间对应的定义域划分为至少一个分段区间。

本申请实施例还提供了一种分段区间的拟合函数的确定方法，如图6所示，具体处理过程如下。

步骤601，针对每个分段区间，确定该分段区间的起始函数点的函数值与终止函数点的函数值的第三差值。

具体的，神经网络开发装置100得到分段区间后，针对每个分段区间，神经网络开发装置100可以确定该分段区间的起始函数点的函数值与终止函数点的函数值的第三差值。

步骤602，在差值与拟合函数的对应关系中，确定第三差值对应的目标拟合函数，并将目标拟合函数确定为该分段区间对应的拟合函数。

具体的，神经网络开发装置100中可以预先存储有差值与拟合函数的对应关系。其中，该拟合函数可以为步骤2041a中的拟合函数(比如y＝2x+1)，也可以为步骤2043中的拟配置函数(比如y＝kx+b)，本申请实施例不作限定；拟合函数可以包括一元一次函数、一元二次函数、正比例函数、反比例函数、一元高次函数等，本申请实施例不作限定。神经网络开发装置100得到第三差值后，可以在差值与拟合函数的对应关系中，查询第三差值对应的目标拟合函数，并将目标拟合函数确定为该分段区间对应的拟合函数。这样，通过根据分段区间中起始函数点的函数值与终止函数点的函数值的第三差值，确定各分段区间对应的拟合函数，从而保证针对不同的分段区间确定不同的拟合函数，进而保证计算的准确性。

需要说明的是，该激活函数可以为图像处理神经网络、语音处理神经网络、文本处理神经网络等各类神经网络模型中的激活函数。相应的，当神经网络模型为图像处理神经网络时，激活函数的输入数据通常为特征图数据，输出数据通常为稀疏特征图；当神经网络模型为语音处理神经网络时，激活函数的输入数据通常为声音特征信号，输出数据通常为归一化特征向量；当神经网络模型为文本处理神经网络时，激活函数的输入数据通常为词特征向量，输出数据通常为规则化特征向量。

应该理解的是，虽然图2-6流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，请一并参阅图7，提供了一种拟合配置表创建模块110和一种神经网络处理器120。

其中，拟合配置表创建模块110可以是软件，还可以是存储有软件的硬件装置，包括激活函数获取单元111、采样单元112、拟合计算单元113、硬件交互单元115以及控制指令生成单元114(图中未示出)。

在一个实施例中，激活函数获取单元111用于获取激活函数；采样单元112，用于根据预设规则选取所述激活函数的采样点；拟合计算单元113，用于计算所述采样点的函数值；以及

用于根据所述采样点以及所述采样点的函数值对所述激活函数进行拟合运算，得到拟合配置表。

在其中一个实施例中，接口模块121包括定义域获取模块和切分段数获取模块，所述定义域获取模块用于获取所述激活函数定义域；

所述切分段数获取模块用于获取所述激活函数图像的切分段数。

在其中一个实施例中，采样模块112还包括：采样点选取模块，用于根据所述切分段数，在每个分段中选取所述采样点。

在其中一个实施例中，拟合计算单元113还包括最小二乘法运算模块，用于通过最小二乘法对所述激活函数进行拟合运算，得到拟合配置表。

在其中一个实施例中，硬件交互单元115用于将所述控制指令以及拟合配置表发送至所述神经网络处理器120。具体地，硬件交互单元115是软件和硬件的通信接口。在其中一个实施例中，硬件交互单元115包括驱动程序提供的数据拷贝函数，数据拷贝函数将拟合配置表创建模块110中的二进制指令拷入神经网络处理器的存储模块123中。

关于拟合配置表创建模块110的具体限定可以参见上文中对于数据处理方法的限定。上述拟合配置表创建模块110中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，神经网络处理器120包括接口模块121、比较模块122以及运算模块124。在其中一个实施例中，神经网络处理器120还可以包括存储模块123。神经网络开发工具110可以将拟合配置表或控制指令发送至神经网络处理器120的存储模块123中。进一步地，接口模块121可以从存储模块123中读取拟合配置表和控制指令。所述接口模块121用于获取拟合配置表以及输入数据。可选地，接口模块121还用于获取控制指令。

在其中一个实施例中，接口模块121获取激活函数的拟合配置表和输入数据。在另一个实施例中，接口模块121用于接收存储单元123发送的拟合配置表和输入数据。在其中一个实施例中，所述比较模块122用于判断所述输入数据对应所述拟合配置表中的分段区间；以及用于根据所述输入数据对应所述拟合配置表中的分段区间，确定所述拟合配置表中对应的配置信息。在其中一个实施例中，所述比较模块122与所述运算模块124相连，所述运算模块124用于根据所述拟合配置表对所述输入数据执行拟合运算，得到所述激活函数的输出数据。在其中一个实施例中，所述接口模块121还可以用于将所述输出数据发送至所述神经网络处理器120外部。

在其中一个实施例中，所述运算模块124包括硬件指令集获取单元、编译单元；

所述硬件指令集获取单元用于获取硬件指令集；

所述编译单元用于根据所述硬件指令集和所述拟合配置表，编译生成控制指令。

在其中一个实施例中，所述装置还包括译码模块125和输出数据生成模块126；

所述译码模块125，用于将所述控制指令翻译为机器指令；

所述输出数据生成模块126，用于根据所述拟合配置表、所述输入数据以及所述机器指令，得到所述激活函数的输出数据。

在其中一个实施例中，所述比较模块还122包括：

区间拟合函数确定单元，用于根据所述输入数据，确定各所述分段区间的区间拟合函数。

在另一个实施例中，所述比较模块122还包括：

拟配置函数获取单元，用于获取所述激活函数的拟配置函数；

拟合参数确定单元，用于根据所述输入数据，确定所述拟合配置表中的各所述分段区间的拟合参数；

配置拟合函数确定单元，用于根据所述拟合参数，配置得到各所述分段区间对应所述拟配置函数的配置拟合函数。

上述神经网络处理器120中可以硬件形式内嵌于或独立于计算机设备中的处理器中。

在一个实施例中，本申请还提供一种板卡，该板卡应用于神经网络数据处理方法中，该板卡可以包括：多个人工智能处理器，多个人工智能处理器对应的内存为多通道内存；其中，目标人工智能处理器用于在通过目标并行线程接收CPU发出的人工智能处理器计算指令后，通过与所述目标并行线程对应的内存通道，根据所述人工智能处理器计算指令对所述内存通道对应的物理内存进行访问；所述目标人工智能处理器为所述多个人工智能处理器中的任一人工智能处理器，所述目标并行线程为所述CPU启动的多个并行线程中的任一个；所述多个并行线程中至少有两个线程对应不同的内存通道。

参见图8所示，上述板卡除了包括上述多个人工智能处理器111(专用处理器11可以包括多个人工智能处理器111)和多通道内存12之外，还可以包含其它配套部件。该配套部件包括但不限于：内存控制器13、总线、接口14。专用处理器11通过接口14与外部设备之间进行指令传输以及数据传输。可选的，外部设备可以为通用处理器(CPU)10。

本实施例提供的板卡，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在一个实施例中，本申请还提供一种主板，应用于神经网络数据处理方法中，如图9所示，该主板包括：通用处理器(CPU)10和上述实施例提供的板卡，该板卡包括多个人工智能处理器111，多个人工智能处理器111对应的内存为多通道内存；其中，目标人工智能处理器用于在通过目标并行线程接收CPU发出的人工智能处理器计算指令后，通过与所述目标并行线程对应的内存通道，根据所述人工智能处理器计算指令对所述内存通道对应的物理内存进行访问；所述目标人工智能处理器为所述多个人工智能处理器中的任一人工智能处理器，所述目标并行线程为所述CPU启动的多个并行线程中的任一个；所述多个并行线程中至少有两个线程对应不同的内存通道。

本实施例提供的主板，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在一个实施例中，提供一种电子设备，该电子设备应用于异构计算架构中，该电子设备包括如图8所示的主板。该主板包括CPU和板卡，板卡包括多个人工智能处理器，多个人工智能处理器对应的内存为多通道内存；其中，目标人工智能处理器用于在通过目标并行线程接收通用处理器CPU发出的人工智能处理器计算指令后，通过与所述目标并行线程对应的内存通道，根据所述人工智能处理器计算指令对所述内存通道对应的物理内存进行访问；所述目标人工智能处理器为所述多个人工智能处理器中的任一人工智能处理器，所述目标并行线程为所述CPU启动的多个并行线程中的任一个；所述多个并行线程中至少有两个线程对应不同的内存通道。

可选的，电子设备可以包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

本实施例提供的电子设备，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以上任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取激活函数的拟合配置表和输入数据；

判断所述输入数据对应所述拟合配置表中的分段区间；

2.根据权利要求1所述的方法，其特征在于，所述根据所述配置信息对所述输入数据执行拟合运算，得到所述激活函数的输出数据包括：

获取硬件指令集；

根据所述硬件指令集和所述配置信息，编译生成控制指令；

将所述控制指令翻译为机器指令；

3.根据权利要求1所述的方法，其特征在于，所述根据所述输入数据对应所述拟合配置表中的分段区间，确定所述输入数据在所述拟合配置表中对应的配置信息包括：

根据所述输入数据，确定各所述分段区间的区间拟合函数。

4.根据权利要求1所述的方法，其特征在于，所述根据所述输入数据对应所述拟合配置表中的分段区间，确定所述输入数据在所述拟合配置表中对应的配置信息包括：

获取所述激活函数的拟配置函数；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括创建拟合配置表，所述创建拟合配置表包括如下步骤：

获取激活函数；

根据预设规则选取所述激活函数的采样点；

根据所述激活函数计算各所述采样点的函数值；

6.根据权利要求5所述的方法，其特征在于，所述获取激活函数包括：

获取所述激活函数的定义域；以及

获取所述激活函数的切分段数。

7.根据权利要求5所述的方法，其特征在于，所述根据预设规则选取所述激活函数的采样点，包括：

根据所述切分段数，在每个分段中选取所述采样点。

8.根据权利要求5所述的方法，其特征在于，所述根据所述采样点以及所述采样点的函数值对所述激活函数进行拟合运算，得到拟合配置表包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述激活函数包含的各函数点的斜率；

10.根据权利要求9所述的方法，其特征在于，所述根据所述各函数点的斜率，在所述各函数点中，确定子区间的端点，包括：

11.根据权利要求9所述的方法，其特征在于，所述针对每个子区间，根据该子区间包含的各函数点的斜率和预设的分段区间端点确定规则，在该子区间包含的各函数点中，确定分段区间的端点，包括：

12.根据权利要求9所述的方法，其特征在于，所述针对每个子区间，根据该子区间包含的各函数点的斜率和预设的分段区间端点确定规则，在该子区间包含的各函数点中，确定分段区间的端点，包括：

13.根据权利要求1所述的方法，其特征在于，所述方法还包括：

14.一种数据处理装置，其特征在于，所述装置包括：

接口模块，用于获取激活函数的拟合配置表和输入数据；

15.一种板卡，其特征在于，应用于神经网络数据处理中，所述板卡包括：多个人工智能处理器，所述多个人工智能处理器对应的内存为多通道内存；其中，目标人工智能处理器用于在通过目标并行线程接收通用处理器CPU发出的人工智能处理器计算指令后，通过与所述目标并行线程对应的内存通道，根据所述人工智能处理器计算指令对所述内存通道对应的物理内存进行访问；所述目标人工智能处理器为所述多个人工智能处理器中的任一人工智能处理器，所述目标并行线程为所述CPU启动的多个并行线程中的任一个；所述多个并行线程中至少有两个线程对应不同的内存通道，所述多个人工智能处理器执行预先存储的程序指令实现权利要求1至13中任一项所述的方法步骤。

16.一种主板，其特征在于，应用于神经网络数据处理中，所述主板包括：通用处理器CPU和如权利要求15所述的板卡。

17.一种电子设备，其特征在于，应用于神经网络数据处理中，所述电子设备包括如权利要求16所述的主板。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。