CN111382390A

CN111382390A - 运算方法、装置及相关产品

Info

Publication number: CN111382390A
Application number: CN201811621258.8A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2020-07-07
Anticipated expiration: 2038-12-28
Also published as: CN111382390B

Abstract

本公开涉及一种运算方法、装置及相关产品。机器学习装置包括一个或多个指令处理装置，用于从其他处理装置中获取待处理数据和控制信息，并执行指定的机器学习运算，将执行结果通过I/O接口传递给其他处理装置；当机器学习运算装置包含多个指令处理装置时，多个指令处理装置间可以通过特定的结构进行连接并传输数据。其中，多个指令处理装置通过快速外部设备互连总线PCIE总线进行互联并传输数据；多个指令处理装置共享同一控制***或拥有各自的控制***、且共享内存或者拥有各自的内存；多个指令处理装置的互联方式是任意互联拓扑。本公开实施例所提供的运算方法、装置及相关产品的适用范围广，对指令的处理效率高、处理速度快。

Description

运算方法、装置及相关产品

技术领域

本公开涉及计算机技术领域，尤其涉及一种矩阵运算指令处理方法、装置及相关产品。

背景技术

随着科技的不断发展，机器学习，尤其是神经网络算法的使用越来越广泛。其在图像识别、语音识别、自然语言处理等领域中都得到了良好的应用。但由于神经网络算法的复杂度越来越高，所涉及的数据运算种类和数量不断增大。相关技术中，在对矩阵数据进行处理的效率低、速度慢。

发明内容

有鉴于此，本公开提出了一种矩阵运算指令处理方法、装置及相关产品，以提高对矩阵数据进行处理的效率和速度。

根据本公开的第一方面，提供了一种矩阵运算指令处理装置，所述装置包括：

控制模块，用于对接收到的矩阵运算指令进行解析，获得所述矩阵运算指令的操作码和操作域，并根据所述操作码和所述操作域确定执行所述矩阵运算指令所需的待处理数据和目标地址，以及确定与所述矩阵运算指令相对应的数据处理类型；

处理模块，用于根据所述数据处理类型对所述待处理数据进行处理，得到处理后的数据，并将所述处理后的数据存入所述目标地址中，

其中，所述操作码用于指示所述矩阵运算指令对数据所需进行的处理至少包括矩阵运算处理，

所述数据处理类型包括所述待处理数据的初始数据类型、所述处理后的数据的目标数据类型和运算类型，所述初始数据类型或所述目标数据类型为浮定点数数据类型，

所述操作域包括所述待处理数据地址和所述目标地址。

根据本公开的第二方面，提供了一种机器学习运算装置，所述装置包括：

一个或多个上述第一方面所述的矩阵运算指令处理装置，用于从其他处理装置中获取待处理数据和控制信息，并执行指定的机器学习运算，将执行结果通过I/O接口传递给其他处理装置；

当所述机器学习运算装置包含多个所述矩阵运算指令处理装置时，所述多个所述矩阵运算指令处理装置间可以通过特定的结构进行连接并传输数据；

其中，多个所述矩阵运算指令处理装置通过快速外部设备互连总线PCIE总线进行互联并传输数据，以支持更大规模的机器学习的运算；多个所述矩阵运算指令处理装置共享同一控制***或拥有各自的控制***；多个所述矩阵运算指令处理装置共享内存或者拥有各自的内存；多个所述矩阵运算指令处理装置的互联方式是任意互联拓扑。

根据本公开的第三方面，提供了一种组合处理装置，所述装置包括：

上述第二方面所述的机器学习运算装置、通用互联接口和其他处理装置；

所述机器学习运算装置与所述其他处理装置进行交互，共同完成用户指定的计算操作。

根据本公开的第四方面，提供了一种机器学习芯片，所述机器学习芯片包括上述第二方面所述的机器学习络运算装置或上述第三方面所述的组合处理装置。

根据本公开的第五方面，提供了一种机器学习芯片封装结构，该机器学习芯片封装结构包括上述第四方面所述的机器学习芯片。

根据本公开的第六方面，提供了一种板卡，该板卡包括上述第五方面所述的机器学习芯片封装结构。

根据本公开的第七方面，提供了一种电子设备，所述电子设备包括上述第四方面所述的机器学习芯片或上述第六方面所述的板卡。

根据本公开的第八方面，提供了一种矩阵运算指令处理方法，所述方法应用于矩阵运算指令处理装置，所述方法包括：

对接收到的矩阵运算指令进行解析，获得所述矩阵运算指令的操作码和操作域，并根据所述操作码和所述操作域确定执行所述矩阵运算指令所需的待处理数据和目标地址，以及确定与所述矩阵运算指令相对应的数据处理类型；

根据所述数据处理类型对所述待处理数据进行处理，得到处理后的数据，并将所述处理后的数据存入所述目标地址中，

所述操作域包括所述待处理数据地址和所述目标地址。

在一些实施例中，所述电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

在一些实施例中，所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

本公开实施例所提供的矩阵运算指令处理方法、装置及相关产品，该装置包括控制模块和处理模块。控制模块用于对接收到的矩阵运算指令进行解析，获得矩阵运算指令的操作码和操作域，并根据操作码和操作域确定执行矩阵运算指令所需的待处理数据目标地址，以及确定与矩阵运算指令相对应的数据处理类型。处理模块用于根据数据处理类型对待处理数据进行处理，得到处理后的数据，并将处理后的数据存入目标地址中。本公开实施例所提供的矩阵运算指令处理方法、装置及相关产品的适用范围广，对矩阵运算指令的处理效率高、处理速度快，能够提高矩阵数据的处理效率和速度。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的矩阵运算指令处理装置的框图。

图2示出根据本公开一实施例的矩阵运算指令处理装置的框图。

图3a、图3b示出根据本公开一实施例的组合处理装置的框图。

图4示出根据本公开一实施例的板卡的结构示意图。

图5示出根据本公开一实施例的矩阵运算指令处理方法的流程图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的矩阵运算指令处理装置的框图。如图1所示，该装置包括控制模块11和处理模块12。

控制模块11，用于对接收到的矩阵运算指令进行解析，获得矩阵运算指令的操作码和操作域，并根据操作码和操作域确定执行矩阵运算指令所需的待处理数据和目标地址，以及确定与矩阵运算指令相对应的数据处理类型。其中，数据处理类型包括待处理数据的初始数据类型和处理后的数据的目标数据类型。初始数据类型或目标数据类型为浮定点数数据类型。操作码用于指示矩阵运算指令对数据所需进行的处理至少包括矩阵运算处理。操作域包括待处理数据地址和目标地址。

处理模块12，用于根据数据处理类型对待处理数据进行处理，得到处理后的数据，并将处理后的数据存入目标地址中。

在本实施例中，控制模块可以从待处理数据地址中获取待处理数据。待处理数据地址可以是存储待处理数据的首地址等。待处理数据可以为一个或多个，在待处理数据为多个时，操作域中可以包括多个待处理数据地址，以便控制模块从多个待处理数据地址分别获取所需的待处理数据。

在本实施例中，控制模块可以通过数据输入输出单元获得指令、待处理数据，该数据输入输出单元可以为一个或多个数据I/O接口或I/O引脚。

在本实施例中，操作码可以是计算机程序中所规定的要执行操作的那一部分指令或字段(通常用代码表示)，是指令序列号，用来告知执行指令的装置具体需要执行哪一条指令。操作域可以是执行对应的指令所需的所有数据的来源，执行对应的指令所需的所有数据包括待处理数据、数据处理类型、对应的运算方法，或者存储数据处理类型、待处理数据、对应的运算方法的地址等等。对于一个指令其必须包括操作码和操作域，其中操作域至少包括待处理数据地址和目标地址。

应当理解的是，本领域技术人员可以根据需要对矩阵运算指令的指令格式以及所包含的操作码和操作域进行设置，本公开对此不作限制。

在本实施例中，该装置可以包括一个或多个控制模块，以及一个或多个处理模块，可以根据实际需要对控制模块和处理模块的数量进行设置，本公开对此不作限制。

本公开实施例所提供的矩阵运算指令处理装置，该装置包括控制模块和处理模块。控制模块用于对接收到的矩阵运算指令进行解析，获得矩阵运算指令的操作码和操作域，并根据操作码和操作域确定执行矩阵运算指令所需的待处理数据和目标地址，以及确定与矩阵运算指令相对应的数据处理类型。处理模块用于根据数据处理类型对待处理数据进行处理，得到处理后的数据，并将处理后的数据存入目标地址中。本公开实施例所提供的矩阵运算指令处理装置的适用范围广，对矩阵运算指令的处理效率高、处理速度快，能够提高矩阵数据的处理效率和速度。

在一种可能的实现方式中，操作域还可以包括数据处理类型。控制模块11，还可以用于在操作域包括数据处理类型时，根据操作域确定与矩阵运算指令相对应的数据处理类型。

在一种可能的实现方式中，操作码还可以用于指示数据处理类型。控制模块11，还可以用于在操作码用于指示数据处理类型时，根据操作码确定与矩阵运算指令相对应的数据处理类型。

在一种可能的实现方式中，可以为不同的数据处理类型设置不同的操作域代码和/或操作码代码，本公开对此不作限制。

在一种可能的实现方式中，可以预先设置默认数据处理类型。控制模块在根据矩阵运算指令的操作域和操作码无法确定当前矩阵运算指令的数据处理类型时，可以将默认数据处理类型确定为当前矩阵运算指令的数据处理类型。以使得处理模块可以根据默认数据处理类型对待处理数据进行处理。

在一种可能的实现方式中，操作域还可以包括输入量。其中，控制模块还用于在操作域中包括输入量时，从待处理数据地址中获取与输入量相对应的待处理数据。

在该实现方式中，控制模块可以从待处理数据地址中获取数据量为输入量的待处理数据。输入量可以是能够表征数据量大小的长度、宽度等信息。在操作域中不包括输入量时，控制模块可以直接将待处理数据地址中的全部数据获取为待处理数据。还可以根据预先设置的默认输入量，从待处理数据地址中获取到数据量为默认输入量的待处理数据，本公开对此不作限制。

在一种可能的实现方式中，初始数据类型可以包括定点数数据类型和浮点数数据类型中的任一种，目标数据类型可以包括浮定点数数据类型。或者，初始数据类型可以包括浮定点数数据类型，目标数据类型可以包括定点数数据类型和浮点数数据类型中的任一种。以实现不同数据类型之间的转换。

在该实现方式中，定点数数据类型的数据可以是采用定点数的表示方式进行表示的数据。定点数可以是8位、16位、32位等。浮点数数据类型的数据可以是采用浮点数的表示方式进行表示的数据。浮点数可以是8位、16位、32位等。

在一种可能的实现方式中，浮定点数数据类型是数据的一种二进制表示方式。浮定点数可以是8位、16位、32位等。浮定点数包括符号位、指数位、有效数位。浮定点数可以无符号位，也可以有符号位。

以8位二进制的浮定点数为例。当浮定点数中无符号位时，浮定点数中的各数位由右至左(由低到高)自0开始计数。浮定点数的指数位可以为最左边的数位，即指数的数位为第7位，也可以为8位中的任意其它数位。当浮定点数中有符号位时，浮定点数中的符号位为1位，指数位为1位，有效数位为6位。浮定点数中的符号位和指数位，可以位于浮定点数的8位数位中任意不重合的位置。本公开对此不做限定。

例如，浮定点数自右至左从0开始对数位进行计数，8位二进制形式的浮定点数X为：X₇X₆X₅X₄X₃X₂X₁X₀，其中X₇为符号位，X₆为指数位。X₅X₄X₃X₂X₁X₀为有效数位。

在一种可能的实现方式中，则浮定点数的值可以如下公式(1)所示：

±m·base^p+e+1＝±1.d·base^2p+e+1 公式(1)

其中，m为浮定点数的符号、base为底，通常为2。e为浮定点数的指数，p为浮定点数有效数中最高非零位的数位，d为浮定点数的有效数的小数部分。

例如，假定浮定点数为“01010101”，则浮定点数的数值为010101*2⁴⁺¹⁺¹＝1.0101*2^2*4+1+1。利用浮定点数，可以在相同位宽的情况下，浮定点数增加数据表达范围，提高矩阵数据运算的精度。

在一种可能的实现方式中，操作域还可以包括处理参数，处理参数可以包括偏移地址和处理参数中的任一种。

其中，控制模块11还可以用于在操作域包括偏移地址时，根据待处理数据地址和偏移地址，获取待处理数据。

其中，处理模块12还可以用于在操作域包括处理参数时，根据数据处理类型和处理参数，对待处理数据进行处理，得到处理后的数据。

在该实现方式中，处理参数可以是与获取待处理数据、对待处理数据进行处理相关的参数，例如，与获取待处理数据相关的偏移地址。与进行数据运算或处理相关的运算参数。本领域技术人员可以根据实际需要对处理参数所包括的内容进行设置，本公开对此不作限制。

在一种可能的实现方式中，根据数据处理类型对待处理数据进行处理，得到处理后的数据，可以包括：在初始数据类型与目标数据类型不同时，对初始数据类型的待处理数据进行数据类型转换处理，得到目标数据类型的转换后数据；根据运算类型，对转换后数据进行运算处理，得到运算结果，并将运算结果确定为处理后的数据。

在该实现方式中，先将待处理数据转换为目标数据类型的转换后数据，可以简化后续运算的处理过程，提高矩阵数据处理的速度和效率。

在一种可能的实现方式中，根据数据处理类型对待处理数据进行处理，得到处理后的数据，可以包括：在初始数据类型与目标数据类型相同时，可以直接根据运算类型，对待处理数据进行运算处理，得到运算结果，并将运算结果确定为处理后的数据。这样，简化了数据处理的过程。

在一种可能的实现方式中，矩阵运算指令的初始数据类型和/或目标数据类型可以是根据矩阵运算指令的操作域或操作码确定的，也可以是根据预先设置的矩阵运算指令的第二默认初始数据类型和第二默认目标数据类型确定的，还可以是根据矩阵运算指令的操作域或操作码、以及预先设置的第二默认初始数据类型和第二默认目标数据类型确定的，本公开对此不作限制。

其中，可以预先设置第二默认初始数据类型和第二默认目标数据类型。控制模块在根据矩阵运算指令无法确定初始数据类型和/或目标数据类型时，可以将第二默认初始数据类型和/或第二默认目标数据类型确定为当前矩阵运算指令的初始数据类型和/或目标数据类型。例如，控制模块在根据矩阵运算指令1的仅可以确定初始数据类型时，则可以将第二默认目标数据类型确定为矩阵运算指令1的目标数据类型。控制模块在根据矩阵运算指令1仅可以确定目标数据类型时，则可以将第二默认初始数据类型确定为矩阵运算指令1的初始数据类型。控制模块在根据矩阵运算指令1无法初始数据类型和目标数据类型时，则可以将第二默认初始数据类型和第二默认目标数据类型分别确定为矩阵运算指令1的初始数据类型和目标数据类型。

在一种可能的实现方式中，数据处理类型还可以包括初始位数和目标位数。其中，对初始数据类型的待处理数据进行数据类型转换处理，得到目标数据类型的转换后数据，可以包括：对初始位数、初始数据类型的待处理数据进行数据类型转换处理，得到目标位数、目标数据类型的转换后数据。

在一种可能的实现方式中，初始位数和目标位数可以是根据矩阵运算指令的操作域或操作码确定的，也可以是根据预先设置的矩阵运算指令的默认初始位数和默认目标位数确定的，还可以是根据矩阵运算指令的操作域或操作码、以及预先设置的默认初始位数和默认目标位数确定的，本公开对此不作限制。

其中，可以预先设置默认初始位数和默认目标位数。控制模块在根据矩阵运算指令无法确定初始位数和/或目标位数时，可以将默认初始位数和/或默认目标位数确定为当前矩阵运算指令的初始位数和/或目标位数。例如，控制模块在根据矩阵运算指令1的仅可以确定初始位数时，则可以将默认目标位数确定为矩阵运算指令1的目标位数。控制模块在根据矩阵运算指令1仅可以确定目标位数时，则可以将默认初始位数确定为矩阵运算指令1的初始位数。控制模块在根据矩阵运算指令1无法初始位数和目标位数时，则可以将默认初始位数和默认目标位数分别确定为矩阵运算指令1的初始位数和目标位数。

在一种可能的实现方式中，初始位数和目标位数可以是8位、16位、32位等。举例来说，可以将8位的浮定点数数据类型的待处理数据转换为16位定点数数据类型的转换后数据。可以将16位的定点数数据类型的待处理数据转换为16位浮定点数数据类型的转换后数据。可以将16位浮定点数数据类型的待处理数据转换为8位定点数数据类型的转换后数据。可以将8位定点数数据类型的待处理数据转换为16位浮定点数数据类型的转换后数据。可以将8位浮定点数数据类型的待处理数据转换为16位定点数数据类型的转换后数据。可以将16位定点数数据类型的待处理数据转换为8位浮定点数数据类型的转换后数据。可以将16位浮定点数数据类型的待处理数据转换为16位浮点数数据类型的转换后数据。可以将16位浮点数数据类型的待处理数据转换为16位浮定点数数据类型的转换后数据。可以将16位浮定点数数据类型的待处理数据转换为8位浮点数数据类型的转换后数据。可以将8位浮点数数据类型的待处理数据转换为16位浮定点数数据类型的转换后数据。可以将8位浮定点数数据类型的待处理数据转换为16位浮点数数据类型的转换后数据。可以将16位浮点数数据类型的待处理数据转换为8位浮定点数数据类型的转换后数据。

应当理解的是，本领域技术人员可以根据实际需要对矩阵运算指令中所指示的数据处理类型所包含的内容、以及初始数据类型、目标数据类型、初始位数、目标位数和运算类型在矩阵运算指令中的代码进行设置，本公开对此不作限制。

在一种可能的实现方式中，矩阵运算指令可以是对矩阵进行算术运算、逻辑运算等运算的指令。对矩阵所进行的运算可以包括对矩阵与向量、矩阵与矩阵、矩阵与标量之间所进行的运算，预设可以包括相加、相减、相乘、比较、基于对应的函数对向量进行运算等。对应的函数可以包括对数函数、指数函数、幂函数等。举例来说，矩阵运算指令可以包括矩阵加矩阵运算指令、矩阵加标量运算指令、矩阵乘矩阵运算指令、矩阵乘向量运算指令、矩阵乘标量运算指令、矩阵取对数运算指令、矩阵取指数运算指令、矩阵取最大值运算指令、矩阵取最小值运算指令、矩阵取各行最大值指令、矩阵取各行最小值指令、矩阵取各列最大值指令、矩阵取各列最小值运算指令中的至少一种。

图2示出根据本公开一实施例的矩阵运算指令处理装置的框图。在一种可能的实现方式中，如图2所示，处理模块12可以包括至少一个运算器121，该运算器121用于执行与运算类型相对应的运算。运算器可以包括加法器、乘法器、除法器、激活运算器等，本公开对此不作限制。

在一种可能的实现方式中，如图2所示，该装置还可以包括存储模块13。存储模块13用于存储待处理数据。

在该实现方式中，存储模块可以包括内存、缓存和寄存器中的一种或多种，缓存可以包括速暂存缓存。可以根据需要将待处理数据在存储模块中的内存、缓存和/或寄存器中，本公开对此不作限制。

在一种可能的实现方式中，该装置还可以包括直接内存访问模块，用于从存储模块中读取或者存储数据。

在一种可能的实现方式中，如图2所示，控制模块11可以包括指令存储子模块111、指令处理子模块112和队列存储子模块113。

指令存储子模块111用于存储矩阵运算指令。

指令处理子模块112用于对矩阵运算指令进行解析，得到矩阵运算指令的操作码和操作域。

队列存储子模块113用于存储指令队列，指令队列包括按照执行顺序依次排列的多个待执行指令，多个待执行指令可以包括矩阵运算指令。多个待执行指令可以包括还可以包括与矩阵运算指令相关的其他矩阵运算指令。

在该实现方式中，可以根据待执行指令的接收时间、优先级别等对多个待执行指令的执行顺序进行排列获得指令队列，以便于根据指令队列依次执行多个待执行指令。

在一种可能的实现方式中，如图2所示，控制模块11还可以包括依赖关系处理子模块114。

依赖关系处理子模块114，用于在确定多个待执行指令中的第一待执行指令与第一待执行指令之前的第零待执行指令存在关联关系时，将第一待执行指令缓存在指令存储子模块112中，在第零待执行指令执行完毕后，从指令存储子模块112中提取第一待执行指令发送至处理模块12。其中，第一待执行指令和第零待执行指令是多个待执行指令中的指令。

其中，第一待执行指令与第一待执行指令之前的第零待执行指令存在关联关系包括：存储第一待执行指令所需数据的第一存储地址区间与存储第零待执行指令所需数据的第零存储地址区间具有重叠的区域。反之，第一待执行指令与第零待执行指令之间没有关联关系可以是第一存储地址区间与第零存储地址区间没有重叠区域。

通过这种方式，可以根据待执行指令之间的依赖关系，使得在先的待执行令执行完毕之后，再执行在后的待执行指令，保证运算结果的准确性。

在本实施例中，可以为不同的矩阵运算指令设置不同的操作码的代码或标识，以区分不同的矩阵运算指令。

在一种可能的实现方式中，矩阵运算指令的指令格式可以是：

FY,IN,OUT,size,type4,type1.type2,a.b,pa

其中，FY为操作码，IN、OUT、size、type1.type2、a.b、pa为操作域。FY表示该指令为矩阵运算指令。type1.type2中的type1表示初始数据类型，type1.type2中的type2表示目标数据类型。a.b中的a表示初始位数，a.b中的b表示目标位数。type4表示运算类型。IN表示待处理数据地址。OUT表示目标地址。size表示输入量。pa为处理参数，在处理参数为多个时，可以在指令中设置pa0、pa1…、pan多个位置，以指示不同的处理参数；或者也可以采用pa0.pa1.….pan的形式表示多个处理参数。type1.type2、a.b、size、pa可缺省。

FY,IN,OUT,size,type4,pa

其中，FY为操作码，IN、OUT、size、pa为操作域。FY表示该指令为矩阵运算指令。type4表示运算类型。IN表示待处理数据地址。OUT表示目标地址。size表示输入量。pa为处理参数，在处理参数为多个时，可以在指令中设置pa0、pa1…、pan多个位置，以指示不同的处理参数；或者也可以采用pa0.pa1.….pan的形式表示多个处理参数。size、pa可缺省。

type4,IN,OUT,size,pa

其中，type4为操作码，IN、OUT、size、pa为操作域。type4表示该指令为矩阵运算指令，且表示该矩阵运算指令的运算类型。IN表示待处理数据地址。OUT表示目标地址。size表示输入量。pa为处理参数，在处理参数为多个时，可以在指令中设置pa0、pa1…、pan多个位置，以指示不同的处理参数；或者也可以采用pa0.pa1.….pan的形式表示多个处理参数。size、pa可缺省。

FY,IN,OUT,size,type5,pa

其中，FY为操作码，IN、OUT、type5、size、pa为操作域。FY表示该指令为矩阵运算指令。type5表示数据处理类型，该数据处理类型包括指定的初始位数、初始数据类型、目标位数、目标数据类型以及运算类型。IN表示待处理数据地址。OUT表示目标地址。size表示输入量。pa为处理参数，在处理参数为多个时，可以在指令中设置pa0、pa1…、pan多个位置，以指示不同的处理参数；或者也可以采用pa0.pa1.….pan的形式表示多个处理参数。size、pa可缺省。

type5,IN,OUT,size,pa

其中，type5为操作码，IN、OUT、size、pa为操作域。type5表示该指令为矩阵运算指令，且表示数据处理类型，该数据处理类型包括指定的初始位数、初始数据类型、目标位数、目标数据类型以及运算类型。IN表示待处理数据地址。OUT表示目标地址。size表示输入量。pa为处理参数，在处理参数为多个时，可以在指令中设置pa0、pa1…、pan多个位置，以指示不同的处理参数；或者也可以采用pa0.pa1.….pan的形式表示多个处理参数。size、pa可缺省。

其中，在待处理数据为多个时，矩阵运算指令中可以包括多个待处理数据地址，以待处理数据为两个为例，其指令格式可以为以下任一种：

FY,IN1,IN2,OUT,size,type4,type1.type2,a.b,pa

FY,IN1,IN2,OUT,size,type4,pa

type4,IN1,IN2,OUT,size,pa

FY,IN1,IN2,OUT,size,type4,pa

FY,IN1,IN2,OUT,size,type5,pa

type5,IN1,IN2,OUT,size,pa

其中，IN1为第一待处理数据地址，IN2为第二待处理数据地址。

下述表格1-2为本公开实施例提供的不同矩阵运算指令的示例。本领域技术人员可以根据实际需要对矩阵运算指令的操作码的代码或标识、以及矩阵运算指令的操作域中不同参数的位置进行设置，本公开对此不作限制。

表1矩阵运算指令示例1

表2矩阵运算指令示例2

应当理解的是，本领域技术人员可以根据需要对矩阵运算指令的操作码、指令格式中操作码以及操作域的位置进行设置，本公开对此不作限制。

在一种可能的实现方式中，该装置可以设置于图形处理器(Graphics ProcessingUnit，简称GPU)、中央处理器(Central Processing Unit，简称CPU)和嵌入式神经网络处理器(Neural-network Processing Unit，简称NPU)的一种或多种之中。

需要说明的是，尽管以上述实施例作为示例介绍了矩阵运算指令处理装置如上，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据个人喜好和/或实际应用场景灵活设定各模块，只要符合本公开的技术方案即可。

本公开提供一种机器学习运算装置，该机器学习运算装置可以包括一个或多个上述矩阵运算指令处理装置，用于从其他处理装置中获取待处理数据和控制信息，执行指定的机器学习运算。该机器学习运算装置可以从其他机器学习运算装置或非机器学习运算装置中获得矩阵运算指令，并将执行结果通过I/O接口传递给***设备(也可称其他处理装置)。***设备譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口，服务器。当包含一个以上矩阵运算指令处理装置时，矩阵运算指令处理装置间可以通过特定的结构进行链接并传输数据，譬如，通过PCIE总线进行互联并传输数据，以支持更大规模的神经网络的运算。此时，可以共享同一控制***，也可以有各自独立的控制***；可以共享内存，也可以每个加速器有各自的内存。此外，其互联方式可以是任意互联拓扑。

该机器学习运算装置具有较高的兼容性，可通过PCIE接口与各种类型的服务器相连接。

图3a示出根据本公开一实施例的组合处理装置的框图。如图3a所示，该组合处理装置包括上述机器学习运算装置、通用互联接口和其他处理装置。机器学习运算装置与其他处理装置进行交互，共同完成用户指定的操作。

其他处理装置，包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为机器学习运算装置与外部数据和控制的接口，包括数据搬运，完成对本机器学习运算装置的开启、停止等基本控制；其他处理装置也可以和机器学习运算装置协作共同完成运算任务。

通用互联接口，用于在机器学习运算装置与其他处理装置间传输数据和控制矩阵运算指令。该机器学习运算装置从其他处理装置中获取所需的输入数据，写入机器学习运算装置片上的存储装置；可以从其他处理装置中获取控制矩阵运算指令，写入机器学习运算装置片上的控制缓存；也可以读取机器学习运算装置的存储模块中的数据并传输给其他处理装置。

图3b示出根据本公开一实施例的组合处理装置的框图。在一种可能的实现方式中，如图3b所示，该组合处理装置还可以包括存储装置，存储装置分别与机器学习运算装置和其他处理装置连接。存储装置用于保存在机器学习运算装置和其他处理装置的数据，尤其适用于所需要运算的数据在本机器学习运算装置或其他处理装置的内部存储中无法全部保存的数据。

该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上***，有效降低控制部分的核心面积，提高处理速度，降低整体功耗。此情况时，该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口。

本公开提供一种机器学习芯片，该芯片包括上述机器学习运算装置或组合处理装置。

本公开提供一种机器学习芯片封装结构，该机器学习芯片封装结构包括上述机器学习芯片。

本公开提供一种板卡，图4示出根据本公开一实施例的板卡的结构示意图。如图4所示，该板卡包括上述机器学习芯片封装结构或者上述机器学习芯片。板卡除了包括机器学习芯片389以外，还可以包括其他的配套部件，该配套部件包括但不限于：存储器件390、接口装置391和控制器件392。

存储器件390与机器学习芯片389(或者机器学习芯片封装结构内的机器学习芯片)通过总线连接，用于存储数据。存储器件390可以包括多组存储单元393。每一组存储单元393与机器学习芯片389通过总线连接。可以理解，每一组存储单元393可以是DDR SDRAM(英文：Double Data Rate SDRAM，双倍速率同步动态随机存储器)。

DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。

在一个实施例中，存储器件390可以包括4组存储单元393。每一组存储单元393可以包括多个DDR4颗粒(芯片)。在一个实施例中，机器学习芯片389内部可以包括4个72位DDR4控制器，上述72位DDR4控制器中64bit用于传输数据，8bit用于ECC校验。可以理解，当每一组存储单元393中采用DDR4-3200颗粒时，数据传输的理论带宽可达到25600MB/s。

在一个实施例中，每一组存储单元393包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在机器学习芯片389中设置控制DDR的控制器，用于对每个存储单元393的数据传输与数据存储的控制。

接口装置391与机器学习芯片389(或者机器学习芯片封装结构内的机器学习芯片)电连接。接口装置391用于实现机器学习芯片389与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中，接口装置391可以为标准PCIE接口。比如，待处理的数据由服务器通过标准PCIE接口传递至机器学习芯片289，实现数据转移。优选的，当采用PCIE 3.0X 16接口传输时，理论带宽可达到16000MB/s。在另一个实施例中，接口装置391还可以是其他的接口，本公开并不限制上述其他的接口的具体表现形式，接口装置能够实现转接功能即可。另外，机器学习芯片的计算结果仍由接口装置传送回外部设备(例如服务器)。

控制器件392与机器学习芯片389电连接。控制器件392用于对机器学习芯片389的状态进行监控。具体的，机器学习芯片389与控制器件392可以通过SPI接口电连接。控制器件392可以包括单片机(Micro Controller Unit，MCU)。如机器学习芯片389可以包括多个处理芯片、多个处理核或多个处理电路，可以带动多个负载。因此，机器学习芯片389可以处于多负载和轻负载等不同的工作状态。通过控制器件可以实现对机器学习芯片中多个处理芯片、多个处理和/或多个处理电路的工作状态的调控。

本公开提供一种电子设备，该电子设备包括上述机器学习芯片或板卡。

电子设备可以包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

交通工具可以包括飞机、轮船和/或车辆。家用电器可以包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机。医疗设备可以包括核磁共振仪、B超仪和/或心电图仪。

图5示出根据本公开一实施例的矩阵运算指令处理方法的流程图。如图5所示，该方法应用于上述矩阵运算指令处理装置，该方法包括步骤S51和步骤S52。

在步骤S51中，对接收到的矩阵运算指令进行解析，获得矩阵运算指令的操作码和操作域，并根据操作码和操作域确定执行矩阵运算指令所需的待处理数据和目标地址，以及确定与矩阵运算指令相对应的数据处理类型。其中，操作码用于指示矩阵运算指令对数据所需进行的处理至少包括矩阵运算处理。数据处理类型包括待处理数据的初始数据类型、处理后的数据的目标数据类型和运算类型，初始数据类型或目标数据类型为浮定点数数据类型。操作域包括待处理数据地址和目标地址。

在步骤S52中，根据数据处理类型对待处理数据进行处理，得到处理后的数据，并将处理后的数据存入目标地址中。

在一种可能的实现方式中，操作域还可以包括数据处理类型。其中，确定与矩阵运算指令相对应的数据处理类型，可以包括：在操作域包括数据处理类型时，根据操作域确定与矩阵运算指令相对应的数据处理类型。

在一种可能的实现方式中，操作码还可以用于指示数据处理类型。其中，确定与矩阵运算指令相对应的数据处理类型，可以包括：在操作码用于指示数据处理类型时，根据操作码确定与矩阵运算指令相对应的数据处理类型。

在一种可能的实现方式中，操作域还可以包括输入量。其中，根据操作码和操作域确定执行矩阵运算指令所需的待处理数据和目标地址，可以包括：在操作域中包括输入量时，从待处理数据地址中获取与输入量相对应的待处理数据。

在一种可能的实现方式中，操作域还可以包括处理参数，处理参数包括偏移地址和处理参数中的任一种。

其中，根据操作码和操作域确定执行矩阵运算指令所需的待处理数据和目标地址，可以包括：在操作域包括偏移地址时，根据待处理数据地址和偏移地址，获取待处理数据，

其中，根据数据处理类型对待处理数据进行处理，得到处理后的数据，可以包括：在操作域包括处理参数时，根据数据处理类型和处理参数，对待处理数据进行处理，得到处理后的数据。

在一种可能的实现方式中，根据数据处理类型对待处理数据进行处理，得到处理后的数据，可以包括：

在初始数据类型与目标数据类型不同时，对初始数据类型的待处理数据进行数据类型转换处理，得到目标数据类型的转换后数据；

根据运算类型，对转换后数据进行运算处理，得到运算结果，并将运算结果确定为处理后的数据。

在一种可能的实现方式中，该方法还可以包括：利用至少一个运算器执行与运算类型相对应的运算。

在一种可能的实现方式中，该方法还可以包括：存储待处理数据。

在一种可能的实现方式中，对接收到的矩阵运算指令进行解析，获得矩阵运算指令的操作码和操作域，可以包括：

存储矩阵运算指令；

对矩阵运算指令进行解析，得到矩阵运算指令的操作码和操作域；

存储指令队列，指令队列包括按照执行顺序依次排列的多个待执行指令，多个待执行指令可以包括矩阵运算指令。

在一种可能的实现方式中，该方法还可以包括：

在确定多个待执行指令中的第一待执行指令与第一待执行指令之前的第零待执行指令存在关联关系时，缓存第一待执行指令，并在确定第零待执行指令执行完毕后，控制进行第一待执行指令的执行，

其中，第一待执行指令与第一待执行指令之前的第零待执行指令存在关联关系包括：

存储第一待执行指令所需数据的第一存储地址区间与存储第零待执行指令所需数据的第零存储地址区间具有重叠的区域。

需要说明的是，尽管以上述实施例作为示例介绍了矩阵运算指令处理方法如上，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据个人喜好和/或实际应用场景灵活设定各步骤，只要符合本公开的技术方案即可。

本公开实施例所提供的矩阵运算指令处理方法的适用范围广，对矩阵运算指令的处理效率高、处理速度快，能够提高矩阵数据的处理效率和速度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本公开所提供的实施例中，应该理解到，所揭露的***、装置，可通过其它的方式实现。例如，以上所描述的***、装置实施例仅仅是示意性的，例如设备、装置、模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个***或装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备、装置或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

集成的模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种矩阵运算指令处理装置，其特征在于，所述装置包括：

所述操作域包括所述待处理数据地址和所述目标地址。

2.根据权利要求1所述的装置，其特征在于，所述操作域还包括所述数据处理类型，

所述控制模块，还用于在所述操作域包括所述数据处理类型时，根据所述操作域确定与所述矩阵运算指令相对应的数据处理类型。

3.根据权利要求1所述的装置，其特征在于，所述操作码还用于指示所述数据处理类型，

所述控制模块，还用于在所述操作码用于指示所述数据处理类型时，根据所述操作码确定与所述矩阵运算指令相对应的数据处理类型。

4.根据权利要求1所述的装置，其特征在于，所述操作域还包括输入量，

其中，所述控制模块还用于在所述操作域中包括输入量时，从所述待处理数据地址中获取与所述输入量相对应的待处理数据。

5.根据权利要求1所述的装置，其特征在于，所述操作域还包括处理参数，所述处理参数包括偏移地址和处理参数中的任一种，

其中，所述控制模块，还用于在所述操作域包括所述偏移地址时，根据待处理数据地址和所述偏移地址，获取所述待处理数据，

其中，所述处理模块，还用于在所述操作域包括所述处理参数时，根据所述数据处理类型和所述处理参数，对所述待处理数据进行处理，得到处理后的数据。

6.根据权利要求1所述的装置，其特征在于，根据所述数据处理类型对所述待处理数据进行处理，得到处理后的数据，包括：

在所述初始数据类型与所述目标数据类型不同时，对初始数据类型的待处理数据进行数据类型转换处理，得到目标数据类型的转换后数据；

根据所述运算类型，对所述转换后数据进行运算处理，得到运算结果，并将所述运算结果确定为所述处理后的数据。

7.根据权利要求6所述的装置，其特征在于，所述数据处理类型还包括初始位数和目标位数，

其中，对初始数据类型的待处理数据进行数据类型转换处理，得到目标数据类型的转换后数据，包括：

对初始位数、初始数据类型的待处理数据进行数据类型转换处理，得到目标位数、目标数据类型的转换后数据。

8.根据权利要求1所述的装置，其特征在于，所述处理模块，包括：

至少一个运算器，用于执行与所述运算类型相对应的运算。

9.根据权利要求1所述的装置，其特征在于，

所述装置还包括：存储模块，用于存储所述待处理数据，

其中，所述控制模块，包括：

指令存储子模块，用于存储所述矩阵运算指令；

指令处理子模块，用于对所述矩阵运算指令进行解析，得到所述矩阵运算指令的操作码和操作域；

队列存储子模块，用于存储指令队列，所述指令队列包括按照执行顺序依次排列的多个待执行指令，所述多个待执行指令包括所述矩阵运算指令，

其中，所述控制模块，还包括：

依赖关系处理子模块，用于在确定所述多个待执行指令中的第一待执行指令与所述第一待执行指令之前的第零待执行指令存在关联关系时，将所述第一待执行指令缓存在所述指令存储子模块中，在所述第零待执行指令执行完毕后，从所述指令存储子模块中提取所述第一待执行指令发送至所述处理模块，

其中，所述第一待执行指令与所述第一待执行指令之前的第零待执行指令存在关联关系包括：

存储所述第一待执行指令所需数据的第一存储地址区间与存储所述第零待执行指令所需数据的第零存储地址区间具有重叠的区域。

10.一种机器学习运算装置，其特征在于，所述装置包括：

一个或多个如权利要求1-9任一项所述的矩阵运算指令处理装置，用于从其他处理装置中获取待处理数据和控制信息，并执行指定的机器学习运算，将执行结果通过I/O接口传递给其他处理装置；

11.一种组合处理装置，其特征在于，所述组合处理装置包括：

如权利要求10所述的机器学习运算装置、通用互联接口和其他处理装置；

所述机器学习运算装置与所述其他处理装置进行交互，共同完成用户指定的计算操作，

其中，所述组合处理装置还包括：存储装置，该存储装置分别与所述机器学习运算装置和所述其他处理装置连接，用于保存所述机器学习运算装置和所述其他处理装置的数据。

12.一种机器学习芯片，其特征在于，所述机器学习芯片包括：

如权利要求10所述的机器学习运算装置或如权利要求14所述的组合处理装置。

13.一种电子设备，其特征在于，所述电子设备包括：

如权利要求12所述的机器学习芯片。

14.一种板卡，其特征在于，所述板卡包括：存储器件、接口装置和控制器件以及如权利要求12所述的机器学习芯片；

其中，所述机器学习芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；

所述存储器件，用于存储数据；

所述接口装置，用于实现所述机器学习芯片与外部设备之间的数据传输；

所述控制器件，用于对所述机器学习芯片的状态进行监控。

15.一种矩阵运算指令处理方法，其特征在于，所述方法应用于矩阵运算指令处理装置，所述方法包括：

所述操作域包括所述待处理数据地址和所述目标地址。

16.根据权利要求15所述的方法，其特征在于，所述操作域还包括所述数据处理类型，

其中，确定与所述矩阵运算指令相对应的数据处理类型，包括：

在所述操作域包括所述数据处理类型时，根据所述操作域确定与所述矩阵运算指令相对应的数据处理类型。

17.根据权利要求15所述的方法，其特征在于，所述操作码还用于指示所述数据处理类型，

在所述操作码用于指示所述数据处理类型时，根据所述操作码确定与所述矩阵运算指令相对应的数据处理类型。

18.根据权利要求15所述的方法，其特征在于，所述操作域还包括输入量，

其中，根据所述操作码和所述操作域确定执行所述矩阵运算指令所需的待处理数据和目标地址，包括：

在所述操作域中包括输入量时，从所述待处理数据地址中获取与所述输入量相对应的待处理数据。

19.根据权利要求15所述的装置，其特征在于，所述操作域还包括处理参数，所述处理参数包括偏移地址和处理参数中的任一种，

其中，根据所述操作码和所述操作域确定执行所述矩阵运算指令所需的待处理数据和目标地址，包括：在所述操作域包括所述偏移地址时，根据待处理数据地址和所述偏移地址，获取所述待处理数据，

其中，根据所述数据处理类型对所述待处理数据进行处理，得到处理后的数据，包括：在所述操作域包括所述处理参数时，根据所述数据处理类型和所述处理参数，对所述待处理数据进行处理，得到处理后的数据。

20.根据权利要求15所述的方法，其特征在于，根据所述数据处理类型对所述待处理数据进行处理，得到处理后的数据，包括：

21.根据权利要求20所述的方法，其特征在于，所述数据处理类型还包括初始位数和目标位数，

22.根据权利要求15所述的方法，其特征在于，所述方法还包括：

利用至少一个运算器执行与所述运算类型相对应的运算。

23.根据权利要求15所述的方法，其特征在于，

所述方法还包括：存储所述待处理数据，

其中，对接收到的矩阵运算指令进行解析，获得所述矩阵运算指令的操作码和操作域，包括：

存储所述矩阵运算指令；

对所述矩阵运算指令进行解析，得到所述矩阵运算指令的操作码和操作域；

存储指令队列，所述指令队列包括按照执行顺序依次排列的多个待执行指令，所述多个待执行指令包括所述矩阵运算指令，

其中，所述方法还包括：

在确定所述多个待执行指令中的第一待执行指令与所述第一待执行指令之前的第零待执行指令存在关联关系时，缓存所述第一待执行指令，并在确定所述第零待执行指令执行完毕后，控制进行所述第一待执行指令的执行，