CN117725963A

CN117725963A - 一种用于Transformer模型推理计算的方法、***及装置

Info

Publication number: CN117725963A
Application number: CN202311482067.9A
Authority: CN
Inventors: 章明星; 武永卫; 陈劭源
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-03-19

Abstract

本发明提供了一种用于Transformer模型推理计算的方法，所述方法包括：将一个Transformer模型的计算图切分为由计算子图和注意力算子交替串接的结构；使用两种不同型号或不同种类的计算设备，进行推理计算的过程。本发明还公开了用于Transformer模型推理计算的***及装置。本发明通过将Transformer模型进行切分，并且针对不同的部分采用不同类型的设备进行计算，可以显著提高硬件资源的利用率，降低成本。

Description

一种用于Transformer模型推理计算的方法、***及装置

技术领域

本发明属于计算机技术领域，尤其涉及一种用于Transformer模型推理的计算方法、***及装置。

背景技术

目前大模型多基于Transformer模型进行构建。Transformer模型是一种包含有注意力机制和前馈神经网络的机器学习模型。Transformer模型的推理是指，针对一个Transformer模型，在获得用户的输入数据后，将数据输入到推理***中进行计算，并获得计算结果的过程。

针对较大的Transformer模型的推理，目前通常采用的方法是，使用同种类型的一个或多个计算设备进行推理。即在模型规模相对较小时，采用单个计算设备完成整个模型的推理过程；当模型规模相对较大时，将模型整体切分为待串行处理的若干个部分(第1部分、第2部分……、第n部分)，其中，模型输入和第1部分由第1个计算设备处理，第1部分的计算结果和模型第2部分由同类型的第2个计算设备处理，以此类推，直到获取最后第n部分的计算结果作为整个模型的计算结果。

现有Transformer模型都是采用同种类型的计算设备完成整个推理过程，然而，Transformer模型的不同部分对计算设备的不同性能指标有着不同的需求。因此，仅使用单一类型的计算设备进行Transformer模型的推理，特别是对于规模较大的Transformer模型(如大型神经网络，大型语言模型)的推理计算，难以持续地达到计算设备较高的资源使用率，因而产生了推理效率较低、总体成本较高的问题。

针对如何在Transformer模型推理计算中提高计算效率和计算设备的资源使用率、降低计算成本方面，目前尚无有效方法。

发明内容

本发明的目的在于解决现有Transformer模型推理效率较低，计算设备资源使用率较低、成本较高的问题，提出了一种用于Transformer模型推理计算的方法、***及装置，将一个Transformer模型的计算图切分为由计算子图和注意力算子交替串接的结构，其中的计算子图部分采用第一种类型的计算设备计算，注意力算子采用第二种类型的设备计算。

本发明通过以下方案实现：

一种用于Transformer模型推理计算的方法，所述方法包括：将一个Transformer模型的计算图切分为由计算子图和注意力算子交替串接的结构；使用两种不同型号或不同种类的计算设备，进行推理计算的过程。

进一步地，所述注意力算子的输入数据规模增长时，其计算量的增长速度不会超过输入数据规模的增长速度。

进一步地，所述由注意力算子和由计算子图交替串接的结构，包括n+1个计算子图和n个注意力算子，n为自然数；所述计算设备为A型计算设备和B型计算设备；所述推理计算的过程包括：

将多组推理请求的输入数据合并拷贝到A型计算设备上，进行计算子图1的推理计算，并获取计算结果；将计算子图1的推理计算结果拆分为若干部分，分别拷贝到数量上对应的若干个B型计算设备上并进行注意力算子1的推理计算，获取计算结果；将多个请求对应的注意力算子1的输出结果合并后拷贝到A型计算设备上，进行计算子图2的推理计算，并获取计算结果；以此类推，直到得到计算子图n+1的推理计算结果；将计算子图n+1的推理计算结果拆分为单个推理结果，作为对应推理请求在整个模型上推理计算的结果。

更进一步地，所述A型计算设备的计算能力总和强于所述B型计算设备；所述B型计算设备的存储器的存储空间总和大于所述A型计算设备的存储器。

进一步地，所述A型计算设备和B型计算设备包括：CPU、GPU、TPU、FPGA、ASIC、带有计算功能的存储器模块，以及CPU、GPU、TPU、FPGA、ASIC、带有计算功能的存储器模块通过高速总线/网络互联形成的整体。

本发明还提供了一种用于Transformer模型推理计算的***，所述***由模型切分模块、调度模块、A型推理计算模块、B型推理计算模块构成；模型切分模块将Transformer模型的计算图切分为由注意力算子和计算子图交替串接的结构；根据模型切分的结果，构建由调度模块、A型推理计算模块、B型推理计算模块连接形成的推理***。

进一步地，所述A型推理计算模块包括A型计算设备，B型推理计算模块包括B型计算设备。

进一步地，每个所述计算子图都有一个对应的调度模块。

更进一步地，计算子图1对应的调度模块1负责收集整个Transformer模型的推理请求，当达到预设条件并且计算子图1对应的A型计算设备空闲时，将推理请求的输入合并拷贝到A型计算设备上，同时通知对应的A型推理计算模块驱动A型设备进行计算子图1的计算；计算子图1的计算完成后，A型设备计算模块将计算结果拆分，并且等待注意力算子1对应的B型计算设备空闲时，将计算结果拷贝至B型计算设备上，并通知对应的B型推理计算模块驱动B型计算设备进行计算；该B型推理计算模块收到通知时，进行注意力算子1的计算，随后将计算结果发送给计算子图2的调度模块2；依次类推，直到计算子图n+1的A型推理计算模块得到计算结果后，将计算结果拆分，得到各个推理请求对应的推理结果。

本发明另外提供了一种用于Transformer模型推理计算的装置，所述装置包含存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时实现前述的用于Transformer模型推理计算的方法和用于Transformer模型推理计算的***。

本发明通过将Transformer模型进行切分，并且针对不同的推理计算部分采用不同类型的计算设备进行计算，相比原有方法中采用同种设备进行推理，可以显著提高硬件资源的利用率，提升了计算速度，并降低了推理计算的成本。尤其是针对于大模型(例如大型神经网络、大型语言模型)的推理能取得很好的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明中Transformer模型的计算图的切分示意图。

图2示出了本发明一个实施例用于Transformer模型推理计算的流程示意图；

图3示出了本发明提供的一种用于Transformer模型推理计算的***框图；

图4示出了由n个Transformer块组成的Transformer模型的切分示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种用于Transformer模型推理计算的方法，首先将一个Transformer模型的计算图切分为由计算子图和注意力算子交替串接的结构，如附图1所示。其中，注意力算子是含有形如

计算部分的算子，其中，Q为查询向量或多个查询向量构成的查询矩阵，K,V为键矩阵和值矩阵，d_k为向量的维数。

需要说明的是，注意力算子是在机器学习中的一类对一组输入向量动态地分配权重并将其加以组合得到输出的算子。虽然注意力算子有很多变种和改进，但这些变种和改进均具有下述特征：其计算复杂度都不超过线性，即当该算子的输入数据规模增长时，该算子的计算量的增长速度不会超过输入数据规模的增长速度。

之后，在一个最佳实施例中，使用两种不同型号或不同种类的计算设备，称为A型计算设备和B型计算设备，进行推理计算的过程。如附图2所示。

结合参见附图1和附图2，切分后的Transformer模型推理计算的过程如下：

(1)将多组推理请求的输入数据合并拷贝到A型计算设备上，进行计算子图1的推理计算，并获取计算结果；

(2)将计算子图1的推理计算结果拆分为若干部分，分别拷贝到数量上对应的若干个B型计算设备上并进行注意力算子1的推理计算，获取计算结果；

当然，本领域技术人员可以理解，本实施例中计算子图1的推理计算结果也可以不拆分，直接输出到一台B型计算设备上并进行注意力算子1的推理计算，获取计算结果。即本发明的重点在于使用不同类型的计算设备对Transformer模型的切分结果进行推理计算，根据数据计算的特殊需要选择具有相适应性能指标的计算设备，以提高推理计算速度。

(3)将多个请求对应的注意力算子1的输出结果合并后拷贝到A型计算设备上，进行计算子图2的推理计算，并获取计算结果；

(4)以此类推，直到得到计算子图n+1的推理计算结果。将计算子图n+1的推理计算结果拆分为单个推理结果，作为对应推理请求在整个模型上推理计算的结果。

通常而言，Transformer模型进行推理时，注意力算子对计算设备的存储容量和带宽有较高的需求，而其他部分如计算子图对计算设备的计算能力有较高的要求。为了达到提高设备使用率，减少计算时间的目的，上述最佳实施例中的A型计算设备通常采用计算能力较强的设备，B型计算设备通常采用具有较大存储空间和较大带宽存储器的设备。或者说，A型计算设备的计算能力总和(数量大于等于1台)强于B型计算设备；B型计算设备的存储空间总和(数量大于等于1台)大于A型计算设备。

前述的A型计算设备和B型计算设备包括但不限于：CPU(central processingunit，中央处理器)、GPU(graphics processing unit,图形处理器)、TPU(tensorprocessing unit，张量处理器)、FPGA(field programmable gate array，现场可编程门阵列)、ASIC(Application Specific Integrated Circuit，专用集成电路)、带有计算功能的存储器模块等，以及它们通过高速总线/网络互联形成的整体。带有计算功能的存储器模块通常采取称为“存内计算”(Processing-in-memory,PIM)或者“近存计算”(Near-memoryprocessing)的技术，其基本特征是，在存储芯片内部增加计算电路或者在存储芯片附近增加与之互联的计算芯片，相比通常的存储器件(只能提供读、写功能)能提供一定的计算能力，该类产品尤其适合作为本发明的B型计算设备。

如附图3所示，本发明还提供了一种用于Transformer模型推理计算的***。该***由模型切分模块、调度模块、A型推理计算模块、B型推理计算模块构成。

模型切分模块将Transformer模型的计算图切分为由注意力算子和计算子图交替串接的结构。

然后，根据模型切分的结果，构建由调度模块、A型推理计算模块、B型推理计算模块连接形成的推理***。

A型推理计算模块包括A型计算设备，B型推理计算模块包括B型计算设备。

参见附图3，每个计算子图都有一个对应的调度模块。计算子图1对应的调度模块1负责收集整个Transformer模型的推理请求(请求1，请求2，……请求k)，当达到预设条件(请求超过一定数量或者经过某一预设时间)并且计算子图1对应的A型计算设备空闲时，将推理请求的输入合并拷贝到A型计算设备上，同时通知对应的A型推理计算模块驱动A型设备进行计算子图1的计算；计算子图1的计算完成后，A型设备计算模块将计算结果拆分，并且等待注意力算子1对应的B型计算设备空闲时，将计算结果拷贝至B型计算设备上，并通知对应的B型推理计算模块驱动B型计算设备进行计算；该B型推理计算模块收到通知时，进行注意力算子1的计算，随后将计算结果发送给计算子图2的调度模块2。依次类推，直到计算子图n+1的A型推理计算模块得到计算结果后，将计算结果拆分，得到各个推理请求(请求1，请求2，……请求k)对应的推理结果。

附图3所示的实施例中，A型计算设备用于计算子图的推理计算，B型计算设备用于注意力算子的推理计算。但是在具体应用场景中，本领域技术人员可以根据数据计算对设备特性需求的实际情况灵活选择计算设备。

此外，本发明还提供了一种用于Transformer模型推理计算的装置，包含存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述用于Transformer模型推理计算的方法和***。

实施例1

附图4示出了由n个Transformer块组成的Transformer模型的切分示意图。

对于由n个Transformer块组成的示例性的Transformer模型，其中每个Transformer块由第1线性变换算子、注意力算子、第2线性变换算子和前馈神经网络构成。针对该实施例的Transformer模型，使用本发明进行推理计算的过程如下。

使用前述切分模块将上述实施例的Transformer模型进行切分，得到如下切分结果：

第1计算子图包括Transformer块1中的第1线性变换算子；

第1注意力算子为Transformer块1中的注意力算子；

第2计算子图包括Transformer1块中的第2线性变换算子、前馈神经网络算子和Transformer块2中的第1线性变换算子；

第2注意力算子为Transformer块2中的注意力算子；

……

第n计算子图包括Transformer块n-1中的第2线性变换算子、前馈神经网络算子和Transformer块n中的第1线性变换算子；

第n注意力算子为Transformer块n中的注意力算子；

第n+1计算子图包括Transformer块n中的第2线性变换算子、前馈神经网络算子。

根据上述切分结果，采用GPU作为A型计算设备，采用CPU和与之互联的RAM作为B型计算设备，构建由n个调度模块、n+1个A型推理计算模块、n组B型推理计算模块组构成的推理***，每组B型推理计算模块组包含m个B型推理计算模块。每个A型推理计算模块使用1个A型技术设备进行计算，每个B型推理计算模块使用1个B型设计算备进行计算。

推理计算***进行推理的过程如下：

首先，第1线性变换算子对应的调度模块1收集推理请求，待请求数量达到预设值(如100)并且第1个A型推理计算模块对应的A型计算设备上空闲时，将所有输入合并后拷贝待第1个A型推理计算模块对应的A型设备上，通知第1个A型推理计算模块。

第1个A型推理计算模块收到通知后，进行计算子图1、即Transformer块1中的第1线性变换算子的计算，并将结果拆分为m份，分别拷贝到第1组B型推理计算模块中的第1～m个B型计算设备，并分别通知对应的B型推理计算模块。

第1组B型推理模块收到通知后，将收到的输入进行Transformer块1中的注意力算子的计算，并将结果发送给第2调度模块。

第2调度模块的执行过程同第1调度模块。

第2个A型推理计算模块的执行过程参照第1个A型推理计算模块，但是计算的内容为计算子图2，即Transformer块1中的第2线性变换算子、前馈神经网络算子和Transformer块2中的第1线性变换算子。

以此类推，直到第n+1个A型推理计算模块得计算结果，经过拆分后，得到各个推理请求对应的推理结果。

在推理计算的过程中，不同的计算设备可以并行执行推理计算，从而提高推理计算的效率。

通过对不同计算部分采用不同类型的计算设备进行计算，可以充分利用不同种类计算设备的优势，提高计算设备的资源利用率，提高推理计算效率，降低成本。

实施例2

同实施例1，但是每组B型推理模块中只有1个模块，A型推理模块发送计算子图的计算结果给后续B型计算模块的过程不进行拆分，B型模块发送给后续调度模块的过程也无需进行合并。

实施例3

同实施例1，但是所有A型推理模块共用1个A型计算设备，所有B型推理模块共用1个B型计算设备。

实施例4

同实施例1，但是采用TPU作为A型计算设备，带有计算功能的存储器模块作为B型计算设备。

实施例5

同实施例1，但是示例模型在Transformer块1前面有一个预处理算子。对Transformer模型进行切分的过程中，将该预处理算子放在计算子图1的最前面。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于Transformer模型推理计算的方法，其特征在于，所述方法包括：

将一个Transformer模型的计算图切分为由计算子图和注意力算子交替串接的结构；

使用两种不同型号或不同种类的计算设备，进行推理计算的过程。

2.根据权利要求1所述的方法，其特征在于，

所述注意力算子的输入数据规模增长时，其计算量的增长速度不超过输入数据规模的增长速度。

3.根据权利要求1或2所述的方法，其特征在于，

所述由计算子图和注意力算子交替串接的结构，包括n+1个计算子图和n个注意力算子，n为自然数；

所述计算设备为A型计算设备和B型计算设备；

所述推理计算的过程包括：

将多组推理请求的输入数据合并拷贝到A型计算设备上，进行计算子图1的推理计算，并获取计算结果；

将计算子图1的推理计算结果拆分为若干部分，分别拷贝到数量上对应的若干个B型计算设备上并进行注意力算子1的推理计算，获取计算结果；

将多个请求对应的注意力算子1的输出结果合并后拷贝到A型计算设备上，进行计算子图2的推理计算，并获取计算结果；

以此类推，直到得到计算子图n+1的推理计算结果；将计算子图n+1的推理计算结果拆分为单个推理结果，作为对应推理请求在整个模型上推理计算的结果。

4.根据权利要求3所述的方法，其特征在于，

所述A型计算设备的计算能力总和强于所述B型计算设备；

所述B型计算设备的存储器的存储空间总和大于所述A型计算设备的存储器。

5.根据权利要求3所述的方法，其特征在于，

所述A型计算设备和B型计算设备包括：CPU、GPU、TPU、FPGA、ASIC、带有计算功能的存储器模块，以及CPU、GPU、TPU、FPGA、ASIC、带有计算功能的存储器模块通过高速总线/网络互联形成的整体。

6.一种用于Transformer模型推理计算的***，其特征在于，

所述***由模型切分模块、调度模块、A型推理计算模块、B型推理计算模块构成；

模型切分模块将Transformer模型的计算图切分为由注意力算子和计算子图交替串接的结构；

根据模型切分的结果，构建由调度模块、A型推理计算模块、B型推理计算模块连接形成的推理***。

7.根据权利要求6所述的***，其特征在于，

所述A型推理计算模块包括A型计算设备，B型推理计算模块包括B型计算设备。

8.根据权利要求6或7所述的***，其特征在于，

每个所述计算子图都有一个对应的调度模块。

9.根据权利要求8所述的***，其特征在于，

计算子图1对应的调度模块1负责收集整个Transformer模型的推理请求，当达到预设条件并且计算子图1对应的A型计算设备空闲时，将推理请求的输入合并拷贝到A型计算设备上，同时通知对应的A型推理计算模块驱动A型设备进行计算子图1的计算；

计算子图1的计算完成后，A型设备计算模块将计算结果拆分，并且等待注意力算子1对应的B型计算设备空闲时，将计算结果拷贝至B型计算设备上，并通知对应的B型推理计算模块驱动B型计算设备进行计算；

该B型推理计算模块收到通知时，进行注意力算子1的计算，随后将计算结果发送给计算子图2的调度模块2；

依次类推，直到计算子图n+1的A型推理计算模块得到计算结果后，将计算结果拆分，得到各个推理请求对应的推理结果。

10.一种用于Transformer模型推理计算的装置，其特征在于，

所述装置包含存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；

所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的用于Transformer模型推理计算的方法和权利要求6-9任一项所述的用于Transformer模型推理计算的***。