CN115202808A

CN115202808A - 一种用于虚拟化环境中片上的dma方法及

Info

Publication number: CN115202808A
Application number: CN202210698619.9A
Authority: CN
Inventors: 张科; 阮金杰; 常轶松; 齐乐
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-10-18

Abstract

本发明提出一种用于虚拟化环境中片上***的DMA方法和***，包括：读主机内存‑写FPGA内存和读FPGA内存‑写主机内存两个方向的DMA硬件。以读主机内存‑写FPGA内存为例，主机运行的虚拟机发起访问FPGA内存指令，DMA模块接受该指令，将FPGA访存地址和传输字节大小以数据流的形式输入至命令字生成模块将数据流转换为命令字，流数据转换模块根据该命令字访问FPGA内存。本发明通过设计DMA软硬件，实现在上述两个方向分别只使用一个DMA描述符，以减少主机硬件地址翻译竞争开销。在SoC FPGA中，片上总线互连的CPU和FPGA紧耦合，在其CPU主机上运行的虚拟机中直通上述两个方向DMA。

Description

一种用于虚拟化环境中片上***的DMA方法及***

技术领域

本发明涉及计算机***结构、***虚拟化以及异构处理***领域，特别涉及一种用于虚拟化环境中片上***的直接存储器访问(Direct Memory Access,DMA)***。

背景技术

随着摩尔定律放缓，同时云上人工智能等新型应用程序对算力的需求暴增，通用CPU越来越难以满足这些应用的需求。为了应对算力瓶颈、减轻CPU负担，越来越多的加速器开始在云中部署，如GPU、现场可编程门阵列(Field Programmable Gate Array,FPGA)、张量处理单元(Tensor Processing Unit,TPU)等不同种类的硬件加速器在商用云中不断涌现。

由于具有硬件可编程性和较高的计算能效比，FPGA已经在云中广泛部署用于应用程序加速。亚马逊、微软和阿里等云厂商在云中部署FPGA，用于加速机器学习、图计算、视频图像处理、区块链和基因分析等应用。

FPGA加速器的部署依赖动态部分可重构技术来重新配置FPGA。动态部分可重构技术把FPGA划分为静态区(SHELL)和部署FPGA加速器的动态区(ROLE)，保证了在重新配置用户加速器的动态区时静态区和其他加速器的动态区将保持不变且不受影响。

云FPGA的使用依赖在主机上运行的虚拟机和FPGA内存之间进行数据拷贝，而且虚拟机和加速器FPGA内存间的数据拷贝效率在一定程度上影响了FPGA加速器的加速效率。但是，针对嵌入CPU硬核的SoC(System On Chip,片上***)FPGA，由于主机和FPGA之间不是PCIe接口，因此缺少PCIe DMA的支持，导致虚拟机和FPGA内存不同地址空间的DMA数据拷贝的软硬件支持不完善，特别是针对在FPGA动态部分可重构场景中多加速器共享FPGA内存的情况。

目前针对SoC FPGA，现有的DMA硬件不论是主机到FPGA内存，还是FPGA内存到主机方向，都需要访问主机内存获取DMA描述符，在虚拟化环境下硬件地址翻译竞争开销较大。此外，针对SoC FPGA，在FPGA划分多个动态区部署多加速器的情况下，目前在CPU主机上运行的虚拟机中执行不同加速器的DMA数据拷贝没有成熟的解决方案。

发明内容

针对目前SoC FPGA平台在CPU虚拟机中执行DMA拷贝没有成熟的方案，提出了一种虚拟化环境中片上***的DMA***，包括DMA硬件和驱动软件。本发明可以用于在SoC FPGA的主机上运行的虚拟机中执行虚拟机和FPGA加速器内存间的数据拷贝，而且每个方向只需要获取一个DMA描述符。

具体来说，本发明提出一种用于虚拟化环境中片上***的DMA方法，其中包括：

片上***包括通过片上总线互连的紧耦合的CPU主机和FPGA，当主机运行的虚拟机传输数据到FPGA内存时执行步骤1，从FPGA内存传输数据至该虚拟机时执行步骤2；

步骤1、主机运行的虚拟机根据DMA描述符发起传输数据到FPGA内存的指令，DMA模块接受该访问FPGA内存指令，并将该访问FPGA内存指令的FPGA访存地址和传输字节大小以数据流的形式输入至命令字生成模块，命令字生成模块将该数据流转换为命令字，流数据转换模块接受该命令字后，该模块根据该FPGA访存地址和传输字节大小访问该FPGA内存；

步骤2、主机运行的虚拟机根据DMA描述符发起从FPGA内存读数据的指令，DMA模块接受该指令，并将该指令的虚拟机地址和传输字节大小以数据流的形式输入至命令字生成模块，命令字生成模块将该数据流转换为命令字，流数据转换模块接受该命令字后，该模块根据该虚拟机地址和传输字节大小返回数据至该虚拟机。

所述的用于虚拟化环境中片上***的DMA方法，其中为该主机上每个虚拟机直通DMA硬件，该DMA硬件包括该DMA模块、该命令字生成模块和流数据转换模块。

所述的用于虚拟化环境中片上***的DMA方法，其中该FPGA内存按照动态部分可重构区域(简称为动态区)的数量划分，而且不同FPGA动态区具有相同的FPGA内存视图；

根据当前FPGA动态区资源使用情况，***在分配动态区资源后记录各动态区的FPGA加速器编号，执行该步骤1或该步骤2时，根据FPGA加速器编号获得不同动态区的FPGA内存基地址，通过为每个动态区配置不同的内存基地址偏移，实现在不同动态区中部署的加速器只能访问对应地址空间的FPGA内存。

所述的用于虚拟化环境中片上***的DMA方法，其中该DMA描述符包括用户字段数据，该命令字生成模块根据该用户字段数据构建该命令字发往该流数据转换模块。

本发明还提出了一种用于虚拟化环境中片上***的DMA***，其中包括：

片上***包括片上互连的CPU主机和FPGA，当主机运行的虚拟机传输数据到FPGA内存时调用第一传输模块，从FPGA内存传输数据至该虚拟机时调用第二传输模块；

第一传输模块，用于使主机运行的虚拟机根据DMA描述符发起传输数据到FPGA内存的指令，DMA模块接受该访问FPGA内存指令，并将该访问FPGA内存指令的FPGA访存地址和传输字节大小以数据流的形式输入至命令字生成模块，命令字生成模块将该数据流转换为命令字，流数据转换模块接受该命令字后，该模块根据该FPGA访存地址和传输字节大小访问该FPGA内存；

第二传输模块，用于使主机运行的虚拟机根据DMA描述符发起从FPGA内存读数据的指令，DMA模块接受该指令，并将该指令的虚拟机地址和传输字节大小以数据流的形式输入至命令字生成模块，命令字生成模块将该数据流转换为命令字，流数据转换模块接受该命令字后，该模块根据该虚拟机地址和传输字节大小返回数据至该虚拟机。

在虚拟机中直通DMA硬件，该DMA硬件包括该DMA模块、该命令字生成模块和流数据转换模块。

所述的用于虚拟化环境中片上***的DMA***，其中该FPGA内存按照动态部分可重构区域(简称为动态区)的数量划分，而且不同FPGA动态区具有相同的FPGA内存视图；

根据当前FPGA动态区资源使用情况，***在分配动态区资源后记录各动态区的FPGA加速器编号，执行该步骤1或该步骤2时，根据FPGA加速器编号获得FPGA内存基地址，通过为每个动态区配置不同的内存基地址偏移，实现不同动态区加速器只能访问指定范围的FPGA内存。

所述的用于虚拟化环境中片上***的DMA***，其中该DMA描述符包括用户字段数据，该命令字生成模块根据该用户字段数据构建该命令字发往该流数据转换模块。

本发明还提出了一种存储介质，用于存储执行所述任意一种用于虚拟化环境中片上***的DMA方法的程序。本发明还提出了一种客户端，用于所述任意一种用于虚拟化环境中片上***的DMA***。

由以上方案可知，本发明的优点在于：

本发明所述方法，针对SoC FPGA平台，支持在其主机上运行的虚拟机中实现虚拟机和加速器FPGA内存间的DMA数据拷贝，同时每个方向只需要访问一次DMA描述符。

附图说明

图1为本发明DMA硬件结构图；

图2为虚拟机DMA软硬件框架图；

图3为虚拟机使用DMA方式传输数据流程图。

具体实施方式

目前SoC FPGA尚无在CPU虚拟机中执行DMA拷贝的成熟方案，而且现有DMA硬件在做主机和FPGA内存之间的数据拷贝时，每个方向需要两次从主机内存读取描述符，因此硬件地址翻译竞争开销较大。本发明通过定制设计DMA硬件，每个方向只用一个DMA描述符，因此每个方向DMA获取描述符只访问一次主机内存，从而减少硬件地址翻译的竞争开销。其次，本发明在SoC FPGA主机上运行的每个虚拟机中直通两个方向DMA，并通过在FPGA内存方向使用不同的FPGA内存物理地址偏移，以实现不同部分可重构区域具有相同的FPGA内存地址空间，并在虚拟机中进行安全的DMA拷贝。

为了实现上述技术效果，本发明主要包括以下关键技术点：

关键点一，通过在DMA描述符的用户字段中自定义访问FPGA内存的元数据，实现在主机和FPGA内存间执行DMA拷贝时每个方向只使用一个DMA描述符；

关键点二，通过在FPGA主机上运行的每个虚拟机中直通两个DMA硬件实现H2C和C2H两个方向的DMA拷贝；

关键点三，通过使用不同FPGA内存基地址，为不同FPGA部分可重构区域上部署的加速器提供统一地址空间的不同FPGA内存，并在DMA驱动中通过访存偏移支持不同虚拟机和加速器间的DMA数据拷贝。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

以主机CPU为ARM架构的SoC FPGA为例，本发明提出的用于虚拟化环境片上***的DMA***框架包括硬件和软件两部分，下面分别介绍。

本发明DMA硬件***框架如图1所示。在H2C(Host to Card，主机到FPGA卡)和C2H(Card to Host，FPGA卡到主机)两个方向上，都通过定制的命令字生成模块，配合仅包含MM2S(Memory-Mapped to Stream,内存映射到流)通道的DMA(包括但不限于多通道DMA)和流数据转换模块(包括但不限于DataMover)实现了DMA数据拷贝。

以读主机内存-写FPGA内存为例，即H2C方向DMA的具体实现原理如下：

在DMA驱动中自定义DMA描述符的用户APP字段，这些字段会以多个流数据的形式从DMA的CNTRL接口输出。另一方面，流数据转换模块根据cmd接口输入的命令字把输入的流数据转为AXI4数据输出到下游，该命令字中包含了访存地址和传输字节大小。因此本发明在DMA驱动中把BD描述符的APP字段定义为包含加速器FPGA访存地址和传输大小等信息，则这些关键信息将通过DMA CNTRL接口以Stream流的形式输出。接着图1中的命令字生成模块即可在硬件中使用得到的多个DMA描述符中用户字段数据拼凑出下游流数据转换模块需要的命令字。最后流数据转换根据指定的FPGA内存物理地址和大小访问FPGA内存。另一方向C2H的硬件实现原理与H2C的实现类似。因此不论是H2C还是C2H方向，主机和FPGA内存间的DMA数据拷贝只需要DMA模块的一个DMA描述符。

虚拟机中定制DMA工作原理的***框架如图2，在FPGA SHELL中为每个ROLE分配一对定制DMA(H2C和C2H两个方向)，用于在主机和FPGA内存之间进行DMA数据拷贝，同时在动态区中部署的加速器通过访问FPGA内存进行加速计算。在软件实现中，在每个虚拟机操作***内核中部署DMA驱动和定制DMA代理驱动，因此虚拟机租户可以通过该驱动暴露的用户态h2c(与H2C DMA硬件对应)和c2h(与C2H DMA硬件对应)字符设备进行DMA传输。具体来说，定制DMA硬件在虚拟机中的运行依赖ARM主机的IOMMU(Input/Output Memory ManagemnetUnit，I/O内存管理单元)实现硬件地址翻译，并通过VFIO(Virtual Function I/O,虚拟功能I/O)框架进行设备直通。在QEMU(Quick Emulator,快速模拟器)中通过封装vfio-platform抽象设备模型实现DMA的设备直通模型(vfio-axi-mcdma)。在运行在主机上的租户虚拟机启动时为其直通H2C和C2H两个方向的DMA用于双向数据拷贝。使能DMA直通的QEMU启动参数配置如下所示：

-device vfio-axi-mcdma,host＝81008000.axi_mcdma

-device vfio-axi-mcdma,host＝81007000.axi_mcdma

虚拟机DMA拷贝应该访问合法的加速器FPGA内存地址。本发明将FPGA内存按照动态部分可重构区域的数量进行划分，如16GB FPGA内存并且FPGA逻辑划分为4个动态区，则0～4GB内存用于动态区1使用，4～8GB用于动态区2使用，以此类推。而且不同加速器具有相同的内存视图，如对于16GB FPGA内存，则每个加速器的内存视图为0～4GB，这是通过为每个加速器的FPGA访存地址配置不同基地址偏移实现的。

虚拟机DMA代理驱动的实现保证了不同动态区中部署的加速器只能访问对应地址空间的FPGA内存，其原因是：本发明在SHELL中实时记录了动态区资源的使用情况，在分配动态区资源后QEMU将记录其加速器编号，因此当DMA代理驱动进行DMA传输时，根据分配的动态区加速器编号获得其FPGA内存基地址，从而访问对应地址空间的FPGA内存。

另一方面，虚拟机DMA代理驱动需要配合定制DMA硬件。由于定制DMA硬件通过DMA输出的CNTRL流数据向流数据转换模块发起访存命令，因此本发明在DMA驱动的DMA描述符中包含与图1中命令字生成模块输入流数据格式一致的自定义用户字段。

如图3，所述在虚拟机中通过DMA传输数据的方法，包括：步骤1、步骤2、步骤3、步骤4、步骤5、步骤6和步骤7；其中，步骤1为在FPGA的SHELL中实现H2C和C2H方向的定制DMA，步骤2为使能主机IOMMU软硬件和VFIO驱动，步骤3为在主机操作***内核中实现DMA设备直通的复位功能，步骤4为在虚拟机监视器中实现DMA直通的设备模型，步骤5为在租户虚拟机启动时直通H2C和C2H DMA设备，步骤6为在虚拟机操作***内核中实现和加载DMA相关驱动，步骤7为在虚拟机中租户通过DMA驱动暴露的字符设备进行DMA数据传输。

另外，为了实现步骤1在FPGA的SHELL中实现H2C和C2H方向的定制DMA，如图1，步骤1具体包括：步骤1.1以及步骤1.2；其中，步骤1.1为实现命令字生成模块，将DMA输出的包含FPGA访存地址和大小等信息的数据流(AXI Stream)转换为下游流数据转换模块的命令字，步骤1.2为通过集成DMA、命令字生成模块和流数据转换模块，实现主机和FPGA内存间H2C和C2H两个方向的定制DMA数据传输硬件。

另外，为了实现步骤2使能主机IOMMU软硬件和VFIO驱动，步骤2具体包括：步骤2.1、步骤2.2和步骤2.3；其中，步骤2.1为使能主机IOMMU硬件，步骤2.2为在主机操作***内核中使能并加载IOMMU驱动，步骤2.3为在主机内核中使能并加载VFIO驱动。

另外，为了实现步骤6在虚拟机操作***内核中实现和加载DMA相关驱动，步骤6具体包括：步骤6.1、步骤6.2、以及步骤6.3；其中，步骤6.1为在虚拟机中使能DMA驱动，步骤6.2为在虚拟机中实现并加载DMA代理驱动，该驱动在配合定制DMA硬件的同时保证该虚拟机访问对应地址空间的FPGA内存。

以下为与上述方法实施例对应的***实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

片上***包括紧耦合的CPU主机和FPGA，当主机运行的虚拟机传输数据到FPGA内存时调用第一传输模块，从FPGA内存传输数据至该虚拟机时调用第二传输模块；

所述的用于虚拟化环境中片上***的DMA***，其中该FPGA内存按照动态部分可重构区域(简称为动态区)的数量划分，而且不同FPGA动态区中部署的加速器具有相同的FPGA内存视图；

根据当前FPGA动态区资源使用情况，***在分配动态区资源后记录各动态区的FPGA加速器编号，执行该步骤1或该步骤2时，根据FPGA加速器编号获得FPGA内存基地址，通过为每个动态区配置不同的内存基地址偏移，实现不同动态区加速器访问对应地址空间的FPGA内存。

Claims

1.一种用于虚拟化环境中片上***的DMA方法，其特征在于，包括：

2.如权利要求1所述的用于虚拟化环境中片上***的DMA方法，其特征在于，为该主机上每个虚拟机直通DMA硬件，该DMA硬件包括该DMA模块、该命令字生成模块和流数据转换模块。

3.如权利要求1或2所述的用于虚拟化环境中片上***的DMA方法，其特征在于，该FPGA内存按照动态部分可重构区域(简称为动态区)的数量划分，而且不同FPGA动态区具有相同的FPGA内存视图；

根据当前FPGA动态区资源使用情况，***在分配动态区资源后记录各动态区的FPGA加速器编号，执行该步骤1或该步骤2时，根据FPGA加速器编号获得FPGA内存基地址，通过为每个动态区配置不同的内存基地址偏移，实现在不同动态区中部署的加速器具有相同的FPGA内存地址空间。

4.如权利要求1或2所述的用于虚拟化环境中片上***的DMA方法，其特征在于，该DMA描述符包括用户字段数据，该命令字生成模块根据该用户字段数据构建该命令字发往该流数据转换模块。

5.一种用于虚拟化环境中片上***的DMA***，其特征在于，包括：

片上***包括通过片上总线互连的紧耦合的CPU主机和FPGA，当主机运行的虚拟机传输数据到FPGA内存时调用第一传输模块，从FPGA内存传输数据至该虚拟机时调用第二传输模块；

6.如权利要求5所述的用于虚拟化环境中片上***的DMA***，其特征在于，为该主机上每个虚拟机直通DMA硬件，该DMA硬件包括该DMA模块、该命令字生成模块和流数据转换模块。

7.如权利要求5或6所述的用于虚拟化环境中片上***的DMA***，其特征在于，该FPGA内存按照动态部分可重构区域(简称为动态区)的数量划分，而且不同FPGA动态区具有相同的FPGA内存视图；

8.如权利要求5或6所述的用于虚拟化环境中片上***的DMA***，其特征在于，该DMA描述符包括用户字段数据，该命令字生成模块根据该用户字段数据构建该命令字发往该流数据转换模块。

9.一种存储介质，用于存储执行如权利要求1到4所述任意一种用于虚拟化环境中片上***的DMA方法的程序。

10.一种客户端，用于权利要求5至8中任意一种用于虚拟化环境中片上***的DMA***。