CN113590508A

CN113590508A - 动态可重构的内存地址映射方法及装置

Info

Publication number: CN113590508A
Application number: CN202111155689.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: Muxi Technology Beijing Co ltd
Current assignee: Muxi Technology Beijing Co ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2021-11-02
Anticipated expiration: 2041-09-30
Also published as: CN113590508B

Abstract

本发明提供的一种动态可重构的内存地址映射方法及装置，涉及芯片技术，通过获取芯片的配置参数和目标应用的内存并发访问模式，基于所述配置参数和所述内存并发访问模式生成所述目标应用的内存地址映射关系；接收用户对所述目标应用的执行请求，并根据所述执行请求调用对应所述目标应用的所述内存地址映射关系；根据所述内存地址映射关系动态配置所述芯片的内存子***的技术方案，执行目标应用时，依据内存地址映射关系动态配置芯片的内存子***，本方案可以结合到具体的目标应用来生成对应的内存地址映射关系，以适应人工智能和高性能计算等应用场景中存在更复杂的访存模式。

Description

动态可重构的内存地址映射方法及装置

技术领域

本发明涉及芯片技术，尤其涉及一种动态可重构的内存地址映射方法及装置。

背景技术

GPU、AI芯片等高吞吐率计算芯片需要有高带宽内存子***的支持。现有的内存***有极高的理论带宽。但芯片上实际运行的应用，受制于内存子***的资源竞争、以及并发计算单元间的竞争，很难达到内存***标称的理论带宽，并且可能由于资源使用不当造成额外的功耗开销。

现有技术中，为了解决资源竞争，通过对内存地址重映射，将并发访存请求分散到可并行处理多个内存请求的内存资源上。

然而，现有技术中，GPU、AI等高吞吐率计算芯片上运行的应用访存模式复杂多变，其内存子***参数也会随着芯片的不同配置（如虚拟化）发生改变，很难用单一的地址映射函数满足所有场景的需求。

发明内容

本发明实施例提供一种动态可重构的内存地址映射方法及装置，可以结合到芯片配置参数和目标应用来生成对应的内存地址映射关系，以适应人工智能和高性能计算等应用场景中存在更复杂的访存模式。

本发明实施例的第一方面，提供一种动态可重构的内存地址映射方法，包括：

获取芯片的配置参数和目标应用的内存并发访问模式，基于所述配置参数和所述内存并发访问模式生成所述目标应用的内存地址映射关系；

接收用户对所述目标应用的执行请求，并根据所述执行请求调用对应所述目标应用的所述内存地址映射关系；

根据所述内存地址映射关系动态配置所述芯片的内存子***。

可选地，在第一方面的一种可能实现方式中，获取目标应用的内存并发访问模式，包括：

获取所述目标应用的代码信息，根据所述代码信息获取所述目标应用的内存并发访问模式。

获取所述目标应用的内存访问流的比特位翻转率，基于所述比特位的翻转率获取所述目标应用的内存并发访问模式。

可选地，在第一方面的一种可能实现方式中，获取所述目标应用的内存访问流的比特位翻转率，包括：

根据模拟器或所述芯片运行记录比特位翻转率的装置；

基于所述装置获取所述目标应用的内存访问流的比特位翻转率。获取所述目标应用的在预设时间段内的内存访问流的比特位翻转率。

可选地，在第一方面的一种可能实现方式中，所述获取芯片的配置参数，包括：

获取所述芯片的架构参数、内存***参数和调度策略。

可选地，在第一方面的一种可能实现方式中，在基于所述配置参数和所述内存并发访问模式生成所述目标应用的内存地址映射关系之后，还包括：

基于预设位置绑定所述目标应用和所述内存地址映射关系。

可选地，在第一方面的一种可能实现方式中，所述预设位置包括：

对应所述目标应用的可执行文件的元数据处，或所述目标应用内各数据块对应的页表项处。

本发明实施例的第二方面，提供一种动态可重构的内存地址映射装置，包括：

映射模块，用于获取芯片的配置参数和目标应用的内存并发访问模式，基于所述配置参数和所述内存并发访问模式生成所述目标应用的内存地址映射关系；

调用模块，用于接收用户对所述目标应用的执行请求，并根据所述执行请求调用对应所述目标应用的所述内存地址映射关系；

执行模块，用于根据所述内存地址映射关系动态配置所述芯片的内存子***。

本发明实施例的第三方面，提供一种动态可重构的内存地址映射设备，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行本发明第一方面及第一方面各种可能涉及的所述方法。

本发明实施例的第四方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能涉及的所述方法。

本发明提供的一种动态可重构的内存地址映射方法及装置，通过芯片的配置参数和目标应用的内存并发访问模式生成所述目标应用的内存地址映射关系，后续执行目标应用时，依据内存地址映射关系动态配置芯片的内存子***，可以结合到具体的目标应用来生成对应的内存地址映射关系，以适应人工智能和高性能计算等应用场景中存在更复杂的访存模式。

附图说明

图1是本发明实施例提供的一种应用场景示意图。

图2是本发明实施例提供的一种动态可重构的内存地址映射方法的流程示意图。

图3是本发明实施例提供的相同应用列优先并发线程调度和行优先并发线程调度策略的示意图。

图4是本发明实施例提供的高吞吐率计算芯片上内存并发访问模式受计算单元调度策略影响的示意图。

图5是本发明实施例提供的一种记录比特位翻转率的装置的示意图。

图6是本发明实施例提供的一种动态可重构的内存地址映射装置的结构示意图。

图7是本发明实施例提供的一种动态可重构的内存地址映射设备。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

参见图1，是本发明实施例提供的一种应用场景示意图，是现有技术中的DRAM内存子***，展示了常见DRAM的4级组织结构：通道（Channel）、簇（Bank）、行（Row）、列（Column）。图中示例的DRAM***有32个通道，每个通道16个簇。内存访问的地址中的特定位段表示了要访问通道、簇、行、列的序号。现行的内存***，每个层次的资源数量可能与上例不同，而且可能会引入更多的设计层次，带来更复杂的资源竞争情况，如HBM2在簇和通道之间增加了bank group层次。为了充分利用内存***提供的理论带宽，计算单元需要产生足够多的、可以被并发处理的并行内存请求。然而，实际执行时，以图1DRAM***为例，两笔来自计算单元的并行内存访问可能因为竞争同一个通道的I/O总线、同一个簇的行缓存等原因，无法被DRAM内存***并发处理。因此，并发内存请求需要尽可能地访问不同的通道，或者同一个通道的不同簇，因此计算单元访问的内存地址中通道和簇对应的位段要尽可能地多发生变化。

CPU等传统计算芯片上运行的应用中，大多数应用的并发内存访问模式比较简单。有大量内存级并行性的应用，通常都是在遍历一个数组，计算单元内存访问地址通常是依次累加的。因此，为了高效利用图1的DRAM内存子***，典型CPU可以采用内存映射方案来解决（即图1中展示的内存地址映射方案），具体的可以是最高的位段在依次累加的内存访问模式下发生变化的频率最低，定义为行号，减少行缓存更新的性能和功耗开销；中间的位段发生变化的频率较高，定义为通道和簇的编号，尽可能利用内存子***的并行性；最低的位段发生变化的频率最高，定义为列号，从而充分利用行缓存的局域性。

为了解决上述技术问题，参见图2，是本发明实施例提供的一种动态可重构的内存地址映射方法的流程示意图，图2所示方法的执行主体可以是软件和/或硬件装置。本申请的执行主体可以包括但不限于以下中的至少一个：用户设备、网络设备等。其中，用户设备可以包括但不限于计算机、智能手机、个人数字助理（Personal Digital Assistant，简称：PDA）及上述提及的电子设备等。网络设备可以包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机组成的一个超级虚拟计算机。本实施例对此不做限制。该动态可重构的内存地址映射方法包括步骤S101至步骤S103，具体如下：

S101，获取芯片的配置参数和目标应用的内存并发访问模式，基于所述配置参数和所述内存并发访问模式生成所述目标应用的内存地址映射关系。

具体的，本方案利用芯片的配置参数结合到具体的目标应用的内存并发访问模式，来生成对应目标应用的内存地址映射关系。例如，目标应用A对应一个内存地址映射关系1，目标应用B对应一个内存地址映射关系2。

可以理解的是，由于现有技术中可动态配置的地址映射方案，只针对图形渲染类场景，而不是通用的高通量计算，没能提供一套根据应用特性选择地址映射方案的方法。而本方案可以结合到具体的目标应用来生成对应的内存地址映射关系，以适应人工智能和高性能计算等应用场景中存在更复杂的访存模式。

在实际应用中，芯片的配置参数可以是芯片的架构参数、内存***参数和调度策略。

可以理解的是，芯片的很多参数都会影响内存级并行性。例如，在DDR和GDDR标准中的tFAW参数，规定了一个内存条中，每个长度为tFAW的时间窗中最多有4个不同的行缓存被更新，超过4个行缓存更新请求只能在继续排队等待，因此tFAW限制了单个通道内簇间内存访问并行性的开发。这些次要参数都是因芯片的内存子***架构和内存***参数而异的，因此要获取到芯片的架构参数。

还可以理解的是，高吞吐率计算芯片的不同调度策略也会改变应用的内存访问模式。参见图3，图3中展示了一种情况，假设一个应用中16个线程，每次执行时可以有4个线程并发执行，每个线程依次访问内存中的一行数据，该内存***有4个通道，图3中高吞吐率计算芯片分别按照行优先和列优先并发线程的方式调度，图中txy中x是该线程要访问的内存的行序号，y是要访问的通道序号。图4展示了两种不同调度策略在第一次执行时，各个线程要访问的通道序号，如果按照行优先的顺序进行调度，则这4个并发线程的并发内存访问可以均匀分布到4个通道中，而如果按照列优先的顺序进行调度，则这4个并发线程的并发内存访问都会集中到同一个通道，因为对通道的资源竞争，列优先调度策略的性能远低于行优先调度策略。因此，如果调度策略不同，也会影响目标应用的内存并发访问模式。

因此，本方案是结合芯片的配置参数和目标应用的内存并发访问模式，来同时获取到内存地址映射关系的。

需要说明的是，在基于所述配置参数和所述内存并发访问模式生成所述目标应用的内存地址映射关系之后，还需要基于预设位置绑定所述目标应用和所述内存地址映射关系。可以理解的是，为了后续执行目标应用时对内存地址映射关系进行调用，需要将两者绑定在一起。

在实际应用中，预设位置可以是对应所述目标应用的可执行文件的元数据处，或目标应用内各数据块对应的页表项处。可以理解的是，每个应用可以在特定位置，例如它的可执行文件的元数据中，指定它需要的内存地址映射关系。同时一个应用内的各个的数据块可以在特定位置，比如该数据块对应的页表项中，指定该数据块需要的内存地址映射关系。

S102，接收用户对所述目标应用的执行请求，并根据所述执行请求调用对应所述目标应用的所述内存地址映射关系。

具体的，本步骤是在执行目标应用时，主控制器会检测到针对目标应用的执行请求，由于在步骤S101中已经生成了对应目标应用的所述内存地址映射关系，那么目标应用可以调用内存地址映射关系来执行步骤S103中的操作。

S103，根据所述内存地址映射关系动态配置所述芯片的内存子***。

可以理解的是，高吞吐率计算芯片在执行目标应用时，根据其选择的内存地址映射关系，动态配置芯片的内存子***，直接对存放在内存子***中的数据进行迁移配置。

需要说明的是，现有技术中，虽然其内存子***中也存在内存映射方案，但其内存映射方案的切换是静态的，因为CPU等传统计算芯片中，数据需要长期滞留在内存子***中，如果要对内存映射方案进行动态切换，切换前后同一个数据存放的地址会发生改变，进而导致该数据失效。因此已有方案通常在芯片重启时才可以切换内存映射方案，即只支持静态切换。

还需要说明的是，相对于现有技术，本方案的高吞吐率芯片，内存子***中的数据会在一个主控制器的控制下，频繁地在内存子***和外部存储间进行迁移，而且该迁移过程完全受到主控制器的控制，因此每次进行有数据块迁入内存***时，都可以对该数据块的内存映射方案进行切换，从而提高高吞吐率芯片的性能，降低其功耗。

在上述实施例的基础上步骤S102中（获取目标应用的内存并发访问模式）的具体实现方式可以是：

在一些实施例中，获取目标应用的内存并发访问模式，包括静态分析和动态分析，其中，静态分析可以针对一些规则应用，动态分析可以针对一些非规则应用，以适应人工智能和高性能计算等应用场景中存在更复杂的访存模式。

静态分析：

可以理解的是，静态分析通过分析目标应用源代码，可以获得固定步长和spacetiling（如Z-Morton, Hilbert）等已知的特定访存模式。

动态分析：

需要说明的是，对于非规则应用、以及访存模式对特定调度策略敏感的应用，可以获取到目标应用的内存访问流的比特位翻转率，然后依据比特位的翻转率来获取目标应用的内存并发访问模式。

在实际应用中，可以使用类似图5中所示的记录比特位翻转率的装置，可以在模拟器或者实际芯片上，统计目标应用在某一时间段中（预设时间段）内存访问流的比特位翻转率，进而可以分析出目标应用中传统的静态分析难以发现的并发内存访问模式。

需要说明的是，本方案为了减少动态分析的数据量，可以对目标应用的片段进行采样分析，即对上述的预设时间段内数据进行分析，无需对所有数据分析，减小功耗。

参见图6，是本发明实施例提供的一种动态可重构的内存地址映射装置的结构示意图，该动态可重构的内存地址映射装置60包括：

映射模块61，用于获取芯片的配置参数和目标应用的内存并发访问模式，基于所述配置参数和所述内存并发访问模式生成所述目标应用的内存地址映射关系；

调用模块62，用于接收用户对所述目标应用的执行请求，并根据所述执行请求调用对应所述目标应用的所述内存地址映射关系；

执行模块63，用于根据所述内存地址映射关系动态配置所述芯片的内存子***。

图6所示实施例的装置对应地可用于执行图2所示方法实施例中的步骤，其实现原理和技术效果类似，此处不再赘述。

参见图7，是本发明实施例提供的一种动态可重构的内存地址映射设备的硬件结构示意图，该动态可重构的内存地址映射设备70包括：处理器71、存储器72和计算机程序；其中

存储器72，用于存储所述计算机程序，该存储器还可以是闪存（flash）。所述计算机程序例如是实现上述方法的应用程序、功能模块等。

处理器71，用于执行所述存储器存储的计算机程序，以实现上述方法中设备执行的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器72既可以是独立的，也可以跟处理器71集成在一起。

当所述存储器72是独立于处理器71之外的器件时，所述设备还可以包括：

总线73，用于连接所述存储器72和处理器71。

本发明还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器（ROM）、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述设备的实施例中，应理解，处理器可以是中央处理单元（英文：CentralProcessing Unit，简称：CPU），还可以是其他通用处理器、数字信号处理器（英文：DigitalSignal Processor，简称：DSP）、专用集成电路（英文：Application Specific IntegratedCircuit，简称：ASIC）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种动态可重构的内存地址映射方法，其特征在于，包括：

根据所述内存地址映射关系动态配置所述芯片的内存子***。

2.根据权利要求1所述的方法，其特征在于，获取目标应用的内存并发访问模式，包括：

3.根据权利要求1或2所述的方法，其特征在于，获取目标应用的内存并发访问模式，包括：

4.根据权利要求3所述的方法，其特征在于，获取所述目标应用的内存访问流的比特位翻转率，包括：

根据模拟器或所述芯片运行记录比特位翻转率的装置；

基于所述装置获取所述目标应用的内存访问流的比特位翻转率，获取所述目标应用的在预设时间段内的内存访问流的比特位翻转率。

5.根据权利要求1所述的方法，其特征在于，所述获取芯片的配置参数，包括：

获取所述芯片的架构参数、内存***参数和调度策略。

6.根据权利要求1所述的方法，其特征在于，在基于所述配置参数和所述内存并发访问模式生成所述目标应用的内存地址映射关系之后，还包括：

基于预设位置绑定所述目标应用和所述内存地址映射关系。

7.根据权利要求6所述的方法，其特征在于，所述预设位置包括：

8.一种动态可重构的内存地址映射装置，其特征在于，包括：

9.一种动态可重构的内存地址映射设备，其特征在于，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行权利要求1至7任一所述的方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现权利要求1至7任一所述的方法。