WO2017173755A1

WO2017173755A1 - 片上数据划分读写方法、***及其装置

Info

Publication number: WO2017173755A1
Application number: PCT/CN2016/094168
Authority: WO
Inventors: 陈天石; 杜子东; 郭崎; 陈云霁
Original assignee: 中国科学院计算技术研究所
Priority date: 2016-04-06
Filing date: 2016-08-09
Publication date: 2017-10-12
Also published as: CN105843775A; US10496597B2; CN105843775B; US20190026246A1

Abstract

一种片上数据划分读写方法，其特征在于，包括：数据划分步骤，根据数据划分策略将片上数据存储在不同区域，分别存储在片内存储介质和片外存储介质（S701）；预先操作步骤，在进行数据拼接时预先对片内存储数据的片内地址索引进行操作处理（S702）；数据拼接步骤，根据数据拼接策略将所述片内存储数据和片外输入数据拼接得到原始数据表示（S703）。同时还提供相应的片上数据划分读写***（100）及其装置。借此，能够使重复数据高效地进行读写，从而降低访存带宽需求，同时提供良好的灵活性，从而降低片上存储开销。

Description

片上数据划分读写方法、***及其装置

技术领域

本发明涉及信息安全领域及集成电路领域，尤其涉及一种硬件安全设计，特别是涉及片上数据划分读写方法、***及其装置。

背景技术

随着电子设备的广泛使用，在大数据时代，越来越多的设备需要对于真实世界的实时输入进行越来越复杂的处理，如工业机器人、自动驾驶无人汽车以及移动设备等等。这些任务大多数偏向于机器学习领域，其中大部分运算为向量运算或者矩阵运算，具有极高的并行度。相较于传统通用的GPU/CPU加速方案，硬件ASIC加速器是目前最受欢迎的加速方案，一方面可以提供极高的并行度可以实现极高的性能，另外一方面具有极高的能效性。

然而这其中带宽成为限制加速器性能的一大瓶颈，常见的解决方案是他通过放置在片上的缓存来平衡带宽的不均衡性。这些常见的解决方案并没有对数据读写进行优化，从而不能很好的利用数据的特性使得片上存储开销过大，数据读写开销过大。对于目前常见的机器学习类算法，其数据大多具有重用性，也即同样的数据会被多次使用，从而数据具有相同部分，如神经网络中的权值。

综上可知，现有技术在实际使用上显然存在不便与缺陷，所以有必要加以改进。

发明公开

针对上述的缺陷，本发明的目的在于提供一种片上数据划分读写***及其实现方法，目的在于针对重复数据高效地进行读写，从而降低访存带宽需求，同时提供良好的灵活性，从而降低片上存储开销。

为了实现上述目的，本发明提供一种片上数据划分读写方法，包括：

数据划分步骤，根据数据划分策略将片上数据存储在不同区域，分别存储在片内存储介质和片外存储介质；

预先操作步骤，在进行数据拼接时预先对片内存储数据的片内地址索引进行操作处理；

数据拼接步骤，根据数据拼接策略将所述片内存储数据和片外输入数据拼接得到原始数据表示。

根据本发明所述片上数据划分读写方法，还包括：

数据存储步骤，搬运所述片内存储介质的所述片内存储数据和来自所述片外存储介质的所述片外输入数据；

所述存储步骤中读写端口分离，数据的读出和写入相互独立；

所述预先操作步骤还包括：

运算处理所述片内存储数据；

运算处理外部输入数据处理；

所述外部输入数据包括所述片外输入数据、所述读写端口直接读入的数据。

根据本发明所述片上数据划分读写方法，所述数据存储步骤还包括：

根据片内地址索引来索引所述片内存储数据；

已索引到所述片内存储数据的输出出口；

将要存储的数据根据写入地址写入相应存储位置。

根据本发明所述片上数据划分读写方法，所述数据划分步骤还包括：

地址空间划分成为片外数据空间和片内数据空间；

根据数据替换策略在所述片内存储介质和片外存储介质之间进行数据替换；所述数据替换策略包括顺序替换、逆序替换以及随机替换；

所述数据划分策略包括定点数划分、浮点数划分；

所述数据拼接步骤还包括：

片内片外数据传输的形式从所述原始数据表示转为全部或者部分的数据索引，拼接全部或者部分的片上的所述数据索引的结果获得所述原始数据表示；

所述数据拼接步骤通过片内片外数据通路或片内数据通路进行，所述片内片外数据通路包括PCI、PCIE、HT互联技术，所述片内数据通路包括FAT-TREE、H-TREE互联技术，片内片外数据连接方式包括多芯片互联结构；

所述片内存储介质或所述片外存储介质中的所述数据可以被一次或者多次读写，所述数据可以被读至一个或者多个片上运算单元；所述片内存储介质或所述片外存储介质可以被一次或者多从外部进行读写，介质可以被一次或者多次从内部读写。

本发明提供一种片上数据划分读写***，包括：

数据划分模块，用于根据数据划分策略将片内存储数据划分在不同区域，分别存储在片内存储介质和片外存储介质；

预先操作模块，用于在进行数据拼接时预先对片内存储数据的片内地址索引进行操作处理；

数据拼接模块，用于根据数据拼接策略将片内存储数据和片外输入数据拼接得到所述原始数据表示。

根据本发明所述片上数据划分读写***，还包括：

存储模块，用于搬运所述片内存储介质的所述片内存储数据和来自所述片外存储介质的所述片外输入数据；

所述存储模块采用读写端口分离，数据的读出和写入相互独立；

所述预先处理模块还包括：

片上处理子模块，用于运算处理所述片内存储数据；

片外处理子模块，用于运算处理外部输入数据处理；

根据本发明所述片上数据划分读写***，所述存储模块还包括：

地址索引接口，用于根据片内地址索引来索引所述片内存储数据；

数据读出接口，用于已索引到的所述片内存储数据的输出出口；

数据写入接口，用于将要存储的数据根据写入地址写入相应存储位置。

根据本发明所述片上数据划分读写***，还包括：

所述数据划分模块还包括：

地址划分子模块，用于地址空间划分成为片外数据空间和片内数据空间；

数据替换子模块，用于根据数据替换策略在所述片内存储介质和片外存储介质之间进行数据替换；所述数据替换策略包括顺序替换、逆序替换以及随机替换；

所述数据划分策略包括定点数划分、浮点数划分；所述数据划分模块基于芯片中的一个或多个片上计算单元实现，所述片上计算单元发起读写请求并处理拼接得到的原始数据；

所述数据拼接模块还包括：

索引拼接子模块，用于片内片外数据传输的形式从原始数据表示转为全部或者部分的数据索引，拼接全部或者部分的片上的所述数据索引的结果获得所述原始数据表示；

所述数据拼接模块读写通过片内片外数据通路或片内数据通路进行，所述片内片外数据通路包括PCI、PCIE、HT互联技术，所述片内数据通路包括FAT-TREE、H-TREE互联技术，片内片外数据连接方式包括多芯片互联结构；

所述片内存储介质或所述片外存储介质中的所述数据被一次或者多次读写，所述数据被读至一个或者多个片上运算单元；所述片内存储介质或所述片外存储介质被一次或者多从外部进行读写，所述片内存储介质被一次或者多次从内部读写。

本发明提供一种片上读写装置，包括根据上述任一项所述片上数据划分读写***。

根据本发明所述片上读写装置，所述片上读写装置包括静态随机存储器、动态随机存储器、增强动态随机存取存储器、寄存器堆以及非易失存储器或者3D存储器件。

附图简要说明

图1是本发明所述片上数据划分读写***的结构示意图；

图2是本发明优选实施例的所述片上数据划分读写***的结构示意图；

图3A是本发明所述片上数据划分策略的实现示意图之一；

图3B是本发明所述片上数据划分策略的实现示意图之二；

图4是本发明根据本发明所述片上数据划分读写***的片上数据索引实施例示意图；

图5是本发明根据本发明所述片上数据划分读写方法的物理框架示意图；

图6是本发明根据本发明所述片上数据划分读写方法一个实施例数据拼接操作的物理设计框架图；

图7是本发明中所述片上数据划分读写方法流程示意图；

图8是本发明中所述片上数据划分读写方法一个具体实施例流程示意图。

实现本发明的最佳方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有异构平台，加速器的片上能够存储的数据十分有限，需要将所有的数据划分成为大小可以存储在片上的数据块，通过片外大存储介质和片内小存储介质上的数据交互将所需数据块读入或者写出。

为了实现上述目的，图1示出了本发明提供一种片上数据划分读写***100，包括：

数据划分模块10，用于根据数据划分策略将片内存储数据划分在不同区域，分别存储在片内存储介质和片外存储介质；

预先操作模块20，用于在进行数据拼接时预先对片内存储数据的片内地址索引进行操作处理；

数据拼接模块30，用于根据数据拼接策略将片内存储数据和片外输入数据拼接得到所述原始数据表示。

对于异构平台来说，加速器的片上能够存储的数据十分有限，需要将所有的数据划分成为大小可以存储在片上的数据块，通过片外大存储介质和片内小存储介质上的数据交互将所需数据块读入或者写出。其间，片内数据地址通过片内地址索引按需提供给片上计算单元，物理框架如图5所示；图2和图3所示的实施例划分只为本发明所涉及的典型情况，本发明并不局限于特定的数据划分，极端情况如数据全部被在片上，或者数据全部被划分在片外，也在本发明的实现范围之内。

进一步地，本发明所述片上数据划分读写***100，还包括：

存储模块40，用于存储搬运所述片内存储介质的所述片内存储数据和来自所述片外存储介质的所述片外输入数据；

所述存储模块40采用读写端口分离，数据的读出和写入相互独立；

所述预先处理模块20还包括：

片上处理子模块21，用于运算处理所述片内存储数据；

片外处理子模块22，用于运算处理外部输入数据处理，所述外部输入数据包括所述片外输入数据、所述读写端口直接读入的数据。

进一步地，存储模块40还包括：

地址索引接口41，用于根据片内地址索引来索引所述片内存储数据；

数据读出接口42，用于已索引到所述片内存储数据的输出出口；

数据写入接口43，用于将要存储的数据根据写入地址写入相应存储位置。

所述片上数据划分读写***100，优选的是数据划分模块10还包括：

地址划分子模块11，用于地址空间划分成为片外数据空间和片内数据空间；

数据替换子模块12，用于根据数据替换策略在所述片内存储介质和片外存储介质之间进行数据替换；所述数据替换策略包括顺序替换、逆序替换以及随机替换；

所述数据划分策略包括定点数划分、浮点数划分；作为典型，如图3A所示即为一个定点数实施例的数据划分，这种划分将定点数据换分成为整数部分和小数部分，图3B所示一个浮点数实施例的数据划分。这种划分将浮点数划分成为指数部分和小数部分。图3A和图3B所示的实施例划分只为本发明所涉及的典型情况，本发明并不局限于特定的数据划分，极端情况，如数据全部被在片上，或者数据全部被划分在片外，片上的缓存结构包括对输入数据的缓存，也在本发明的设计范围之内，地址划分子模块11将索引的地址空间划分对应到片外数据空间和片内数据空间，有需要的时候通过数据替换子模块12进行交换，将需要加速数据处理的转移到片内。数据划分模块10基于芯片中的一个或多个片上计算单元实现，所述片上计算单元发起读写请求并处理拼接得到的原始数据。

所述数据拼接模块30还包括：

索引拼接子模块31，用于片内片外数据传输的形式从原始数据表示转为全部或者部分的数据索引，拼接全部或者部分的片上的所述数据索引的结果获得所述原始数据表示；

所述数据拼接模块30读写通过片内片外数据通路或片内数据通路进行，所述片内片外数据通路包括PCI(Peripheral Component Interconnect，外部控制器接口)、PCIE(总线和接口标准，Peripheral Component Interface Express)、HT互联技术(Hyper Transport，超传输，是一种全新的具有可升级性的新型、高速、高性能的端到端集成电路互联总线技术)，所述片内数据通路包括FAT-TREE、H-TREE互联技术(hierarchy tree，层次树)，片内片外数据连接方式包括多芯片互联结构；图1所示的片内片外数据连接并不局限于PCIE总线连接，也包涵多芯片互联结构如片上网络。图1所示的片上计算单元与片内存储介质的数据通路不局限于H-TREE，或者FAT-TREE等互联技术，通过片内片外数据通路可以在片外寻址，从而所述片上数据划分读写***100可以对准确无误地将各种需要拼接的数据还原成原始数据，可以有效的支持不同的数据划分策略，从而减少片内片外数据交换。

图4是本发明所述片上数据划分读写方法的一个具体实施例的流程图，其可通过如图1～2所示的本发明所述片上数据划分读写***100实现，如图7，所述片上数据划分读写方法包括：

步骤S701，数据划分步骤，根据数据划分策略将片上数据存储在不同区域，分别存储在片内存储介质和片外存储介质；

步骤S702，预先操作步骤，在进行数据拼接时预先对片内存储数据的片内地址索引进行操作处理；

步骤S703，数据拼接步骤，根据数据拼接策略将所述片内存储数据和片外输入数据拼接得到原始数据表示。

分别通过数据划分模块10、预先操作模块20和数据拼接模块30实现，将原始数据在片内进行无损恢复。

其中优选的，本发明所述片上数据划分读写方法需要实现对于存储的管理，实现拼接过程需要存储模块40的支持，所述数据划分读写方法还包括：

数据存储步骤，存储搬运所述片内存储介质的所述片内存储数据和来自所述片外存储介质的所述片外输入数据；所述存储步骤中读写端口分离，数据的读出和写入相互独立；具体地，所述数据存储步骤还包括：

第一、根据片内地址索引来索引所述片内存储数据；

第二、将已索引到数据的输出出口；

第三、将要存储的数据根据写入地址写入相应存储位置；

读写时分别由地址索引接口41、数据读出接口42、数据写入接口43提供支持，与片内片外数据通路和片内数据通路配合实现模块内外的数据通信，独立的读写接口可以实现同时读写。片上数据根据片内地址索引，该片内地址索引有可能经过预先操作模块30一定的操作(如地址偏移计算)，检索片内存储得到片内存储数据，结合外部输入至片内的数据，经过拼接操作，得到最后的完整数据。

在一个具体实施例中，优选的本发明所述片上数据划分读写方法的一个优选实施例的流程图，如图8所示，所述片上数据划分读写方法步骤包括：

步骤S801，地址空间划分成为片外数据空间和片内数据空间；

步骤S802，根据数据替换策略在所述片内存储介质和片外存储介质之间进行数据替换；所述数据替换策略包括顺序替换、逆序替换以及随机替换；所述数据划分策略包括定点数划分、浮点数划分；

步骤S803，运算处理所述片内存储数据；

步骤S804，运算处理外部输入数据处理，所述外部输入数据包括所述片外输入数据、所述读写端口直接读入的数据。

步骤S805，片内片外数据传输的形式从所述原始数据表示转为全部或者部分的数据索引，拼接全部或者部分的片上的所述数据索引的结果获得所述原始数据表示。

经过处理过后的片内存储数据和片外输入数据拼接在一起，然后才能交由后续的模块进行原始数据的处理，实现加速器的功能。

进一步地，为便于理解，下面以图4～图6所示的一个具体实施例的物理设计框架图进行说明。

对于异构平台来说，加速器的片上能够存储的数据十分有限，需要将所有的数据划分成为大小可以存储在片上的数据块，通过片外大存储介质(即片外存储介质)和片内小存储介质(即片内存储介质)上的数据交互将所需数据块读入或者写出，在数据块大小上有区分，因而划分并存储在不同区域，根据容量需求不同增设所述片外存储介质。其间，片内数据地址通过片内地址索引按需提供给片上计算单元，如图6通过片内地址索引接口41获取索引以及得到索引对应的数据，图4所示即为一个实施例的片上数据索引过程，装置根据 8-bit地址索引256个存储位置，得到32-bit的数据，并不局限于图示的地址索引位宽和片上数据存储位宽。流程的实现在硬件上还依赖于片内存储介质、片外存储介质、片内片外数据通路以及片内数据通路之间的相互通信。

如图6所示即为一个实施例的数据拼接操作过程，片内存储数据，图示为32bit位宽，经过片上数据处理子模块31处理，图示为32bit位宽。片上数据处理子模块31并不局限于寻址操作，也包括其他运算，如算术计算。片外输入数据，图示为32bit位宽，经过片外数据处理子模块32处理，图示为32bit位宽。处理过后的片内存储数据和片外输入数据拼接在一起，图示为64bit位宽，输送给后续模块处理，如片上计算单元，经过处理的片内存储数据和片外输入数据并不局限于图示的位宽，数据块并不局限于特定的数据位宽，数据处理并不局限于特定的操作，而可能包涵复杂的操作，不仅是简单的拼接，而包涵其他操作处理。

具体地，所述数据拼接步骤通过片内片外数据通路或片内数据通路进行，尤其所述片内片外数据通路包括PCI、PCIE、HT互联技术，实现内部与片外之间的数据流，所述片内数据通路包括FAT-TREE、H-TREE互联技术，片内片外数据连接方式包括多芯片互联结构，如片上网络。

本发明提供一种片上读写装置，包括所述片上数据划分读写***100，所述片上读写装置包括片内存储介质、片外存储介质、片内片外数据通路和片内数据通路，所述片上读写装置优选的是，还包括了静态随机存储器(Static Random Access Memory，SRAM)，动态随机存储器(Dynamic Random Access Memory，DRAM)，增强动态随机存取存储器(Enhanced Dynamic Random Access Memory，eDRAM)，寄存器堆(Registerfile，RF)等常见存储介质，也可以是新型的存储器件，如非易失存储器(Non-Volatile Memory，NVM)或者3D存储器件等等。

本发明将数据表示转换到索引，可以高效的进行片上地址空间内的重复寻址，也可以进行片外地址寻址；异构环境下片上重复寻址的装置及其使用策略，不同于直接对数据本身缓存进行加速，硬件支持需要包含片内存储介质，片外存储介质，地址索引器件，片内片外数据通路，片内数据通路。

最后，本发明旨在用于不同的数据划分的策略、装置和方法，根据不同的划分策略，数据被划分成为不同的部分，本发明中的装置支持不同划分策略的装置。

综上所述，本发明的装置及其相关使用方法可以有效的提供数据的复用性和其灵活寻址的需求，有效的降低访存带宽需求，能够适用于不同场景，并不仅仅局限于机器学习类加速器。本发明同时可以通过合理调度数据，缩减片上缓存开销，从而可以提供更加高效的加速器设计支持。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

工业应用性

本发明通过装置及其相关使用方法可以有效的提供数据的复用性和其灵活寻址的需求，有效的降低访存带宽需求，能够适用于不同场景，并不仅仅局限于机器学习类加速器。本发明同时可以通过合理调度数据，缩减片上缓存开销，从而可以提供更加高效的加速器设计支持。

Claims

一种片上数据划分读写方法，其特征在于，包括：

数据划分步骤，根据数据划分策略将片上数据存储在不同区域，分别存储在片内存储介质和片外存储介质；

预先操作步骤，在进行数据拼接时预先对片内存储数据的片内地址索引进行操作处理；

数据拼接步骤，根据数据拼接策略将所述片内存储数据和片外输入数据拼接得到原始数据表示。
根据权利要求1所述片上数据划分读写方法，其特征在于，还包括：

数据存储步骤，存储搬运所述片内存储介质的所述片内存储数据和来自所述片外存储介质的所述片外输入数据；

所述存储步骤中读写端口分离，数据的读出和写入相互独立；

所述预先操作步骤还包括：

运算处理所述片内存储数据；

运算处理外部输入数据处理；

所述外部输入数据包括所述片外输入数据、所述读写端口直接读入的数据。
根据权利要求2所述片上数据划分读写方法，其特征在于，所述数据存储步骤还包括：

根据片内地址索引来索引所述片内存储数据；

已索引到的数据的输出出口；

将要存储的数据根据写入地址写入相应存储位置。
根据权利要求1所述片上数据划分读写方法，其特征在于，所述数据划分步骤还包括：

地址空间划分成为片外数据空间和片内数据空间；

根据数据替换策略在所述片内存储介质和片外存储介质之间进行数据替换；所述数据替换策略包括顺序替换、逆序替换以及随机替换；

所述数据划分策略包括定点数划分、浮点数划分；

所述数据拼接步骤还包括：

片内片外数据传输的形式从所述原始数据表示转为全部或者部分的数据索引，拼接全部或者部分的片上的所述数据索引的结果获得所述原始数据表示；

所述数据拼接步骤通过片内片外数据通路或片内数据通路进行，所述片内片外数据通路包括PCI、PCIE、HT互联技术，所述片内数据通路包括FAT-TREE、H-TREE互联技术，片内片外数据连接方式包括多芯片互联结构；

所述片内存储介质或所述片外存储介质中的数据可以被一次或者多次读写，所述数据可以被读至一个或者多个片上运算单元；所述片内存储介质或所述片外存储介质可以被一次或者多从外部进行读写，介质可以被一次或者多次从内部读写。
一种片上数据划分读写***，其特征在于，包括：

数据划分模块，用于根据数据划分策略将片内存储数据划分在不同区域，分别存储在片内存储介质和片外存储介质；

预先操作模块，用于在进行数据拼接时预先对片内存储数据的片内地址索引进行操作处理；

数据拼接模块，用于根据数据拼接策略将片内存储数据和片外输入数据拼接得到所述原始数据表示。
根据权利要求5所述片上数据划分读写***，其特征在于，还包括：

存储模块，用于存储搬运所述片内存储介质的所述片内存储数据和来自所述片外存储介质的所述片外输入数据；

所述存储模块采用读写端口分离，数据的读出和写入相互独立；

所述预先处理模块还包括：

片上处理子模块，用于运算处理所述片内存储数据；

片外处理子模块，用于运算处理外部输入数据处理；

所述外部输入数据包括所述片外输入数据、所述读写端口直接读入的数据。
根据权利要求6所述片上数据划分读写***，其特征在于，所述存储模块还包括：

地址索引接口，用于根据片内地址索引来索引所述片内存储数据；

数据读出接口，用于已索引到的所述片内存储数据的输出出口；

数据写入接口，用于将要存储的数据根据写入地址写入相应存储位置。
根据权利要求5所述片上数据划分读写***，其特征在于，所述数据划分模块还包括：

地址划分子模块，用于地址空间划分成为片外数据空间和片内数据空间；

数据替换子模块，用于根据数据替换策略在所述片内存储介质和片外存储介质之间进行数据替换；所述数据替换策略包括顺序替换、逆序替换以及随机替换；

所述数据划分策略包括定点数划分、浮点数划分；所述数据划分模块基于芯片中的一个或多个片上计算单元实现，所述片上计算单元发起读写请求并处理拼接得到的原始数据；

所述数据拼接模块还包括：

索引拼接子模块，用于片内片外数据传输的形式从原始数据表示转为全部或者部分的数据索引，拼接全部或者部分的片上的所述数据索引的结果获得所述原始数据表示；

所述数据拼接模块读写通过片内片外数据通路或片内数据通路进行，所述片内片外数据通路包括PCI、PCIE、HT互联技术，所述片内数据通路包括FAT-TREE、H-TREE互联技术，片内片外数据连接方式包括多芯片互联结构；

所述片内存储介质或所述片外存储介质中的数据被一次或者多次读写，所述数据被读至一个或者多个片上运算单元；所述片内存储介质或所述片外存储介质被一次或者多从外部进行读写，所述片内存储介质被一次或者多次从内部读写。
一种片上读写装置，其特征在于，包括根据权利要求5～8任一项所述片上数据划分读写***。
根据权利要求9所述片上读写装置，其特征在于，所述片上读写装置包括静态随机存储器、动态随机存储器、增强动态随机存取存储器、寄存器堆以及非易失存储器或者3D存储器件。