WO2024065865A1

WO2024065865A1 - 一种面向神经网络计算的内存优化方法和装置

Info

Publication number: WO2024065865A1
Application number: PCT/CN2022/124000
Authority: WO
Inventors: 王宏升; 陈�光
Original assignee: 之江实验室
Priority date: 2022-09-27
Filing date: 2022-10-09
Publication date: 2024-04-04
Also published as: CN115269205B; CN115269205A

Abstract

本发明公开了一种面向神经网络计算的内存优化方法和装置，包括以下步骤：步骤S1：将计算图重构为拓扑结构计算图；步骤S2：构建关于张量变量的生命周期区间；步骤S3：构建关于生命周期区间的扫描线；步骤S4：将张量变量分配到空闲寄存器；步骤S5：分配给超出寄存器需求数量的张量变量；步骤S6：将已过期的所述生命周期区间所分配的寄存器分配给超出寄存器需求数量的张量变量；步骤S7：将转移到内存中的张量变量添加回处于激活状态的所述生命周期区间并为其分配空闲寄存器。本发明优化用于神经网络计算的计算图的数据流的内存，减少数据流中张量变量所需的内存开销，降低大模型对于硬件内存资源的要求。

Description

一种面向神经网络计算的内存优化方法和装置

本申请要求于2022年9月27日向中国国家知识产权局提交的发明专利申请号为202211177786.5，发明名称为“一种面向神经网络计算的内存优化方法和装置”的中国专利申请的优先权权益，其全部内容通过引用合并于本申请。

技术领域

本发明涉及一种基于特定计算模型的计算机***技术领域，尤其涉及一种面向神经网络计算的内存优化方法和装置。

背景技术

随着工业界复杂场景对大规模神经网络应用的需求越来越紧迫，大模型对于内存空间的占用不断增大，人工智能硬件操作***自身的内存资源不能满足大模型训练对于内存的需求，所以优化面向神经网络计算的内存技术变得极为重要。

为此，我们提出一种面向神经网络计算的内存优化方法和装置。

发明内容

本发明的目的在于提供一种面向神经网络计算的内存优化方法和装置，以解决如何优化减少张量变量对于深度学习操作***内存资源的持久依赖和占用，减少数据流中张量变量所需的内存开销，并降低大模型对于硬件内存资源的要求的问题。

本发明采用的技术方案如下：

一种面向神经网络计算的内存优化方法，包括以下步骤：

步骤S1：将计算图重构为拓扑结构计算图；

步骤S2：构建关于张量变量的生命周期区间；

步骤S3：构建关于生命周期区间的扫描线；

步骤S4：将张量变量分配到空闲寄存器；

步骤S5：将最远终点的所述生命周期区间对应张量变量的寄存器分配给超出寄存器需求数量的张量变量；

步骤S6：将已过期的所述生命周期区间所分配的寄存器分配给超出寄存器需求数量的张量变量；

步骤S7：将转移到内存中的张量变量添加回处于激活状态的所述生命周期区间并为其分配空闲寄存器。

进一步地，所述步骤S1具体包括以下子步骤：

步骤S11：后序顺序遍历计算图，得到子图访问列表；

步骤S12：逆序后序所述子图访问列表，得到计算图的拓扑结构顺序；

步骤S13：根据所述拓扑结构顺序重构计算图，得到拓扑结构计算图。

进一步地，所述后序顺序为当访问所述计算图的某个节点时，则优先递归地访问所述节点的后继节点。

进一步地，所述步骤S2具体为构建关于每个节点中包含张量变量的生命周期区间，所述节点包含的张量变量对应的关于生命周期区间起始于所述张量变量处于存活状态的第一个节点的位置，终止于所述张量变量处于存活状态的最后一个节点的位置。

进一步地，所述步骤S3具体为在所述拓扑结构计算图的起始节点处，构建一条与所述生命周期区间平行的扫描线，所述扫描线用于从所述生命周期区间的起始端向所述生命周期区间的终止端移动过程中，观察是否存在空闲寄存器可以分配给数据流执行过程中的张量变量。

进一步地，所述步骤S5具体为执行流位于某个节点的位置时，当所述节点既没有空闲寄存器，也没有可以从处于激活状态的所述生命周期区间中移除的已经被扫描过期的所述生命周期区间，则将最远终点的所述生命周期区间对应的张量变量所分配的寄存器中的张量变量转移到内存中，然后将所释放的寄存器分配给超出寄存器需求数量的张量变量。

进一步地，所述步骤S6具体为执行流位于某个节点的位置时，当所述扫描线已经穿过张量变量所分配寄存器对应的所述生命周期区间，将张量变量从处于激活状态的所述生命周期区间中移除，对应分配的寄存器回收到空闲寄存器列表中，将所述空闲寄存器分配给超出寄存器需求数量的张量变量。

进一步地，所述步骤S7具体为执行流位于某个节点的位置时，当存在空闲寄存器，则将转移到内存中的张量变量添加回处于激活状态的所述生命周期区间，并且将空闲寄存器分配给对应的所述生命周期区间。

本发明还提供一种面向神经网络计算的内存优化装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例任一项所述的一种面向神经网络计算的内存优化方法。

本发明还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例任一项所述的一种面向神经网络计算的内存优化方法。

本发明的有益效果是：本发明提供了计算图执行过程中产生的张量变量与物理寄存器和内存的映射关系，并且提供了基于所述映射关系的优化方法。寄存器可以存储计算图执行过程中产生的张量变量在内存中的存储位置。传统的张量变量存储方法是直接将张量变量的值存储到内存中。由于张量变量的值既可以存储在内存中也可以存储在寄存器中，考虑到寄存器允许中央处理器单元直接访问和访问速度快的特性，所以，本发明提出的借助寄存器优化内存的方法优化了用于神经网络计算的计算图的数据流的内存，减少数据流中张量变量所需的内存开销，并降低了大模型对于硬件内存资源的要求。所述的用于神经网络计算的内存优化方法提高整个计算图的计算效率，节约硬件和时间成本。

附图说明

图1为本发明一种面向神经网络计算的内存优化方法的流程示意图；

图2为实施例1将计算图重构为拓扑结构的过程示意图；

图3为实施例1拓扑结构计算图；

图4为实施例1构建关于拓扑结构计算图节点包含张量变量生命周期的区间；

图5为实施例1将拓扑结构计算图节点包含的前两个张量变量分配到两个寄存器；

图6为实施例1将寄存器中张量变量转移到内存和将新张量变量分配到已空闲寄存器；

图7为实施例2用于神经网络计算的计算图；

图8为实施例2构建关于数据流中张量变量生命周期区间；

图9为实施例2构建关于张量变量生命周期区间的扫描线；

图10为实施例2将寄存器r ₃分配给节点V ₁处的变量x；

图11为实施例2将寄存器r ₁分配给节点V ₂处的变量y；

图12为实施例2将寄存器r ₂分配给节点V ₃处的变量z；

图13为实施例2将最远终点区间l _x对应张量变量x的寄存器r ₃分配给超出寄存器需求数量的张量变量b；

图14为实施例2将已过期生命周期区间l _y所分配的寄存器r ₁分配给超出寄存器需求数量的张量变量w；

图15为实施例2将已过期生命周期区间所对应的张量变量从处于激活状态的生命周期区间列表中移除并回收寄存器；

图16为实施例2将已过期生命周期区间对应的张量变量从处于激活状态的生命周期区间列表中移除并回收寄存器；

图17为实施例2将空闲寄存器r ₃分配给l _r3对应生命周期区间；

图18为实施例3中的一种面向神经网络计算的内存优化装置的示意图。

具体实施方式

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，一种面向神经网络计算的内存优化方法，包括以下步骤：

步骤S1：将计算图重构为拓扑结构计算图；

步骤S11：后序顺序遍历计算图，得到子图访问列表；

所述后序顺序为当访问所述计算图的某个节点时，则优先递归地访问所述节点的后继节点。

步骤S2：构建关于张量变量的生命周期区间；

具体为构建关于每个节点中包含张量变量的生命周期区间，所述节点包含的张量变量对应的关于生命周期区间起始于所述张量变量处于存活状态的第一个节点的位置，终止于所述张量变量处于存活状态的最后一个节点的位置。

步骤S3：构建关于生命周期区间的扫描线；

在所述拓扑结构计算图的起始节点处，构建一条与所述生命周期区间平行的扫描线，所述扫描线用于从所述生命周期区间的起始端向所述生命周期区间的终止端移动过程中，观察是否存在空闲寄存器可以分配给数据流执行过程中的张量变量。

步骤S4：将张量变量分配到空闲寄存器；

为执行流位于某个节点的位置时，当所述节点既没有空闲寄存器，也没有可以从处于激活状态的所述生命周期区间中移除的已经被扫描过期的所述生命周期区间，则将最远终点的所述生命周期区间对应的张量变量所分配的寄存器中的张量变量转移到内存中，然后将所释放的寄存器分配给超出寄存器需求数量的张量变量。

为执行流位于某个节点的位置时，当所述扫描线已经穿过张量变量所分配寄存器对应的所述生命周期区间，将张量变量从处于激活状态的所述生命周期区间中移除，对应分配的寄存器回收到空闲寄存器列表中，将所述空闲寄存器分配给超出寄存器需求数量的张量变量。

为执行流位于某个节点的位置时，当存在空闲寄存器，则将转移到内存中的张量变量添加回处于激活状态的所述生命周期区间，并且将空闲寄存器分配给对应的所述生命周期区间。

对下述实施例中对应附图的函数定义如下：

tf.random_uniform([[5，3]])：表示随机生成形状为5行3列的张量。

goto V _i：表示进入执行V _i节点的计算流。

if表达式goto V _i：表示判断表达式的值是否为真，如果为真，则执行V _i节点的计算流；否则执行其他分支节点的计算流。

tf.add(x，y)：表示张量x与张量y进行相加操作。

tf.ones(ai.shape)：表示创建一个与张量a _i形状相同且所有元素都为1的张量。

表示张量变量a _i和张量变量a _j关于张量变量a的正确定义的路由选择器。

tf.relu(x)：表示将张量x输入整流线性单元。

tf.matmul(x，y)：表示张量x与张量y进行矩阵乘法操作。

return b _i：表示返回执行包含b _i张量变量的分支。

I _x：表示张量变量x的生命周期区间。

tf.subtract(x，y)：表示张量x与张量y进行相减操作。

r _i：表示将空闲寄存器r _i分配给所对应生命周期区间的张量变量。

表示存储操作，代表将寄存器r _i中的张量变量a ₀存储到内存中。

表示存储操作，代表将内存中的张量变量a ₀加载到寄存器r _i中。

实施例1：

参见图2，步骤S1：将计算图重构为拓扑结构计算图；

步骤S11：后序顺序遍历计算图，得到子图访问列表；

按照后序顺序遍历计算图，得到子图访问列表为：D，B，E，C，F，A；

每当计算图中的某个节点C被按照后序顺序被访问完成时，那么与所述节点V _c的所有连边都已经被访问过了。所述后序顺序的遍历可以确保计算图遍历中关于从节点V _A指向节点V _B的路径中节点V _B一定优先于节点V _A被访问。

逆序后序所述子图访问列表，得到计算图的拓扑结构顺序为：A，F，C，E，B，D；

所述逆序后序节点列表是指将第一步后序顺序访问所得节点的列表进行逆序。所述逆序后序节点列表确保如果图中存在从节点V _A指向节点V _B的路径，那么所得拓扑顺序的列表中节点V _A出现在节点V _B之前。所述逆序后序的过程保证了拓扑结构的计算图在访问由某个节点V _c连接的任何其他节点之前，需要优先访问所述的V _c节点。

步骤S13：根据所述拓扑结构顺序重构计算图，得到拓扑结构计算图，参见图3。

参见图4，步骤S2：构建关于张量变量的生命周期区间；

对于节点包含的张量变量v，所述张量变量对应的关于生命周期区间l _v起始于张量变量v处于存活状态的第一个节点的位置，终止于张量变量v处于存活状态的最后一个节点的位置。

步骤1：构建关于张量变量a ₀的生命周期区间

所述关于张量变量a ₀的生命周期区间

起始于节点V ₁，终止于节点V ₃。

步骤2：构建关于张量变量a ₁的生命周期区间

所述关于张量变量a ₁的生命周期区间

起始于节点V ₄，由于子图E与子图D之间存在由子图E指向子图D的连边，所以张量变量a ₁会穿过节点V ₈到达子图D，因此关于张量变量a ₁的生命周期区间

终止于节点V ₈。

步骤3：构建关于张量变量a ₂的生命周期区间

所述关于张量变量a ₂的生命周期区间

起始于节点V ₅，由于子图E与子图D之间存在由子图E指向子图D的连边，所以张量变量a ₂会穿过节点V ₈到达子图D，因此关于张量变量a ₂的生命周期区间

终止于节点V ₈。

步骤S3：构建关于生命周期区间的扫描线；

参见图5，步骤S4：将张量变量分配到空闲寄存器；

所述将拓扑结构计算图节点包含的张量变量分配到两个寄存器r ₀和r ₁中包含以下过程：

步骤1：将张量变量a ₀分配到寄存器r ₀中。

步骤2：将张量变量a ₁分配到寄存器r ₁中。

为执行流位于某个节点V _i的位置时，当所述节点既没有空闲寄存器，也没有可以从处于激活状态的所述生命周期区间中移除的已经被扫描过期的所述生命周期区间，则将最远终点的所述生命周期区间对应的张量变量i所分配的寄存器r _i中的张量变量i转移到内存中，然后将所释放的寄存器r _i分配给超出寄存器需求数量的张量变量j。

步骤S6：将已过期的所述生命周期区间l _i所分配的寄存器分配给超出寄存器需求数量的张量变量j；

为执行流位于某个节点V _i的位置时，当所述扫描线已经穿过张量变量i所分配寄存器r _i对应的所述生命周期区间l _i，将张量变量i从处于激活状态的所述生命周期区间中移除，对应分配的寄存器r _i回收到空闲寄存器列表中，将所述空闲寄存器r _i分配给超出寄存器需求数量的张量变量j。

参见图6，步骤S7：将转移到内存中的张量变量添加回处于激活状态的所述生命周期区间并为其分配空闲寄存器。

为执行流位于某个节点V _i的位置时，当存在空闲寄存器r _i，则将转移到内存中的张量变量i添加回处于激活状态的所述生命周期区间，并且将空闲寄存器r _i分配给对应的所述生命周期区间l _i。

每当数据流流经包含张量变量i的重定义节点时，需要将寄存器r _i中张量变量i存储到内存中；每当数据流流经包含张量变量i的使用节点时，需要将张量变量i从内存中加载到寄存器r _i中。所述将转移到内存中的张量变量添加回处于激活状态的区间列表的过程

标记所示位置。

第一步、由于节点V ₁和V ₉处均包含张量变量a ₀的定义，所以需要将节点V ₁和V ₉处寄存器r ₀中的张量变量a ₀存储到内存中。如图6中

标记所示位置。

第二步、由于节点V ₂，V ₄，V ₅，V ₉和V ₃处均包含张量变量a ₀的使用，所以需要在所述节点处将张量变量a ₀从内存中加载到寄存器r ₀中。

参见图7，实施例2：一种面向神经网络计算的内存优化方法，在内存优化过程中用于神经网络计算的计算图执行流中的张量变量分配3个寄存器，具体如下：

步骤S1：将计算图重构为拓扑结构计算图；如图8左边所示的计算图。

步骤S2：构建关于张量变量的生命周期区间；如图8右边边所示的计算图。

步骤S3：构建关于生命周期区间的扫描线；

在拓扑结构计算图的起始节点V ₁处，构建一条与所述生命周期区间起始线平行的扫描线。所述扫描线用来辅助观察空闲寄存器和张量变量的状态。扫描线的工作方式是在扫描线从生命周期区间的起始端向生命周期区间的终止端移动的过程中，观察是否存在空闲寄存器可以分配给数据流执行过程中的张量变量，参见图9，顶部横线代表扫描线。

步骤S4：将张量变量分配到空闲寄存器；

参见图10，将空闲寄存器r ₃分配给张量变量x，扫描线的起始位置，也就是节点V ₁处，发现存在空闲寄存器r ₃可以分配给张量变量x。

参见图11，将寄存器r ₁分配给节点V ₂处的张量变量y。扫描线扫描至节点V ₂的位置时，发现扫描线已经穿过寄存器r ₁的所述生命周期区间，所以可以将寄存器r ₁的所述生命周期区间从处于激活状态的所述生命周期区间列表中移除，将寄存器r ₁回收到空闲寄存器列表中。最后将所述空闲寄存器r ₁可以分配给张量变量y。

参见图12，将寄存器r ₂分配给节点V ₃处的张量变量z。扫描线扫描至节点V ₃的位置时，发现扫描线已经穿过寄存器r ₂的所述生命周期区间，所以可以将寄存器r ₂的所述生命周期区间从处于激活状态的所述生命周期区间列表中移除，将寄存器r ₂回收到空闲寄存器列表中。最后将所述空闲寄存器r ₂可以分配给张量变量z。

参见图13，扫描线扫描至节点V ₄的位置时，发现既没有空闲寄存器，也没有可以从处于激活状态的所述生命周期区间列表中移除的已经被扫描过期的所述生命周期区间。所以需要将最远终点的所述生命周期区间对应张量变量x所分配的寄存器r ₃中的张量变量转移到内存中，然后将所释放的寄存器r ₃分配给超出寄存器需求数量的张量变量b。由于张量变量x被存储到内存中，所以张量变量x对应的所述生命周期区间更新为虚线。

参见图14，将已过期的生命周期区间l _y所分配的寄存器分配给超出寄存器需求数量的张量变量w。扫描线扫描至节点V ₅的位置时，发现扫描线已经穿过张量变量y所分配寄存器r ₁对应的生命周期区间l _y，所以可以将张量变量y从处于激活状态的生命周期区间列表中移除，将寄存器r ₁回收到空闲寄存器列表中。最后将所述空闲寄存器r ₁可以分配给超出寄存器需求数量的张量变量w。

参见图15，将已过期生命周期区间所分配的寄存器回收到空闲寄存器列表中。扫描线扫描至节点V ₈的结束位置时，发现扫描线已经穿过张量变量z所分配寄存器r ₂对应的生命周期区间l _z和张量变量w所分配寄存器r ₁对应的生命周期区间l _w。所以将已过期生命周期区间l _z和l _w所对应的张量变量z和w从处于激活状态的生命周期区间列表中移除，将寄存器r ₂和r ₁回收到空闲寄存器列表中。

参见图16，将已过期生命周期区间所分配的寄存器回收到空闲寄存器池中并将空闲寄存器分配给处于激活状态的生命周期区间。扫描线扫描至节点V ₉的位置时，发现扫描线已经穿过张量变量b所分配寄存器r ₃对应的生命周期区间l _b。所以将已过期生命周期区间l _b所对应的张量变量b从处于激活状态的生命周期区间列表中移除，将寄存器r ₃回收到空闲寄存器列表中。扫描线扫描至节点V ₉的位置时，发现发现存在空闲寄存器r ₁，将空闲寄存器r ₁分配给

对应生命周期区间。扫描线扫描至节点V ₁₀的位置时，发现发现存在空闲寄存器r ₃，将空闲寄存器r ₃分配给

对应生命周期区间。

参见图17，扫描线扫描至节点V ₁₀的位置时，发现发现存在空闲寄存器r ₂，将转移到内存中的变量x添加回处于激活状态的生命周期区间列表，并且将空闲寄存器r ₂分配给l _x对应的生命周期区间。

与前述一种面向神经网络计算的内存优化方法的实施例相对应，本发明还提供了一种面向神经网络计算的内存优化装置的实施例3。

参见图18，本发明实施例3提供的一种面向神经网络计算的内存优化装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的一种面向神经网络计算的内存优化方法。

本发明一种面向神经网络计算的内存优化装置的实施例3可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例3可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图18所示，为本发明一种面向神经网络计算的内存优化装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图18所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例3中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例3而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例3仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种面向神经网络计算的内存优化方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种面向神经网络计算的内存优化方法，其特征在于，包括以下步骤：

步骤S1：将计算图重构为拓扑结构计算图；

步骤S2：构建关于张量变量的生命周期区间；

步骤S3：构建关于生命周期区间的扫描线；

步骤S4：将张量变量分配到空闲寄存器；

步骤S5：将最远终点的所述生命周期区间对应张量变量的寄存器分配给超出寄存器需求数量的张量变量；

步骤S6：将已过期的所述生命周期区间所分配的寄存器分配给超出寄存器需求数量的张量变量；

步骤S7：将转移到内存中的张量变量添加回处于激活状态的所述生命周期区间并为其分配空闲寄存器。
如权利要求1所述的一种面向神经网络计算的内存优化方法，其特征在于，所述步骤S1具体包括以下子步骤：

步骤S11：后序顺序遍历计算图，得到子图访问列表；

步骤S12：逆序后序所述子图访问列表，得到计算图的拓扑结构顺序；

步骤S13：根据所述拓扑结构顺序重构计算图，得到拓扑结构计算图。
如权利要求2所述的一种面向神经网络计算的内存优化方法，其特征在于，所述后序顺序为当访问所述计算图的某个节点时，则优先递归地访问所述节点的后继节点。
如权利要求1所述的一种面向神经网络计算的内存优化方法，其特征在于，所述步骤S2具体为构建关于每个节点中包含张量变量的生命周期区间，所述节点包含的张量变量对应的关于生命周期区间起始于所述张量变量处于存活状态的第一个节点的位置，终止于所述张量变量处于存活状态的最后一个节点的位置。
如权利要求1所述的一种面向神经网络计算的内存优化方法，其特征在于，所述步骤S3具体为在所述拓扑结构计算图的起始节点处，构建一条与所述生命周期区间平行的扫描线，所述扫描线用于从所述生命周期区间的起始端向所述生命周期区间的终止端移动过程中，观察是否存在空闲寄存器可以分配给数据流执行过程中的张量变量。
如权利要求1所述的一种面向神经网络计算的内存优化方法，其特征在于，所述步骤S5具体为执行流位于某个节点的位置时，当所述节点既没有空闲寄存器，也没有可以从处于激活状态的所述生命周期区间中移除的已经被扫描过期的所述生命周期区间，则将最远终点的所述生命周期区间对应的张量变量所分配的寄存器中的张量变量转移到内存中，然后将所释放的寄存器分配给超出寄存器需求数量的张量变量。
如权利要求1所述的一种面向神经网络计算的内存优化方法，其特征在于，所述步骤S6具体为执行流位于某个节点的位置时，当所述扫描线已经穿过张量变量所分配寄存器对应的所述生命周期区间，将张量变量从处于激活状态的所述生命周期区间中移除，对应分配的寄存器回收到空闲寄存器列表中，将所述空闲寄存器分配给超出寄存器需求数量的张量变量。
如权利要求1所述的一种面向神经网络计算的内存优化方法，其特征在于，所述步骤S7具体为执行流位于某个节点的位置时，当存在空闲寄存器，则将转移到内存中的张量变量添加回处于激活状态的所述生命周期区间，并且将空闲寄存器分配给对应的所述生命周期区间。
一种面向神经网络计算的内存优化装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8中任一项所述的一种面向神经网络计算的内存优化方法。
一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-8中任一项所述的一种面向神经网络计算的内存优化方法。