CN116432778B - 一种数据处理的方法、装置、存储介质及电子设备 - Google Patents

一种数据处理的方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116432778B
CN116432778B CN202310695188.5A CN202310695188A CN116432778B CN 116432778 B CN116432778 B CN 116432778B CN 202310695188 A CN202310695188 A CN 202310695188A CN 116432778 B CN116432778 B CN 116432778B
Authority
CN
China
Prior art keywords
tensor
cost
partial
time
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310695188.5A
Other languages
English (en)
Other versions
CN116432778A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Moore Threads Technology Co Ltd
Original Assignee
Moore Threads Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Moore Threads Technology Co Ltd filed Critical Moore Threads Technology Co Ltd
Priority to CN202310695188.5A priority Critical patent/CN116432778B/zh
Publication of CN116432778A publication Critical patent/CN116432778A/zh
Application granted granted Critical
Publication of CN116432778B publication Critical patent/CN116432778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本说明书公开了一种数据处理的方法、装置、存储介质及电子设备,在模型训练的过程中,确定显存中存储的模型的各张量。然后确定重计算各张量的第一代价,并预估下一次访问各张量的访问时刻以及确定将各张量转移至其他设备的传输时间,进而根据该访问时刻以及该传输时间确定第二代价。根据重计算各张量的第一代价以及转移各张量的第二代价确定驱逐各张量的最终代价。最后根据各张量的最终代价,在显存中当前存储的各张量中选择目标张量并进行驱逐。该方法可以使显存的占用率始终维持在一个合理的范围内,使得GPU可以完成对模型的训练。且使用各张量对应的时间开销最小的方法对各张量进行驱逐,减少了驱逐张量的时间开销,提高模型训练的效率。

Description

一种数据处理的方法、装置、存储介质及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理的方法、装置、存储介质及电子设备。
背景技术
随着科技的发展,人工智能日益受到关注。目前,可结合实际情况建立模型以对不同场景下的问题进行求解,由于模型适用范围广泛且通过模型可快速得到准确的预测结果,因此在各种各样的场景下,都有模型的应用。
一般的,当对较大的模型进行训练时,需要使用图形处理器(GPU,GraphicProcessing Unit)对模型进行训练,而模型中的张量(模型自身的参数与模型的输出数据)要存储在GPU的显存中。但是,由于模型的复杂度较高,也就是说模型本身的参数多且训练时产生的数据量大,因此会导致显存无法存储模型的所有数据。因此,如何对显存中的张量进行处理,以合理的利用显存是一个难点的问题。
基于此,本申请说明书提供了一种数据处理的方法。
发明内容
本说明书提供一种数据处理的方法、装置、存储介质及电子设备,以至少部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种数据处理的方法,所述方法包括:
在模型的训练过程中,确定显存中存储的所述模型的至少部分张量;
确定重计算所述至少部分张量的第一代价;并,确定转移所述至少部分张量的第二代价;
根据所述至少部分张量的第一代价以及第二代价,从所述显存当前存储的所述至少部分张量中选择目标张量并驱逐。
可选地,确定转移所述至少部分张量的第二代价,具体包括:
预估下一次访问所述至少部分张量的访问时刻,确定转移所述至少部分张量所需的传输时间;
根据所述访问时刻以及所述传输时间,确定转移所述至少部分张量的第二代价。
可选地,所述方法还包括:
确定所述模型完成一轮迭代训练的过程中所述至少部分张量的基准访问时刻;
根据所述至少部分张量的基准访问时刻,预估所述至少部分张量的访问时间间隔;
预估下一次访问所述至少部分张量的访问时刻,具体包括:
根据所述至少部分张量的访问时间间隔,预估下一次访问所述至少部分张量的访问时刻。
可选地,确定转移所述至少部分张量所需的传输时间,具体包括:
确定通过总线将所述至少部分张量传输至目标设备的第一时间,并确定所述目标设备通过所述总线将所述至少部分张量返回的第二时间;
确定通过所述总线传输所述至少部分张量时的排队等待时间;
根据所述第一时间、所述第二时间以及所述排队等待时间,确定转移所述至少部分张量所需的传输时间。
可选地,确定转移所述至少部分张量的第二代价,具体包括:
确定所述访问时刻与当前时刻的时间间隔;
根据所述传输时间与所述时间间隔的差值,确定转移所述至少部分张量的第二代价;其中,所述差值与所述第二代价成正比。
可选地,从所述显存当前存储的所述至少部分张量中选择目标张量并驱逐,具体包括:
确定驱逐所述至少部分张量的最终代价;
根据所述最终代价,从所述显存当前存储的所述至少部分张量中选择目标张量并驱逐。
可选地,确定驱逐所述至少部分张量的最终代价,具体包括:
将所述至少部分张量的第一代价与第二代价中最小的代价作为驱逐所述至少部分张量的最终代价。
可选地,驱逐所述目标张量之前,所述方法还包括:
确定所述显存的占用率大于预设的阈值。
可选地,从所述显存当前存储的所述至少部分张量中选择目标张量,具体包括:
按照所述显存当前存储的所述至少部分张量的最终代价的从小到大的顺序,依次选择张量作为目标张量。
本说明书提供了一种数据处理的装置,包括:
张量确定模块,用于在模型的训练过程中,确定显存中存储的所述模型的至少部分张量;
代价计算模块,用于确定重计算所述至少部分张量的第一代价;并,确定转移所述至少部分张量的第二代价;
张量驱逐模块,用于根据所述至少部分张量的第一代价以及第二代价,从所述显存当前存储的所述至少部分张量中选择目标张量并驱逐。
可选地,所述代价计算模块具体用于,预估下一次访问所述至少部分张量的访问时刻,确定转移所述至少部分张量所需的传输时间,根据所述访问时刻以及所述传输时间,确定转移所述至少部分张量的第二代价。
可选地,所述张量确定模块还用于,确定所述模型完成一轮迭代训练的过程中所述各张量的基准访问时刻;根据所述至少部分张量的基准访问时刻,预估所述至少部分张量的访问时间间隔;
所述代价计算模块具体用于,根据所述至少部分张量的访问时间间隔,预估下一次访问所述至少部分张量的访问时刻。
可选地,所述代价计算模块具体用于,确定通过总线将所述至少部分张量传输至目标设备的第一时间,并确定所述目标设备通过所述总线将所述各张量返回的第二时间;确定通过所述总线传输所述至少部分张量时的排队等待时间;根据所述第一时间、所述第二时间以及所述排队等待时间,确定转移所述至少部分张量所需的传输时间。
可选地,所述代价计算模块具体用于,确定所述访问时刻与当前时刻的时间间隔;根据所述传输时间与所述时间间隔的差值,确定转移所述至少部分张量的第二代价;其中,所述差值与所述第二代价成正比。
可选地,所述张量驱逐模块具体用于,确定驱逐所述至少部分张量的最终代价;根据所述最终代价,从所述显存当前存储的所述至少部分张量中选择目标张量并驱逐。
可选地,所述张量驱逐模块具体用于,将所述至少部分张量的第一代价与第二代价中最小的代价作为驱逐所述至少部分张量的最终代价。
可选地,所述装置还包括占用率确定模块;
所述占用率确定模块具体用于,确定所述显存的占用率大于预设的阈值。
可选地,所述张量驱逐模块具体用于,按照所述显存当前存储的所述至少部分张量的最终代价的从小到大的顺序,依次选择张量作为目标张量。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据处理的方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述数据处理的方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的数据处理的方法中,在模型训练的过程中,确定显存中存储的模型的至少部分张量。然后计算重计算各张量的第一代价,并预估下一次访问各张量的访问时刻以及确定将各张量转移至其他设备的传输时间,进而根据该访问时刻以及该传输时间确定第二代价。并根据第一代价以及第二代价确定驱逐各张量的最终代价。最后根据各张量的最终代价对各张量进行驱逐。
从上述方法中可以看出,计算将显存中的各张量进行重计算的第一代价以及计算将各张量进行转移的第二代价,得到最终代价。进而可根据最终代价对显存中当前存储的张量进行驱逐。该方法可以使得显存的占用率始终维持在一个合理的范围内,使得GPU可以继续执行模型的训练。且在对显存中的各张量进行驱逐时,将重计算的方式和转移的方式结合,通过计算重计算各张量的时间开销以及计算转移各张量的时间开销,进而选择各张量对应的时间开销最小的方式对显存中的各张量进行驱逐,减少了驱逐显存中的各张量的时间开销,提高了模型训练的效率。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中一种数据处理的方法的流程示意图;
图2为本说明书提供的一种数据处理的装置示意图;
图3为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书提供的一种数据处理的方法的流程示意图,具体可包括以下步骤:
S100:在模型的训练过程中,确定显存中存储的所述模型的各张量。
一般的,由于GPU比中央处理器(Central Processing Unit,CPU)具有更多的算术逻辑单元,因此GPU在执行并行计算以及计算密集型任务时比CPU具有更大的优势。因此在对模型进行训练的时候,可使用GPU执行模型的训练,以更高效地完成模型的训练。但是,在模型训练的过程中,GPU的显存不能承载模型的所有参数以及模型的输出结果,基于此,本说明书提供了一种数据处理的方法,可以释放显存,且提高模型训练的效率。
在本说明书的一个或多个实施例中,GPU可先获取显存中存储的模型的至少部分张量,以在后续步骤中计算驱逐该至少部分张量中的各张量的代价。
其中,在机器学习模型的训练过程中,张量(Tensor)实际上是一个多维数组(multidimensional array),用来表示高维度的矩阵、向量。在常用于训练模型的TensorFlow中,张量表示为基本数据类型的n维数组,也即在TensorFlow中,所有的数据都是一个n维度数组,称为张量。则在本说明书的一个或多个实施例中,可将模型中网络层的每个节点的输入数据或者输出数据作为一个 Tensor。
S102:确定重计算所述至少部分张量的第一代价;并,确定转移所述至少部分张量的第二代价。
在本说明书的一个或多个实施例中,GPU可先确定重计算各张量的第一代价。具体的,可将在当前时刻重新计算出各张量所使用的时间作为第一代价。
其中,重计算即为重新计算,将显存中的张量释放之后,再次使用该张量时将其重新计算出来。转移张量即为将张量转移到其他设备(如:CPU)中,再次使用时可从其他设备中读取该张量。
需要说明的是,在重计算张量时,可基于设置梯度检查点的方法进行张量的重计算,也可使用其他方法,具体本说明书不做限制。
然后,在释放显存时,GPU还可以将显存中的各张量转移至目标设备进行存储,因此GPU可确定将各张量转移的第二代价。
在本说明书的一个或多个实施例中,GPU可先预估下一次访问张量的访问时刻,确定转移至少部分张量所需的传输时间,以根据访问时刻以及传输时间,确定转移张量的第二代价。
由于在对模型训练时,是通过不同批次的样本对模型进行迭代训练的,因此GPU对模型的各张量的访问在时间上是有一定规律的。则在预估下一次访问各张量的访问时刻之前,GPU可确定该模型在完成一轮迭代训练的过程中各张量的基准访问时刻,进而预估各张量的访问时间间隔。其中,基准访问时刻为在模型完成一轮训练的过程中,第一次访问各张量的访问时刻。例如:模型在一轮迭代训练时,得到的张量为A、B以及C,且模型在7时30分时开始训练,在7时30分5秒时得到张量A,在7时30分12秒时得到张量B,以及在7时30分13秒时得到张量C,则张量A、B、C的基准访问时刻分别为7时30分5秒、7时30分12秒、7时30分13秒,在7时30分14秒时再次访问张量A,则可确定张量A的访问时间间隔为14秒。
则该GPU可根据各张量的访问时间间隔,预估下一次访问各张量的访问时刻。沿用上例,可知,张量A的首次访问时刻为7时30分5秒,且访问时间间隔为14秒,则张量A之后的访问时刻为7时30分19秒、7时30分33秒、7时30分47秒…。假设当前时刻为7时30分39秒,则下一次访问张量A的访问时刻为7时30分47秒。
需要说明的是,在对模型进行一轮迭代训练时,一个张量可能被访问很多次,且访问时间间隔不一定相同,因此可确定一轮迭代的不同阶段中张量的各访问时间间隔,进而在后续轮次的迭代过程中根据不同阶段的张量的访问时间间隔,确定张量的访问时刻。在理想的情况下,张量的各访问时间间隔可以是相同的,也即可以根据基准访问时刻,确定张量的访问周期,则可根据访问周期去预估张量的访问时刻。
在GPU确定转移各张量所需的传输时间时,GPU可确定通过总线将各张量传输至目标设备的第一时间,并确定目标设备将各张量返回给GPU的第二时间。且由于GPU中的计算是并行的,因此会存在多个张量在排队等待被转移至目标设备,则在将张量传输至目标设备时,要计算各张量的排队等待时间。然后,可将第一时间、第二时间以及排队等待时间的和作为转移各张量所需的传输时间。
其中,该目标设备可为CPU,也就是说,GPU可将显存中的各张量转移至CPU的缓存中。并且,GPU和CPU之间是通过PCIe总线进行数据传输的。
则在本说明书的一个或多个实施例中,GPU可确定通过PCIe总线将各张量传输至CPU的第一时间,并确定CPU通过PCIe总线将各张量返回给GPU的第二时间。各张量的排队等待时间即为各张量排队等待通过PCIe总线进行传输的时间。
最后,GPU可根据转移各张量所需的传输时间以及预估的下一次访问各张量的访问时刻确定将各张量进行转移的第二代价。
具体的,GPU可确定访问时刻与当前时刻的时间间隔,并根据传输时间与时间间隔的差值,确定第二代价,且传输时间与时间间隔的差值越大,转移张量的第二代价越大。当传输时间不大于时间间隔时,表明在当前时刻使用转移的方式将张量驱逐,到下一访问时刻再次获取到张量时不会增加时间开销。由于在传输时间不大于时间间隔时,将张量转移不会增加额外的时间开销,因此也可使用预设的最小代价作为第二代价,也即当传输时间不大于时间间隔时,第二代价为预设的最小代价。其中,预设的最小代价可为零,也可为负值,具体本说明书不做限制,只要比最小的第二代价小即可(第二代价最小值大于零)。
例如:传输时间为5S,当前时刻和访问时刻的时间间隔为7S,那么该第二代价可为预设的最小代价。也就是说,在当前时刻将张量X进行驱逐,且在当前时刻将张量X转移至其他设备且再次获取到张量X的时间为5S,比下一次访问张量X的访问时刻与当前时刻的时间间隔7S小,则表明通过转移对张量X进行驱逐的方式在时间上没有对下一次张量X的使用造成任何影响。
而在传输时间大于该时间间隔时,通过转移对张量进行驱逐的方式对下一次张量的使用造成了一定的时间延迟。例如:假设传输时间为3S,当前时刻和访问时刻的时间间隔为2S,也就是说,原本是在当前时刻的2S之后要用到张量,但是在当前时刻的3S之后才能获得到该张量,即增加了1S的时间开销。
需要说明的是,在本说明书的一个或多个实施例中,是以重计算各张量的时间开销以及转移各张量的时间开销作为代价的,但是在重计算各张量以及转移各张量时,不仅仅可将时间开销作为代价,也可结合重计算各张量消耗的算力资源以及转移各张量消耗的算力资源,对时间开销以及算力资源的消耗进行加权计算代价。
S104:根据所述至少部分张量的第一代价以及第二代价,从所述显存当前存储的所述至少部分张量中选择目标张量并驱逐。
在本说明书中,为了提高模型的训练效率,在计算出各张量的第一代价以及第二代价之后,服务器可基于第一代价以及第二代价,确定究竟是以哪种策略从显存中驱逐哪个张量。
在本说明书的一个或多个实施例中,在从显存中选择目标张量进行驱逐之前,GPU可先确定显存的占用率是否大于预设的阈值。若确定显存的占用率大于预设的阈值,则GPU可根据各张量的第一代价以及第二代价,从显存当前存储的各张量中选择目标张量并驱逐。
在本说明书的一个或多个实施例中,为了提高模型训练的效率,即减少从驱逐各张量到再次获取到各张量的时间开销,GPU可根据各张量的第一代价以及第二代价,确定各张量的最终代价。以使服务器可基于最终代价,从显存当前存储的张量中选择目标张量并驱逐。如:GPU可按照显存当前存储的各张量的最终代价的从小到大的顺序,在显存当前存储的各张量中选择指定数目的最终代价最小的张量作为目标张量,并进行驱逐,以使得显存的占用率小于预设的阈值。或者说,GPU可按照最终代价从小到大的顺序,依次选择最终代价最小的张量作为目标张量并驱逐,直至显存的占用率不大于预设的阈值为止。
此外,在本说明书的一个或多个实施例中,在根据第一代价以及第二代价,从显存当前存储的至少部分张量中选择目标张量并进行驱逐时,还可根据各张量的第一代价以及第二代价,分别对各张量进行排序,进而基于排序后的张量的顺序,从各张量中选择目标张量并进行驱逐。具体的,GPU可根据基于第二代价排序后的各张量,按照从小到大的顺序,依次针对每个各张量,判断该张量是否被驱逐。若是,则进行该张量对应的下一个张量的判断,若否,则确定该张量对应的第一代价,并且,若该张量对应的第一代价小于第二代价,则使用重计算的方式将该张量进行驱逐,若该张量对应的第一代价不小于第二代价,则使用转移的方式将该张量进行驱逐。
由于转移的时间代价在理想情况下可以被隐藏,或者说,在当前时刻与下一张量的访问时刻之间的时间间隔可以覆盖在当前时刻将张量转移的传输时间的情况下,可以认为,将张量进行转移时不需要额外的时间开销的,因此在本说明书的一个或多个实施例中,可优先采用转移去释放显存,也即根据基于第二代价排序后的张量进行显存的释放,若总线带宽资源紧张,可采用重计算,也即根据基于第一代价排序后的张量进行显存的释放。
基于图1所示本说明书提供的上述数据处理的方法中,可以使得显存的占用率维持在一个合理的范围内,在模型训练的过程中,可合理利用显存以使GPU完成模型的训练。且在对显存中的各张量进行驱逐时,不是只基于重计算的方式对各张量进行驱逐,也不是只基于转移的方式对各张量进行驱逐,而是将重计算的方式和转移的方式结合,并通过计算重计算各张量的时间开销以及计算转移各张量的时间开销,进而选择各张量对应的时间开销最小的方式对显存中的各张量进行驱逐,减少了从显存中驱逐各张量到再次从显存中获取到各张量的时间开销,提高了模型训练的效率。
进一步的,在上述步骤S106中,为了进一步降低时间开销,GPU可使用最小堆(min-heap)来管理各张量的第一代价以及第二代价(即最终代价),也可使用队列即按照各张量的最终代价从小到大的顺序组织队列,进而可取队列的前若干个最终代价最小的张量以在显存中进行驱逐,还可以构建树形结构来管理各张量的最终代价。以使得在从各张量中选择指定个数的最终代价最小的目标张量进行驱逐时,可快速的找到最终代价最小的指定个数的张量,提高了查找效率。
更进一步的,在上述步骤S102中,在根据访问时刻与当前时刻的时间间隔、传输时间确定第二代价时,张量的转移代价可取其时间收益的相反数,第二代价可通过公式:第二代价=-(时间间隔-传输时间)来计算,该传输时间为将张量从当前设备(GPU)传输到目标设备(如:CPU)以及从目标设备再次传输到当前设备的时间之和,其中,单次传输时间由张量的数据大小除以两设备(CPU-GPU)间的总线(PCIe)带宽得到,并且,GPU还可记录总线排队等待时间,该等待时间可通过等待传输的张量的数据量,除以总线带宽得到,可一并计入传输时间。
则当确定张量的下次访存时刻到当前时刻的时间间隔大于将此张量进行转移的传输时间时,该第二代价为负值。即表明,如果当前时刻到下次访存张量的时刻之间的时间间隔可以掩盖该张量的传输时间,则其代价为负,且差值越大代价越小。这样,就可以优先驱逐那些使用转移不会引入时延的张量,避免了重计算的额外耗时。
本说明书通过重计算张量和转移张量结合的方法,也即将张量的重计算代价与转移代价放在一起从小到大排序,以确定驱逐张量的时是选择重计算还是转移,并使用选择的方法依次驱逐张量,直到显存的占用率不大于预设的阈值,减少时间开销,提高模型训练的效率。
基于上述内容所述的数据处理的方法,本说明书实施例还对应的提供一种用于数据处理的装置示意图,如图2所示。
图2为本说明书实施例提供的一种用于数据处理的装置的示意图,所述装置包括:
张量确定模块200,用于在模型的训练过程中,确定显存中存储的所述模型的至少部分张量;
代价计算模块202,用于确定重计算所述至少部分张量的第一代价;并,确定转移所述至少部分张量的第二代价;
张量驱逐模块204,用于根据所述至少部分张量的第一代价以及第二代价,从所述显存当前存储的所述至少部分张量中选择目标张量并驱逐。
可选地,所述代价计算模块202具体用于,预估下一次访问所述至少部分张量的访问时刻,确定转移所述至少部分张量所需的传输时间,根据所述访问时刻以及所述传输时间,确定转移所述至少部分张量的第二代价。
可选地,所述张量确定模块200还用于,确定所述模型完成一轮迭代训练的过程中所述各张量的基准访问时刻;根据所述至少部分张量的基准访问时刻,预估所述至少部分张量的访问时间间隔;
所述代价计算模块202具体用于,根据所述至少部分张量的访问时间间隔,预估下一次访问所述至少部分张量的访问时刻。
可选地,所述代价计算模块202具体用于,确定通过总线将所述至少部分张量传输至目标设备的第一时间,并确定所述目标设备通过所述总线将所述各张量返回的第二时间;确定通过所述总线传输所述至少部分张量时的排队等待时间;根据所述第一时间、所述第二时间以及所述排队等待时间,确定转移所述至少部分张量所需的传输时间。
可选地,所述代价计算模块202具体用于,确定所述访问时刻与当前时刻的时间间隔;根据所述传输时间与所述时间间隔的差值,确定转移所述至少部分张量的第二代价;其中,所述差值与所述第二代价成正比。
可选地,所述张量驱逐模块204具体用于,确定驱逐所述至少部分张量的最终代价;根据所述最终代价,从所述显存当前存储的所述至少部分张量中选择目标张量并驱逐。
可选地,所述张量驱逐模块204具体用于,将所述至少部分张量的第一代价与第二代价中最小的代价作为驱逐所述至少部分张量的最终代价。
可选地,所述装置还包括占用率确定模块206;
所述占用率确定模块206具体用于,确定所述显存的占用率大于预设的阈值。
可选地,所述张量驱逐模块204具体用于,按照所述显存当前存储的所述至少部分张量的最终代价的从小到大的顺序,依次选择张量作为目标张量。
本说明书实施例还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述内容所述的数据处理的方法。
基于上述内容所述的数据处理的方法,本说明书实施例还提出了图3所示的电子设备的示意结构图。如图3,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述内容所述的数据处理的方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (9)

1.一种数据处理的方法,其特征在于,所述方法包括:
在模型的训练过程中,确定显存中存储的所述模型的至少部分张量;
确定重计算所述至少部分张量的第一代价;并,确定所述模型完成一轮迭代训练的过程中所述至少部分张量的基准访问时刻;
根据所述至少部分张量的基准访问时刻,预估所述至少部分张量的访问时间间隔;
根据所述至少部分张量的访问时间间隔,预估下一次访问所述至少部分张量的访问时刻;
确定转移所述至少部分张量所需的传输时间;
根据所述访问时刻以及所述传输时间,确定转移所述至少部分张量的第二代价;
将所述至少部分张量的第一代价与第二代价中最小的代价作为驱逐所述至少部分张量的最终代价;根据所述最终代价,从所述显存当前存储的所述至少部分张量中选择目标张量并驱逐。
2.如权利要求1所述的方法,其特征在于,确定转移所述至少部分张量所需的传输时间,具体包括:
确定通过总线将所述至少部分张量传输至目标设备的第一时间,并确定所述目标设备通过所述总线将所述至少部分张量返回的第二时间;
确定通过所述总线传输所述至少部分张量时的排队等待时间;
根据所述第一时间、所述第二时间以及所述排队等待时间,确定转移所述至少部分张量所需的传输时间。
3.如权利要求1所述的方法,其特征在于,确定转移所述至少部分张量的第二代价,具体包括:
确定所述访问时刻与当前时刻的时间间隔;
根据所述传输时间与所述时间间隔的差值,确定转移所述至少部分张量的第二代价;其中,所述差值与所述第二代价成正比。
4.如权利要求1所述的方法,其特征在于,从所述显存当前存储的所述至少部分张量中选择目标张量并驱逐,具体包括:
针对每个张量,若该张量对应的第一代价小于第二代价,则使用重计算的方式将该张量进行驱逐,若该张量对应的第一代价不小于第二代价,则使用转移的方式将该张量进行驱逐。
5.如权利要求1所述的方法,其特征在于,驱逐所述目标张量之前,所述方法还包括:
确定所述显存的占用率大于预设的阈值。
6.如权利要求1所述的方法,其特征在于,从所述显存当前存储的所述至少部分张量中选择目标张量,具体包括:
按照所述显存当前存储的所述至少部分张量的最终代价的从小到大的顺序,依次选择张量作为目标张量。
7.一种数据处理的装置,其特征在于,所述装置具体包括:
张量确定模块,用于在模型的训练过程中,确定显存中存储的所述模型的至少部分张量;
代价计算模块,用于确定重计算所述至少部分张量的第一代价;并,确定所述模型完成一轮迭代训练的过程中所述至少部分张量的基准访问时刻;根据所述至少部分张量的基准访问时刻,预估所述至少部分张量的访问时间间隔;根据所述至少部分张量的访问时间间隔,预估下一次访问所述至少部分张量的访问时刻;确定转移所述至少部分张量所需的传输时间;根据所述访问时刻以及所述传输时间,确定转移所述至少部分张量的第二代价;
张量驱逐模块,用于将所述至少部分张量的第一代价与第二代价中最小的代价作为驱逐所述至少部分张量的最终代价;根据所述最终代价,从所述显存当前存储的所述至少部分张量中选择目标张量并驱逐。
8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-6任一所述的方法。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-6任一所述的方法。
CN202310695188.5A 2023-06-12 2023-06-12 一种数据处理的方法、装置、存储介质及电子设备 Active CN116432778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310695188.5A CN116432778B (zh) 2023-06-12 2023-06-12 一种数据处理的方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310695188.5A CN116432778B (zh) 2023-06-12 2023-06-12 一种数据处理的方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN116432778A CN116432778A (zh) 2023-07-14
CN116432778B true CN116432778B (zh) 2023-09-19

Family

ID=87089413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310695188.5A Active CN116432778B (zh) 2023-06-12 2023-06-12 一种数据处理的方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116432778B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117130693B (zh) * 2023-10-26 2024-02-13 之江实验室 张量卸载方法、装置、计算机设备及存储介质
CN117522669B (zh) * 2024-01-08 2024-03-26 之江实验室 一种图形处理器内存优化方法、装置、介质及设备
CN117992242A (zh) * 2024-04-03 2024-05-07 摩尔线程智能科技(北京)有限责任公司 一种数据处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941494A (zh) * 2019-12-02 2020-03-31 哈尔滨工程大学 一种面向深度学习的gpu并行计算的数据处理方法
CN112882830A (zh) * 2021-02-03 2021-06-01 北京迈格威科技有限公司 显存管理、模型训练方法、装置、电子设备及存储介质
CN115168041A (zh) * 2022-07-18 2022-10-11 北京一流科技有限公司 支持逆向动态重计算的内存释放决策***及其方法
CN116107754A (zh) * 2023-02-24 2023-05-12 华中科技大学 一种面向深度神经网络的内存管理方法及***
CN116167461A (zh) * 2023-04-21 2023-05-26 之江实验室 一种模型训练的方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468365B2 (en) * 2019-09-30 2022-10-11 Amazon Technologies, Inc. GPU code injection to summarize machine learning training data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941494A (zh) * 2019-12-02 2020-03-31 哈尔滨工程大学 一种面向深度学习的gpu并行计算的数据处理方法
CN112882830A (zh) * 2021-02-03 2021-06-01 北京迈格威科技有限公司 显存管理、模型训练方法、装置、电子设备及存储介质
CN115168041A (zh) * 2022-07-18 2022-10-11 北京一流科技有限公司 支持逆向动态重计算的内存释放决策***及其方法
CN116107754A (zh) * 2023-02-24 2023-05-12 华中科技大学 一种面向深度神经网络的内存管理方法及***
CN116167461A (zh) * 2023-04-21 2023-05-26 之江实验室 一种模型训练的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN116432778A (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN116432778B (zh) 一种数据处理的方法、装置、存储介质及电子设备
US11907830B2 (en) Neural network architecture using control logic determining convolution operation sequence
KR102572757B1 (ko) 집약성을 개선하기 위한 머신 학습 모델들의 수정
EP3874358A1 (en) Artificial intelligence-enabled management of storage media access
CN115981870B (zh) 一种数据处理的方法、装置、存储介质及电子设备
CN116822657B (zh) 一种模型训练加速的方法、装置、存储介质及电子设备
CN117312394A (zh) 一种数据访问方法、装置、存储介质及电子设备
CN116382599B (zh) 一种面向分布式集群的任务执行方法、装置、介质及设备
CN116150563B (zh) 一种业务执行方法、装置、存储介质及电子设备
CN116384505A (zh) 一种数据处理的方法、装置、存储介质及电子设备
CN116091895A (zh) 一种面向多任务知识融合的模型训练方法及装置
CN116415103B (zh) 一种数据处理的方法、装置、存储介质以及电子设备
CN117522669B (zh) 一种图形处理器内存优化方法、装置、介质及设备
CN116126750B (zh) 一种基于硬件特性的数据处理的方法及装置
CN116340004A (zh) 一种任务执行的方法、装置、存储介质及电子设备
CN117909371B (zh) 一种模型训练方法、装置、存储介质及电子设备
CN116909744A (zh) 一种线程池参数调节方法、装置、存储介质及电子设备
US20220391710A1 (en) Neural network based power and performance model for versatile processing units
CN117424827A (zh) 一种基于分布式深度学习缓存***的通讯方法和装置
CN117992242A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN117499492A (zh) 数据处理方法、装置及设备
CN116204584A (zh) 一种写入日志的方法、装置、可读存储介质及电子设备
CN117035123A (zh) 一种并行训练中的节点通信方法、存储介质、设备
CN116996397A (zh) 一种网络丢包优化的方法、装置、存储介质及电子设备
CN106802952A (zh) 海量数据的处理方法、提取方法以及处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant