CN112446490A - 一种网络训练的数据集缓存方法、装置、设备及存储介质 - Google Patents

一种网络训练的数据集缓存方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112446490A
CN112446490A CN202011357904.1A CN202011357904A CN112446490A CN 112446490 A CN112446490 A CN 112446490A CN 202011357904 A CN202011357904 A CN 202011357904A CN 112446490 A CN112446490 A CN 112446490A
Authority
CN
China
Prior art keywords
data set
trained
caching
node
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011357904.1A
Other languages
English (en)
Inventor
赵仁明
陈培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011357904.1A priority Critical patent/CN112446490A/zh
Publication of CN112446490A publication Critical patent/CN112446490A/zh
Priority to PCT/CN2021/109237 priority patent/WO2022110861A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

本申请公开了一种网络训练的数据集缓存方法、装置、设备及存储介质。该方法的步骤包括:统计网络训练集群中未缓存待训练数据集的训练节点在缓存待训练数据集的过程中所需的磁盘性能开销;监控未缓存待训练数据集的训练节点的当前性能参数;基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点;利用目的节点缓存由源节点传入的待训练数据集,以基于目的节点对待训练数据集执行网络训练。本方法确保了训练节点缓存待训练数据集的可靠性,进而确保了网络训练的整体可靠性。此外,本申请还提供一种网络训练的数据集缓存装置、设备及存储介质,有益效果同上所述。

Description

一种网络训练的数据集缓存方法、装置、设备及存储介质
技术领域
本申请涉及深度学习领域,特别是涉及一种网络训练的数据集缓存方法、装置、设备及存储介质。
背景技术
深度学习在当前得到了广泛的运用,深度学习指的是通过大量数据对神经网络进行特征训练,产生具有识别相应数据能力的网络模型。
由于神经网络训练的过程中所使用的样本数据集的多少,直接影响深度学习的效果,因此当前往往以包含有多个训练节点以及数据集存储节点的集群方式,采用多个训练节点共同利用数据集存储节点中的数据集对神经网络进行训练。在训练过程中,不同训练节点中缓存的数据集可能存在差异,并且当前往往存在需要使用多个训练节点基于相同数据集进行神经网络训练的情况,而神经网络训练的整体可靠性也是当前本领域所关注的重点。
由此可见,提供一种网络训练的数据集缓存方法,以确保训练节点缓存待训练数据集的可靠性,进而确保网络训练的整体可靠性,是本领域技术人员需要解决的问题。
发明内容
本申请的目的是提供一种网络训练的数据集缓存方法、装置、设备及存储介质,以确保训练节点缓存待训练数据集的可靠性,进而确保网络训练的整体可靠性。
为解决上述技术问题,本申请提供一种网络训练的数据集缓存方法,包括:
统计网络训练集群中未缓存待训练数据集的训练节点在缓存待训练数据集的过程中所需的磁盘性能开销;
监控未缓存待训练数据集的训练节点的当前性能参数;
基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点;
利用目的节点缓存由源节点传入的待训练数据集,以基于目的节点对待训练数据集执行网络训练。
优选地,在利用目的节点缓存由源节点传入的待训练数据集之前,方法还包括:
判断网络训练集群中是否存在缓存有待训练数据集的源训练节点;
若网络训练集群中存在缓存有待训练数据集的源训练节点,则在源训练节点中选取与目的节点之间的空闲网络带宽最大的目标源训练节点;
相应的,利用目的节点缓存由源节点传入的待训练数据集,包括:
利用目的节点缓存由目标源训练节点传入的待训练数据集。
优选地,当网络训练集群中不存在缓存有待训练数据集的源训练节点时,利用目的节点缓存由源节点传入的待训练数据集,包括:
利用目的节点缓存由网络训练集群中的数据集存储节点传入的待训练数据集。
优选地,统计网络训练集群中未缓存待训练数据集的训练节点在缓存待训练数据集的过程中所需的磁盘性能开销,包括:
基于未缓存待训练数据集的训练节点的硬件性能参数以及待训练数据集的数据属性参数统计得到磁盘性能开销。
优选地,硬件性能参数包括磁盘转速、磁盘平均巡道时间以及磁盘最大传输速率;
待训练数据集的数据属性参数包括平均文件大小;平均文件大小基于待训练数据集的数据总量以及文件总量运算得到。
优选地,在利用目的节点缓存由源节点传入的待训练数据集之前,方法还包括:
判断目的节点的缓存队列是否存在空闲空间;
若是,则执行利用目的节点缓存由源节点传入的待训练数据集的步骤;
否则,将缓存队列中执行次数最少的目标待训练数据集删除,并执行利用目的节点缓存由源节点传入的待训练数据集的步骤。
优选地,当前性能参数包括I/O队列长度,磁盘性能开销包括IOPS开销;
基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点,包括:
在网络集群中选取I/O队列长度小于IOPS开销的目的节点。
此外,本申请还提供一种网络训练的数据集缓存装置,包括:
开销统计模块,用于统计网络训练集群中未缓存待训练数据集的训练节点在缓存待训练数据集的过程中所需的磁盘性能开销;
参数监控模块,用于监控未缓存待训练数据集的训练节点的当前性能参数;
节点选取模块,用于基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点;
节点缓存模块,用于利用目的节点缓存由源节点传入的待训练数据集,以基于目的节点对待训练数据集执行网络训练。
此外,本申请还提供一种网络训练的数据集缓存设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的网络训练的数据集缓存方法的步骤。
此外,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的网络训练的数据集缓存方法的步骤。
本申请所提供的网络训练的数据集缓存方法,首先统计网络训练集群中未缓存待训练数据集的训练节点,在缓存待训练数据集的过程中所需的磁盘性能开销,进而监控未缓存有待训练数据集的训练节点的当前性能参数,并基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点,进而利用目的节点缓存由源节点传入的待训练数据集,以此基于目的节点对待训练数据集执行网络训练。由于本方法根据预估得到缓存待训练数据集所需的磁盘性能开销,在网络训练集群的训练节点中选取当前性能参数满足磁盘性能开销的目的节点对源节点传入的待训练数据集进行缓存,相对确保了训练节点缓存待训练数据集的可靠性,进而确保了网络训练的整体可靠性。此外,本申请还提供一种网络训练的数据集缓存装置、设备及存储介质,有益效果同上所述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种网络训练的数据集缓存方法的流程图;
图2为本申请实施例公开的一种网络训练的数据集缓存装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
由于神经网络训练的过程中所使用的样本数据集的多少,直接影响深度学习的效果,因此当前往往以包含有多个训练节点以及数据集存储节点的集群方式,采用多个训练节点共同利用数据集存储节点中的数据集对神经网络进行训练。在训练过程中,不同训练节点中缓存的数据集可能存在差异,并且当前往往存在需要使用多个训练节点基于相同数据集进行神经网络训练的情况,而神经网络训练的整体可靠性也是当前本领域所关注的重点。
为此,本申请的核心是提供一种网络训练的数据集缓存方法,以确保训练节点缓存待训练数据集的可靠性,进而确保网络训练的整体可靠性。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
请参见图1所示,本申请实施例公开了一种网络训练的数据集缓存方法,包括:
步骤S10:统计网络训练集群中未缓存待训练数据集的训练节点在缓存待训练数据集的过程中所需的磁盘性能开销。
需要说明的是,本实施例的执行主体可以为网络训练集群中的具有运算能力的任意节点。本步骤首先统计网络训练集群中未缓存待训练数据集的训练节点,在缓存相应待训练数据集过程中所需要的磁盘性能开销,其中,待训练数据集指的是网络训练过程中所使用的样本数据的集合,统计未缓存待训练数据集的训练节点对应的磁盘性能开销,本质上是预估训练节点在缓存相应待训练数据集过程中被占用的通信及运行资源的开销,另外,不同训练节点缓存同一待训练数据集时的磁盘性能开销可以根据相应训练节点的硬件参数差异而有所不同。
步骤S11:监控未缓存待训练数据集的训练节点的当前性能参数。
在统计得到训练节点在缓存待训练数据集的过程中所需的磁盘性能开销之后,本步骤进一步监控未缓存有待训练数据集的训练节点的当前性能参数,目的是在后续步骤中根据训练节点的当前性能参数选取能够承载与待训练数据集对应的磁盘性能开销的目的节点。
步骤S12:基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点。
在监控未缓存待训练数据集的训练节点的当前性能参数之后,本步骤进一步基于当前性能参数在网络集群中选取满足磁盘性能开销的目的节点,目的是在后续步骤中,通过目的节点缓存该待训练数据集。
步骤S13:利用目的节点缓存由源节点传入的待训练数据集,以基于目的节点对待训练数据集执行网络训练。
在基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点之后,本步骤进一步利用目的节点缓存由源节点传入的待训练数据集,以此基于目的节点对待训练数据集执行网络训练,目的是确保将待训练数据集缓存至目的节点时,目的节点能够对待训练数据集进行可靠存储。
本申请所提供的网络训练的数据集缓存方法,首先统计网络训练集群中未缓存待训练数据集的训练节点,在缓存待训练数据集的过程中所需的磁盘性能开销,进而监控未缓存有待训练数据集的训练节点的当前性能参数,并基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点,进而利用目的节点缓存由源节点传入的待训练数据集,以此基于目的节点对待训练数据集执行网络训练。由于本方法根据预估得到缓存待训练数据集所需的磁盘性能开销,在网络训练集群的训练节点中选取当前性能参数满足磁盘性能开销的目的节点对源节点传入的待训练数据集进行缓存,相对确保了训练节点缓存待训练数据集的可靠性,进而确保了网络训练的整体可靠性。
在上述实施例的基础上,作为一种优选的实施方式,在利用目的节点缓存由源节点传入的待训练数据集之前,方法还包括:
判断网络训练集群中是否存在缓存有待训练数据集的源训练节点;
若网络训练集群中存在缓存有待训练数据集的源训练节点,则在源训练节点中选取与目的节点之间的空闲网络带宽最大的目标源训练节点;
相应的,利用目的节点缓存由源节点传入的待训练数据集,包括:
利用目的节点缓存由目标源训练节点传入的待训练数据集。
需要说明的是,在本实施方式中,当判定网络训练集群中存在缓存有待训练数据集的源训练节点时,即网络训练集群中已存储有待训练数据集的训练节点,在此情况下,利用目的节点缓存由源节点传入的待训练数据集之前,首先在源训练节点中选取与目的节点之间的空闲网络带宽最大的目标源训练节点,进而在利用目的节点缓存由源节点传入的待训练数据集时,具体是通过目的节点缓存由源训练节点传入的待训练数据集,由于目标源训练节点与目的节点之间的带宽相对较高,因此目标源训练节点与目的节点之间的网络传输效率较高,进而本实施方式进一步提高了训练节点之间共享待训练数据集的整体效率。
更进一步的,作为一种优选的实施方式,当网络训练集群中不存在缓存有待训练数据集的源训练节点时,利用目的节点缓存由源节点传入的待训练数据集,包括:
利用目的节点缓存由网络训练集群中的数据集存储节点传入的待训练数据集。
需要说明的是,在本实施方式中,网络训练集群包含有数据集存储节点,数据集存储节点用于存储待训练数据集,当判定网络训练集群中不存在缓存有待训练数据集的源训练节点时,则在利用目的节点缓存由源节点传入的待训练数据集时,具体利用目的节点缓存由网络训练集群中的数据集存储节点传入的待训练数据集,以此进一步确保目的节点对于待训练数据集进行获取的可靠性。
在上述实施例的基础上,作为一种优选的实施方式,统计网络训练集群中未缓存待训练数据集的训练节点在缓存待训练数据集的过程中所需的磁盘性能开销,包括:
基于未缓存待训练数据集的训练节点的硬件性能参数以及待训练数据集的数据属性参数统计得到磁盘性能开销。
需要说明的是,本实施方式在统计网络训练集群中未缓存待训练数据集的训练节点在缓存待训练数据集的过程中所需的磁盘性能开销时,具体是基于未缓存待训练数据集的训练节点的硬件性能参数以及待训练数据集的数据属性参数统计得到性能磁盘开销,其中,硬件性能参数指的是训练节点的硬件运行指标参数,数据属性参数指的是待训练数据集所具有的数据特征参数。由于硬件性能参数能够准确表征训练节点进行数据缓存时的效率,而数据属性参数能够准确表征待训练数据集的数据量级以及数据类型等特征,因此本实施方式基于训练节点的硬件性能参数以及待训练数据集的数据属性参数统计得到磁盘性能开销,能够进一步提高统计得到的磁盘性能开销的准确性。
更进一步的,作为一种优选的实施方式,硬件性能参数包括磁盘转速、磁盘平均巡道时间以及磁盘最大传输速率;
待训练数据集的数据属性参数包括平均文件大小;平均文件大小基于待训练数据集的数据总量以及文件总量运算得到。
本实施方式中,硬件性能参数包括磁盘转速、磁盘平均巡道时间以及磁盘最大传输速率。其中,磁盘转速指的是,磁盘盘片在一分钟内所能完成的最大转数,它是决定磁盘内部传输率的关键因素之一,在很大程度上直接影响到磁盘的速度;磁盘平均巡道时间,是指磁盘在接收到***指令后,磁头从开始移动到数据所在的磁道所花费时间的平均值,它在一定程度上体现了磁盘读取数据的能力,是影响磁盘内部数据传输率的重要参数;磁盘最大传输速率,指的是数据由磁盘的磁头到高速缓存之间传输的速度,影响数据在磁盘中缓存的整体效率。
另外,本实施方式中,待训练数据集的数据属性参数包括平均文件大小,平均文件大小基于待训练数据集的数据总量以及文件总量运算得到,也就是说,通过待训练数据集的数据总量,即数据总大小与文件总量,即文件个数进行商运算得到,平均文件大小指的是待训练数据集中的每一个文件需要占用的磁盘存储空间平均值。
本实施方式通过对训练节点的硬件性能参数以及待训练数据集的数据属性参数进行了细化,以此进一步提高了统计得到的磁盘性能开销的准确性。
在上述实施例的基础上,作为一种优选的实施方式,在利用目的节点缓存由源节点传入的待训练数据集之前,方法还包括:
判断目的节点的缓存队列是否存在空闲空间;
若是,则执行利用目的节点缓存由源节点传入的待训练数据集的步骤;
否则,将缓存队列中执行次数最少的目标待训练数据集删除,并执行利用目的节点缓存由源节点传入的待训练数据集的步骤。
需要说明的是,在本实施方式中,在利用目的节点缓存由源节点传入的待训练数据集之前,进一步判断目的节点的缓存队列中是否存在空闲空间,也就是判断缓存队列中是否能够正常存储待训练数据集,进而当目的节点的缓存队列存在空闲空间时,则进一步执行利用目的节点缓存由源节点传入的待训练数据集的步骤,相反的,当目的节点的缓存队列不存在空闲空间时,则将缓存队列中执行次数最少的目标待训练数据集删除,并执行利用目的节点缓存由源节点传入的待训练数据集的步骤,以此确保待训练数据集能够正常存储至目的节点的缓存队列,进一步确保了数据集缓存过程的整体可靠性。
在上述一系列实施方式的基础上,作为一种优选的实施方式,当前性能参数包括I/O队列长度,磁盘性能开销包括IOPS开销;
基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点,包括:
在网络集群中选取I/O队列长度小于IOPS开销的目的节点。
需要说明的是,在本实施方式中,当前性能参数包括I/O(Input/Output的缩写,即输入输出端口)队列长度,磁盘性能开销包括IOPS开销,IOPS(Input/Output,OperationsPer Second)是一个用于计算机存储设备(如磁盘(HDD)、固态磁盘(SSD)或存储区域网络(SAN))性能测试的测量方式,可以视为是每秒的读写次数。在基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点时,具体是在网络集群中选取I/O队列长度小于IOPS开销的目的节点,目的是确保待训练数据集能够可靠缓存至所选取的目的节点,进而进一步确保了数据集缓存过程的整体可靠性。
为了进一步加深对于上述实施例的理解,本申请还提供一种具体应用场景下的场景实施例做进一步说明。
对于集群中的每个训练节点,可获得用户进行数据集缓存的磁盘的下列参数:磁盘转速(rpm),磁盘平均寻道时间(avgSeekTime),磁盘最大传输速率(maxTransRate)。通过以上4个参数、数据集的平均文件大小(avgSize)以及下式,计算该磁盘在该数据集的缓存时的单次IO时间,即IOTime:
Figure BDA0002803132200000091
根据上式可得在该数据集下,每次IO操作耗时的近似值。
对于该数据集在当前的节点进行缓存时的最大IOPS能力,可以通过下式近似计算:
Figure BDA0002803132200000092
同时,对于每个训练节点,通过监控可得到数据集缓存磁盘的wrqm/s值、rrqm/s和avgqu-sz值。其中wrqm/s代表该磁盘当前的每秒合并数据(merge)后的写次数,rrqm/s代表该磁盘当前的每秒合并数据(merge)后的读次数,avgqu-sz代表该磁盘的I/O队列长度。考虑到IOTime的增加与IOPS的增加并不是一个完全线性的关系,事实上在达到某个IOPS值之后,IOTime会随着IOPS的增加而显著提升。故本方法对于avgqu-sz<IOPS*70%的节点,做为本次数据集缓存的目的节点,用于缓存待训练数据集。
请参见图2所示,本申请实施例提供了一种网络训练的数据集缓存装置,包括:
开销统计模块10,用于统计网络训练集群中未缓存待训练数据集的训练节点在缓存待训练数据集的过程中所需的磁盘性能开销;
参数监控模块11,用于监控未缓存待训练数据集的训练节点的当前性能参数;
节点选取模块12,用于基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点;
节点缓存模块13,用于利用目的节点缓存由源节点传入的待训练数据集,以基于目的节点对待训练数据集执行网络训练。
本申请所提供的网络训练的数据集缓存装置,首先统计网络训练集群中未缓存待训练数据集的训练节点,在缓存待训练数据集的过程中所需的磁盘性能开销,进而监控未缓存有待训练数据集的训练节点的当前性能参数,并基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点,进而利用目的节点缓存由源节点传入的待训练数据集,以此基于目的节点对待训练数据集执行网络训练。由于本装置根据预估得到缓存待训练数据集所需的磁盘性能开销,在网络训练集群的训练节点中选取当前性能参数满足磁盘性能开销的目的节点对源节点传入的待训练数据集进行缓存,相对确保了训练节点缓存待训练数据集的可靠性,进而确保了网络训练的整体可靠性。
此外,本申请还提供一种网络训练的数据集缓存设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的网络训练的数据集缓存方法的步骤。
本申请所提供的网络训练的数据集缓存设备,首先统计网络训练集群中未缓存待训练数据集的训练节点,在缓存待训练数据集的过程中所需的磁盘性能开销,进而监控未缓存有待训练数据集的训练节点的当前性能参数,并基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点,进而利用目的节点缓存由源节点传入的待训练数据集,以此基于目的节点对待训练数据集执行网络训练。由于本设备根据预估得到缓存待训练数据集所需的磁盘性能开销,在网络训练集群的训练节点中选取当前性能参数满足磁盘性能开销的目的节点对源节点传入的待训练数据集进行缓存,相对确保了训练节点缓存待训练数据集的可靠性,进而确保了网络训练的整体可靠性。
此外,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的网络训练的数据集缓存方法的步骤。
本申请所提供的计算机可读存储介质,首先统计网络训练集群中未缓存待训练数据集的训练节点,在缓存待训练数据集的过程中所需的磁盘性能开销,进而监控未缓存有待训练数据集的训练节点的当前性能参数,并基于当前性能参数在网络训练集群中选取满足磁盘性能开销的目的节点,进而利用目的节点缓存由源节点传入的待训练数据集,以此基于目的节点对待训练数据集执行网络训练。由于本计算机可读存储介质根据预估得到缓存待训练数据集所需的磁盘性能开销,在网络训练集群的训练节点中选取当前性能参数满足磁盘性能开销的目的节点对源节点传入的待训练数据集进行缓存,相对确保了训练节点缓存待训练数据集的可靠性,进而确保了网络训练的整体可靠性。
以上对本申请所提供的一种网络训练的数据集缓存方法、装置、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种网络训练的数据集缓存方法,其特征在于,包括:
统计网络训练集群中未缓存待训练数据集的训练节点在缓存所述待训练数据集的过程中所需的磁盘性能开销;
监控未缓存待训练数据集的所述训练节点的当前性能参数;
基于所述当前性能参数在所述网络训练集群中选取满足所述磁盘性能开销的目的节点;
利用所述目的节点缓存由源节点传入的所述待训练数据集,以基于所述目的节点对所述待训练数据集执行网络训练。
2.根据权利要求1所述的网络训练的数据集缓存方法,其特征在于,在所述利用所述目的节点缓存由源节点传入的所述待训练数据集之前,所述方法还包括:
判断所述网络训练集群中是否存在缓存有所述待训练数据集的源训练节点;
若所述网络训练集群中存在缓存有所述待训练数据集的源训练节点,则在所述源训练节点中选取与所述目的节点之间的空闲网络带宽最大的目标源训练节点;
相应的,所述利用所述目的节点缓存由源节点传入的所述待训练数据集,包括:
利用所述目的节点缓存由所述目标源训练节点传入的所述待训练数据集。
3.根据权利要求2所述的网络训练的数据集缓存方法,其特征在于,当所述网络训练集群中不存在缓存有所述待训练数据集的源训练节点时,所述利用所述目的节点缓存由源节点传入的所述待训练数据集,包括:
利用所述目的节点缓存由所述网络训练集群中的数据集存储节点传入的所述待训练数据集。
4.根据权利要求1所述的网络训练的数据集缓存方法,其特征在于,所述统计网络训练集群中未缓存待训练数据集的训练节点在缓存所述待训练数据集的过程中所需的磁盘性能开销,包括:
基于未缓存所述待训练数据集的所述训练节点的硬件性能参数以及所述待训练数据集的数据属性参数统计得到所述磁盘性能开销。
5.根据权利要求4所述的网络训练的数据集缓存方法,其特征在于,所述硬件性能参数包括磁盘转速、磁盘平均巡道时间以及磁盘最大传输速率;
所述待训练数据集的数据属性参数包括平均文件大小;所述平均文件大小基于所述待训练数据集的数据总量以及文件总量运算得到。
6.根据权利要求1所述的网络训练的数据集缓存方法,其特征在于,在所述利用所述目的节点缓存由源节点传入的所述待训练数据集之前,所述方法还包括:
判断所述目的节点的缓存队列是否存在空闲空间;
若是,则执行所述利用所述目的节点缓存由源节点传入的所述待训练数据集的步骤;
否则,将所述缓存队列中执行次数最少的目标待训练数据集删除,并执行所述利用所述目的节点缓存由源节点传入的所述待训练数据集的步骤。
7.根据权利要求1至6任意一项所述的网络训练的数据集缓存方法,其特征在于,所述当前性能参数包括I/O队列长度,所述磁盘性能开销包括IOPS开销;
所述基于所述当前性能参数在所述网络训练集群中选取满足所述磁盘性能开销的目的节点,包括:
在所述网络集群中选取所述I/O队列长度小于IOPS开销的所述目的节点。
8.一种网络训练的数据集缓存装置,其特征在于,包括:
开销统计模块,用于统计网络训练集群中未缓存待训练数据集的训练节点在缓存所述待训练数据集的过程中所需的磁盘性能开销;
参数监控模块,用于监控未缓存待训练数据集的所述训练节点的当前性能参数;
节点选取模块,用于基于所述当前性能参数在所述网络训练集群中选取满足所述磁盘性能开销的目的节点;
节点缓存模块,用于利用所述目的节点缓存由源节点传入的所述待训练数据集,以基于所述目的节点对所述待训练数据集执行网络训练。
9.一种网络训练的数据集缓存设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的网络训练的数据集缓存方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的网络训练的数据集缓存方法的步骤。
CN202011357904.1A 2020-11-27 2020-11-27 一种网络训练的数据集缓存方法、装置、设备及存储介质 Pending CN112446490A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011357904.1A CN112446490A (zh) 2020-11-27 2020-11-27 一种网络训练的数据集缓存方法、装置、设备及存储介质
PCT/CN2021/109237 WO2022110861A1 (zh) 2020-11-27 2021-07-29 一种网络训练的数据集缓存方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011357904.1A CN112446490A (zh) 2020-11-27 2020-11-27 一种网络训练的数据集缓存方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112446490A true CN112446490A (zh) 2021-03-05

Family

ID=74737918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011357904.1A Pending CN112446490A (zh) 2020-11-27 2020-11-27 一种网络训练的数据集缓存方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN112446490A (zh)
WO (1) WO2022110861A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022110861A1 (zh) * 2020-11-27 2022-06-02 苏州浪潮智能科技有限公司 一种网络训练的数据集缓存方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103905517A (zh) * 2012-12-28 2014-07-02 ***通信集团公司 一种数据存储方法及设备
CN108805259A (zh) * 2018-05-23 2018-11-13 北京达佳互联信息技术有限公司 神经网络模型训练方法、装置、存储介质及终端设备
CN109710406A (zh) * 2018-12-21 2019-05-03 腾讯科技(深圳)有限公司 数据分配及其模型训练方法、装置、及计算集群
CN110502487A (zh) * 2019-08-09 2019-11-26 苏州浪潮智能科技有限公司 一种缓存管理方法与装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459506B (zh) * 2020-03-02 2023-10-13 平安科技(深圳)有限公司 深度学习平台集群的部署方法、装置、介质及电子设备
CN111625696B (zh) * 2020-07-28 2021-01-29 北京升鑫网络科技有限公司 多源数据分析引擎的分布式调度方法、计算节点及***
CN112446490A (zh) * 2020-11-27 2021-03-05 苏州浪潮智能科技有限公司 一种网络训练的数据集缓存方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103905517A (zh) * 2012-12-28 2014-07-02 ***通信集团公司 一种数据存储方法及设备
CN108805259A (zh) * 2018-05-23 2018-11-13 北京达佳互联信息技术有限公司 神经网络模型训练方法、装置、存储介质及终端设备
CN109710406A (zh) * 2018-12-21 2019-05-03 腾讯科技(深圳)有限公司 数据分配及其模型训练方法、装置、及计算集群
CN110502487A (zh) * 2019-08-09 2019-11-26 苏州浪潮智能科技有限公司 一种缓存管理方法与装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022110861A1 (zh) * 2020-11-27 2022-06-02 苏州浪潮智能科技有限公司 一种网络训练的数据集缓存方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2022110861A1 (zh) 2022-06-02

Similar Documents

Publication Publication Date Title
WO2021120789A1 (zh) 数据写入方法、装置及存储服务器和计算机可读存储介质
US10620839B2 (en) Storage pool capacity management
US8521986B2 (en) Allocating storage memory based on future file size or use estimates
US7870128B2 (en) Assigning data for storage based on speed with which data may be retrieved
US8793427B2 (en) Remote memory for virtual machines
US20100211694A1 (en) Routing users to receive online services based on online behavior
EP3252609A1 (en) Cache data determination method and device
CN109388550B (zh) 一种缓存命中率确定方法、装置、设备及可读存储介质
CN116662214B (zh) 基于fio的硬盘垃圾回收方法、装置、***及介质
CN117235088B (zh) 一种存储***的缓存更新方法、装置、设备、介质及平台
CN110688360A (zh) 分布式文件***存储管理方法、装置、设备及存储介质
CN112446490A (zh) 一种网络训练的数据集缓存方法、装置、设备及存储介质
US9785562B2 (en) Adjusting allocation of storage devices
CN110287158B (zh) 监测分布式文件***io时延的方法、装置及存储介质
CN108762684B (zh) 热点数据迁移流控方法、装置、电子设备及存储介质
CN115509853A (zh) 一种集群数据异常检测方法及电子设备
CN115150159A (zh) 一种流量检测方法、装置、设备及可读存储介质
CN115269289A (zh) 一种慢盘检测方法、装置、电子设备及存储介质
US9354820B2 (en) VSAM data set tier management
CN109344043A (zh) 一种性能分析方法及相关装置
CN115794315B (zh) 脏页速率的统计方法及装置、电子设备和存储介质
CN113741810B (zh) 一种数据迁移方法及装置
US20230325257A1 (en) Workload measures based on access locality
Shvidkiy et al. Approaches Analysis to Determining the Characteristics of the Load on the Disk Subsystem Created by User Applications
CN118132197A (zh) 一种虚拟机迁移的管理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210305

RJ01 Rejection of invention patent application after publication