CN114936187A - 数据文件的处理方法、装置、设备及存储介质 - Google Patents
数据文件的处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114936187A CN114936187A CN202210557890.0A CN202210557890A CN114936187A CN 114936187 A CN114936187 A CN 114936187A CN 202210557890 A CN202210557890 A CN 202210557890A CN 114936187 A CN114936187 A CN 114936187A
- Authority
- CN
- China
- Prior art keywords
- rule
- fragmentation
- rule set
- data file
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种数据文件的处理方法及相关产品,涉及大数据领域。该方法包括:若待处理数据文件未配置第一规则集,校验规则池中的分片规则,并根据校验所得的至少一个匹配规则从多个经验集中确定第二规则集;通过第二规则集对待处理数据文件进行分片处理,并将得到的分片文件发送至服务器,第一规则集为与服务器相适配的规则集。若存在相适配的第一规则集,可通过第一规则集进行分片处理,若不存在,则可以根据校验操作从过往经验中确定第二规则集,并通过第二规则集进行分片处理。因此,对于不同场景下的分片操作,其推理效率都可以有显著的提升。
Description
技术领域
本申请涉及大数据技术领域,具体而言,本申请涉及一种数据文件的处理方法、装置、电子设备以及计算机可读存储介质。
背景技术
随着人工智能时代的到来,各行业开始注重从海量的数据中挖掘潜在价值。例如,运营商、金融机构、政府等通过应用AI模型基于各种场景下产生的大量数据进行推理,以获取潜藏在数据中的价值。由于服务器资源的限制,在进行推理之前,一般会对待推理的大数据进行分割,并依据分割所得的数据进行推理。
目前,存在两种推理方式。其中,第一种方式在获取到大数据文件之后,仅对大数据文件进行基础分片,然后基于分片文件进行推理,该方式对服务器资源(主要指CPU和内存)消耗巨大,推理效率比较低下。第二种方式只是对基础分片稍作改善,其推理效率针对小部分场景有提升,对大部分场景提升的效果并不明显。
发明内容
本申请实施例所示的方案旨在能解决上述技术问题之一。
根据本申请实施例的一个方面,提供了一种数据文件的处理方法,该方法包括:
若待处理数据文件未配置第一规则集,校验规则池中的分片规则,并根据校验所得的至少一个匹配规则从多个经验集中确定第二规则集;
通过第二规则集对待处理数据文件进行分片处理,并将得到的分片文件发送至服务器,第一规则集为与服务器相适配的规则集。
在一种可能的实现方式中,每个分片规则配置有优先级别;校验规则池中的分片规则,具体可以包括:
按照优先级别从高到低的顺序依次对规则池中的每个分片规则进行校验,以确定每个分片规则与服务器资源的第一匹配度;将大于预设阈值的第一匹配度所对应的分片规则确定为匹配规则。
在另一种可能的实现方式中,根据校验所得的至少一个匹配规则从多个经验集中确定第二规则集,具体可以包括:
确定每个经验集与至少一个匹配规则的第二匹配度,经验集包括规则池中至少一个分片规则;根据最大的第二匹配度所对应的经验集确定第二规则集。
在又一种可能的实现方式中,对规则池中的每个分片规则进行校验,以确定每个分片规则与服务器资源的第一匹配度,包括:
确定每个分片规则的第一资源,第一资源是相应的分片规则处理待处理数据文件所需的服务器资源;比对第二资源与每项第一资源的匹配程度,以确定相应的分片规则与第二资源的第一匹配度,第二资源为当前提供的服务器资源。
在又一种可能的实现方式中,若第二规则集包括特征防护分片规则;通过第二规则集对待处理数据文件进行分片处理,具体包括:
根据第二规则集中其他的分片规则对待处理数据文件进行分片,得到至少两个分片文件;调整至少两个分片文件中每个分片文件中符合条件的数据。
在又一种可能的实现方式中,若待处理数据文件配置有第一规则集,该方法包括:
通过第一规则集对待处理数据文件进行分片处理,并将得到的分片文件发送至服务器;
其中,第一规则集为与服务器相适配的规则集,包括:第一规则集与服务器中配置的推理模型相适配。
在又一种可能的实现方式中,若待处理数据文件未配置第一规则集,该方法还包括:
若待处理数据文件所占的总内存不大于第一阈值,且待处理数据文件的总条目数不大于第二阈值,将待处理数据文件发送至单个服务器。
根据本申请实施例的另一个方面,提供了一种数据文件的处理装置,该装置包括:
校验模块,用于若待处理数据文件未配置第一规则集,校验规则池中的分片规则,并根据校验所得的至少一个匹配规则从多个经验集中确定第二规则集;
分片模块,用于通过第二规则集对待处理数据文件进行分片处理,并将得到的分片文件发送至服务器,第一规则集为与服务器相适配的规则集。
根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括:
存储器、处理器及存储在存储器上的计算机程序,该处理器执行计算机程序以实现本申请所示的一种数据文件的方法的步骤。
根据本申请实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请所示的一种数据文件的方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例提供了一种数据文件的处理方法,包括:若待处理数据文件未配置第一规则集,校验规则池中的分片规则,并根据校验所得的至少一个匹配规则从多个经验集中确定第二规则集;通过第二规则集对待处理数据文件进行分片处理,并将得到的分片文件发送至服务器;其中,第一规则集为与服务器相适配的规则集。本申请的实施若存在与服务器相适配的第一规则集,可通过第一规则集对待处理数据文件进行分片处理,若不存在,则可以根据校验操作从过往经验中确定第二规则集,并通过第二规则集对待处理数据文件进行分片处理。因此,对于不同场景下的分片操作,其推理效率都可以有显著的提升。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1a为本申请实施例提供的一种传统离线推理方法的流程示意图;
图1b为本申请实施例提供的一种基于基础分片的离线推理方法的流程示意图;
图2为本申请实施例提供的一种数据文件的处理方法的流程示意图;
图3为本申请实施例提供的一种数据文件的处理的应用场景示意图;
图4为本申请实施例提供的一种数据文件的处理装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请涉及的几个名词进行介绍和解释:
承接背景技术,图1a和图1b分别为第一种方式和第二种方式的具体实施流程图。
其中,图1a展示了一种传统离线推理方法的流程示意图,在接收到大数据文件之后,对该大数据文件进行基础分片,并将得到的分片文件下发到服务器的推理节点中进行推理。然而,该方式对服务器资源(主要指CPU和内存)消耗巨大,推理效率比较低下。
其中,图1b展示了一种基于基础分片的离线推理方法的流程示意图,在接收到大数据文件之后,从规则池中选取任一分片规则对大数据文件进行分片。虽然,该方式中的分片操作虽然有助于提升部分场景下的推理效率,但对大部分场景而言提升的效果并不明显,例如,若推理模型处理的分片文件的数据量变化比较大且要求数据完整,单个分片规则所分得的分片文件并不能满足这种需求。
本申请提供的一种数据文件的处理方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
参见图2,本申请实施例中提供了一种数据文件的处理方法,该方法应用于终端,该终端可以是计算机等电子设备。该方法包括步骤S210~S220:
S210,若待处理数据文件未配置第一规则集,校验规则池中的分片规则,并根据校验所得的至少一个匹配规则从多个经验集中确定第二规则集。
其中,该待处理数据文件可以为离线的大数据文件,离线的大数据文件的特点是数据量或者所占内存较大。该大数据文件可以是单个记录数据的文件,也可以是一个文件夹,该文件夹中包括多个记录数据的子文件。针对于文件夹而言,待处理数据文件的总条目数为每个子文件的总条目数的,所占的总内存为该文件夹的所占的内存。
具体而言,规则池中记录所有的已生效的分片规则,每个分片规则可以配置唯一的标识、接口信息,以及其他信息。其中,第一规则集或者第二规则集中都可以包括一个或者一个以上的分片规则。
S220,通过第二规则集对待处理数据文件进行分片处理,并将得到的分片文件发送至服务器,第一规则集为与服务器相适配的规则集。
其中,在预备处理离线的大数据之前,可以在服务器中为其配置推理模型。在配置了推理模型之后,还可以为其配置与该推理模型相适配的定制的规则集。通过定制的规则集处理大数据文件所得的分片文件,可以适配推理模型对分片文件的需求。其中,该定制的规则集为第一规则集。
本申请实施例提供了一种数据文件的处理方法,包括:包括:若待处理数据文件未配置第一规则集,校验规则池中的分片规则,并根据校验得到的至少一个匹配规则从多个经验集中确定第二规则集;通过第二规则集对待处理数据文件进行分片处理,并将得到的分片文件发送至服务器;其中,第一规则集为与服务器相适配的规则集。本申请的实施若存在与服务器相适配的第一规则集,可通过第一规则集对待处理数据文件进行分片处理,若不存在,则可以根据校验操作从过往经验中确定第二规则集,并通过第二规则集对待处理数据文件进行分片处理。因此,对于不同场景下的分片操作,其推理效率都可以有显著的提升。
本申请实施例还提供了一种可能的实现方式,每个分片规则配置有优先级别;校验规则池中的分片规则,包括步骤Sa1-Sa2(图中未示出)。
Sa1,按照优先级别从高到低的顺序依次对规则池中的每个分片规则进行校验,以确定每个分片规则与服务器资源的第一匹配度。
可选地,规则池包括但不限于以下分片规则:数据量分片规则、推理节点效率分片规则、线程数分片规则、文件大小分片规则、特征防护分片规则。
在一个示例中,优先级别的设置方式包括但不限于:设置优先级别从高到低,依次为第一级别、第二级别、第三级别。例如,设置数据量分片规则、文件大小分片规则的优先级别为第一级别,设置推理节点效率分片规则、线程数分片规则的优先级别为第二级别,设置特征防护分片规则为第三级别。具体地,基于该优先级别的设置方式,该校验过程可以包括:从第一级别、第二级别、第三级别依次校验相应级别的分片规则。
在一个示例中,高优先级别可以用于设置使用频率较高的分片规则,该级别的分片规则能够应对大多数推理模型对分片文件的需求,例如数据量分片规则;低优先级别可以用于设置使用频率较低的分片规则,例如,特征防护分片规则。
在一个示例中,每个分片规则可以作如下理解。数据量分片规则:根据第二阈值对待处理数据文件进行分片,例如,若待处理数据文件的总条目数为100万条,第二阈值为30万条,则可以得到4个分片文件,每个分片文件的数据量为:30万条、30万条、30万条、10万条;其中,该第二阈值可以为用户输入的,也可以为默认值。文件大小分片规则:根据第一阈值对待处理数据文件进行分片,例如该待处理数据文件所占内存为8G,若第一阈值为2G,则可以得到4个分片文件,每个分片文件的大小为2G。推理节点效率分片规则:参考剩余内存大于零的服务器进行分片,该服务器中配置有推理模型。线程数分片规则:根据处理分片文件的线程总数进行分片,例如,若线程总数为3,将待处理数据文件分成所占内存相同的3个分片文件;其中,该线程总数可以由用户输入,也可以为默认值。特征防护分片规则,在分片处理过程中,一般作为最后使用的分片规则,用于校验单个分片文件的数据的完整性。
在一种可能的实现方式中,该方法还包括:
响应于携带新的分片规则的新增操作,将新的分片规则添加至规则池,并为新的分片规则设置优先级别。
在一种可能的实现方式中,该方法还包括:
响应于针对于目标分片规则的更新操作,更新目标分片规则的优先级别。
随着推理模型的进步和发展,旧的分片规则可能无法适应变化,变得不常使用或者不使用,可以通过降低旧的分片规则的优先级别;或者时,现有的分片规则也存在都不适用的情况,则还可以通过扩展新的分片规则来充实规则池。
本申请实施例还提供了一种可能的实现方式,若第二规则集中包括特征防护分片规则,通过第二规则集对待处理数据文件进行分片处理,具体可以包括:
根据第二规则集中其他的分片规则对待处理数据文件进行分片,得到至少两个分片文件;基于特征防护分片规则调整至少两个分片文件中每个分片文件中符合条件的数据。
具体而言,在通过第二规则集对待处理数据文件进行分片处理时,需执行第二规则集中每个分片规则。需要说明的是,在使用分片规则进行处理时,无需参考分片规则的优先级别。
具体而言,对至少两个分片文件中每个分片文件进行以下处理:检索每个分片文件的每条数据的目标特征、为每个分片文件中每条数据进行排序、匹配每个分片文件的第一条数据和最后一条数据、移动每个分片文件中符合条件的数据、对符合条件的数据进行合并。
在一个示例中,在得到分片文件A、分片文件B、分片文件C之后,每个分片文件描述的是某个年度中每个季度的生产详情数据。其中,分片文件A:2019年第1季度、2019年第2季度、2019年第3季度、2019年第4季度的生产详情数据;分片文件B包括:2020年第1季度、2020年第2季度、2020年第3季度、2020年第4季度、2021年第1季度的生产详情数据;分片文件C:2021年第2季度、2021年第3季度、2021年第4季度的生产详情数据。在对分片文件A、分片文件B、分片文件C执行上述处理之后,发现分片文件B中“2021年第1季度”的数据需要调整,则将“2021年第1季度”的数据从分片文件B移动至分片文件C中。
应当指出,该示例仅用来说明特征防护分片规则的一种使用方式,不能作为对其的限制。特征防护分片规则还可以有其他方式,本申请并不对此进行限制。
本申请实施例还提供了一种可能的实现方式,对规则池中的每个分片规则进行校验,以确定每个分片规则与服务器资源的第一匹配度,具体可以包括:
确定每个分片规则的第一资源,第一资源是相应的分片规则处理待处理数据文件所需的服务器资源;比对第二资源与每项第一资源的匹配程度,以确定相应的分片规则与第二资源的第一匹配度,第二资源为当前提供的服务器资源。
其中,第二资源可以包括所提供的每个服务器的剩余内存资源。第一资源可以包括每个分片文件所需的服务器内存资源。
具体而言,获取待处理数据文件的总条目数,以及所占的总内存,针对任一分片规则执行以下操作:获取该分片规则对该待处理数据文件进行模拟分片,得到每个分片文件所占内存。将每个分片文件所占内存与第二资源中每个服务器的剩余内存资源进行有序比对,得到第一资源与第二资源的第一匹配度。
可选地,该有序比对过程可以包括依次从分片文件中所占内存最高的分片文件开始进行比对。在比对过程中可以根据多个指标来确定第一匹配度,例如第一指标和第二指标。其中,第一指标包括:所有的分片文件是否可以匹配到服务器(例如,该服务器提供的剩余内存能够满足分片文件),若匹配到,则第一指标的值为满分值,若未匹配到,则第一指标的值为0。第二指标包括:在确定与每个分片文件相匹配的服务器之后,确定每个服务器的利用率,并通过所有利用率确定第二指标的值。
通过在校验阶段对每个分片规则进行以上校验操作,可以确保所提供的服务器资源能够适配处理所得的分片文件。
Sa2,将大于预设阈值的第一匹配度所对应的分片规则确定为匹配规则。
其中,确定出的匹配规则可以为一个,也可以为一个以上。
本申请实施例还提供了一种可能的实现方式,根据至少一个匹配规则从多个经验集中确定第二规则集,具体可以包括:
确定每个经验集与至少一个匹配规则的第二匹配度,经验集包括规则池中至少一个分片规则;根据最大的第二匹配度所对应的经验集确定第二规则集。
可选地,从历史推理过程中筛选出推理效率比较高的多个推理过程,将该多个推理过程所对应的分片规则集确定为经验集。或者,接收用户输入的分片规则集,并将该输入的分片规则集确定为经验集。其中,每个经验集可以包括一个分片规则,或者一个以上的分片规则。
可选地,第二匹配度的确定过程包括:若存在单个匹配规则,通过计算该匹配规则在经验集中比重来确定第二匹配度,并将第二匹配度最高的经验集确定为第二规则集。若存在一个以上的匹配规则,以经验集包括至少一个匹配规则为条件筛选出符合条件的经验集,其他不符合条件的经验集的第二匹配度为零;然后,计算每个符合条件的经验集与相应的匹配规则的第二匹配度,针对每个符合条件的经验集执行以下操作:确定该经验集与由所有匹配规则所组成的集合重合的分片规则,依次确定重合的分片规则在所有的匹配规则中所占的第一比例,以及重合的分片规则在该经验集中所占的第二比例,根据第一比例和第二比例确定第二匹配度。
可选地,若最大的第二匹配度对应的经验集包括一个经验集,将该单个经验集确定为第二规则集;若最大的第二匹配度对应的经验集包括一个以上经验集,根据分片规则的优先级别从一个以上经验集中筛选出第二规则集。
在一个示例中,根据分片规则的优先级别从一个以上经验集中筛选出第二规则集,具体可以包括:统计每个经验集中属于第一级别的分片规则的第一总数,将第一总数最大的经验集确定为第二规则集;若在统计第一级别的分片规则时,存在一个以上相同的第一总数,统计每个经验集中属于第二级别的分片规则的第二总数,并将第二总数最大的经验集确定为第二规则集。依次类推,直至确定第二规则集。
本申请实施例还提供了一种可能的实现方式,若待处理数据文件配置有第一规则集,该方法包括:
通过第一规则集对待处理数据文件进行分片处理,并将得到的分片文件发送至服务器。
其中,第一规则集为与服务器相适配的规则集,包括:第一规则集与服务器中配置的推理模型相适配。
在一个示例中,服务器中配置有推理模型A、推理模型B、推理模型C,每个推理模型处理的数据量不同。推理模型A处理的分片文件的数据量适中且业务简单,可以指定数据量分片规则为推理模型A的第一规则集;推理模型B处理的分片文件的数据量变化很大且业务简单,可以指定数据量分片规则和推理节点效率分片规则;推理模型C处理的分片文件的数据量适中,由于推理模型C为时序类的模型,并且要求数据完整性,可以指定数据量分片规则和特征防护分片规则为推理模型C的第一规则集。
在实际处理过程中,待进行分析的大数据文件所占内存大小不一,有些大数据文件比较大,有些大数据文件则比较小,没有必要进行浪费时间去进行分片。
本申请实施例还提供了一种可能的实现方式,若待处理数据文件未配置第一规则集,该方法还包括:
若待处理数据文件所占的总内存不大于第一阈值,且待处理数据文件的总条目数不大于第二阈值,将待处理数据文件发送至单个服务器。
本申请实施例所示的数据文件的处理方法,能够适用于各种大数据文件的分片场景。为了更清楚地描述数据文件的处理方法,本申请实施例还提供了一种离线大数据文件处理方案的流程示意图来阐述该方法,如图3所示。该方案包括步骤S1001-步骤S1006。
S1001,***接收到一份大数据文件A。
S1002,***判断该文件A是否有配置定制规则集(对应第一规则集)。
其中,若配置了定制规则集,则执行S1005。若没有配置定制规则集,则执行S1003。
S1003,***启动校验模块针对文件A进行校验。
其中,获取文件A的数据量和所占的内存。若文件A的数据量不大于数据量阈值(对应第二阈值),且文件A所占的内存不大于内存阈值(对应第一阈值),则直接执行S1006,否则执行S1004。
S1004,***根据文件A校验规则池中所有的分片规则,并筛选出适配文件A的分片规则集(对应第二规则集)。
其中,规则池中包括如下分片规则:数据量规则、推理节点效率分片规则、线程数分片规则、文件大小分片规则,特征防护分片规则。其中,该规则池还可以新增分片规则。
其中,该规则池中每个分片规则有设置有优先级别,在确定分片规则集的过程中包括参考每个分片规则的优先级别。
S1005,***根据定制规则集或者分片规则集对文件A进行分片处理。
具体而言,进行分片处理后,得到至少一个分片文件,例如,分片文件1、分片文件2、分片文件3、分片文件4。
S1006,***将分片文件1、分片文件2、分片文件3、分片文件4发送给服务器集群进行处理。
其中,该服务器集群包括多个服务器,每个服务器是一个推理节点,每个推理节点上配置有推理模型。在服务器集群在接收到上述分片文件之后,分配给相应的服务器节点进行处理。
参见图4,本申请实施例提供了一种数据文件的处理装置,该装置400可以包括:校验模块410,分片模块420。
校验模块410,用于若待处理数据文件未配置第一规则集,校验规则池中的分片规则,并根据校验所得的至少一个匹配规则从多个经验集中确定第二规则集。
分片模块420,用于通过第二规则集对待处理数据文件进行分片处理,并将得到的分片文件发送至服务器,第一规则集为与服务器相适配的规则集。
在一种可能的实现方式中,每个分片规则配置有优先级别;校验模块410在校验规则池中的分片规则,得到至少一个匹配规则中,具体用于:
按照优先级别从高到低的顺序依次对规则池中的每个分片规则进行校验,以确定每个分片规则与服务器资源的第一匹配度;将大于预设阈值的第一匹配度所对应的分片规则确定为匹配规则。
在一种可能的实现方式中,校验模块410在根据至少一个匹配规则从多个经验集中确定第二规则集中,具体用于:
确定每个经验集与至少一个匹配规则的第二匹配度,经验集包括规则池中至少一个分片规则;根据最大的第二匹配度所对应的经验集确定第二规则集。
在一种可能的实现方式中,校验模块410在对规则池中的每个分片规则进行校验,确定每个分片规则与服务器资源的第一匹配度中,具体用于:
确定每个分片规则的第一资源,第一资源是相应的分片规则处理待处理数据文件所需的服务器资源;比对第二资源与每项第一资源的匹配程度,以确定相应的分片规则与第二资源的第一匹配度,第二资源为当前提供的服务器资源。
在一种可能的实现方式中,若第二规则集包括特征防护分片规则,分片模块420在通过第二规则集对待处理数据文件进行分片处理,得到分片文件中具体用于:
根据第二规则集中其他的分片规则对待处理数据文件进行分片,得到至少两个分片文件;
调整至少两个分片文件中每个分片文件中符合条件的数据。
在一种可能的实现方式中,若待处理数据文件配置有第一规则集,分片模块420还用于:
通过第一规则集对待处理数据文件进行处理,并将得到的分片文件发送至服务器。
其中,第一规则集为与服务器相适配的规则集,包括:第一规则集与服务器中配置的推理模型相适配。
在一种可能的实现方式中,若待处理数据文件未配置第一规则集,校验模块410还可以用于:
若待处理数据文件所占的总内存不大于第一阈值,且待处理数据文件的总条目数不大于第二阈值,将待处理数据文件发送至单个服务器。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现一种数据文件的处理方法的步骤,与相关技术相比可实现:。
在一个可选实施例中提供了一种电子设备,如图5所示,图5所示的电子设备5000包括:处理器5001和存储器5003。其中,处理器5001和存储器5003相连,如通过总线5002相连。可选地,电子设备5000还可以包括收发器5004,收发器5004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器5004不限于一个,该电子设备5000的结构并不构成对本申请实施例的限定。
处理器5001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器5001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线5002可包括一通路,在上述组件之间传送信息。总线5002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线5002可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器5003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器5003用于存储执行本申请实施例的计算机程序,并由处理器5001来控制执行。处理器5001用于执行存储器5003中存储的计算机程序,以实现前述方法实施例所示的步骤。
其中,电子设备包括但不限于:计算机设备。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (10)
1.一种数据文件的处理方法,其特征在于,所述方法包括:
若待处理数据文件未配置第一规则集,校验规则池中的分片规则,并根据校验所得的至少一个匹配规则从多个经验集中确定第二规则集;
通过所述第二规则集对所述待处理数据文件进行分片处理,并将得到的分片文件发送至服务器,所述第一规则集为与所述服务器相适配的规则集。
2.根据权利要求1所述的方法,其特征在于,每个分片规则配置有优先级别;所述校验规则池中的分片规则,包括:
按照优先级别从高到低的顺序依次对规则池中的每个分片规则进行校验,以确定每个分片规则与服务器资源的第一匹配度;
将大于预设阈值的第一匹配度所对应的分片规则确定为所述匹配规则。
3.根据权利要求2所述的方法,其特征在于,所述根据校验所得的至少一个匹配规则从多个经验集中确定第二规则集,包括:
确定每个经验集与所述至少一个匹配规则的第二匹配度,所述经验集包括所述规则池中至少一个分片规则;
根据最大的第二匹配度所对应的经验集确定所述第二规则集。
4.根据权利要求2或者3所述的方法,其特征在于,所述对规则池中的每个分片规则进行校验,以确定每个分片规则与服务器资源的第一匹配度,包括:
确定每个分片规则的第一资源,所述第一资源是相应的分片规则处理所述待处理数据文件所需的服务器资源;
比对第二资源与每项第一资源的匹配程度,以确定相应的分片规则与所述第二资源的第一匹配度,所述第二资源为当前提供的服务器资源。
5.根据权利要求1所述的方法,其特征在于,若所述第二规则集包括特征防护分片规则;所述通过所述第二规则集对所述待处理数据文件进行分片处理,包括:
根据所述第二规则集中其他的分片规则对所述待处理数据文件进行分片,得到至少两个分片文件;
调整所述至少两个分片文件中每个分片文件中符合条件的数据。
6.根据权利要求1所述的方法,其特征在于,若所述待处理数据文件配置有所述第一规则集,所述方法包括:
通过所述第一规则集对所述待处理数据文件进行分片处理,并将得到的分片文件发送至服务器;
其中,所述第一规则集为与所述服务器相适配的规则集,包括:
所述第一规则集与所述服务器中配置的推理模型相适配。
7.根据权利要求1所述的方法,其特征在于,若所述待处理数据文件未配置所述第一规则集,所述方法还包括:
若所述待处理数据文件所占的总内存不大于第一阈值,且所述待处理数据文件的总条目数不大于第二阈值,将所述待处理数据文件发送至单个服务器。
8.一种数据文件的处理装置,其特征在于,所述装置包括:
校验模块,用于若待处理数据文件未配置第一规则集,校验规则池中的分片规则,并根据校验所得的至少一个匹配规则从多个经验集中确定第二规则集;
分片模块,用于通过所述第二规则集对所述待处理数据文件进行分片处理,并将得到的分片文件发送至服务器,所述第一规则集为与所述服务器相适配的规则集。
9.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210557890.0A CN114936187A (zh) | 2022-05-19 | 2022-05-19 | 数据文件的处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210557890.0A CN114936187A (zh) | 2022-05-19 | 2022-05-19 | 数据文件的处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114936187A true CN114936187A (zh) | 2022-08-23 |
Family
ID=82865790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210557890.0A Pending CN114936187A (zh) | 2022-05-19 | 2022-05-19 | 数据文件的处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114936187A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501706A (zh) * | 2023-06-28 | 2023-07-28 | 中国人民解放军总医院 | 用于医学人工智能模型检测的数据配置方法和装置 |
-
2022
- 2022-05-19 CN CN202210557890.0A patent/CN114936187A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501706A (zh) * | 2023-06-28 | 2023-07-28 | 中国人民解放军总医院 | 用于医学人工智能模型检测的数据配置方法和装置 |
CN116501706B (zh) * | 2023-06-28 | 2023-09-19 | 中国人民解放军总医院 | 用于医学人工智能模型检测的数据配置方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108681565B (zh) | 区块链数据并行处理方法、装置、设备和存储介质 | |
CN114996173B (zh) | 一种管理存储设备写操作的方法和装置 | |
CN113886162A (zh) | 一种计算设备性能测试方法、计算设备及存储介质 | |
CN111475494A (zh) | 一种海量数据处理方法、***、终端及存储介质 | |
CN112835682A (zh) | 一种数据处理方法、装置、计算机设备和可读存储介质 | |
CN114936187A (zh) | 数据文件的处理方法、装置、设备及存储介质 | |
EP4167107A1 (en) | Image retrieval system, method and apparatus | |
CN112101024B (zh) | 基于app信息的目标对象识别*** | |
CN108463813B (zh) | 一种进行数据处理的方法和装置 | |
CN112286968A (zh) | 一种业务识别方法、设备、介质及电子设备 | |
US10761940B2 (en) | Method, device and program product for reducing data recovery time of storage system | |
CN111221690A (zh) | 针对集成电路设计的模型确定方法、装置及终端 | |
CN112631850B (zh) | 故障场景的模拟方法及装置 | |
CN113434273B (zh) | 数据处理方法、装置、***及存储介质 | |
CN114281761A (zh) | 一种数据文件加载方法、装置、计算机设备及存储介质 | |
CN115438020A (zh) | 一种数据库资源调度方法、装置、设备及介质 | |
US11481130B2 (en) | Method, electronic device and computer program product for processing operation commands | |
CN111061712A (zh) | 一种数据连接操作的处理方法及装置 | |
CN104965853A (zh) | 聚合类应用的推荐、多方推荐源聚合的方法、***和装置 | |
CN112600756B (zh) | 业务数据的处理方法及装置 | |
CN117271440B (zh) | 一种基于freeRTOS文件信息存储方法、读取方法及相关设备 | |
US11662937B2 (en) | Copying data based on overwritten probabilities | |
US11513862B2 (en) | System and method for state management of devices | |
KR102662776B1 (ko) | 사용자 니즈에 기반하는 시스템 구축을 위한 시스템 설계 제안 서비스 제공 장치 및 방법 | |
CN110427391B (zh) | 确定重复数据的方法、设备和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |