CN112860779B - 一种批量数据导入方法及装置 - Google Patents

一种批量数据导入方法及装置 Download PDF

Info

Publication number
CN112860779B
CN112860779B CN202110336651.8A CN202110336651A CN112860779B CN 112860779 B CN112860779 B CN 112860779B CN 202110336651 A CN202110336651 A CN 202110336651A CN 112860779 B CN112860779 B CN 112860779B
Authority
CN
China
Prior art keywords
data
task
server
imported
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110336651.8A
Other languages
English (en)
Other versions
CN112860779A (zh
Inventor
卢凤龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Citic Bank Corp Ltd
Original Assignee
China Citic Bank Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Citic Bank Corp Ltd filed Critical China Citic Bank Corp Ltd
Priority to CN202110336651.8A priority Critical patent/CN112860779B/zh
Publication of CN112860779A publication Critical patent/CN112860779A/zh
Application granted granted Critical
Publication of CN112860779B publication Critical patent/CN112860779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种批量数据导入方法及装置,在执行批量数据导入时,采用预先训练的配置生成模型生成参数配置信息。该过程无需过多的人工干预,由配置生成模型较大程度的承担了确定参数配置信息的职能,减少了人力资源的消耗,降低了确定参数配置信息的门槛。此外,本说明书中的配置生成模型是以数据的信息和服务器的硬件参数为输入确定参数配置信息的,则由配置生成模型输出的参数配置信息能够更加适于待导入的数据,也更加适于执行数据存储的服务器。并且,本说明书中的技术方案适于多种业务处理场景,尤其适用于金融业务处理场景。

Description

一种批量数据导入方法及装置
技术领域
本申请涉及数据处理技术领域,具体而言,本申请涉及一种批量数据导入方法及装置。
背景技术
随着计算机技术和网络时代的推进,批处理技术已经得到了非常广泛的应用。特别在一些与传统行业结合的***中,存在大量传统行业数据需要进行电子化存储,这时一般都会利用基于批量导入的批处理技术。。
批处理就是将数据导出到数据文件,再将文件传输给相关的***,由相关***自行编写存储逻辑(即对参数进行配置),以将数据文件的数据解析到自己的数据库中。在现有的批处理过程中,不同的数据文件通常需要不同的存储逻辑进行处理,而相关***所面临的数据文件通常种类不单一。这就使得相关***的维护人员需针对不同的数据文件编写不同的存储逻辑,可见该编写存储逻辑的过程较为耗费人力。此外,若存储逻辑编写的存在问题,将导致存储过程处理文件时相对较慢,在进行批处理时还需要考虑是否处理数据量过大造成服务崩溃。进一步地,若批处理过程涉及的相关***的数量众多,则针对各个相关***分别地进行存储逻辑编写,将使得针对存储逻辑编写的过程消耗人力资源较多的问题更加突出。
发明内容
本申请提供了一种批量数据导入方法及装置,有效地降低了批量数据导入过程中对人力资源消耗的程度,使得确定参数配置信息的过程更加便捷,本申请采用的技术方案如下:
第一方面,提供了一种批量数据导入方法,所述批量数据导入方法基于批量数据导入***,所述***包括服务器、预先训练的配置生成模型和数据库;所述方法包括:
获取待导入的数据;
根据所述待导入的数据,生成多个任务;
将所述待导入的数据的信息和所述服务器的硬件参数,输入预先训练的配置生成模型,得到所述配置生成模型输出的参数配置信息;
根据所述参数配置信息,对所述服务器进行配置,得到配置后的服务器;
采用所述配置后服务器,对各任务进行处理,以将任务对应的批量数据导入所述数据库。
在本说明书一个可选的实施例中,所述预先训练的配置生成模型是通过以下步骤得到:
根据历史中进行批量数据导入时获取到的数据的信息,得到训练样本;
将所述训练样本和服务器的硬件参数输入待训练的配置生成模型,得到待训练的配置生成模型输出的待定参数配置信息;
采用所述待定参数配置信息对所述服务器进行配置,得到待定服务器;
采用所述待定服务器对所述训练样本对应的数据得到的各任务进行处理,根据处理的效果确定待训练的配置生成模型的损失;
以损失最小化为训练目标,对所述待训练的配置生成模型的参数进行调整,得到预先训练的配置生成模型。
在本说明书一个可选的实施例中,所述待导入的数据的信息包括待导入的数据的量、待导入的数据的格式中的至少一种。
在本说明书一个可选的实施例中,所述参数配置信息包括主线程数、辅线程数、各线程处理任务的第一粒度、缓冲池的容量、读取文件的缓冲池大小、允许执行失败次数、失败次数阈值、第二粒度中的至少一种;其中,所述第二粒度时对处理失败的任务进行在再次处理时对处理失败的任务重新确定的粒度。
在本说明书一个可选的实施例中,采用所述配置后服务器,对各任务进行处理,包括:
所述服务器的主线程将所述待导入的数据读取到缓冲池;
辅线程从所述缓冲池中获取待导入的数据,并根据获取到的待导入的数据执行该辅线程对应的任务。
在本说明书一个可选的实施例中,所述方法还包括:
若进行任务进行处理时采用的任一辅线程出现异常,则在所述服务器的缓冲池中不存在待导入的数据时,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理。
在本说明书一个可选的实施例中,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理,包括:
将由该异常的辅线程处理的任务确定为目标任务;
根据所述预先训练的配置生成模型输出的第二粒度,将所述目标任务划分为若干个子任务,分配至出异常辅线程以外的其他辅线程。
在本说明书一个可选的实施例中,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理,包括:
将由该异常的辅线程处理的任务的执行失败次数记录为1,并在此后,根据对由该异常的辅线程处理的任务再次执行失败的情况,更新执行失败次数;
在所述更新后的执行失败次数达到预先训练的配置生成模型输出的失败次数阈值时,生成告警信息并展示。
在本说明书一个可选的实施例中,所述配置生成模型是RNN模型。
第二方面,提供了一种批量数据导入装置,可执行本申请上述实施例中提供的一种批量数据导入过程。所述装置用于批量数据导入***,如图3所示,所述装置包括以下模块中的一个或多个:
获取模块,配置为获取待导入的数据;
任务生成模块,配置为根据所述待导入的数据,生成多个任务;
参数配置信息生成模块,配置为将所述待导入的数据的信息和所述服务器的硬件参数,输入预先训练的配置生成模型,得到所述配置生成模型输出的参数配置信息;
配置模块,配置为根据所述参数配置信息,对所述服务器进行配置,得到配置后的服务器;
导入模块,配置为采用所述配置后服务器,对各任务进行处理,以将任务对应的批量数据导入所述数据库。
在本说明书一个可选的实施例中,所述批量数据导入装置还可以包括训练模块。
所述训练模块,配置为根据历史中进行批量数据导入时获取到的数据的信息,得到训练样本;将所述训练样本和服务器的硬件参数输入待训练的配置生成模型,得到待训练的配置生成模型输出的待定参数配置信息;采用所述待定参数配置信息对所述服务器进行配置,得到待定服务器;采用所述待定服务器对所述训练样本对应的数据得到的各任务进行处理,根据处理的效果确定待训练的配置生成模型的损失;以损失最小化为训练目标,对所述待训练的配置生成模型的参数进行调整,得到预先训练的配置生成模型。
在本说明书一个可选的实施例中,所述待导入的数据的信息包括待导入的数据的量、待导入的数据的格式中的至少一种。
在本说明书一个可选的实施例中,所述参数配置信息包括主线程数、辅线程数、各线程处理任务的第一粒度、缓冲池的容量、读取文件的缓冲池大小、允许执行失败次数、失败次数阈值、第二粒度中的至少一种;其中,所述第二粒度时对处理失败的任务进行在再次处理时对处理失败的任务重新确定的粒度。
在本说明书一个可选的实施例中,所述导入模块,具体配置为所述服务器的主线程将所述待导入的数据读取到缓冲池;辅线程从所述缓冲池中获取待导入的数据,并根据获取到的待导入的数据执行该辅线程对应的任务。
在本说明书一个可选的实施例中,所述批量数据导入装置还可以包括异常处理模块。
所述异常处理模块,配置为若进行任务进行处理时采用的任一辅线程出现异常,则在所述服务器的缓冲池中不存在待导入的数据时,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理。
在本说明书一个可选的实施例中,所述异常处理模块具体配置为将由该异常的辅线程处理的任务确定为目标任务;根据所述预先训练的配置生成模型输出的第二粒度,将所述目标任务划分为若干个子任务,分配至出异常辅线程以外的其他辅线程。
在本说明书一个可选的实施例中,所述异常处理模块还配置为将由该异常的辅线程处理的任务的执行失败次数记录为1,并在此后,根据对由该异常的辅线程处理的任务再次执行失败的情况,更新执行失败次数;在所述更新后的执行失败次数达到预先训练的配置生成模型输出的失败次数阈值时,生成告警信息并展示。
在本说明书一个可选的实施例中,所述配置生成模型是RNN模型。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面所示的批量数据导入方法。
第四方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面所示的批量数据导入方法。
本申请提供了一种批量数据导入方法、装置、电子设备及计算机可读存储介质,在执行批量数据导入时,采用预先训练的配置生成模型生成参数配置信息。该过程无需过多的人工干预,由配置生成模型较大程度的承担了确定参数配置信息的职能,减少了人力资源的消耗,降低了确定参数配置信息的门槛。此外,本说明书中的配置生成模型是以数据的信息和服务器的硬件参数为输入确定参数配置信息的,则由配置生成模型输出的参数配置信息能够更加适于待导入的数据,也更加适于执行数据存储的服务器。并且,本说明书中的技术方案适于多种业务处理场景,尤其适用于金融业务处理场景。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的一种批量数据导入***示意图;
图2为本申请实施例的一种批量数据导入过程示意图;
图3为本申请实施例的一种批量数据导入装置的结构示意图;
图4为本申请实施例的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个***是指两个或两个以上的***,多个终端是指两个或两个以上的终端。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本说明书中的实施例及实施例中的特征可以相互组合。
本说明书中使用了流程图用来说明根据本说明书的实施例的***所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
所述批量数据导入方法基于批量数据导入***,所述***包括服务器、预先训练的配置生成模型和数据库。示例性的,本说明书中的批量数据导入过程涉及批量数据导入***的网络架构如图1所示。
本说明书对待导入的数据的来源不做限制,该待导入的数据可以来自于不同的数据源,也可以来自于相同的数据。在本说明书中,数据在成功导入至批量数据导入***中的数据库之前,均称为待导入的数据。
批量数据导入***中的服务器用于在将待导入的数据导入数据库。配置生成模型用于生成服务器的参数。数据库用于数据存储。
通常情况下,需由服务器执行的待导入数据的导入往往不同,该不同体现在数据的量不同,和/或数据的大小不同。针对不同数据进行导入,若服务器的配置一成不变,则可能存在服务器对某些批次的数据的导入效果较好,而对其他批次数据的导入的效果较差的问题。
可见,若服务器的参数不做调整,将造成服务器无法满足复杂多变的数据的导入需求,影响数据导入的整体效果。
有鉴于此,为能够及时、有效的对服务器的参数进行配置,特提出本说明书中的批量数据导入方法。本说明书中的批量数据导入方法可以包括以下步骤中的一个或多个。
S200:获取待导入的数据。
本说明书对获取待导入数据的时机不做具体限制。
在本说明书一个可选的实施例中,在针对某批次获得的待导入数据没有执行完成导入数据库时,不会获取下一批次的待导入数据。即,在上一批次的待导入数据导入完成之后,可以执行本步骤。
本说明书中的批量数据导入***还可以包括缓冲池,缓冲池用于暂存即将导入数据库中的数据。则可以检测缓冲池中是否待导入的数据,若结果为否,则执行本步骤;若检测结果为是,则等待预设时间,再次执行检测,直至检测结果为否。
S202:根据所述待导入的数据,生成多个任务。
通常情况下,待导入的数据的量不会太小,在某些场景下,为实现多线程的数据导入,可以根据预设的划分规则,将数据划分为多个任务(task),则在此后,服务器可以对任务进行处理,以实现将待导入数据导入至数据库中。
本说明书对所述划分规则和划分得到的任务的数量,不做具体限制。划分规则和划分得到的任务的数量可以根据实际的场景确定。
S204:将所述待导入的数据的信息和所述服务器的硬件参数,输入预先训练的配置生成模型,得到所述配置生成模型输出的参数配置信息。
本说明书中,数据的信息可以是对数据导入数据库的过程构成影响的信息。具体何种信息会对数据导入数据库的过程构成影响,可以根据实际的场景确定。
在本说明书一个可选的实施例中,待导入的数据的信息可以包括待导入的数据的量、待导入的数据的格式中的至少一种。此外,还可以将其他信息作为待导入的数据的信息,再此不做赘述。
并且,本说明书对服务器的硬件参数也不做具体限制,硬件参数需根据实际场景中采用的服务器而定。在本说明书一个可选的实施例中,硬件参数可以是服务器可提供的最大线程数(最大主线程数、最大辅线程数中的至少一种)、服务器可提供的缓冲池最大容量、服务器的处理器参数中的至少一种。
本说明书中的配置生成模型用于生成服务器在执行数据导入时采用的至少部分参数配置信息。在本说明书一个可选的实施例中,参数配置信息包括主线程数、辅线程数、各线程处理任务的第一粒度、缓冲池的容量、读取文件的缓冲池大小中的至少一种。
此外,在本说明书另一个可选的实施例中,还可以将针对一任务允许执行失败的次数、失败次数阈值、第二粒度中的至少一种作为参数配置信息;其中,所述第二粒度时对处理失败的任务进行在再次处理时对处理失败的任务重新确定的粒度。
本说明配置生成模型可以是人工智能模型。现有的多种可以实现预测功能的人工智能模型均适用于本说明书中的过程。在本说明书一个可选的实施例中,配置生成模型是RNN(RecurrentNeuralNetwork,循环神经网络)模型。
S206:根据所述参数配置信息,对所述服务器进行配置,得到配置后的服务器。
在配置生成模型生成参数配置信息之后,即可以根据参数配置信息对服务器的至少部分参数进行配置。
本说明书对参数配置过程中实际采取的配置方式,不做具体限制。在本说明书一个可选的实施例中,配置生成模型可以将参数配置信息到处为具有服务器可以直接读取的格式的配置文件。则仅需将该配置文件导入服务器,即可完成针对服务器的配置,得到配置后的服务器。
S208:采用所述配置后服务器,对各任务进行处理,以将任务对应的批量数据导入所述数据库。
通过前述步骤得到的配置后的服务器至少具备了适于本批次的待导入的数据、该服务器的硬件条件的参数,则在此后,可以采用该配置后的服务器执行将待导入的数据,导入至数据库中。
在执行完成针对待导入数据的导入之后,可以再次执行步骤S200,周而复始,即使每个批次获取到的待处理数据之间的差异较大,通过本说明书中的过程得到的配置后的服务器也能够较好的应对。
可见,采用预先训练的配置生成模型生成参数配置信息。该过程无需过多的人工干预,由配置生成模型较大程度的承担了确定参数配置信息的职能,减少了人力资源的消耗,降低了确定参数配置信息的门槛。此外,本说明书中的配置生成模型是以数据的信息和服务器的硬件参数为输入确定参数配置信息的,则由配置生成模型输出的参数配置信息能够更加适于待导入的数据,也更加适于执行数据存储的服务器。
由前述内容可知,本说明书中的配置生成模型在执行数据导入的过程中发挥了较为重要的作用。现就如何得到配置生成模型进行说明。
在本说明书一个可选的实施例中,可以根据历史中进行批量数据导入时获取到的数据的信息,得到训练样本。将所述训练样本和服务器的硬件参数输入待训练的配置生成模型,得到待训练的配置生成模型输出的待定参数配置信息。采用所述待定参数配置信息对所述服务器进行配置,得到待定服务器。采用所述待定服务器对所述训练样本对应的数据得到的各任务进行处理,根据处理的效果确定待训练的配置生成模型的损失。以损失最小化训练目标,对所述待训练的配置生成模型的参数进行调整,得到预先训练的配置生成模型。
此外,还可以通过其他方式对待训练的配置生成模型进行训练,本说明对此不进行一一列举。
此外,在某些情况下,服务器将待导入的数据导入数据库中的过程不仅仅受到服务器自身的参数的影响,还会一定程度的受到数据库的影响。则在进行对待训练的配置生成模型进行训练时,还可以将训练样本、服务器的硬件参数以及数据库的信息输入待训练的配置生成模型中,并执行针对模型的训练,得到训练后的配置生成模型。
进而,在步骤S204,还可以将数据库的信息输入配置生成模型中,则配置生成模型输出参数配置信息还依据了数据库对服务器对数据导入造成的影响。则服务器在根据参数配置信息将待导入数据导入数据库的过程,还考虑到了服务器与数据库之间的配合,有利于综合性的提高导入数据的效果。
由前述内容可知,在本说明书中,将待导入的数据导入数据库的步骤主要是由服务器执行的。在本说明书中,服务器可以是多个设备、组件、中间件构成的集群,该集群可以具备分布式的结构。
在配置后服务器进行数据导入时,服务器的主线程将所述待导入的数据读取到缓冲池。辅线程从所述缓冲池中获取待导入的数据,并根据获取到的待导入的数据执行该辅线程对应的任务。在某些可选的实施例中,其中主线程的数量、辅线程的数量、缓冲池的容量以及各线程处理任务的第一粒度(即一个任务所包含的数据的量)可以是采用配置生成模型得到的。
此外,服务器在进行数据导入的过程中,也难免会出现异常的现象。该异常的现象有可能是待导入的数据本身引起的,也可能是在服务器所处的环境造成的。
为避免该异常的现象对数据的导入过程造成影响,本说明书中的数据导入过程还包括:在执行数据导入时,检测各个线程的工作状态。若进行任务进行处理时采用的任一辅线程出现异常,则在所述服务器的缓冲池中不存在待导入的数据时,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理,以使得根据待导入数据得到的各个任务均能够被妥善的处理。
本说明书在数据池中不存在待导入的数据时,才对异常对应的任务进行处理,能够有效的避免其他正常的辅线程对正常的任务的处理。
在本说明书一个可选的实施例中,若一辅线程出现异常,将由该异常的辅线程处理的任务确定为目标任务。根据所述预先训练的配置生成模型输出的第二粒度,将所述目标任务划分为若干个子任务,分配至出异常辅线程以外的其他辅线程。其中,第二粒度小于前述的第一粒度。
根据第二粒度对任务的划分,能够将任务划分为更小的子任务,使得线程对子任务进行处理时能够定位出由任务引起的异常具体的出现在哪个子任务中。
此后,针对一子任务对应的数据执行的导入出现了异常,则根据此前配置生成模型生成的第三粒度对该再次发生的异常对应的子任务进行进一步地划分,得到若干个任务单元。之后,在将得到的任务单元分配至正常的线程,以使得该正常的线程对该任务单元进行处理。
进一步地,在某辅线程处理任务出现异常时,将由该异常的辅线程处理的任务的执行失败次数记录为1,并在此后,根据对由该异常的辅线程处理的任务再次执行失败的情况,更新执行失败次数;在所述更新后的执行失败次数达到预先训练的配置生成模型输出的失败次数阈值时,生成告警信息并展示。
本说明书进一步提供一种批量数据导入装置,可执行本申请上述实施例中提供的一种批量数据导入过程。所述装置用于批量数据导入***,如图3所示,所述装置包括以下模块中的一个或多个:
获取模块300,配置为获取待导入的数据;
任务生成模块302,配置为根据所述待导入的数据,生成多个任务;
参数配置信息生成模块304,配置为将所述待导入的数据的信息和所述服务器的硬件参数,输入预先训练的配置生成模型,得到所述配置生成模型输出的参数配置信息;
配置模块306,配置为根据所述参数配置信息,对所述服务器进行配置,得到配置后的服务器;
导入模块308,配置为采用所述配置后服务器,对各任务进行处理,以将任务对应的批量数据导入所述数据库。
在本说明书一个可选的实施例中,所述批量数据导入装置还可以包括训练模块310。
所述训练模块310,配置为根据历史中进行批量数据导入时获取到的数据的信息,得到训练样本;将所述训练样本和服务器的硬件参数输入待训练的配置生成模型,得到待训练的配置生成模型输出的待定参数配置信息;采用所述待定参数配置信息对所述服务器进行配置,得到待定服务器;采用所述待定服务器对所述训练样本对应的数据得到的各任务进行处理,根据处理的效果确定待训练的配置生成模型的损失;以损失最小化为训练目标,对所述待训练的配置生成模型的参数进行调整,得到预先训练的配置生成模型。
在本说明书一个可选的实施例中,所述待导入的数据的信息包括待导入的数据的量、待导入的数据的格式中的至少一种。
在本说明书一个可选的实施例中,所述参数配置信息包括主线程数、辅线程数、各线程处理任务的第一粒度、缓冲池的容量、读取文件的缓冲池大小、允许执行失败次数、失败次数阈值、第二粒度中的至少一种;其中,所述第二粒度时对处理失败的任务进行在再次处理时对处理失败的任务重新确定的粒度。
在本说明书一个可选的实施例中,所述导入模块308,具体配置为所述服务器的主线程将所述待导入的数据读取到缓冲池;辅线程从所述缓冲池中获取待导入的数据,并根据获取到的待导入的数据执行该辅线程对应的任务。
在本说明书一个可选的实施例中,所述批量数据导入装置还可以包括异常处理模块312。
所述异常处理模块312,配置为若进行任务进行处理时采用的任一辅线程出现异常,则在所述服务器的缓冲池中不存在待导入的数据时,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理。
在本说明书一个可选的实施例中,所述异常处理模块312具体配置为将由该异常的辅线程处理的任务确定为目标任务;根据所述预先训练的配置生成模型输出的第二粒度,将所述目标任务划分为若干个子任务,分配至出异常辅线程以外的其他辅线程。
在本说明书一个可选的实施例中,所述异常处理模块312还配置为将由该异常的辅线程处理的任务的执行失败次数记录为1,并在此后,根据对由该异常的辅线程处理的任务再次执行失败的情况,更新执行失败次数;在所述更新后的执行失败次数达到预先训练的配置生成模型输出的失败次数阈值时,生成告警信息并展示。
在本说明书一个可选的实施例中,所述配置生成模型是RNN模型。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书一个或多个实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
进一步的,本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备40包括:处理器401和存储器存储设备403。其中,处理器401和存储器存储设备403相连,如通过总线402相连。进一步地,电子设备40还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个,该电子设备40的结构并不构成对本申请实施例的限定。其中,处理器401应用于本申请实施例中,用于实现图3所示的各个模块的功能。收发器404包括接收机和发射机。
处理器401可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线402可包括一通路,在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储设备403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储设备403用于存储执行本申请方案的应用程序代码,并由处理器401来控制执行。处理器401用于执行存储设备403中存储的应用程序代码,用于实现图3所示的各个模块的功能。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例中所示的方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种批量数据导入方法,所述批量数据导入方法基于批量数据导入***,所述***包括服务器、预先训练的配置生成模型和数据库;所述方法包括:
获取待导入的数据;
根据所述待导入的数据,生成多个任务;
将所述待导入的数据的信息和所述服务器的硬件参数,输入预先训练的配置生成模型,得到所述配置生成模型输出的参数配置信息;
根据所述参数配置信息,对所述服务器进行配置,得到配置后的服务器;
采用所述配置后服务器,对各任务进行处理,以将任务对应的批量数据导入所述数据库;
所述待导入的数据的信息包括待导入的数据的量和或待导入的数据的格式;
所述参数配置信息包括主线程数、辅线程数、各线程处理任务的第一粒度、缓冲池的容量、读取文件的缓冲池大小、允许执行失败次数、失败次数阈值、第二粒度;其中,所述第二粒度时对处理失败的任务进行在再次处理时对处理失败的任务重新确定的粒度。
2.根据权利要求1所述的方法,其特征在于,所述预先训练的配置生成模型是通过以下步骤得到:
根据历史中进行批量数据导入时获取到的数据的信息,得到训练样本;
将所述训练样本和服务器的硬件参数输入待训练的配置生成模型,得到待训练的配置生成模型输出的待定参数配置信息;
采用所述待定参数配置信息对所述服务器进行配置,得到待定服务器;
采用所述待定服务器对所述训练样本对应的数据得到的各任务进行处理,根据处理的效果确定待训练的配置生成模型的损失;
以损失最小化为训练目标,对所述待训练的配置生成模型的参数进行调整,得到预先训练的配置生成模型。
3.根据权利要求1所述的方法,其特征在于,采用所述配置后服务器,对各任务进行处理,包括:
所述服务器的主线程将所述待导入的数据读取到缓冲池;
辅线程从所述缓冲池中获取待导入的数据,并根据获取到的待导入的数据执行该辅线程对应的任务。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若进行任务进行处理时采用的任一辅线程出现异常,则在所述服务器的缓冲池中不存在待导入的数据时,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理。
5.根据权利要求4所述的方法,其特征在于,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理,包括:
将由该异常的辅线程处理的任务确定为目标任务;
根据所述预先训练的配置生成模型输出的第二粒度,将所述目标任务划分为若干个子任务,分配至出异常辅线程以外的其他辅线程。
6.根据权利要求4所述的方法,其特征在于,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理,包括:
将由该异常的辅线程处理的任务的执行失败次数记录为1,并在此后,根据对由该异常的辅线程处理的任务再次执行失败的情况,更新执行失败次数;
在所述更新后的执行失败次数达到预先训练的配置生成模型输出的失败次数阈值时,生成告警信息并展示。
7.根据权利要求1至6任一所述的方法,其特征在于,所述配置生成模型是RNN模型。
8.一种批量数据导入装置,可执行权利要求1-7中任一项提供的批量数据导入方法;所述装置用于批量数据导入***,所述装置包括以下模块中的一个或多个:
获取模块,配置为获取待导入的数据;
任务生成模块,配置为根据所述待导入的数据,生成多个任务;
参数配置信息生成模块,配置为将所述待导入的数据的信息和所述服务器的硬件参数,输入预先训练的配置生成模型,得到所述配置生成模型输出的参数配置信息;
配置模块,配置为根据所述参数配置信息,对服务器进行配置,得到配置后的服务器,其中,所述参数配置信息包括主线程数、辅线程数、各线程处理任务的第一粒度、缓冲池的容量、读取文件的缓冲池大小、允许执行失败次数、失败次数阈值、第二粒度;其中,所述第二粒度时对处理失败的任务进行在再次处理时对处理失败的任务重新确定的粒度;
导入模块,配置为采用所述配置后服务器,对各任务进行处理,以将任务对应的批量数据导入数据库,其中,所述待导入的数据的信息包括待导入的数据的量和或待导入的数据的格式;
所述批量数据导入装置还包括训练模块。
9.一种电子设备,一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行上述权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-7任一所述的方法。
CN202110336651.8A 2021-03-29 2021-03-29 一种批量数据导入方法及装置 Active CN112860779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110336651.8A CN112860779B (zh) 2021-03-29 2021-03-29 一种批量数据导入方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110336651.8A CN112860779B (zh) 2021-03-29 2021-03-29 一种批量数据导入方法及装置

Publications (2)

Publication Number Publication Date
CN112860779A CN112860779A (zh) 2021-05-28
CN112860779B true CN112860779B (zh) 2024-05-24

Family

ID=75993122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110336651.8A Active CN112860779B (zh) 2021-03-29 2021-03-29 一种批量数据导入方法及装置

Country Status (1)

Country Link
CN (1) CN112860779B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201232B (zh) * 2021-12-01 2023-08-22 东莞新能安科技有限公司 电池管理***参数配置方法、装置、***以及上位机

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6289345B1 (en) * 1997-06-26 2001-09-11 Fujitsu Limited Design information management system having a bulk data server and a metadata server
CN104980421A (zh) * 2014-10-15 2015-10-14 腾讯科技(深圳)有限公司 一种批量请求处理方法及***
CN110502344A (zh) * 2019-08-26 2019-11-26 联想(北京)有限公司 一种数据调整方法及装置
CN110991649A (zh) * 2019-10-28 2020-04-10 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 深度学习模型搭建方法、装置、设备和存储介质
CN111459631A (zh) * 2020-03-27 2020-07-28 厦门梦加网络科技股份有限公司 服务器自动化批处理方法及***
CN111666144A (zh) * 2020-06-19 2020-09-15 中信银行股份有限公司 批处理任务执行方法、***以及机房部署***
CN112561078A (zh) * 2020-12-18 2021-03-26 北京百度网讯科技有限公司 分布式的模型训练方法、相关装置及计算机程序产品

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6289345B1 (en) * 1997-06-26 2001-09-11 Fujitsu Limited Design information management system having a bulk data server and a metadata server
CN104980421A (zh) * 2014-10-15 2015-10-14 腾讯科技(深圳)有限公司 一种批量请求处理方法及***
CN110502344A (zh) * 2019-08-26 2019-11-26 联想(北京)有限公司 一种数据调整方法及装置
CN110991649A (zh) * 2019-10-28 2020-04-10 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 深度学习模型搭建方法、装置、设备和存储介质
CN111459631A (zh) * 2020-03-27 2020-07-28 厦门梦加网络科技股份有限公司 服务器自动化批处理方法及***
CN111666144A (zh) * 2020-06-19 2020-09-15 中信银行股份有限公司 批处理任务执行方法、***以及机房部署***
CN112561078A (zh) * 2020-12-18 2021-03-26 北京百度网讯科技有限公司 分布式的模型训练方法、相关装置及计算机程序产品

Also Published As

Publication number Publication date
CN112860779A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
JP6447120B2 (ja) ジョブスケジューリング方法、データアナライザ、データ解析装置、コンピュータシステム及びコンピュータ可読媒体
US11144330B2 (en) Algorithm program loading method and related apparatus
CN109558237A (zh) 一种任务状态管理方法及装置
CN108959510B (zh) 一种分布式数据库的分区级连接方法和装置
WO2020215925A1 (zh) 一种基于区块链的事件订阅的方法及装置
CN110609807B (zh) 用于删除快照数据的方法、设备和计算机可读存储介质
CN112860779B (zh) 一种批量数据导入方法及装置
CN116302898A (zh) 一种任务治理方法、装置、存储介质及电子设备
CN109634714B (zh) 一种智能调度的方法及装置
CN110928941B (zh) 一种数据分片抽取方法及装置
CN116360960A (zh) 基于众核芯片的内存分配方法和内存分配装置
CN111078449B (zh) 信息处理方法、信息处理装置及终端设备
CN113971074A (zh) 事务处理方法、装置、电子设备及计算机可读存储介质
CN109241027B (zh) 数据迁移的方法、装置、电子设备及计算机可读存储介质
CN113822307A (zh) 一种图像预测方法、设备和存储介质
US20200110642A1 (en) Funnel locking for normal rcu grace period requests
CN112231292A (zh) 文件处理方法、装置、存储介质及计算机设备
CN116521351B (zh) 多线程任务调度方法、装置、存储介质及处理器
CN114610575B (zh) 应用于计算分支的更新峰值的方法、装置、设备和介质
CN114706671B (zh) 一种多处理器调度优化方法与***
CN110955546B (zh) 一种内存地址监控方法、装置及电子设备
CN110209746B (zh) 一种数据仓库的数据处理方法及装置
CN106570161A (zh) 一种数据处理方法及装置
CN118096386A (zh) 一种基于Lambda架构和Kappa架构的资产管理方法、设备及介质
CN117911153A (zh) 一种基于属性变更的业务数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant