CN113434273A - 数据处理方法、装置、***及存储介质 - Google Patents
数据处理方法、装置、***及存储介质 Download PDFInfo
- Publication number
- CN113434273A CN113434273A CN202110722907.9A CN202110722907A CN113434273A CN 113434273 A CN113434273 A CN 113434273A CN 202110722907 A CN202110722907 A CN 202110722907A CN 113434273 A CN113434273 A CN 113434273A
- Authority
- CN
- China
- Prior art keywords
- task
- target
- node
- preset
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/485—Task life-cycle, e.g. stopping, restarting, resuming execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能,提供一种数据处理方法、装置、***及存储介质。该方法能够若目标任务的任务类型为预设类型,根据目标任务的重要度确定出目标节点,分析***节点对历史任务的处理日志,得到因素影响度,根据因素影响度选取出目标因素,获取目标节点在目标因素上的目标值,将目标值输入至权值生成模型中,得到节点权值,获取与运算指标相对应的元数据,根据节点权值及元数据的数据量切割目标任务,得到子任务,将每个子任务发送至目标节点,当监听到目标节点生成反馈结果时,生成任务结果。本发明不仅能够提高任务的执行效率,还能够提高所述分布式***中节点的资源利用率。此外,本发明还涉及区块链技术,所述任务结果可存储于区块链中。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、***及存储介质。
背景技术
在ALM(Application Lifecycle Management,应用生命周期管理)***中,通常需要滚动预测不同年份的指标数据。目前业内是通过单机执行指标数据预测任务,该方式在执行任务的过程中,随着预测年份的不断增加,程序的占用资源也会不断增长,导致任务的执行效率低下。
为了提高执行效率,目前直接采用多个机器执行该指标数据预测任务,然而,这种方式无法有效的结合机器性能处理任务,造成机器的资源利用率低下。
发明内容
鉴于以上内容,有必要提供一种数据处理方法、装置、***及存储介质,不仅能够提高任务的执行效率,还能够提高所述分布式***中节点的资源利用率。
一方面,本发明提出一种数据处理方法,应用于分布式***中,所述数据处理方法包括:
当接收到任务处理请求时,根据所述任务处理请求确定目标任务;
根据所述目标任务所包含的运算指标确定所述目标任务所属的任务类型;
若所述任务类型为预设类型,根据所述目标任务的重要度从所述分布式***的空闲节点中确定出目标节点;
分析所述分布式***中的***节点对历史任务的处理日志,得到每个预设性能因素的因素影响度,并根据所述因素影响度从所述预设性能因素中选取出目标因素,不同的所述***节点在所述预设性能因素上的因素值有所不同;
获取所述目标节点在所述目标因素上的目标值,并将所述目标值输入至预先训练好的权值生成模型中,得到每个目标节点的节点权值;
获取与所述运算指标相对应的元数据,并根据所述节点权值及所述元数据的数据量切割所述目标任务,得到每个目标节点所对应的子任务;
将每个子任务并行发送至相应的所述目标节点中,并监听所述目标节点对所述子任务的处理操作;
当监听到所述目标节点基于所述子任务生成反馈结果时,根据所述反馈结果生成所述目标任务的任务结果。
根据本发明优选实施例,所述根据所述任务处理请求确定目标任务包括:
解析所述任务处理请求的报文,得到所述报文携带的数据信息;
从所述数据信息中获取指示任务的信息作为任务标识;
将所述任务标识写入预设模板中,得到查询语句;
在任务库中执行所述查询语句,得到所述目标任务。
根据本发明优选实施例,所述根据所述目标任务所包含的运算指标确定所述目标任务所属的任务类型包括:
从所述目标任务中获取任务信息;
对所述任务信息进行分词处理,得到多个信息分词;
根据预设语法规则确定每个信息分词在所述任务信息中的词性;
将所述词性为预设词性的信息分词确定为所述目标任务的任务实体;
从预设指标映射表中获取与所述任务实体相对应的指标作为所述运算指标;
从预设决策树中获取每个所述运算指标的子指标,并计算每个所述运算指标中的所述子指标的数量,得到每个所述运算指标的指标数量;
将每个所述指标数量与第一预设阈值进行比较,并将每个所述指标数量与第二预设阈值进行比较,所述第一预设阈值大于所述第二预设阈值;
若每个所述指标数量都大于所述第一预设阈值,或者,每个所述指标数据都小于所述第一预设阈值,将所述任务类型确定为特征类型;或者
若每个所述指标数量中不都大于所述第一预设阈值,及每个所述指标数量不都小于所述第二预设阈值的指标数量,将所述任务类型确定为所述预设类型。
根据本发明优选实施例,所述对所述任务信息进行分词处理,得到多个信息分词包括:
基于预设词典对所述任务信息进行切分,得到多个切分路径及每个切分路径对应的路径分词;
基于所述路径分词在所述预设词典中的分词权值计算每个切分路径的切分概率;
将所述切分概率最大的切分路径确定为目标路径;
将所述目标路径所对应的路径分词确定为所述多个信息分词。
根据本发明优选实施例,所述根据所述目标任务的重要度从所述分布式***的空闲节点中确定出目标节点包括:
获取与所述分布式***相对应的线程池分配表;
获取所述分布式***中的所有***节点的识别码;
根据所述识别码从所述线程池分配表中获取每个***节点的当前剩余线程;
根据所述当前剩余线程计算每个***节点中的剩余线程数量;
将所述剩余线程数量大于预设数量阈值的***节点确定为所述空闲节点;
从所述数据信息中获取所述目标任务的第一时间需求,并从所述分布式***中获取当前任务的第二时间需求;
根据所述第一时间需求及所述第二时间需求确定所述重要度;
根据所述空闲节点的节点数量及所述重要度从所述空闲节点中选取所述目标节点。
根据本发明优选实施例,所述根据所述第一时间需求及所述第二时间需求确定所述重要度包括:
获取当前时间;
计算所述第一时间需求与所述当前时间的差值,得到第一时间差;
计算所述第二时间需求与所述当前时间的差值,得到第二时间差;
根据所述第一时间差及所述第二时间差从小至大的顺序对所述目标任务及所述当前任务进行排序,得到任务列表;
计算所述任务列表中所有任务的任务数量,并确定所述目标任务在所述任务列表中的序号;
计算所述序号与所述任务数量的比值,得到所述重要度。
根据本发明优选实施例,所述分析所述分布式***中的***节点对历史任务的处理日志,得到每个预设性能因素的因素影响度包括:
从所述处理日志中获取所述历史任务的处理时间及任务量;
根据所述处理时间及所述任务量计算所述***节点的处理效率;
对于每个预设性能因素,将除该预设性能因素外的其他性能因素确定为特征因素;
从所述***节点中获取所述特征因素所对应的因素值相同的节点作为特征节点;
根据所述特征节点在该预设性能因素上的因素值及相应的所述处理效率构建该预设性能因素的曲线;
计算所述曲线的斜率,得到所述因素影响度。
另一方面,本发明还提出一种数据处理装置,运行于分布式***中,所述数据处理装置包括:
确定单元,用于当接收到任务处理请求时,根据所述任务处理请求确定目标任务;
所述确定单元,还用于根据所述目标任务所包含的运算指标确定所述目标任务所属的任务类型;
所述确定单元,还用于若所述任务类型为预设类型,根据所述目标任务的重要度从所述分布式***的空闲节点中确定出目标节点;
分析单元,用于分析所述分布式***中的***节点对历史任务的处理日志,得到每个预设性能因素的因素影响度,并根据所述因素影响度从所述预设性能因素中选取出目标因素,不同的所述***节点在所述预设性能因素上的因素值有所不同;
输入单元,用于获取所述目标节点在所述目标因素上的目标值,并将所述目标值输入至预先训练好的权值生成模型中,得到每个目标节点的节点权值;
切割单元,用于获取与所述运算指标相对应的元数据,并根据所述节点权值及所述元数据的数据量切割所述目标任务,得到每个目标节点所对应的子任务;
监听单元,用于将每个子任务并行发送至相应的所述目标节点中,并监听所述目标节点对所述子任务的处理操作;
生成单元,用于当监听到所述目标节点基于所述子任务生成反馈结果时,根据所述反馈结果生成所述目标任务的任务结果。
另一方面,本发明还提出一种分布式***,所述分布式***包括:
存储器,存储计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现所述数据处理方法。
另一方面,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被分布式***中的处理器执行以实现所述数据处理方法。
由以上技术方案可以看出,本发明通过所述运算指标能够准确的确定出所述目标任务所属的任务类型,进而根据所述任务类型能够以合适的切割方式对所述目标任务进行切割;通过所述目标任务的重要度能够从所述分布式***中确定出所述目标节点,由于所述目标节点是从所述空闲节点中确定出的,因此,能够避免所述子任务需要花费时间等待所述目标节点处理其他请求,同时,根据所述重要度确定出一定数量的所述目标节点,能够避免全部空闲节点同时处理重要度较低的任务;通过所述处理日志能够准确的确定出所述预设性能因素对所述历史任务处理效率的影响度,从而能够准确的确定出所述目标因素;通过确定出的所述目标因素及所述权值生成模型确定节点权值,由于所述权值生成模型无需对所述目标节点在全部预设性能因素上的因素值进行分析,因此,能够提高所述节点权值的生成效率,此外,通过所述权值生成模型能够准确的确定出所述节点权值;通过所述节点权值及所述数据量对所述目标任务进行切割,能够生成符合所述目标节点性能的子任务,不仅提高了所述任务结果的生成效率,还提高所述目标节点的资源利用率。
附图说明
图1是本发明数据处理方法的较佳实施例的流程图。
图2是本发明数据处理装置的较佳实施例的功能模块图。
图3是本发明实现数据处理方法的较佳实施例的分布式***的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,是本发明数据处理方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述数据处理方法应用于一个或者多个分布式***中,所述分布式***是一种能够按照事先设定或存储的计算机可读指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字信号处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述分布式***可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能穿戴式设备等。
所述分布式***可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络分布式***、多个网络分布式***组成的分布式***组或基于云计算(Cloud Computing)的由大量主机或网络分布式***构成的云。
所述分布式***所处的网络包括,但不限于:互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
S10,当接收到任务处理请求时,根据所述任务处理请求确定目标任务。
在本发明的至少一个实施例中,所述任务处理请求可以在任务需求生成时触发生成。所述任务处理请求中携带的信息包括:任务标识等,所述任务标识用于指示所述目标任务。
所述目标任务是指需要进行处理的任务。
在本发明的至少一个实施例中,所述分布式***根据所述任务处理请求确定目标任务包括:
解析所述任务处理请求的报文,得到所述报文携带的数据信息;
从所述数据信息中获取指示任务的信息作为任务标识;
将所述任务标识写入预设模板中,得到查询语句;
在任务库中执行所述查询语句,得到所述目标任务。
其中,所述数据信息包括,但不限于:指示任务的标签、所述任务标识等。
所述预设模板中存储有查询信息所对应的代码语句。所述预设模板可以是结构化查询语句。
所述任务库中存储有多个待处理的任务。
通过解析所述报文,能够快速获取到所述数据信息,从而能够快速获取到所述任务标识,通过所述预设模板能够提高所述查询语句的生成效率,通过所述查询语句能够快速从所述任务库中获取到所述目标任务。
S11,根据所述目标任务所包含的运算指标确定所述目标任务所属的任务类型。
在本发明的至少一个实施例中,所述运算指标是指处理所述目标任务所需的指标。
所述任务类型是指所述目标任务所对应的类型,所述任务类型包括所述目标任务中的指标具有多样性,及所述目标任务中的指标不具有多样性。
在本发明的至少一个实施例中,所述分布式***根据所述目标任务所包含的运算指标确定所述目标任务所属的任务类型包括:
从所述目标任务中获取任务信息;
对所述任务信息进行分词处理,得到多个信息分词;
根据预设语法规则确定每个信息分词在所述任务信息中的词性;
将所述词性为预设词性的信息分词确定为所述目标任务的任务实体;
从预设指标映射表中获取与所述任务实体相对应的指标作为所述运算指标;
从预设决策树中获取每个所述运算指标的子指标,并计算每个所述运算指标中的所述子指标的数量,得到每个所述运算指标的指标数量;
将每个所述指标数量与第一预设阈值进行比较,并将每个所述指标数量与第二预设阈值进行比较,所述第一预设阈值大于所述第二预设阈值;
若每个所述指标数量都大于所述第一预设阈值,或者,每个所述指标数据都小于所述第一预设阈值,将所述任务类型确定为特征类型;或者
若每个所述指标数量中不都大于所述第一预设阈值,及每个所述指标数量不都小于所述第二预设阈值的指标数量,将所述任务类型确定为所述预设类型。
其中,所述任务信息是指所述目标任务所表征的信息,例如,所述任务信息为:预测A产品未来十年的收益情况。
所述多个信息分词是通过对所述任务信息进行分词处理后而得到的词汇。
所述预设语法规则包括多种不同语言中所对应的语法规则。
所述预设词性可以是指名词。
所述预设指标映射表中存储有多个实体与指标的映射关系,例如,实体“收益”对应的指标有销量、成本等。
所述预设决策树中包含有多个指标之间的节点关系。
所述第一预设阈值及所述第二预设阈值可以根据需求设定。
所述预设类型是指所述目标任务中的指标具有多样性,所述特征类型是指所述目标任务中的指标不具有多样性。
通过对所述目标任务中的任务信息进行分析,由于每个信息分词包含有多个不同的词性,因此,通过所述预设语法规则能够准确的确定出每个信息分词在所述任务信息中的词性,从而能够准确的确定出所述目标任务的任务实体,通过所述预设指标映射表能够准确的确定出所述运算指标,从而通过所述运算指标中子指标的数量与所述第一预设阈值及所述第二预设阈值的比较,能够准确的确定出所述目标任务所对应的任务类型。
具体地,所述分布式***对所述任务信息进行分词处理,得到多个信息分词包括:
基于预设词典对所述任务信息进行切分,得到多个切分路径及每个切分路径对应的路径分词;
基于所述路径分词在所述预设词典中的分词权值计算每个切分路径的切分概率;
将所述切分概率最大的切分路径确定为目标路径;
将所述目标路径所对应的路径分词确定为所述多个信息分词。
其中,所述预设词典中包括多个词汇及每个词汇在词典中的分词概率。
通过上述实施方式,能够根据所述预设词典中的需求准确的对所述任务信息进行切分,得到所述多个信息分词。
S12,若所述任务类型为预设类型,根据所述目标任务的重要度从所述分布式***的空闲节点中确定出目标节点。
在本发明的至少一个实施例中,所述预设类型是指所述目标任务中的指标具有多样性。
所述重要度是指所述目标任务在所述分布式***中的紧急程度。
所述空闲节点是指空闲线程的线程数量大于预设数量阈值的***节点。
所述目标节点是指包含有节点数量为目标数量的空闲节点。所述目标数量是根据所述空闲节点的总数量及所述重要度确定的。
在本发明的至少一个实施例中,所述分布式***根据所述目标任务的重要度从自身的空闲节点中确定出目标节点包括:
获取与所述分布式***相对应的线程池分配表;
获取所述分布式***中的所有***节点的识别码;
根据所述识别码从所述线程池分配表中获取每个***节点的当前剩余线程;
根据所述当前剩余线程计算每个***节点中的剩余线程数量;
将所述剩余线程数量大于预设数量阈值的***节点确定为所述空闲节点;
从所述数据信息中获取所述目标任务的第一时间需求,并从所述分布式***中获取当前任务的第二时间需求;
根据所述第一时间需求及所述第二时间需求确定所述重要度;
根据所述空闲节点的节点数量及所述重要度从所述空闲节点中选取所述目标节点。
其中,所述线程池分配表中存储有所述分布式***中所有***节点的线程,及该线程所处的当前状态。
所述识别码用于唯一标识每个所述***节点。
所述当前剩余线程是指在每个所述***节点中,线程状态为空闲状态的线程。
所述预设数量阈值可以根据需求自定义设置。
所述第一时间需求是指执行所述目标任务的截止日期。
所述当前任务是指所述分布式***中正在处理的任务。
所述第二时间需求是指执行所述当前任务的截止日期。
所述节点数量是指所述空闲节点的总量。
通过所述线程池分配表能够准确的确定出每个***节点中的剩余线程数量,从而能够准确的确定出所述分布式***中的空闲节点,通过所述目标任务的第一时间需求及所述当前任务的第二时间需求能够准确的确定出所述目标任务在所述分布式***中的重要度,从而能够确定出适当数量的空闲节点作为所述目标节点。
具体地,所述分布式***根据所述第一时间需求及所述第二时间需求确定所述重要度包括:
获取当前时间;
计算所述第一时间需求与所述当前时间的差值,得到第一时间差;
计算所述第二时间需求与所述当前时间的差值,得到第二时间差;
根据所述第一时间差及所述第二时间差从小至大的顺序对所述目标任务及所述当前任务进行排序,得到任务列表;
计算所述任务列表中所有任务的任务数量,并确定所述目标任务在所述任务列表中的序号;
计算所述序号与所述任务数量的比值,得到所述重要度。
通过所述第一时间差及所述第二时间差能够准确的确定出所述目标任务在所述任务列表中的序号,从而能够准确的确定出所述重要度。
具体地,所述分布式***根据所述空闲节点的节点数量及所述重要度从所述空闲节点中选取所述目标节点包括:
计算所述空闲节点的总量,得到所述节点数量;
计算所述节点数量与所述重要度的乘积,得到目标数量;
从所述空闲节点中选取数量为所述目标数量的空闲节点作为所述目标节点。
在本发明的至少一个实施例中,若所述任务类型为所述特征类型,所述分布式***基于均衡切割方式对所述目标任务进行切割。
S13,分析所述分布式***中的***节点对历史任务的处理日志,得到每个预设性能因素的因素影响度,并根据所述因素影响度从所述预设性能因素中选取出目标因素,不同的所述***节点在所述预设性能因素上的因素值有所不同。
在本发明的至少一个实施例中,所述***节点是指所述分布式***中的所有节点。
所述历史任务是指所述***节点单机处理的任务。
所述处理日志是指所述***节点单机处理所述历史任务所生成的操作日志。
所述预设性能因素是指影响所述***节点处理任务效率的因素,所述预设性能因素包括,但不限于:内存大小、内存存取速度、CPU数量、主频、硬盘大小、响应时间、吞吐率等。
所述因素影响度是指所述预设性能因素影响所述***节点处理任务的效率的程度。
所述目标因素是指所述因素影响度大于预设影响度阈值的预设性能因素。
在本发明的至少一个实施例中,所述分布式***分析自身的***节点对历史任务的处理日志,得到每个预设性能因素的因素影响度包括:
从所述处理日志中获取所述历史任务的处理时间及任务量;
根据所述处理时间及所述任务量计算所述***节点的处理效率;
对于每个预设性能因素,将除该预设性能因素外的其他性能因素确定为特征因素;
从所述***节点中获取所述特征因素所对应的因素值相同的节点作为特征节点;
根据所述特征节点在该预设性能因素上的因素值及相应的所述处理效率构建该预设性能因素的曲线;
计算所述曲线的斜率,得到所述因素影响度。
其中,所述处理时间是指执行所述历史任务所花费的时长。
所述任务量是指所述历史任务所占的数据量。
所述处理效率是指所述***节点执行所述历史任务的效率。
所述特征节点是指所述特征因素所对应的因素值相同的***节点。
所述曲线是指所述预设性能因素与所述处理效率的映射曲线。
通过所述处理日志能够准确的确定出所述处理效率,从而通过所述处理效率与所述预设性能因素的映射关系能够准确的确定出所述因素影响度。
在本发明的至少一个实施例中,所述分布式***根据所述因素影响度从所述预设性能因素中选取出目标因素包括:
从所述预设性能因素中提取所述因素影响度大于所述预设影响度阈值的预设性能因素作为所述目标因素。
S14,获取所述目标节点在所述目标因素上的目标值,并将所述目标值输入至预先训练好的权值生成模型中,得到每个目标节点的节点权值。
在本发明的至少一个实施例中,所述目标值是指所述目标节点在所述目标因素上所对应的取值,例如,所述目标因素为CPU数量,目标节点A在CPU数量所对应的目标值可以为2。
所述权值生成模型是根据历史切割数据及执行所述历史切割数据的节点在所述目标因素上的性能值而训练得到的。
在本发明的至少一个实施例中,在将所述目标值输入至预先训练好的权值生成模型中,得到每个目标节点的节点权值之前,所述方法还包括:
基于历史切割数据及执行所述历史切割数据的节点在所述目标因素上的性能值调整学习器,直至所述学习器的损失值满足收敛条件,得到所述权值生成模型。
其中,所述学习器是指预先配置好的网络,所述学习器中的网络参数都是预先设定好的。
所述收敛条件是指所述损失值不再降低。
通过上述实施方式,由于无需重新构建所述学习器,因此,提高所述权值生成模型的训练效率,通过所述收敛条件能够确保所述权值生成模型的预测准确性。
S15,获取与所述运算指标相对应的元数据,并根据所述节点权值及所述元数据的数据量切割所述目标任务,得到每个目标节点所对应的子任务。
在本发明的至少一个实施例中,所述元数据是指所述运算指标的子指标所对应的数量,例如,所述子指标为销售量,所述元数据可以是10万销售量。
所述子任务是指切割所述目标任务所得到的任务。
在本发明的至少一个实施例中,所述分布式***根据所述节点权值及所述元数据的数据量切割所述目标任务,得到每个目标节点所对应的子任务包括:
计算所述节点权值的总和,得到权值总和;
计算每个所述节点权值在所述权值总和中的比重,得到节点比例;
计算所述节点比例与所述数据量的乘积,得到切割量;
以所述切割量为切割基准切割所述元数据,得到任务数据;
确定所述元数据所对应的运算指标作为任务指标,并根据所述任务数据及所述任务指标生成每个目标节点所对应的子任务。
通过上述实施方式,能够准确的确定出所述切割量,进而根据所述切割量及所述任务指标准确的生成每个目标节点所对应的子任务。
S16,将每个子任务并行发送至相应的所述目标节点中,并监听所述目标节点对所述子任务的处理操作。
在本发明的至少一个实施例中,所述处理操作是指所述目标节点对所述子任务的执行操作。
S17,当监听到所述目标节点基于所述子任务生成反馈结果时,根据所述反馈结果生成所述目标任务的任务结果。
在本发明的至少一个实施例中,所述反馈结果是指所述目标节点基于所述子任务生成的结果。
所述任务结果是指所述目标任务的执行结果。
需要强调的是,为进一步保证上述任务结果的私密和安全性,上述任务结果还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述分布式***根据所述反馈结果生成所述目标任务的任务结果包括:
获取所述运算指标的运算方式;
基于所述运算方式处理所述反馈结果,得到所述任务结果。
通过上述实施方式,能够基于所述反馈结果准确的生成所述任务结果。
由以上技术方案可以看出,本发明通过所述运算指标能够准确的确定出所述目标任务所属的任务类型,进而根据所述任务类型能够以合适的切割方式对所述目标任务进行切割;通过所述目标任务的重要度能够从所述分布式***中确定出所述目标节点,由于所述目标节点是从所述空闲节点中确定出的,因此,能够避免所述子任务需要花费时间等待所述目标节点处理其他请求,同时,根据所述重要度确定出一定数量的所述目标节点,能够避免全部空闲节点同时处理重要度较低的任务;通过所述处理日志能够准确的确定出所述预设性能因素对所述历史任务处理效率的影响度,从而能够准确的确定出所述目标因素;通过确定出的所述目标因素及所述权值生成模型确定节点权值,由于所述权值生成模型无需对所述目标节点在全部预设性能因素上的因素值进行分析,因此,能够提高所述节点权值的生成效率,此外,通过所述权值生成模型能够准确的确定出所述节点权值;通过所述节点权值及所述数据量对所述目标任务进行切割,能够生成符合所述目标节点性能的子任务,不仅提高了所述任务结果的生成效率,还提高所述目标节点的资源利用率。
如图2所示,是本发明数据处理装置的较佳实施例的功能模块图。所述数据处理装置11包括确定单元110、分析单元111、输入单元112、切割单元113、监听单元114、生成单元115及调整单元116。本发明所称的模块/单元是指一种能够被处理器13所获取,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
当接收到任务处理请求时,确定单元110根据所述任务处理请求确定目标任务。
在本发明的至少一个实施例中,所述任务处理请求可以在任务需求生成时触发生成。所述任务处理请求中携带的信息包括:任务标识等,所述任务标识用于指示所述目标任务。
所述目标任务是指需要进行处理的任务。
在本发明的至少一个实施例中,所述确定单元110根据所述任务处理请求确定目标任务包括:
解析所述任务处理请求的报文,得到所述报文携带的数据信息;
从所述数据信息中获取指示任务的信息作为任务标识;
将所述任务标识写入预设模板中,得到查询语句;
在任务库中执行所述查询语句,得到所述目标任务。
其中,所述数据信息包括,但不限于:指示任务的标签、所述任务标识等。
所述预设模板中存储有查询信息所对应的代码语句。所述预设模板可以是结构化查询语句。
所述任务库中存储有多个待处理的任务。
通过解析所述报文,能够快速获取到所述数据信息,从而能够快速获取到所述任务标识,通过所述预设模板能够提高所述查询语句的生成效率,通过所述查询语句能够快速从所述任务库中获取到所述目标任务。
所述确定单元110根据所述目标任务所包含的运算指标确定所述目标任务所属的任务类型。
在本发明的至少一个实施例中,所述运算指标是指处理所述目标任务所需的指标。
所述任务类型是指所述目标任务所对应的类型,所述任务类型包括所述目标任务中的指标具有多样性,及所述目标任务中的指标不具有多样性。
在本发明的至少一个实施例中,所述确定单元110根据所述目标任务所包含的运算指标确定所述目标任务所属的任务类型包括:
从所述目标任务中获取任务信息;
对所述任务信息进行分词处理,得到多个信息分词;
根据预设语法规则确定每个信息分词在所述任务信息中的词性;
将所述词性为预设词性的信息分词确定为所述目标任务的任务实体;
从预设指标映射表中获取与所述任务实体相对应的指标作为所述运算指标;
从预设决策树中获取每个所述运算指标的子指标,并计算每个所述运算指标中的所述子指标的数量,得到每个所述运算指标的指标数量;
将每个所述指标数量与第一预设阈值进行比较,并将每个所述指标数量与第二预设阈值进行比较,所述第一预设阈值大于所述第二预设阈值;
若每个所述指标数量都大于所述第一预设阈值,或者,每个所述指标数据都小于所述第一预设阈值,将所述任务类型确定为特征类型;或者
若每个所述指标数量中不都大于所述第一预设阈值,及每个所述指标数量不都小于所述第二预设阈值的指标数量,将所述任务类型确定为所述预设类型。
其中,所述任务信息是指所述目标任务所表征的信息,例如,所述任务信息为:预测A产品未来十年的收益情况。
所述多个信息分词是通过对所述任务信息进行分词处理后而得到的词汇。
所述预设语法规则包括多种不同语言中所对应的语法规则。
所述预设词性可以是指名词。
所述预设指标映射表中存储有多个实体与指标的映射关系,例如,实体“收益”对应的指标有销量、成本等。
所述预设决策树中包含有多个指标之间的节点关系。
所述第一预设阈值及所述第二预设阈值可以根据需求设定。
所述预设类型是指所述目标任务中的指标具有多样性,所述特征类型是指所述目标任务中的指标不具有多样性。
通过对所述目标任务中的任务信息进行分析,由于每个信息分词包含有多个不同的词性,因此,通过所述预设语法规则能够准确的确定出每个信息分词在所述任务信息中的词性,从而能够准确的确定出所述目标任务的任务实体,通过所述预设指标映射表能够准确的确定出所述运算指标,从而通过所述运算指标中子指标的数量与所述第一预设阈值及所述第二预设阈值的比较,能够准确的确定出所述目标任务所对应的任务类型。
具体地,所述确定单元110对所述任务信息进行分词处理,得到多个信息分词包括:
基于预设词典对所述任务信息进行切分,得到多个切分路径及每个切分路径对应的路径分词;
基于所述路径分词在所述预设词典中的分词权值计算每个切分路径的切分概率;
将所述切分概率最大的切分路径确定为目标路径;
将所述目标路径所对应的路径分词确定为所述多个信息分词。
其中,所述预设词典中包括多个词汇及每个词汇在词典中的分词概率。
通过上述实施方式,能够根据所述预设词典中的需求准确的对所述任务信息进行切分,得到所述多个信息分词。
若所述任务类型为预设类型,所述确定单元110根据所述目标任务的重要度从所述分布式***的空闲节点中确定出目标节点。
在本发明的至少一个实施例中,所述预设类型是指所述目标任务中的指标具有多样性。
所述重要度是指所述目标任务在所述分布式***中的紧急程度。
所述空闲节点是指空闲线程的线程数量大于预设数量阈值的***节点。
所述目标节点是指包含有节点数量为目标数量的空闲节点。所述目标数量是根据所述空闲节点的总数量及所述重要度确定的。
在本发明的至少一个实施例中,所述确定单元110根据所述目标任务的重要度从所述分布式***的空闲节点中确定出目标节点包括:
获取与所述分布式***相对应的线程池分配表;
获取所述分布式***中的所有***节点的识别码;
根据所述识别码从所述线程池分配表中获取每个***节点的当前剩余线程;
根据所述当前剩余线程计算每个***节点中的剩余线程数量;
将所述剩余线程数量大于预设数量阈值的***节点确定为所述空闲节点;
从所述数据信息中获取所述目标任务的第一时间需求,并从所述分布式***中获取当前任务的第二时间需求;
根据所述第一时间需求及所述第二时间需求确定所述重要度;
根据所述空闲节点的节点数量及所述重要度从所述空闲节点中选取所述目标节点。
其中,所述线程池分配表中存储有所述分布式***中所有***节点的线程,及该线程所处的当前状态。
所述识别码用于唯一标识每个所述***节点。
所述当前剩余线程是指在每个所述***节点中,线程状态为空闲状态的线程。
所述预设数量阈值可以根据需求自定义设置。
所述第一时间需求是指执行所述目标任务的截止日期。
所述当前任务是指所述分布式***中正在处理的任务。
所述第二时间需求是指执行所述当前任务的截止日期。
所述节点数量是指所述空闲节点的总量。
通过所述线程池分配表能够准确的确定出每个***节点中的剩余线程数量,从而能够准确的确定出所述分布式***中的空闲节点,通过所述目标任务的第一时间需求及所述当前任务的第二时间需求能够准确的确定出所述目标任务在所述分布式***中的重要度,从而能够确定出适当数量的空闲节点作为所述目标节点。
具体地,所述确定单元110根据所述第一时间需求及所述第二时间需求确定所述重要度包括:
获取当前时间;
计算所述第一时间需求与所述当前时间的差值,得到第一时间差;
计算所述第二时间需求与所述当前时间的差值,得到第二时间差;
根据所述第一时间差及所述第二时间差从小至大的顺序对所述目标任务及所述当前任务进行排序,得到任务列表;
计算所述任务列表中所有任务的任务数量,并确定所述目标任务在所述任务列表中的序号;
计算所述序号与所述任务数量的比值,得到所述重要度。
通过所述第一时间差及所述第二时间差能够准确的确定出所述目标任务在所述任务列表中的序号,从而能够准确的确定出所述重要度。
具体地,所述确定单元110根据所述空闲节点的节点数量及所述重要度从所述空闲节点中选取所述目标节点包括:
计算所述空闲节点的总量,得到所述节点数量;
计算所述节点数量与所述重要度的乘积,得到目标数量;
从所述空闲节点中选取数量为所述目标数量的空闲节点作为所述目标节点。
在本发明的至少一个实施例中,若所述任务类型为所述特征类型,切割单元113基于均衡切割方式对所述目标任务进行切割。
分析单元111分析所述分布式***中的***节点对历史任务的处理日志,得到每个预设性能因素的因素影响度,并根据所述因素影响度从所述预设性能因素中选取出目标因素,不同的所述***节点在所述预设性能因素上的因素值有所不同。
在本发明的至少一个实施例中,所述***节点是指所述分布式***中的所有节点。
所述历史任务是指所述***节点单机处理的任务。
所述处理日志是指所述***节点单机处理所述历史任务所生成的操作日志。
所述预设性能因素是指影响所述***节点处理任务效率的因素,所述预设性能因素包括,但不限于:内存大小、内存存取速度、CPU数量、主频、硬盘大小、响应时间、吞吐率等。
所述因素影响度是指所述预设性能因素影响所述***节点处理任务的效率的程度。
所述目标因素是指所述因素影响度大于预设影响度阈值的预设性能因素。
在本发明的至少一个实施例中,所述分析单元111分析所述分布式***的***节点对历史任务的处理日志,得到每个预设性能因素的因素影响度包括:
从所述处理日志中获取所述历史任务的处理时间及任务量;
根据所述处理时间及所述任务量计算所述***节点的处理效率;
对于每个预设性能因素,将除该预设性能因素外的其他性能因素确定为特征因素;
从所述***节点中获取所述特征因素所对应的因素值相同的节点作为特征节点;
根据所述特征节点在该预设性能因素上的因素值及相应的所述处理效率构建该预设性能因素的曲线;
计算所述曲线的斜率,得到所述因素影响度。
其中,所述处理时间是指执行所述历史任务所花费的时长。
所述任务量是指所述历史任务所占的数据量。
所述处理效率是指所述***节点执行所述历史任务的效率。
所述特征节点是指所述特征因素所对应的因素值相同的***节点。
所述曲线是指所述预设性能因素与所述处理效率的映射曲线。
通过所述处理日志能够准确的确定出所述处理效率,从而通过所述处理效率与所述预设性能因素的映射关系能够准确的确定出所述因素影响度。
在本发明的至少一个实施例中,所述分析单元111根据所述因素影响度从所述预设性能因素中选取出目标因素包括:
从所述预设性能因素中提取所述因素影响度大于所述预设影响度阈值的预设性能因素作为所述目标因素。
输入单元112获取所述目标节点在所述目标因素上的目标值,并将所述目标值输入至预先训练好的权值生成模型中,得到每个目标节点的节点权值。
在本发明的至少一个实施例中,所述目标值是指所述目标节点在所述目标因素上所对应的取值,例如,所述目标因素为CPU数量,目标节点A在CPU数量所对应的目标值可以为2。
所述权值生成模型是根据历史切割数据及执行所述历史切割数据的节点在所述目标因素上的性能值而训练得到的。
在本发明的至少一个实施例中,在将所述目标值输入至预先训练好的权值生成模型中,得到每个目标节点的节点权值之前,调整单元116基于历史切割数据及执行所述历史切割数据的节点在所述目标因素上的性能值调整学习器,直至所述学习器的损失值满足收敛条件,得到所述权值生成模型。
其中,所述学习器是指预先配置好的网络,所述学习器中的网络参数都是预先设定好的。
所述收敛条件是指所述损失值不再降低。
通过上述实施方式,由于无需重新构建所述学习器,因此,提高所述权值生成模型的训练效率,通过所述收敛条件能够确保所述权值生成模型的预测准确性。
所述切割单元113获取与所述运算指标相对应的元数据,并根据所述节点权值及所述元数据的数据量切割所述目标任务,得到每个目标节点所对应的子任务。
在本发明的至少一个实施例中,所述元数据是指所述运算指标的子指标所对应的数量,例如,所述子指标为销售量,所述元数据可以是10万销售量。
所述子任务是指切割所述目标任务所得到的任务。
在本发明的至少一个实施例中,所述切割单元113根据所述节点权值及所述元数据的数据量切割所述目标任务,得到每个目标节点所对应的子任务包括:
计算所述节点权值的总和,得到权值总和;
计算每个所述节点权值在所述权值总和中的比重,得到节点比例;
计算所述节点比例与所述数据量的乘积,得到切割量;
以所述切割量为切割基准切割所述元数据,得到任务数据;
确定所述元数据所对应的运算指标作为任务指标,并根据所述任务数据及所述任务指标生成每个目标节点所对应的子任务。
通过上述实施方式,能够准确的确定出所述切割量,进而根据所述切割量及所述任务指标准确的生成每个目标节点所对应的子任务。
监听单元114将每个子任务并行发送至相应的所述目标节点中,并监听所述目标节点对所述子任务的处理操作。
在本发明的至少一个实施例中,所述处理操作是指所述目标节点对所述子任务的执行操作。
当监听到所述目标节点基于所述子任务生成反馈结果时,生成单元115根据所述反馈结果生成所述目标任务的任务结果。
在本发明的至少一个实施例中,所述反馈结果是指所述目标节点基于所述子任务生成的结果。
所述任务结果是指所述目标任务的执行结果。
需要强调的是,为进一步保证上述任务结果的私密和安全性,上述任务结果还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述生成单元115根据所述反馈结果生成所述目标任务的任务结果包括:
获取所述运算指标的运算方式;
基于所述运算方式处理所述反馈结果,得到所述任务结果。
通过上述实施方式,能够基于所述反馈结果准确的生成所述任务结果。
由以上技术方案可以看出,本发明通过所述运算指标能够准确的确定出所述目标任务所属的任务类型,进而根据所述任务类型能够以合适的切割方式对所述目标任务进行切割;通过所述目标任务的重要度能够从所述分布式***中确定出所述目标节点,由于所述目标节点是从所述空闲节点中确定出的,因此,能够避免所述子任务需要花费时间等待所述目标节点处理其他请求,同时,根据所述重要度确定出一定数量的所述目标节点,能够避免全部空闲节点同时处理重要度较低的任务;通过所述处理日志能够准确的确定出所述预设性能因素对所述历史任务处理效率的影响度,从而能够准确的确定出所述目标因素;通过确定出的所述目标因素及所述权值生成模型确定节点权值,由于所述权值生成模型无需对所述目标节点在全部预设性能因素上的因素值进行分析,因此,能够提高所述节点权值的生成效率,此外,通过所述权值生成模型能够准确的确定出所述节点权值;通过所述节点权值及所述数据量对所述目标任务进行切割,能够生成符合所述目标节点性能的子任务,不仅提高了所述任务结果的生成效率,还提高所述目标节点的资源利用率。
如图3所示,是本发明实现数据处理方法的较佳实施例的分布式***的结构示意图。
在本发明的一个实施例中,所述分布式***1包括,但不限于,存储器12、处理器13,以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令,例如数据处理程序。
本领域技术人员可以理解,所述示意图仅仅是分布式***1的示例,并不构成对分布式***1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述分布式***1还可以包括输入输出设备、网络接入设备、总线等。
所述处理器13可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器13是所述分布式***1的运算核心和控制中心,利用各种接口和线路连接整个分布式***1的各个部分,及执行所述分布式***1的操作***以及安装的各类应用程序、程序代码等。
示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该计算机可读指令段用于描述所述计算机可读指令在所述分布式***1中的执行过程。例如,所述计算机可读指令可以被分割成确定单元110、分析单元111、输入单元112、切割单元113、监听单元114、生成单元115及调整单元116。
所述存储器12可用于存储所述计算机可读指令和/或模块,所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块,以及调用存储在存储器12内的数据,实现所述分布式***1的各种功能。所述存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据分布式***的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器,例如:硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
所述存储器12可以是分布式***1的外部存储器和/或内部存储器。进一步地,所述存储器12可以是具有实物形式的存储器,如内存条、TF卡(Trans-flash Card)等等。
所述分布式***1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
结合图1,所述分布式***1中的所述存储器12存储计算机可读指令实现一种数据处理方法,所述处理器13可执行所述计算机可读指令从而实现:
当接收到任务处理请求时,根据所述任务处理请求确定目标任务;
根据所述目标任务所包含的运算指标确定所述目标任务所属的任务类型;
若所述任务类型为预设类型,根据所述目标任务的重要度从所述分布式***的空闲节点中确定出目标节点;
分析所述分布式***中的***节点对历史任务的处理日志,得到每个预设性能因素的因素影响度,并根据所述因素影响度从所述预设性能因素中选取出目标因素,不同的所述***节点在所述预设性能因素上的因素值有所不同;
获取所述目标节点在所述目标因素上的目标值,并将所述目标值输入至预先训练好的权值生成模型中,得到每个目标节点的节点权值;
获取与所述运算指标相对应的元数据,并根据所述节点权值及所述元数据的数据量切割所述目标任务,得到每个目标节点所对应的子任务;
将每个子任务并行发送至相应的所述目标节点中,并监听所述目标节点对所述子任务的处理操作;
当监听到所述目标节点基于所述子任务生成反馈结果时,根据所述反馈结果生成所述目标任务的任务结果。
具体地,所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器13执行时用以实现以下步骤:
当接收到任务处理请求时,根据所述任务处理请求确定目标任务;
根据所述目标任务所包含的运算指标确定所述目标任务所属的任务类型;
若所述任务类型为预设类型,根据所述目标任务的重要度从所述分布式***的空闲节点中确定出目标节点;
分析所述分布式***中的***节点对历史任务的处理日志,得到每个预设性能因素的因素影响度,并根据所述因素影响度从所述预设性能因素中选取出目标因素,不同的所述***节点在所述预设性能因素上的因素值有所不同;
获取所述目标节点在所述目标因素上的目标值,并将所述目标值输入至预先训练好的权值生成模型中,得到每个目标节点的节点权值;
获取与所述运算指标相对应的元数据,并根据所述节点权值及所述元数据的数据量切割所述目标任务,得到每个目标节点所对应的子任务;
将每个子任务并行发送至相应的所述目标节点中,并监听所述目标节点对所述子任务的处理操作;
当监听到所述目标节点基于所述子任务生成反馈结果时,根据所述反馈结果生成所述目标任务的任务结果。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种数据处理方法,应用于分布式***中,其特征在于,所述数据处理方法包括:
当接收到任务处理请求时,根据所述任务处理请求确定目标任务;
根据所述目标任务所包含的运算指标确定所述目标任务所属的任务类型;
若所述任务类型为预设类型,根据所述目标任务的重要度从所述分布式***的空闲节点中确定出目标节点;
分析所述分布式***中的***节点对历史任务的处理日志,得到每个预设性能因素的因素影响度,并根据所述因素影响度从所述预设性能因素中选取出目标因素,不同的所述***节点在所述预设性能因素上的因素值有所不同;
获取所述目标节点在所述目标因素上的目标值,并将所述目标值输入至预先训练好的权值生成模型中,得到每个目标节点的节点权值;
获取与所述运算指标相对应的元数据,并根据所述节点权值及所述元数据的数据量切割所述目标任务,得到每个目标节点所对应的子任务;
将每个子任务并行发送至相应的所述目标节点中,并监听所述目标节点对所述子任务的处理操作;
当监听到所述目标节点基于所述子任务生成反馈结果时,根据所述反馈结果生成所述目标任务的任务结果。
2.如权利要求1所述的数据处理方法,其特征在于,所述根据所述任务处理请求确定目标任务包括:
解析所述任务处理请求的报文,得到所述报文携带的数据信息;
从所述数据信息中获取指示任务的信息作为任务标识;
将所述任务标识写入预设模板中,得到查询语句;
在任务库中执行所述查询语句,得到所述目标任务。
3.如权利要求1所述的数据处理方法,其特征在于,所述根据所述目标任务所包含的运算指标确定所述目标任务所属的任务类型包括:
从所述目标任务中获取任务信息;
对所述任务信息进行分词处理,得到多个信息分词;
根据预设语法规则确定每个信息分词在所述任务信息中的词性;
将所述词性为预设词性的信息分词确定为所述目标任务的任务实体;
从预设指标映射表中获取与所述任务实体相对应的指标作为所述运算指标;
从预设决策树中获取每个所述运算指标的子指标,并计算每个所述运算指标中的所述子指标的数量,得到每个所述运算指标的指标数量;
将每个所述指标数量与第一预设阈值进行比较,并将每个所述指标数量与第二预设阈值进行比较,所述第一预设阈值大于所述第二预设阈值;
若每个所述指标数量都大于所述第一预设阈值,或者,每个所述指标数据都小于所述第一预设阈值,将所述任务类型确定为特征类型;或者
若每个所述指标数量中不都大于所述第一预设阈值,及每个所述指标数量不都小于所述第二预设阈值的指标数量,将所述任务类型确定为所述预设类型。
4.如权利要求3所述的数据处理方法,其特征在于,所述对所述任务信息进行分词处理,得到多个信息分词包括:
基于预设词典对所述任务信息进行切分,得到多个切分路径及每个切分路径对应的路径分词;
基于所述路径分词在所述预设词典中的分词权值计算每个切分路径的切分概率;
将所述切分概率最大的切分路径确定为目标路径;
将所述目标路径所对应的路径分词确定为所述多个信息分词。
5.如权利要求1所述的数据处理方法,其特征在于,所述根据所述目标任务的重要度从所述分布式***的空闲节点中确定出目标节点包括:
获取与所述分布式***相对应的线程池分配表;
获取所述分布式***中的所有***节点的识别码;
根据所述识别码从所述线程池分配表中获取每个***节点的当前剩余线程;
根据所述当前剩余线程计算每个***节点中的剩余线程数量;
将所述剩余线程数量大于预设数量阈值的***节点确定为所述空闲节点;
从所述数据信息中获取所述目标任务的第一时间需求,并从所述分布式***中获取当前任务的第二时间需求;
根据所述第一时间需求及所述第二时间需求确定所述重要度;
根据所述空闲节点的节点数量及所述重要度从所述空闲节点中选取所述目标节点。
6.如权利要求5所述的数据处理方法,其特征在于,所述根据所述第一时间需求及所述第二时间需求确定所述重要度包括:
获取当前时间;
计算所述第一时间需求与所述当前时间的差值,得到第一时间差;
计算所述第二时间需求与所述当前时间的差值,得到第二时间差;
根据所述第一时间差及所述第二时间差从小至大的顺序对所述目标任务及所述当前任务进行排序,得到任务列表;
计算所述任务列表中所有任务的任务数量,并确定所述目标任务在所述任务列表中的序号;
计算所述序号与所述任务数量的比值,得到所述重要度。
7.如权利要求1所述的数据处理方法,其特征在于,所述分析所述分布式***中的***节点对历史任务的处理日志,得到每个预设性能因素的因素影响度包括:
从所述处理日志中获取所述历史任务的处理时间及任务量;
根据所述处理时间及所述任务量计算所述***节点的处理效率;
对于每个预设性能因素,将除该预设性能因素外的其他性能因素确定为特征因素;
从所述***节点中获取所述特征因素所对应的因素值相同的节点作为特征节点;
根据所述特征节点在该预设性能因素上的因素值及相应的所述处理效率构建该预设性能因素的曲线;
计算所述曲线的斜率,得到所述因素影响度。
8.一种数据处理装置,运行于分布式***中,其特征在于,所述数据处理装置包括:
确定单元,用于当接收到任务处理请求时,根据所述任务处理请求确定目标任务;
所述确定单元,还用于根据所述目标任务所包含的运算指标确定所述目标任务所属的任务类型;
所述确定单元,还用于若所述任务类型为预设类型,根据所述目标任务的重要度从所述分布式***的空闲节点中确定出目标节点;
分析单元,用于分析所述分布式***中的***节点对历史任务的处理日志,得到每个预设性能因素的因素影响度,并根据所述因素影响度从所述预设性能因素中选取出目标因素,不同的所述***节点在所述预设性能因素上的因素值有所不同;
输入单元,用于获取所述目标节点在所述目标因素上的目标值,并将所述目标值输入至预先训练好的权值生成模型中,得到每个目标节点的节点权值;
切割单元,用于获取与所述运算指标相对应的元数据,并根据所述节点权值及所述元数据的数据量切割所述目标任务,得到每个目标节点所对应的子任务;
监听单元,用于将每个子任务并行发送至相应的所述目标节点中,并监听所述目标节点对所述子任务的处理操作;
生成单元,用于当监听到所述目标节点基于所述子任务生成反馈结果时,根据所述反馈结果生成所述目标任务的任务结果。
9.一种分布式***,其特征在于,所述分布式***包括:
存储器,存储有计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被分布式***中的处理器执行以实现如权利要求1至7中任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110722907.9A CN113434273B (zh) | 2021-06-29 | 2021-06-29 | 数据处理方法、装置、***及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110722907.9A CN113434273B (zh) | 2021-06-29 | 2021-06-29 | 数据处理方法、装置、***及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113434273A true CN113434273A (zh) | 2021-09-24 |
CN113434273B CN113434273B (zh) | 2022-12-23 |
Family
ID=77757339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110722907.9A Active CN113434273B (zh) | 2021-06-29 | 2021-06-29 | 数据处理方法、装置、***及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434273B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114844910A (zh) * | 2022-04-19 | 2022-08-02 | 重庆紫光华山智安科技有限公司 | 分布式存储***的数据传输方法、***、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001038973A2 (en) * | 1999-11-29 | 2001-05-31 | Glaxo Group Limited | Thread-based methods and systems for using the idle processing power of one or more networked computers to solve complex scientific problems |
US20080021987A1 (en) * | 2006-07-21 | 2008-01-24 | Sony Computer Entertainment Inc. | Sub-task processor distribution scheduling |
US20100021009A1 (en) * | 2007-01-25 | 2010-01-28 | Wei Yao | Method for moving targets tracking and number counting |
CN108595519A (zh) * | 2018-03-26 | 2018-09-28 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
CN108681482A (zh) * | 2018-05-16 | 2018-10-19 | 腾讯科技(深圳)有限公司 | 基于图数据的任务调度方法和装置 |
CN110908778A (zh) * | 2019-10-10 | 2020-03-24 | 平安科技(深圳)有限公司 | 任务部署方法、***和存储介质 |
CN112035258A (zh) * | 2020-08-31 | 2020-12-04 | 中国平安财产保险股份有限公司 | 数据处理方法、装置、电子设备及介质 |
CN112732437A (zh) * | 2020-12-30 | 2021-04-30 | 成都科来网络技术有限公司 | 一种高效的动态均衡分布式任务调度方法及*** |
-
2021
- 2021-06-29 CN CN202110722907.9A patent/CN113434273B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001038973A2 (en) * | 1999-11-29 | 2001-05-31 | Glaxo Group Limited | Thread-based methods and systems for using the idle processing power of one or more networked computers to solve complex scientific problems |
US20080021987A1 (en) * | 2006-07-21 | 2008-01-24 | Sony Computer Entertainment Inc. | Sub-task processor distribution scheduling |
US20100021009A1 (en) * | 2007-01-25 | 2010-01-28 | Wei Yao | Method for moving targets tracking and number counting |
CN108595519A (zh) * | 2018-03-26 | 2018-09-28 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
CN108681482A (zh) * | 2018-05-16 | 2018-10-19 | 腾讯科技(深圳)有限公司 | 基于图数据的任务调度方法和装置 |
CN110908778A (zh) * | 2019-10-10 | 2020-03-24 | 平安科技(深圳)有限公司 | 任务部署方法、***和存储介质 |
CN112035258A (zh) * | 2020-08-31 | 2020-12-04 | 中国平安财产保险股份有限公司 | 数据处理方法、装置、电子设备及介质 |
CN112732437A (zh) * | 2020-12-30 | 2021-04-30 | 成都科来网络技术有限公司 | 一种高效的动态均衡分布式任务调度方法及*** |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114844910A (zh) * | 2022-04-19 | 2022-08-02 | 重庆紫光华山智安科技有限公司 | 分布式存储***的数据传输方法、***、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113434273B (zh) | 2022-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8996452B2 (en) | Generating a predictive model from multiple data sources | |
US10878335B1 (en) | Scalable text analysis using probabilistic data structures | |
CN113283675B (zh) | 指标数据分析方法、装置、设备及存储介质 | |
US8775338B2 (en) | Computer-implemented systems and methods for constructing a reduced input space utilizing the rejected variable space | |
WO2020259280A1 (zh) | 日志管理方法、装置、网络设备和可读存储介质 | |
CN111464583B (zh) | 计算资源分配方法、装置、服务器及存储介质 | |
CN111597309A (zh) | 相似企业推荐方法、装置、电子设备及介质 | |
CN111986792A (zh) | 医疗机构评分方法、装置、设备及存储介质 | |
CN111552798B (zh) | 基于名称预测模型的名称信息处理方法、装置、电子设备 | |
CN113434273B (zh) | 数据处理方法、装置、***及存储介质 | |
CN113536770B (zh) | 基于人工智能的文本解析方法、装置、设备及存储介质 | |
CN114372060A (zh) | 数据存储方法、装置、设备及存储介质 | |
CN113268597A (zh) | 文本分类方法、装置、设备及存储介质 | |
CN107844490B (zh) | 一种数据库的分库方法及装置 | |
CN116629423A (zh) | 用户行为预测方法、装置、设备及存储介质 | |
CN110909085A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112287663B (zh) | 一种文本解析方法、设备、终端及存储介质 | |
CN111914859A (zh) | 一种服务复用方法、计算设备及计算机可读存储介质 | |
CN113283677B (zh) | 指标数据处理方法、装置、设备及存储介质 | |
CN113240325B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112989044B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN115168509A (zh) | 风控数据的处理方法及装置、存储介质、计算机设备 | |
CN110968690B (zh) | 词语的聚类划分方法和装置、设备以及存储介质 | |
CN113420545A (zh) | 摘要生成方法、装置、设备及存储介质 | |
CN112667721A (zh) | 数据分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |