CN116795909A - 一种数据处理方法、装置及计算机可读存储介质 - Google Patents
一种数据处理方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116795909A CN116795909A CN202211114115.4A CN202211114115A CN116795909A CN 116795909 A CN116795909 A CN 116795909A CN 202211114115 A CN202211114115 A CN 202211114115A CN 116795909 A CN116795909 A CN 116795909A
- Authority
- CN
- China
- Prior art keywords
- data
- performance data
- result
- incremental
- summarizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 114
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000004891 communication Methods 0.000 claims abstract description 20
- 230000010354 integration Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013075 data extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2308—Concurrency control
- G06F16/2315—Optimistic concurrency control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据处理方法、装置及计算机可读存储介质,包括:通过流处理程序,从性能数据队列中读取增量性能数据;性能数据队列用于记录从通信网络的至少一个网元处采集的网络性能数据;利用预设数据库中的当前资源数据,对增量性能数据进行汇总处理,得到增量汇总结果;预设数据库用于记录至少一个网元对应的资源数据与性能数据汇总结果;根据增量汇总结果,更新预设数据库。通过本发明,提高了数据处理的准确率和效率。
Description
技术领域
本发明涉及通信领域,尤其涉及一种数据处理方法、装置及计算机可读存储介质。
背景技术
电信行业每天都会产生海量通信性能数据,网管***每天采集到的原始通信性能数据超过四十万条,将采集到的原始通信性能数据实时汇总统计后反馈给网络人员,方可为通信网络的安全及可靠运行提供保障。
相关技术中,一种通过引入消息机制来减少数据采集上报汇总各个流程之间的时间损耗,但是基于消息机制的通信报表***,采集、汇总等模块的串联依赖消息模块的协调,即整个***的健壮性极大地依赖通信模块的正常运行,总体的健壮性随着消息机制的引入而变差。而另一种对上报的数据预设定时器,汇总定时器超过之前上报的数据,对未能及时上报的数据放在下一周期进行处理,但是通过设置超时时间来减少数据采集处理完成到汇总完成之间的时延,在定时器超时之间要去轮询判断该时间段的数据是否已经完成上报,资源消耗大,且对于超时上报的数据,需要维护一段逻辑判断和处理前几个时间段延迟上报的数据。
发明内容
本发明主要提供一种数据处理方法、装置及计算机可读存储介质,提高了数据处理的准确率和效率。
本发明的技术方案是这样实现的:
本发明实施例提供了一种数据处理方法,包括:
通过流处理程序,从性能数据队列中读取增量性能数据;所述性能数据队列用于记录从通信网络的至少一个网元处采集的网络性能数据;
利用预设数据库中的当前资源数据,对所述增量性能数据进行汇总处理,得到增量汇总结果;所述预设数据库用于记录所述至少一个网元对应的资源数据与性能数据汇总结果;
根据所述增量汇总结果,更新所述预设数据库。
上述方案中,所述根据增量汇总结果,更新所述预设数据库,包括:
根据所述预设更新队列存储的所述增量汇总结果的属性信息,生成所述增量汇总结果对应的索引;所述属性信息包括网元名称、汇总时间维度、汇总空间维度和汇总数据的时间节点中的至少一项;
将所述索引与所述至少一个网元对应的预设索引进行匹配,基于匹配结果,更新所述预设数据库。
上述方案中,所述匹配结果包括匹配失败和匹配成功;
所述基于匹配结果,更新所述性能数据,包括:
若匹配失败,则将所述增量汇总结果和所述索引***所述预设数据库,并将所述索引***所述预设数据库对应的预设索引库,完成对所述预设数据库的更新;所述预设索引库用于提供对所述预设数据库进行查询的索引信息;
若匹配成功,则获取匹配成功的目标预设索引对应的目标性能数据汇总结果;
合并所述目标性能数据汇总结果与所述增量汇总结果,得到合并汇总结果,并利用所述合并汇总结果更新所述目标性能数据汇总结果,完成对所述预设数据库的更新。
上述方案中,所述利用预设数据库中的当前资源数据,对所述增量性能数据进行汇总处理,得到增量汇总结果之前,所述方法还包括:
通过流处理程序,从所述预设数据库中获取所述至少一个网元对应的原始资源数据;
对所述原始资源数据进行数据抽取,得到资源数据列表;所述资源数据列表包含各个网元对应的当前资源数据。
上述方案中,所述利用预设数据库中的当前资源数据,对所述增量性能数据进行汇总处理,得到增量汇总结果,包括:
按照所述资源数据列表中的各项当前资源数据,对所述增量性能数据进行至少一种数值整合与汇总处理,得到所述增量汇总结果。
上述方案中,所述通过流处理程序,从性能数据队列中读取增量性能数据之前,所述方法还包括:
采集至少一个网元对应的网络性能数据;
对所述网络性能数据进行规范化处理,并记录在所述性能数据队列中。
上述方案中,所述性能数据队列为消息队列,所述通过流处理程序,从性能数据队列中读取增量性能数据,包括:
通过所述流处理程序,获取记录的历史读取数据位置;
基于所述历史读取位置,从所述性能数据队列中确定出增量数据部分并读取,得到所述增量性能数据。
上述方案中,所述增量汇总结果为第一预设时间段对应的增量性能数据汇总结果;所述方法还包括:
根据第二预设时间段,对所述增量性能数据进行汇总处理,得到初始增量汇总结果;所述第二预设时间段小于所述第一预设时间段;
在每得到一个初始增量汇总结果的情况下,基于所述第一预设时间段中已得到的至少一个初始增量汇总结果进行汇总处理,得到所述增量汇总结果。
本发明实施例提供一种数据处理装置,所述数据处理装置包括:读取单元、汇总单元和更新单元;其中,
所述读取单元,用于通过流处理程序,从性能数据队列中读取增量性能数据;所述性能数据队列用于记录从通信网络的至少一个网元处采集的网络性能数据;
所述汇总单元,用于利用预设数据库中的当前资源数据,对所述增量性能数据进行汇总处理,得到增量汇总结果;所述预设数据库用于记录所述至少一个网元对应的资源数据与性能数据汇总结果;
所述更新单元,用于根据所述增量汇总结果,更新所述预设数据库。
本发明实施例提供一种数据处理装置,所述数据处理装置包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,当所述可执行指令被执行时,所述处理器执行所述数据处理方法。
本发明实施例提供了一种存储介质,所述存储介质存储有可执行指令,当所述可执行指令被执行时,用于引起处理器执行如本发明实施例所述的数据处理方法。
本发明实施例提供了一种数据处理方法、装置及计算机可读存储介质,该方法包括:通过流处理程序,从性能数据队列中读取增量性能数据;所述性能数据队列用于记录从通信网络的至少一个网元处采集的网络性能数据;利用预设数据库中的当前资源数据,对所述增量性能数据进行汇总处理,得到增量汇总结果;所述预设数据库用于记录所述至少一个网元对应的资源数据与性能数据汇总结果;根据所述增量汇总结果,更新所述预设数据库。上述方案中,采用消息队列和流处理程序对批量上传到文件***的增量数据进行汇总处理,根据汇总结果和对应的索引文件对数据库中的性能数据进行更新处理,能够在各个维度观测当天上报的性能数据的实时统计结果,规避了数据延迟上报带来的数据精度损失的风险,提高了数据处理的准确率和效率。
附图说明
图1为本发明实施例提供的一种数据处理方法的流程示意图一;
图2为本发明实施例提供的一种近实时通信报表数据***方案框架的流程图;
图3为本发明实施例提供的一种增量汇总的流程图;
图4为本发明实施例提供的一种索引集群更新流程图;
图5为本发明实施例提供的一种增量数据抽取的流程图;
图6为本发明实施例提供的一种性能数据汇总的数据流向图;
图7为本发明实施例提供的一种数据处理装置的结构示意图;
图8为本发明实施例提供的另一种数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。图1为本发明实施例提供的一种数据处理方法的流程示意图一,将结合以下步骤进行具体说明。
S101、通过流处理程序,从性能数据队列中读取增量性能数据;性能数据队列用于记录从通信网络的至少一个网元处采集的网络性能数据。
在本发明的实施例中,数据处理装置通过流处理方式,从性能数据队列中读取增量性能数据;其中,性能数据队列用于记录从通信网络中的至少一个网元处采集的网络性能数据。
在本发明的实施例中,在流式数据处理模式里,数据持续到达,***及时处理新到达的数据,并不断产生输出;处理过的数据一般丢弃掉,当然也可以保存起来,流式数据处理模式强调数据处理的速度。部分原因是数据产生的速度很快,需要及时进行处理。由于流式数据处理***能够对新到达的数据进行及时的处理,所以它能够给决策者提供最新的事物发展变化的趋势,以便对突发事件进行及时响应,调整应对措施。对于批处理来讲,首先数据被不断地采集,保存到数据库中,然后进行分析处理(包括SQL查询)。批处理适用于对大量数据(High Volume)进行处理的场合。人们需要等到整个分析处理任务完成,才能获得最终结果。由于需要处理的数据集大小以及计算机***的计算能力的差异,整个过程有时需要耗费相当长的时间,即获得最终分析处理结果的延迟较大。批处理是最通用的数据处理模式,传统的关系数据库***、Hadoop以及Spark大数据处理平台等,都采用了这样的数据处理模式,或者以该处理模式为主。由于需要完整地保存整个数据集,并且在上面进行分析处理,比起流式数据处理***,人们需要投入更多的硬件资源。
在本发明的实施例中,队列是一种特殊的线性表,队列的数据元素又称为队列元素。在队列中***一个队列元素称为入队,从队列中删除一个队列元素称为出队。因为队列只允许在一端***,在另一端删除,所以只有最早进入队列的元素才能最先从队列中删除,故队列又称为先进先出线性表。
在本发明的实施例中,性能数据为当前时段相对于上一时段的当前增量数据。网元由一个或多个机盘或机框组成,能够独立完成一定的传输功能。
S102、利用预设数据库中的当前资源数据,对增量性能数据进行汇总处理,得到增量汇总结果;预设数据库用于记录所述至少一个网元对应的资源数据与性能数据汇总结果。
在本发明的实施例中,数据处理装置根据预设数据库中存储的当前资源数据,对增量性能数据进行汇总处理,得到增量汇总结果;然后将该增量汇总结果存储到预设数据库中。
在本发明的实施例中,当前的资源数据可以为当天采集的资源数据,本发明不作限制。
在本发明的实施例中,汇总处理至少包括:数据求和、求平均值、求最大值和求最小值中的至少一种。
在本发明的实施例中,相较于全量的资源数据而言,通信性能数据是实时产生的为增量数据,增量的性能通信数据。
S103、根据增量汇总结果,更新预设数据库。
在本发明的实施例中,数据处理装置根据增量汇总结果,对预设数据库进行数据合并。
在本发明的实施例中,如图2所示,图2为本发明实施例提供的一种近实时通信报表数据***方案框架的流程图。在图2中,数据采集模块采集资源数据存储到数据库中,利用资源全量数据抽取算法定期将数据库中的资源数据存储到Hadoop分布式文件***中;数据采集模块将采集到的性能数据存储到kafka消息队列中,利用flink增量汇总算法将资源数据和kafka消息队列中的增量性能数据进行汇总,得到汇总结果,利用solrCloud为增量汇总结果建立索引,最后利用建立索引后的汇总结果对数据库进行更新。数据计算模块包含性能数据增量处理模块和资源数据全量处理模块,性能数据增量处理模块采用流处理对推送到kafka消息队列中的性能数据进行实时拉取、汇总;在汇总过程中需要根据资源数据信息对性能数据指标进行整合,而资源数据信息较为稳定,日常变动较小。资源数据全量处理模块会通过全量数据抽取算法,将数据库中的资源数据抽取到Hadoop分布式文件***中,供flink汇总使用。数据处理装置中的solrCloud解决增量数据汇总得到的多条增量汇总结果***数据库问题,具体为对每个网元的每个空间维度和时间段的增量汇总结果建立唯一的索引,将增量汇总结果***数据库之前会进行索引冲突查询,对不存在冲突的结果进行***操作并建立索引,对存在冲突的汇总结果进行更新操作。数据处理装置中的数据计算模块包括性能数据增量处理模块和资源数据全量处理模块,根据这两个模块完成对原始数据的汇总统计,为整个报表提供数据源。数据处理装置中的solrCloud将建立的索引和数据库中的增量汇总结果进行关联,通过索引的创建、修改及删除工作完成对数据计算模块产生的数据的管理工作。数据处理装置中的数据采集模块对源数据进行维护工作。
可以理解的是,在本发明的实施例中,采用消息队列和流处理程序对批量上传到文件***的增量数据进行汇总处理,根据汇总结果和对应的索引文件对数据库中的性能数据进行更新处理,能够在各个维度观测当天上报的性能数据的实时统计结果,规避了数据延迟上报带来的数据精度损失的风险,提高了数据处理的准确率和效率。
在本发明的实施例中,S103可以通过S1031至S1032实现,将结合以下步骤进行具体说明。
S1031、根据预设更新队列存储的增量汇总结果的属性信息,生成增量汇总结果对应的索引;属性信息包括网元名称、汇总时间维度、汇总空间维度和汇总数据的时间节点中的至少一项。
在本发明的实施例中,数据处理装置从预设更新队列获取等待更新的数据,根据增量汇总数据的网元名称、汇总的时间空间维度、时间节点中的至少一项,生成增量汇总结果对应的索引。
在本发明的实施例中,时间维度可以为15分钟粒度、小时粒度、天粒度、月粒度;空间维度可以为大区、数据中心、资源池、网元、省、国家等。
在本发明的一些实施例中,数据处理装置中的solrCloud模块将数据的网元、时间维度、空间维度、所汇总数据的时间节点等信息按照预设的规则和索引名称关联起来,数据报表和solrCloud模块建立的索引的关联关系为:每一个表的每一个时间段数据对应一个索引。solrCloud模块建立索引的创建规则为:solr索引使用单独或不同的文件组成。每个文件由不同的领域组成,而每个领域单个属性。数据报表和solr索引的关联关系为每一个表对应一个solr索引,每一行数据对应该索引下的一个文件。每个文件由多个领域组成,而每个领域对应每条数据信息,包括对应网元、时间维度、空间维度、所汇总数据的时间节点。
S1032、将索引与至少一个网元对应的预设索引进行匹配,基于匹配结果,更新预设数据库。
在本发明的实施例中,数据处理装置将建立的索引和至少一个网元对应的预设索引进行匹配,根据匹配结果,利用增量汇总结果对预设数据库进行更新。
在本发明的一些实施例中,如图3所示,图3为本发明实施例提供的一种增量汇总的流程图,由Sa至Sf实现。在图3中,增量数据汇总任务开始;flink从Hadoop分布式文件***中读取全量数据文件并生成表;从kafka消息队列中读取性能数据并处理成表;利用全量数据文件中的资源数据信息对性能数据进行汇总处理;汇总数据写入数据库中;增量数据汇总任务结束。
在本发明的一些实施例中,如图4所示,图4为本发明实施例提供的一种索引集群更新流程图,由SA至SH实现。在图4中,启动处理程序;将汇总结果***到更新队列中;获取等待更新队列数据;根据汇总数据的网元名称和汇总的空间时间维度、时间节点等信息从solr集群(solrCloud)中生成对应的索引;判断是否存在索引冲突;若存在索引冲突,则执行更新数据库操作;若不存在索引冲突,则将汇总结果和对应索引***到数据库中;任务结束。
在本发明的一些实施例中,S1033可以通过S201至S203实现,将结合以下步骤进行具体说明。
S201、若匹配失败,则将增量汇总结果和索引***预设数据库,并将索引***预设数据库对应的预设索引库,完成对预设数据库的更新;预设索引库用于提供对预设数据库进行查询的索引信息。
在本发明的实施例中,匹配结果包括匹配失败和匹配成功。当匹配失败时,即索引查询发现增量汇总结果对应的索引在预设数据库中不存在时,数据处理装置将增量汇总结果和生成的索引***到预设数据库中,同时将生成的数据库***到预设数据库对应的预设索引库,完成对预设数据库和预设索引库的更新。
S202、若匹配成功,则获取匹配成功的目标预设索引对应的目标性能数据汇总结果。
在本发明的实施例中,如果匹配成功时,即索引查询发现增量汇总结果的索引与预设数据库中的某数据对应同样的索引时,数据处理装置在预设数据库中获取匹配成功的目标预设索引对应的目标性能数据汇总结果。
S203、合并目标性能数据汇总结果与增量汇总结果,得到合并汇总结果,并利用合并汇总结果更新目标性能数据汇总结果,完成对预设数据库的更新。
在本发明的实施例中,数据处理装置获取到目标性能汇总结果后,将该目标性能汇总结果和增量汇总结果进行数据合并,得到合并汇总结果;利用合并汇总结果更新目标性能数据汇总结果,完成对预设数据库的更新。
在本发明的实施例中,S102之前还包括S301至S302,将通过以下步骤进行具体说明。
S301、通过流处理程序,从预设数据库中获取至少一个网元对应的原始资源数据。
在本发明的实施例中,数据处理装置通过流处理程序,从预设数据库中获取采集的至少一个网元对应的原始资源数据。
S302、对原始资源数据进行数据抽取,得到资源数据列表;资源数据列表包含各个网元对应的当前资源数据。
在本发明的实施例中,数据处理装置对原始资源数据进行数据抽取,得到包含各个网元对应的当前资源数据的资源数据列表。
在本发明的一些实施例中,数据处理装置可以每天定期的在预设数据库中获取资源数据列表。
在本发明的一些实施例中,如图5所示,图5为本发明实施例提供的一种增量数据抽取的流程图,通过Sg至Sk实现。在图5中,定时任务开始;从数据库读取所需的全量资源数据;将全量资源数据写入到本地数据文件;将文件导入Hadoop分布式文件***中;任务结束。
在本发明的一些实施例中,S102可以通过S1021实现,将结合以下步骤进行具体说明。
S1021、按照资源数据列表中的各项当前资源数据,对增量性能数据进行至少一种数值整合与汇总处理,得到增量汇总结果。
在本发明的一些实施例中,数据处理装置根据资源数据列表中的各项当前资源数据确定对应的增量性能数据,并对对应的增量性能数据进行至少一种数据整合与汇总处理,得到增量汇总结果。
在本发明的一些实施例中,至少一种数值整合与汇总处理即进行数据求和、求平均值、求最大值和求最小值等。
在本发明的一些实施例中,S101之前还包括S401至S402,将结合以下步骤进行具体说明。
S401、采集至少一个网元对应的网络性能数据。
在本发明的一些实施例中,数据处理装置采集至少一个网元对应的网络性能数据。
在本发明的一些实施例中,数据处理装置可以从操作维护中心采集至少一个网元对应的网络性能数据。
S402、对网络性能数据进行规范化处理,并记录在性能数据队列中。
在本发明的一些实施例中,数据处理装置对采集到的网络性能数据进行规范化处理,得到规范化处理的性能数据,并将其记录在性能数据队列中。
在本发明的一些实施例中,S101可以通过S1011至S1012实现,将结合以下步骤进行具体说明。
S1011、通过流处理程序,获取记录的历史读取数据位置。
在本发明的一些实施例中,数据处理装置获取记录的历史读取数据位置。
在本发明的一些实施例中,kafka消息队列为每个分区都创建了一个log文件,文件存储了分区中的数据,数据处理装置会定期将获取的性能数据追加到log文件的末尾,每条数据都有自己的offset,flink增量汇总算法会实时记录汇总到哪部分性能数据。
S1012、基于历史读取位置,从性能数据队列中确定出增量数据部分并读取,得到增量性能数据。
在本发明的一些实施例中,数据处理装置基于历史读取性能数据位置,从性能数据队列中确定出增量数据部分并读取,得到增量性能数据。
在本发明的实施例中,增量汇总结果为第一预设时间段对应的增量性能数据汇总结果时,该数据处理方法还包括S501至S502,将结合以下步骤进行具体说明,将通过以下步骤进行具体说明。
S501、根据第二预设时间段,对增量性能数据进行汇总处理,得到初始增量汇总结果;第二预设时间段小于第一预设时间段。
在本发明的一些实施例中,数据处理装置在获取第一预设时间段对应的增量性能数据汇总结果后,对第二预设时间段的增量性能数据进行汇总处理,得到初始增量汇总结果;第二预设时间段小于第一预设时间段。
S502、在每得到一个初始增量汇总结果的情况下,基于第一预设时间段中已得到的至少一个初始增量汇总结果进行汇总处理,得到增量汇总结果。
在本发明的一些实施例中,第二预设时间段小于第一预设时间段,也即第二预设时间段与第一预设时间段为不同的时间维度。数据处理装置可以根据增量性能数据中的时间属性信息,对增量性能数据进行至少一种时间维度上的汇总。数据处理装置每得到一个第二预设时间段对应的初始增量汇总结果,即将该初始增量汇总结果,与第一预设时间段内获取的第二预设时间段对应的其他初始增量汇总结果进行时间维度上的汇总,作为第一预设时间段对应的当前增量汇总结果;在第一预设时间段内得到新的第二预设时间段对应的初始增量汇总结果时,继续基于第一预设时间段中当前得到的至少一个初始增量汇总结果进行汇总处理,直至完成第一预设时间段中所有第二预设时间段对应的初始增量汇总结果的汇总。
需要说明的是,本发明实施例中数据处理装置还可以根据增量性能数据中的空间属性信息,对增量性能数据进行至少一种空间维度上的汇总。也就是说,数据处理装置可以对增量性能数据在时间维度与空间维度的至少一个维度上,进行汇总处理,得到增量汇总结果。
在本发明的一些实施例中,如图6所示,图6为本发明实施例提供的一种性能数据汇总的数据流向图。图6示出了数据处理装置在4个时间维度和6个空间维度上进行汇总处理的方法,其中,4个时间维度从低到高包括:15分钟粒度(图6中以q表示)、小时粒度(图6中以h表示)、天粒度(图6中以d表示)、月粒度(图6中以m表示);6个空间维度包括:大区(space)、数据中心(data center,dc)、资源池/虚拟化基础设施管理器(virtualizedinfrastructure manager,vim)、网元(net element,ne)、省(province)、国家(country)。可以看出,以图6中15分钟粒度为例,数据处理装置在15分钟的时间维度下进行6个空间维度的汇总,可得到:space_q(15分钟的大区范围的汇总结果)、dc_q(15分钟的数据中心范围的汇总结果)、vim_q(15分钟的资源池范围的汇总结果)、ne_q(15分钟的网元范围的汇总结果)、province_q(15分钟的省范围的汇总结果)、以及country_q(15分钟内国家范围的汇总结果),其他时间维度,以此类推。
在相关技术中,通常是完成一小时内所有15分钟粒度的汇总之后,进行一小时粒度的汇总,完成一天内所有小时粒度的汇总任务再进行一天粒度的汇总,以此类推。可以看出,相关技术的汇总方法的时延较大,不能满足高时间维度的实时查询的要求。在本发明实施例中,在产生低维度的汇总结果,如15分钟的汇总结果时,可以将低维度的汇总结果存放在kafka消息队列中,通过流处理程序从kafka消息队列中获取低维度的汇总结果,实时启动高维度的数据汇总,得到高纬度的数据汇总结果。这里,低维度的汇总结果可以是上述第二预设时间段对应的初始增量汇总结果,高纬度的汇总结果可以是上述第一预设时间段对应的当前增量汇总结果。
示例性地,在产生第一个15分钟的网元范围的汇总结果ne_q时,数据处理装置将该15分钟的网元范围的汇总结果存放在kafka消息队列中,同时启动下一更高时间维度,也即小时维度的汇总流程。数据处理装置通过流处理程序从kafka消息队列中获取该ne_q,在该小时内每出现一个新的ne_q时,将新的ne_q与该小时内已获取的ne_q进行时间维度的汇总,作为该小时对应的当前增量汇总结果ne_h。同时,也可基于ne_q在空间范围,如资源池范围启动空间维度的汇总,得到该15分钟对应的vim_q,直至province_q等空间范围的汇总结果。
可以看出,通过实时启动资源池维度、省维度和网元维度的数据汇总,使得能够在各个维度实时观测当天上报的性能数据的实时统计结果,规避了数据延迟上报带来的数据精度损失的风险,提高了数据处理的准确率和效率。
本发明实施例提供了一种数据处理方法,结合以下步骤进行具体说明。
S1、数据处理装置分别采集资源数据、性能数据存储到预设数据库和预设消息队列中。
S2、数据处理装置利用预设算法在预设数据库中抽取资源数据存储到预设分布式***中。
在本发明的实施例中,S2可以通过S2.1至S2.4实现,将结合以下内容进行具体说明。
S2.1、数据处理装置设置定时任务,定时执行。
S2.2、数据处理装置连接预设数据库,读取最新的资源数据。
S2.3、数据处理装置将从预设数据库中抽取的资源数据信息写入到文件中。
S2.4、数据处理装置将保存有资源数据的文件上传到Hadoop分布式文件***中。
S3、数据处理装置利用预设汇总算法将采集的性能数据和资源数据进行汇总,得到汇总结果。
在本发明的一些实施例中,S3可以通过S3.1至S3.4实现,将结合以下步骤进行具体说明。
S3.1、数据处理装置启动流处理程序。
S3.2、数据处理装置从Hadoop分布式文件***中读取全量资源数据信息,并注册成表。
S3.3、数据处理装置从预设消息队列中读取性能数据。
S3.4、数据处理装置利用资源数据对性能数据进行汇总处理,得到汇总结果。
S4、数据处理装置为汇总结果建立索引。
在本发明的实施例中,S4可以通过S4.1至S4.4实现,将结合以下步骤进行具体说明。
S4.1、数据处理装置获取汇总结果后,启动建立索引程序。
S4.2、数据处理装置将汇总结果***到更新队列中。
S4.3、数据处理装置获取等待更新的数据。
S4.4、数据处理装置根据汇总数据的网元名称和汇总的空间时间维度、时间节点等信息从预设集群中生成对应的索引ID。
S5、数据处理装置判断是否存在索引冲突;若是,执行S6;若不是,执行S7。
S6、数据处理装置抽取原索引文件,在数据库中进行数据合并。
S7、数据处理装置将汇总结果和汇总结果对应的索引***到数据库中,同时将汇总结果对应的索引***到索引库中。
在本发明的实施例中,数据处理装置利用建立索引后的汇总结果对预设数据库中的报表进行更新,并根据索引格式保存到预设索引文件中。在遇到索引冲突的时候,抽取原索引文件,进行数据合并,即数据更新操作。
可以理解的是,在本发明的实施例中,采用消息队列和流处理程序对批量上传到文件***的增量数据进行汇总处理,根据汇总结果和对应的索引文件对数据库中的性能数据进行更新处理,能够在各个维度观测当天上报的性能数据的实时统计结果,规避了数据延迟上报带来的数据精度损失的风险,提高了数据处理的准确率和效率。
本发明实施例提供了一种数据处理装置,如图7所示,图7为本发明实施例提供的一种数据处理装置的结构示意图,该数据处理装置7包括:读取单元701、汇总单元702和更新单元703;其中,
所述读取单元701,用于通过流处理程序,从性能数据队列中读取增量性能数据;所述性能数据队列用于记录从通信网络的至少一个网元处采集的网络性能数据;
所述汇总单元702,用于利用预设数据库中的当前资源数据,对所述增量性能数据进行汇总处理,得到增量汇总结果;所述预设数据库用于记录所述至少一个网元对应的资源数据与性能数据汇总结果;
所述更新单元703,用于根据所述增量汇总结果,更新所述预设数据库。
在本发明的一些实施例中,所述更新单元703,还用于根据所述预设更新队列存储的所述增量汇总结果的属性信息,生成所述增量汇总结果对应的索引;所述属性信息包括网元名称、汇总时间维度、汇总空间维度和汇总数据的时间节点中的至少一项;以及,将所述索引与所述至少一个网元对应的预设索引进行匹配,基于匹配结果,更新所述预设数据库。
在本发明的一些实施例中,所述匹配结果包括匹配失败和匹配成功;所述更新单元703,还用于若匹配失败,则将所述增量汇总结果和所述索引***所述预设数据库,并将所述索引***所述预设数据库对应的预设索引库,完成对所述预设数据库的更新;所述预设索引库用于提供对所述预设数据库进行查询的索引信息;及,若匹配成功,则获取匹配成功的目标预设索引对应的目标性能数据汇总结果;以及,合并所述目标性能数据汇总结果与所述增量汇总结果,得到合并汇总结果,并利用所述合并汇总结果更新所述目标性能数据汇总结果,完成对所述预设数据库的更新。
在本发明的一些实施例中,所述读取单元701,在利用预设数据库中的当前资源数据,对所述增量性能数据进行汇总处理,得到增量汇总结果之前,还用于通过流处理程序,从所述预设数据库中获取所述至少一个网元对应的原始资源数据;以及,对所述原始资源数据进行数据抽取,得到资源数据列表;所述资源数据列表包含各个网元对应的当前资源数据。
在本发明的一些实施例中,所述汇总单元702,还用于按照所述资源数据列表中的各项当前资源数据,对所述增量性能数据进行至少一种数值整合与汇总处理,得到所述增量汇总结果。
在本发明的一些实施例中,所述数据处理装置还包括记录单元704;所述记录单元704,用于采集至少一个网元对应的网络性能数据;及,对所述网络性能数据进行规范化处理,并记录在所述性能数据队列中。
在本发明的一些实施例中,所述读取单元701,还用于通过所述流处理程序,获取记录的历史读取数据位置;及,基于所述历史读取位置,从所述性能数据队列中确定出增量数据部分并读取,得到所述增量性能数据。
在本发明的一些实施例中,所述增量汇总结果为第一预设时间段对应的增量性能数据汇总结果;所述汇总单元702,还用于根据第二预设时间段,对所述增量性能数据进行汇总处理,得到初始增量汇总结果;所述第二预设时间段小于所述第一预设时间段;及,在每得到一个初始增量汇总结果的情况下,基于所述第一预设时间段中已得到的至少一个初始增量汇总结果进行汇总处理,得到所述增量汇总结果。
可以理解的是,在上述装置实现方案中,采消息队列和流处理程序对批量上传到文件***的增量数据进行汇总处理,根据汇总结果和对应的索引文件对数据库中的性能数据进行更新处理,能够在各个维度观测当天上报的性能数据的实时统计结果,规避了数据延迟上报带来的数据精度损失的风险,提高了数据处理的准确率和效率。
基于上述实施例的方法,本发明实施例提供的一种数据处理装置的结构示意图,如图8所示,图8本发明实施例提供的一种数据处理装置的结构示意图,包括:处理器801和存储器802;存储器802存储处理器801可执行的一个或者多个程序,当一个或者多个程序被执行时,通过处理器801执行如前所述实施例对应的一种数据处理方法。
本发明实施例提供了一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现所述的数据处理方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (11)
1.一种数据处理方法,其特征在于,包括:
通过流处理程序,从性能数据队列中读取增量性能数据;所述性能数据队列用于记录从通信网络的至少一个网元处采集的网络性能数据;
利用预设数据库中的当前资源数据,对所述增量性能数据进行汇总处理,得到增量汇总结果;所述预设数据库用于记录所述至少一个网元对应的资源数据与性能数据汇总结果;
根据所述增量汇总结果,更新所述预设数据库。
2.根据权利要求1所述的方法,其特征在于,所述根据所述增量汇总结果,更新所述预设数据库,包括:
根据所述预设更新队列存储的所述增量汇总结果的属性信息,生成所述增量汇总结果对应的索引;所述属性信息包括网元名称、汇总时间维度、汇总空间维度和汇总数据的时间节点中的至少一项;
将所述索引与所述至少一个网元对应的预设索引进行匹配,基于匹配结果,更新所述预设数据库。
3.根据权利要求2所述的方法,其特征在于,所述匹配结果包括匹配失败和匹配成功;
所述基于匹配结果,更新所述预设数据库,包括:
若匹配失败,则将所述增量汇总结果和所述索引***所述预设数据库,并将所述索引***所述预设数据库对应的预设索引库,完成对所述预设数据库的更新;所述预设索引库用于提供对所述预设数据库进行查询的索引信息;
若匹配成功,则获取匹配成功的目标预设索引对应的目标性能数据汇总结果;
合并所述目标性能数据汇总结果与所述增量汇总结果,得到合并汇总结果,并利用所述合并汇总结果更新所述目标性能数据汇总结果,完成对所述预设数据库的更新。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述利用预设数据库中的当前资源数据,对所述增量性能数据进行汇总处理,得到增量汇总结果之前,所述方法还包括:
通过流处理程序,从所述预设数据库中获取所述至少一个网元对应的原始资源数据;
对所述原始资源数据进行数据抽取,得到资源数据列表;所述资源数据列表包含各个网元对应的当前资源数据。
5.根据权利要求1所述的方法,其特征在于,所述利用预设数据库中的当前资源数据,对所述增量性能数据进行汇总处理,得到增量汇总结果,包括:
按照所述资源数据列表中的各项当前资源数据,对所述增量性能数据进行至少一种数值整合与汇总处理,得到所述增量汇总结果。
6.根据权利要求1所述的方法,其特征在于,所述通过流处理程序,从性能数据队列中读取增量性能数据之前,所述方法还包括:
采集至少一个网元对应的网络性能数据;
对所述网络性能数据进行规范化处理,并记录在所述性能数据队列中。
7.根据权利要求1所述的方法,其特征在于,所述性能数据队列为消息队列,所述通过流处理程序,从性能数据队列中读取增量性能数据,包括:
通过所述流处理程序,获取记录的历史读取数据位置;
基于所述历史读取位置,从所述性能数据队列中确定出增量数据部分并读取,得到所述增量性能数据。
8.根据权利要求2所述的方法,其特征在于,所述增量汇总结果包括:第一预设时间段对应的当前增量性能数据汇总结果;所述方法还包括:
根据第二预设时间段,对所述增量性能数据进行汇总处理,得到初始增量汇总结果;所述第二预设时间段小于所述第一预设时间段;
在每得到一个初始增量汇总结果的情况下,基于所述第一预设时间段中当前得到的至少一个初始增量汇总结果进行汇总处理,得到所述当前增量汇总结果。
9.一种数据处理装置,其特征在于,包括:读取单元、汇总单元和更新单元;
所述读取单元,用于通过流处理程序,从性能数据队列中读取增量性能数据;所述性能数据队列用于记录从通信网络的至少一个网元处采集的网络性能数据;
所述汇总单元,用于利用预设数据库中的当前资源数据,对所述增量性能数据进行汇总处理,得到增量汇总结果;所述预设数据库用于记录所述至少一个网元对应的资源数据与性能数据汇总结果;
所述更新单元,用于根据所述增量汇总结果,更新所述预设数据库。
10.一种数据处理装置,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1-8任一项所述的数据处理方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有可执行指令,当所述可执行指令被执行时,用于引起处理器执行如权利要求1-8任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211114115.4A CN116795909A (zh) | 2022-09-14 | 2022-09-14 | 一种数据处理方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211114115.4A CN116795909A (zh) | 2022-09-14 | 2022-09-14 | 一种数据处理方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116795909A true CN116795909A (zh) | 2023-09-22 |
Family
ID=88048621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211114115.4A Pending CN116795909A (zh) | 2022-09-14 | 2022-09-14 | 一种数据处理方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116795909A (zh) |
-
2022
- 2022-09-14 CN CN202211114115.4A patent/CN116795909A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918349B (zh) | 日志处理方法、装置、存储介质和电子装置 | |
CN110321387B (zh) | 数据同步方法、设备及终端设备 | |
CN107038162B (zh) | 基于数据库日志的实时数据查询方法和*** | |
US10204147B2 (en) | System for capture, analysis and storage of time series data from sensors with heterogeneous report interval profiles | |
CN112507029B (zh) | 数据处理***及数据实时处理方法 | |
CN104917627B (zh) | 一种用于大型服务器集群的日志集群扫描与分析方法 | |
CN106325984B (zh) | 一种大数据任务调度装置 | |
CN111125260A (zh) | 一种基于SQL Server的数据同步方法及*** | |
CN110795428A (zh) | 应用于工业物联网的时序数据存储方法和时序数据库 | |
CN112559475B (zh) | 数据实时捕获和传输方法及*** | |
CN113468170B (zh) | 一种自动化实现数据实时同步的*** | |
CN113282611B (zh) | 一种流数据同步的方法、装置、计算机设备及存储介质 | |
CN110704484A (zh) | 一种对海量实时数据流进行处理的方法及*** | |
CN112948492A (zh) | 一种数据处理***、方法、装置、电子设备及存储介质 | |
CN114385760A (zh) | 增量数据实时同步的方法、装置、计算机设备及存储介质 | |
CN114416703A (zh) | 数据完整性自动监控方法、装置、设备及介质 | |
CN113468196B (zh) | 用于处理数据的方法、装置、***、服务器和介质 | |
CN105338107A (zh) | 一种据点运营同步管理***及方法 | |
CN114661823A (zh) | 数据同步的方法、装置、电子设备及可读存储介质 | |
CN110704442A (zh) | 一种大数据的实时获取方法及装置 | |
CN116795909A (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN111046077A (zh) | 数据的获取方法及装置、存储介质、终端 | |
CN113760950B (zh) | 指标数据查询方法、装置、电子设备以及存储介质 | |
US11782873B2 (en) | System and method for managing timeseries data | |
CN115344633A (zh) | 数据处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |