CN104391916A - 基于分布式计算平台的gpeh数据解析方法和装置 - Google Patents
基于分布式计算平台的gpeh数据解析方法和装置 Download PDFInfo
- Publication number
- CN104391916A CN104391916A CN201410663142.6A CN201410663142A CN104391916A CN 104391916 A CN104391916 A CN 104391916A CN 201410663142 A CN201410663142 A CN 201410663142A CN 104391916 A CN104391916 A CN 104391916A
- Authority
- CN
- China
- Prior art keywords
- data
- gpeh
- hdfs
- computing platform
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于分布式计算平台的GPEH数据解析方法和装置,首先获取GPEH原始数据;然后将GPEH原始数据上传到HDFS;最后利用MapReduce读取上传到HDFS的数据并进行解析,将解析后的数据输出到HDFS。本发明采用MapReduce计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,对于海量数据的处理,具有高容错特性和可行性,解析周期随着集群资源扩展而缩短;可根据实际业务需求定制解析程序;存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。
Description
技术领域
本发明涉及大数据技术领域,特别是涉及一种基于分布式计算平台的GPEH数据解析方法和装置。
背景技术
GPEH(General performance event handling,通过***定义事件的采集和统计来定位问题)是WCDMA(Wideband Code Division Multiple Access,宽带码分多址)的一个重要功能。对于采集的GPEH原始数据进行解析,可用于无线网络规划、无线网络评估、无线网络资源管理等应用,为通信运营商提供强有力的支撑。
目前GPEH信令数据解析通常采用大型服务器进行处理,将原始的GPEH二进制数据通过反加密算法利用多线程资源进行解析,对于小规模GPEH数据可以在一定时间内解析完成。为了全面、准确、快速的进行无线网络规划支撑,底层的GPEH数据需求量巨大(数据总量可达PB级),使用大型服务器解析完成GPEH数据消耗时间难以接受。
传统GPEH数据解析通常采用单一机器,机器解析性能受机器硬件条件限制,无法随解析数据量增大而扩展;并且机器的存储、管理和分析数据量也相对较小;对于大数据量数据处理周期长。
发明内容
基于上述情况,本发明提出了一种基于分布式计算平台的GPEH数据解析方法,采用MapReduce(一种编程模型)计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,数据处理周期随机器计算能力增加而缩短,并且存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。
为了实现上述目的,本发明技术方案的实施例为:
一种基于分布式计算平台的GPEH数据解析方法,包括以下步骤:
获取GPEH原始数据;
将所述GPEH原始数据上传到HDFS(Hadoop Distributed File System,分布式文件***);
利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
针对现有技术问题,本发明还提出了一种基于分布式计算平台的GPEH数据解析装置,采用MapReduce并行计算框架实现对GPEH数据的快速、准确解析,结构简单、成本低,符合实际应用。
本发明技术方案的实施例为:
一种基于分布式计算平台的GPEH数据解析装置,包括:
获取模块,用于获取GPEH原始数据;
传输模块,用于将所述GPEH原始数据上传到HDFS;
解析模块,用于利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
与现有技术相比,本发明的有益效果为:本发明基于分布式计算平台的GPEH数据解析方法和装置,采用MapReduce计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,对于海量数据的处理,具有高容错特性和可行性,解析周期随着集群资源扩展而缩短;可根据实际业务需求定制解析程序;存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。
附图说明
图1为一个实施例中基于分布式计算平台的GPEH数据解析方法流程图;
图2为一个实施例中利用MapReduce对上传到HDFS的数据进行读取并解析的方法流程图;
图3为基于图1所示方法一个具体示例中基于分布式计算平台的GPEH数据解析方法流程图;
图4为一个实施例中基于分布式计算平台的GPEH数据解析装置结构示意图;
图5为一个实施例中解析模块结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
一个实施例中基于分布式计算平台的GPEH数据解析方法,如图1所示,包括以下步骤:
步骤S101:获取GPEH原始数据;
步骤S102:将所述GPEH原始数据上传到HDFS;
步骤S103:利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
从以上描述可知,本发明基于分布式计算平台的GPEH数据解析方法,采用MapReduce计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,数据处理周期随机器计算能力增加而缩短,并且存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。
作为一个实施例,所述利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS的步骤,如图2所示,包括:
步骤S201:将上传到所述HDFS的数据分配给空闲的datanode节点(数据节点),所述datanode节点读取分配到的数据;
步骤S202:调用EventExpalinMapper函数将所述datanode节点读取到的数据以<key(键),value(值)>格式输出给Explainvalue函数进行解析;
步骤S203:调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS;
重复上述步骤S201-步骤S203的处理过程直到MapReduce完成对上传到HDFS的所有数据的解析,在该过程中,各个datanode节点数据处理为并行处理;
上述MapReduce程序可以根据实际业务需求定制解析程序;并行解析数据量随着集群规模可以动态扩展,能够满足解析海量数据的时间性能要求;使用MapReduce解析GPEH数据之后,可进一步使用大数据相关技术进行统计分析处理。
作为一个实施例,在所述获取GPEH原始数据之后,将所述GPEH原始数据上传到HDFS之前,还包括步骤:
根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述GPEH原始数据进行切分;
数据切分将GPEH原始数据制作成MapReduce便于处理的形式,加快后续处理,提高数据解析效率,应用价值高。
作为一个实施例,在所述将解析后的数据输出到所述HDFS之后,还包括步骤:
导出输出到所述HDFS的解析后的数据,方便用户查看、使用解析结果,适合应用。
作为一个实施例,将所述GPEH原始数据上传到HDFS的步骤包括:
调用writeToHDFS函数将所述GPEH原始数据上传到HDFS,符合实际应用,保证后续处理正常运行。
为了更好地理解本方法,以下详细阐述一个本发明基于分布式计算平台的GPEH数据解析方法应用实例。
如图3所示,该应用实例可以包括以下步骤:
步骤S301:获取GPEH原始数据;
步骤S302:根据MapReduce中设定的解析数据大小,调用EventSplitMain函数对上述GPEH原始数据进行切分;数据切分将GPEH原始数据制作成MapReduce便于处理的形式,加快后续处理,提高数据解析效率;
步骤S303:调用writeToHDFS函数将切分处理后的GPEH原始数据上传到HDFS,保证后续处理正常运行;
步骤S304:利用上述MapReduce将上传到HDFS的数据分配给空闲的datanode节点,分配到任务的datanode节点读取分配的数据;调用EventExpalinMapper函数将上述datanode节点读取到的数据以<key,value>格式输出,输出给EventExpalinMapper函数中的Explainvalue函数进行解析;调用EventOrderReduce函数对上述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到HDFS;在处理完成之后,datanode节点变为空闲状态;
重复上述步骤S304的处理过程直到MapReduce完成对上传到HDFS的所有数据的解析,在该过程中,各个datanode节点数据处理为并行处理;
步骤S305:导出输出到所述HDFS的解析后的数据。
本应用实例采用MapReduce计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,对于海量数据的处理,具有高容错特性和可行性,解析周期随着集群资源扩展而缩短;MapReduce程序可以根据实际业务需求定制解析程序;存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展;使用MapReduce解析GPEH数据之后,可进一步使用大数据相关技术进行统计分析处理。
一个实施例中基于分布式计算平台的GPEH数据解析装置,如图4所示,包括:
获取模块401,用于获取GPEH原始数据;
传输模块402,用于将所述GPEH原始数据上传到HDFS403;
解析模块404,用于利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS403。
如图4所示,本装置各模块连接关系的一个优选的实施例为:获取模块401、传输模块402依次顺序连接,传输模块402的输出端连接HDFS403的输入端,HDFS403连接解析模块404。
首先获取模块401获取GPEH原始数据;然后传输模块402将GPEH原始数据上传到HDFS403;最后解析模块404利用MapReduce读取上传到HDFS403的数据并进行解析,将解析后的数据输出到HDFS403。
从以上描述可知,本发明基于分布式计算平台的GPEH数据解析装置,采用MapReduce并行计算框架实现对GPEH数据的快速、准确解析,结构简单、成本低,符合实际应用。
作为一个实施例,所述解析模块404如图5所示,包括:
读取单元4041,用于将上传到所述HDFS403的数据分配给空闲的datanode节点,所述datanode节点读取分配到的数据;
解析单元4042,用于调用EventExpalinMapper函数将所述datanode节点读取到的数据以<key,value>格式输出给Explainvalue函数进行解析;
输出单元4043,用于调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS403;
重复上述分配单元4041-输出单元4043的处理过程直到MapReduce完成对上传到HDFS403的所有数据的解析,在该过程中,各个datanode节点数据处理为并行处理;
上述解析模块404中的各个组成单元可以根据实际业务需求定制处理程序;并行解析数据量随着集群规模可以动态扩展,能够满足解析海量数据的时间性能要求;使用MapReduce解析GPEH数据之后,可进一步使用大数据相关技术进行统计分析处理。
作为一个实施例,还包括:
切分模块405,用于根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述获取模块401获取的GPEH原始数据进行切分;
所述传输模块402将所述切分模块405切分后的GPEH原始数据上传到HDFS403;
数据切分将GPEH原始数据制作成MapReduce便于处理的形式,加快后续处理,提高数据解析效率,应用价值高。
作为一个实施例,还包括:
导出模块406,用于导出所述解析模块输出到所述HDFS403的解析后的数据,方便用户查看、使用解析结果,适合应用。
作为一个实施例,所述传输模块402包括:
writeToHDFS传输单元,用于调用writeToHDFS函数将所述GPEH原始数据上传到HDFS403,符合实际应用,保证后续处理正常运行。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于分布式计算平台的GPEH数据解析方法,其特征在于,包括以下步骤:
获取GPEH原始数据;
将所述GPEH原始数据上传到HDFS;
利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
2.根据权利要求1所述的基于分布式计算平台的GPEH数据解析方法,其特征在于,所述利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS的步骤包括:
将上传到所述HDFS的数据分配给空闲的datanode节点,所述datanode节点读取分配到的数据;
调用EventExpalinMapper函数将所述datanode节点读取到的数据以<key,value>格式输出给Explainvalue函数进行解析;
调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS。
3.根据权利要求1或2所述的基于分布式计算平台的GPEH数据解析方法,其特征在于,在所述获取GPEH原始数据之后,将所述GPEH原始数据上传到HDFS之前,还包括步骤:
根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述GPEH原始数据进行切分。
4.根据权利要求3所述的基于分布式计算平台的GPEH数据解析方法,其特征在于,在所述将解析后的数据输出到所述HDFS之后,还包括步骤:
导出输出到所述HDFS的解析后的数据。
5.根据权利要求1所述的基于分布式计算平台的GPEH数据解析方法,其特征在于,将所述GPEH原始数据上传到HDFS的步骤包括:
调用writeToHDFS函数将所述GPEH原始数据上传到HDFS。
6.一种基于分布式计算平台的GPEH数据解析装置,其特征在于,包括:
获取模块,用于获取GPEH原始数据;
传输模块,用于将所述GPEH原始数据上传到HDFS;
解析模块,用于利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
7.根据权利要求6所述的基于分布式计算平台的GPEH数据解析装置,其特征在于,所述解析模块包括:
读取单元,用于将上传到所述HDFS的数据分配给空闲的datanode节点,所述datanode节点读取分配到的数据;
解析单元,用于调用EventExpalinMapper函数将所述datanode节点读取到的数据以<key,value>格式输出给Explainvalue函数进行解析;
输出单元,用于调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS。
8.根据权利要求6或7所述的基于分布式计算平台的GPEH数据解析装置,其特征在于,还包括:
切分模块,用于根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述获取模块获取的GPEH原始数据进行切分;
所述传输模块将所述切分模块切分后的GPEH原始数据上传到HDFS。
9.根据权利要求8所述的基于分布式计算平台的GPEH数据解析装置,其特征在于,还包括:
导出模块,用于导出所述解析模块输出到所述HDFS的解析后的数据。
10.根据权利要求6所述的基于分布式计算平台的GPEH数据解析装置,其特征在于,所述传输模块包括:
writeToHDFS传输单元,用于调用writeToHDFS函数将所述GPEH原始数据上传到HDFS。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410663142.6A CN104391916A (zh) | 2014-11-19 | 2014-11-19 | 基于分布式计算平台的gpeh数据解析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410663142.6A CN104391916A (zh) | 2014-11-19 | 2014-11-19 | 基于分布式计算平台的gpeh数据解析方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104391916A true CN104391916A (zh) | 2015-03-04 |
Family
ID=52609820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410663142.6A Pending CN104391916A (zh) | 2014-11-19 | 2014-11-19 | 基于分布式计算平台的gpeh数据解析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104391916A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104811959A (zh) * | 2015-05-25 | 2015-07-29 | 中国联合网络通信有限公司成都市分公司 | 基于大数据的移动网络用户感知分析***和方法 |
CN108874738A (zh) * | 2018-06-05 | 2018-11-23 | 中国平安人寿保险股份有限公司 | 分布式并行运算方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425707A (zh) * | 2012-05-25 | 2013-12-04 | 中兴通讯股份有限公司 | 数据分析方法和装置 |
CN103425762A (zh) * | 2013-08-05 | 2013-12-04 | 南京邮电大学 | 基于Hadoop平台的电信运营商海量数据处理方法 |
CN103699442A (zh) * | 2013-12-12 | 2014-04-02 | 深圳先进技术研究院 | MapReduce计算框架下的可迭代式数据处理方法 |
CN103810272A (zh) * | 2014-02-11 | 2014-05-21 | 北京邮电大学 | 一种数据处理方法和*** |
-
2014
- 2014-11-19 CN CN201410663142.6A patent/CN104391916A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425707A (zh) * | 2012-05-25 | 2013-12-04 | 中兴通讯股份有限公司 | 数据分析方法和装置 |
CN103425762A (zh) * | 2013-08-05 | 2013-12-04 | 南京邮电大学 | 基于Hadoop平台的电信运营商海量数据处理方法 |
CN103699442A (zh) * | 2013-12-12 | 2014-04-02 | 深圳先进技术研究院 | MapReduce计算框架下的可迭代式数据处理方法 |
CN103810272A (zh) * | 2014-02-11 | 2014-05-21 | 北京邮电大学 | 一种数据处理方法和*** |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104811959A (zh) * | 2015-05-25 | 2015-07-29 | 中国联合网络通信有限公司成都市分公司 | 基于大数据的移动网络用户感知分析***和方法 |
CN104811959B (zh) * | 2015-05-25 | 2019-02-15 | 中国联合网络通信有限公司成都市分公司 | 基于大数据的移动网络用户感知分析***和方法 |
CN108874738A (zh) * | 2018-06-05 | 2018-11-23 | 中国平安人寿保险股份有限公司 | 分布式并行运算方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222048B (zh) | 序列生成方法、装置、计算机设备及存储介质 | |
US9361343B2 (en) | Method for parallel mining of temporal relations in large event file | |
CN106407207B (zh) | 一种实时新增数据更新方法和装置 | |
CN104317749B (zh) | 信息写入方法和装置 | |
US9639444B2 (en) | Architecture for end-to-end testing of long-running, multi-stage asynchronous data processing services | |
CN107741899B (zh) | 处理终端数据的方法、装置及*** | |
CN106055630A (zh) | 日志存储的方法及装置 | |
CN105302885B (zh) | 一种全文数据的提取方法和装置 | |
CN104462222A (zh) | 一种卡口车辆通行数据的分布式存储方法及*** | |
CN112449009A (zh) | 一种基于svd的联邦学习推荐***通信压缩方法及装置 | |
CN107798059B (zh) | 一种nco气象数据结构化存储方法和装置 | |
CN111459986A (zh) | 数据计算***及方法 | |
CN105005585A (zh) | 一种日志数据的处理方法和装置 | |
CN113900810A (zh) | 分布式图处理方法、***及存储介质 | |
CN104166701A (zh) | 机器学习方法及*** | |
CN111935140A (zh) | 异常报文识别方法及装置 | |
CN108512817B (zh) | 多视频转码调度方法及装置 | |
CN104572298A (zh) | 视频云平台的资源调度方法及装置 | |
CN104391916A (zh) | 基于分布式计算平台的gpeh数据解析方法和装置 | |
CN105335313A (zh) | 一种基础数据的传输方法及装置 | |
CN111611479B (zh) | 用于网络资源推荐的数据处理方法及相关装置 | |
CN106796587B (zh) | 用于验证分析结果的方法和*** | |
CN111539281B (zh) | 分布式人脸识别方法及*** | |
CN104599092A (zh) | 用于监控订单业务的方法及设备 | |
CN105704173B (zh) | 一种集群***数据分布方法及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150304 |
|
RJ01 | Rejection of invention patent application after publication |