CN109634757A - 一种地震行业大数据处理的数据采集方法 - Google Patents

一种地震行业大数据处理的数据采集方法 Download PDF

Info

Publication number
CN109634757A
CN109634757A CN201811500930.8A CN201811500930A CN109634757A CN 109634757 A CN109634757 A CN 109634757A CN 201811500930 A CN201811500930 A CN 201811500930A CN 109634757 A CN109634757 A CN 109634757A
Authority
CN
China
Prior art keywords
data
acquisition
collecting method
database
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811500930.8A
Other languages
English (en)
Other versions
CN109634757B (zh
Inventor
刘鹏
张真
马鸣
汪洲权
贾文周
吴修文
王小聪
贾雯婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Innovative Data Technologies Inc
Original Assignee
Nanjing Innovative Data Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Innovative Data Technologies Inc filed Critical Nanjing Innovative Data Technologies Inc
Priority to CN201811500930.8A priority Critical patent/CN109634757B/zh
Publication of CN109634757A publication Critical patent/CN109634757A/zh
Application granted granted Critical
Publication of CN109634757B publication Critical patent/CN109634757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种地震行业大数据处理的数据采集方法包括如下步骤:包括如下步骤:数据存放步骤:把所有采集到的数据存放到Kafka缓存集群中,并将数据存放到Kafka缓存集群中的消息转发出去。本发明提供的地震行业大数据处理的数据采集方法将地震行业的大数据处理平台通过与各业务***中的数据源对接,提供数据采集、转存、处理等服务。从而通过引入大数据技术,解决数据共享目前所面临的问题。

Description

一种地震行业大数据处理的数据采集方法
技术领域
本发明属于地震大数据技术领域,具体的涉及一种地震行业大数据处理的数据采集方法。
背景技术
大数据已经成为国家的信息化发展方向,中国地震台网中心需要依托大数据技术构建新的数据共享、数据处理技术***,利用大数据/云计算技术支持数据共享和现行地震监测预报业务,形成跨越现有监测预报业务***的数据共享技术方法,为建设跨多业务***的数据综合分析技术,搭建基于大数据/云计算技术的技术平台雏形。
中国地震台网中心是全国地震观测业务处理和数据共享中心,主要包括国家测震台网中心、国家地震前兆台网中心、地震数据共享中心,以后还将汇集全国强震台网、GNSS陆态网络的观测数据。
因此,通过引入大数据技术,解决数据共享目前所面临的问题。同时,探索基于大数据/云计算技术下的地震监测预报业务新的应用模式,探索新的实验性数据相关性分析。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种地震行业大数据处理的数据采集方法。
为达成上述目的,本发明采用如下技术方案:一种地震行业大数据处理的数据采集方法包括如下步骤:数据存放步骤:把所有采集到的数据存放到Kafka缓存集群中,并将数据存放到Kafka缓存集群中的消息转发出去。
优选地,在数据存放步骤之前还包括数据采集步骤:与各业务***中的数据源对接,判断数据的采集适配方式,并基于确定的采集适配方式进行数据采集,所述数据的采集适配方式包括:面向数据源采集、面向数据库采集和面向文件采集。
优选地,所述面向数据源采集用于能够直接与数据源对接并且采集到的数据不再产生变化,测震实时流对接或者测量仪器直接上报采集;***向流服务器发送请求数据的账号和密码,验证成功后,返回接受数据的地址和端口号,从返回的地址和端口号接受地震实时流数据,如果接受到完整的一包数据之后,记录接受的时间点,然后发送至Kafka缓存集群。
优选地,所述面向数据库采集中,数据库形式的***接入,即关联以关系型数据库形式开放的外接***,通过适配器对其***下的数据库进行关联和监控,以实现相关业务信息与数据的实时或定时获取,在数据采集的实现上,采用通过ETL工具的方式提供数据库适配器进行完成:使用ETL工具提供的数据库适配器连接各接入业务***数据库完成数据的采集与抽取,并可根据业务要求,以实时、定时的方式进行实现。
优选地,在面向文件采集中:只能通过文件或其他中转方式将各业务***数据交换至大数据平台。
优选地,在数据存放步骤中的数据转发包括全量数据转发和定制数据转发;在所述全量数据转发中,如果用户订阅了某些数据,则可以把被订阅的数据以实时流的方式发送给订阅端;在所述定制数据转发中,从全量数据中根据用户的喜好筛选出用户关心的数据,然后转发给用户。
相较于现有技术,本发明提供的技术方案具有如下有益效果:
本发明提供的地震行业大数据处理的数据采集方法将地震行业的大数据处理平台通过与各业务***中的数据源对接,提供数据采集、转存、处理等服务。从而通过引入大数据技术,解决数据共享目前所面临的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明提供的地震行业大数据处理的数据采集方法中面向数据源采集的过程示意图;
图2是本发明提供的地震行业大数据处理的数据采集方法中数据转发的过程示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的权利要求书、说明书及上述附图中,除非另有明确限定,如使用术语“第一”、“第二”或“第三”等,都是为了区别不同对象,而不是用于描述特定顺序。
本发明的权利要求书、说明书及上述附图中,如使用术语“包括”、“具有”以及它们的变形,意图在于“包含但不限于”。
一种地震行业大数据处理的数据采集方法包括如下步骤:
数据采集步骤:与各业务***中的数据源对接,判断数据的采集适配方式,并基于确定的采集适配方式进行数据采集,所述数据的采集适配方式包括:面向数据源采集、面向数据库采集和面向文件采集;
数据存放步骤:把所有采集到的数据存放到Kafka缓存集群中,并将数据存放到Kafka缓存集群中的消息转发出去。
在数据采集步骤中,对面向数据源采集而言,所述面向数据源采集用于能够直接与数据源对接并且采集到的数据不再产生变化,测震实时流对接或者测量仪器直接上报采集;
***向流服务器发送请求数据的账号和密码,验证成功后,返回接受数据的地址和端口号,从返回的地址和端口号接受地震实时流数据,如果接受到完整的一包数据之后,记录接受的时间点,然后发送至Kafka缓存集群。
具体地,在面向数据源采集过程中,如图1所示,LISS流数据对接流程的步骤如下:
1、创建socket请求得到LISS流数据地址
首先创建实时流的socket连接,发送对接实时流的用户名密码请求,请求的命令:”user LISS流用户名\r\npass LISS流密码\r\npasv rt\n”,如果验证不通过,LISS流服务器返回错误信息。如果验证通过LISS流服务器通过socket连接返回一串字符串:227Real Time Data Port Entering Passive Mode(ip,port),通过处理提取里面的ip和port,这个ip和port就是接收服务器LISS流数据的地址。
2、创建接收socket,发送数据接收命令
用解析出的ip和port创建一个数据接收的socket,然后发送数据请求命令:
Retr seismic*\r\n.然后LISS流服务器就会在数据接收的socket中发送是实时流数据。
3、数据传输完整性处理
由于网络传输存在这不稳定因素,比如网络断开,数据粘包。
a)socket连接采用TCP连接,当出现网络中端的情况,数据采集端需要重新创建数据请求连接,发送LISS用户名和LISS密码请求数据和数据接收连接、并发送数据请求命名。
b)LISS流的数据固定大小为512Byte。所以数据接收端以固定512字节的数据大小为一个数据包。
4、数据重连机制
当TCP连接断开时,***自动检测到断开,并按照每30秒尝试重连LISS流服务器进行请求数据。
5、数据发送至消息集群
***将处理好后的完整512字节数据打上时间的标记(记录该条实时流是什么时间收到的),存放在一个对象里面,对对象进行序列化,然后发送至消息集群。
对所述面向数据库采集而言,在所述面向数据库采集中,数据库形式的***接入,即关联以关系型数据库形式开放的外接***,通过适配器对其***下的数据库进行关联和监控,以实现相关业务信息与数据的实时或定时获取,在数据采集的实现上,采用通过ETL工具的方式提供数据库适配器进行完成:使用ETL工具提供的数据库适配器连接各接入业务***数据库完成数据的采集与抽取,并可根据业务要求,以实时、定时的方式进行实现。
对所述面向文件采集而言,在面向文件采集中:只能通过文件或其他中转方式将各业务***数据交换至大数据平台。
此外,在数据存放步骤中,数据转发包括全量数据转发和定制数据转发。而且,如图2所示,数据存储是从Kafka集群中取得数据后,先判断取得的数据是否为完整的正确的地震实时流数据,如果不是就记录日志并丢弃该条记录,如果是完整的数据接着判断是否为1970无效数据,如果是有效数据需要判断是否符合转发的要求,如果是全量转发就直接转发,如果是定制转发需要判断该条数据是否需要转发,满足转发条件的转发至指定位置。
在所述全量数据转发中,如果用户订阅了某些数据,则可以把被订阅的数据以实时流的方式发送给订阅端;例如:A用户订阅了Kafka集群中所有收集到的数据,当Kafka集群收到数据后会以实时流的方式全部转发给A用户。用户收到数据后自己做数据处理即可。如果多用户订阅的是同一份数据,只是不同用户取数据的起始时间不同。
在所述定制数据转发中,从全量数据中根据用户的喜好筛选出用户关心的数据,然后转发给用户。例如A用户定制了某几个台站的实时流数据,数据处理模块会对用户定制的数据进行筛选然后存放到Kafka集群中,然后转发给用户A,数据重用问题,如果用户B和用户A定制的数据是一样,则在Kafka集群中之存放了一份共同的数据,如果不一样就存放了多份数据。
具体地,对于定制数据转发而言,所述定制数据转发的具体步骤如下:
1、首先定制转发需要创建一张存放各个用户定制了哪些台站的表。包括编号,ip地址,用户,密码,台站id(多个用,分割),申请时间,批准时间,状态,创建日期,创建者,更新时间,更新者,标注,删除标识,接收标识字段。
2、当用户申请定制某些台站的数据时,会在此表里面新增一条申请记录,等待申请批准后,用户根据接收的标识号取定制的数据即可。
3、后台处理定制数据的时候,会先去定制表里面查询管理员批准后的申请,遍历所有的定制批准的记录,组成一组键值对数据,键值是台站的ID,数值是接收标识,如果有多个就累加添加,这样当***接收到某条数据的时候,去缓存中查询这个台站的数据是否有用户定制,如果没有就不处理,如果有就取出数值,把条数据发往每一个接收标识中。这样用户在各自去接收标识中取数据时就可以了。
4、因为在缓存中比对数据是否需要发送到接收标识中,所以缓存中的数据需要定时去更新。创建一个更新线程,然后定时去查询数据中的定制表数据,然后更新到缓存中去。
上述说明示出并描述了本发明的优选实施例,如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (6)

1.一种地震行业大数据处理的数据采集方法,其特征在于:包括如下步骤:
数据存放步骤:把所有采集到的数据存放到Kafka缓存集群中,并将数据存放到Kafka缓存集群中的消息转发出去。
2.根据权利要求1所述的地震行业大数据处理的数据采集方法,其特征在于:在数据存放步骤之前还包括数据采集步骤:与各业务***中的数据源对接,判断数据的采集适配方式,并基于确定的采集适配方式进行数据采集,所述数据的采集适配方式包括:面向数据源采集、面向数据库采集和面向文件采集。
3.根据权利要求2所述的地震行业大数据处理的数据采集方法,其特征在于:所述面向数据源采集用于能够直接与数据源对接并且采集到的数据不再产生变化,测震实时流对接或者测量仪器直接上报采集;
***向流服务器发送请求数据的账号和密码,验证成功后,返回接受数据的地址和端口号,从返回的地址和端口号接受地震实时流数据,如果接受到完整的一包数据之后,记录接受的时间点,然后发送至Kafka缓存集群。
4.根据权利要求2所述的地震行业大数据处理的数据采集方法,其特征在于:所述面向数据库采集中,
数据库形式的***接入,即关联以关系型数据库形式开放的外接***,通过适配器对其***下的数据库进行关联和监控,以实现相关业务信息与数据的实时或定时获取,在数据采集的实现上,采用通过ETL工具的方式提供数据库适配器进行完成:使用ETL工具提供的数据库适配器连接各接入业务***数据库完成数据的采集与抽取,并可根据业务要求,以实时、定时的方式进行实现。
5.根据权利要求2所述的地震行业大数据处理的数据采集方法,其特征在于:在面向文件采集中:
只能通过文件或其他中转方式将各业务***数据交换至大数据平台。
6.根据权利要求1所述的地震行业大数据处理的数据采集方法,其特征在于:在数据存放步骤中的数据转发包括全量数据转发和定制数据转发;
在所述全量数据转发中,如果用户订阅了某些数据,则可以把被订阅的数据以实时流的方式发送给订阅端;
在所述定制数据转发中,从全量数据中根据用户的喜好筛选出用户关心的数据,然后转发给用户。
CN201811500930.8A 2018-12-10 2018-12-10 一种地震行业大数据处理的数据采集方法 Active CN109634757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811500930.8A CN109634757B (zh) 2018-12-10 2018-12-10 一种地震行业大数据处理的数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811500930.8A CN109634757B (zh) 2018-12-10 2018-12-10 一种地震行业大数据处理的数据采集方法

Publications (2)

Publication Number Publication Date
CN109634757A true CN109634757A (zh) 2019-04-16
CN109634757B CN109634757B (zh) 2022-10-11

Family

ID=66072418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811500930.8A Active CN109634757B (zh) 2018-12-10 2018-12-10 一种地震行业大数据处理的数据采集方法

Country Status (1)

Country Link
CN (1) CN109634757B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262999A (zh) * 2019-06-03 2019-09-20 北京一览群智数据科技有限责任公司 一种自动化数据流转和数据处理方法、共享文件服务器
CN113377841A (zh) * 2021-06-21 2021-09-10 国网宁夏电力有限公司电力科学研究院 一种基于大数据的能源负荷预测***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681489A (zh) * 2018-05-25 2018-10-19 西安交通大学 一种超算环境下的海量数据实时采集与处理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681489A (zh) * 2018-05-25 2018-10-19 西安交通大学 一种超算环境下的海量数据实时采集与处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262999A (zh) * 2019-06-03 2019-09-20 北京一览群智数据科技有限责任公司 一种自动化数据流转和数据处理方法、共享文件服务器
CN113377841A (zh) * 2021-06-21 2021-09-10 国网宁夏电力有限公司电力科学研究院 一种基于大数据的能源负荷预测***

Also Published As

Publication number Publication date
CN109634757B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN108667725A (zh) 一种基于多种接入及边缘计算的工业软网关以及实现方法
CN107844421A (zh) 接口测试方法、装置、计算机设备和存储介质
CN102468981B (zh) 用于业务网络管理发现和合并的***和方法
CN107818127A (zh) 一种用于多源数据的查询方法及***
CN102123044B (zh) 基于拓扑发现技术的网络拓扑一致性检测设备和检测方法
CN106022708A (zh) 一种预测员工离职的方法
CN107147535A (zh) 一种分布式的网络测量数据统计分析方法
CN108200111A (zh) 资源配置信息更新方法、装置和资源接口设备
CN106294826A (zh) 一种集群数据实时查询方法及***
CN108833264A (zh) 基于微信小程序的数据采集管理***、方法及应用
CN109634757A (zh) 一种地震行业大数据处理的数据采集方法
CN100449533C (zh) 为移动用户提供信息
CN109815286A (zh) 一种自适应火箭遥测***及其实现方法
Prelipcean et al. Workshop Synthesis: New developments in travel diary collection systems based on smartphones and GPS receivers
CN111597267A (zh) 一种基于多层服务引擎的数据中台及构建方法
CN110442590A (zh) 一种用于提供检验检测服务的***和方法
SE9801525L (sv) Förfarande och anordning i datornät
CN107451301B (zh) 实时投递账单邮件的处理方法、装置、设备和存储介质
CN104750860B (zh) 一种不确定数据的数据存储方法
CN109900865A (zh) 一种基于神经网络的空气污染检测***
CN116431828A (zh) 一种基于神经网络技术构建的电网中台数据资产知识图谱数据库的构建方法
CN108764832A (zh) 城管和舆情诉求信息管理方法、***、装置及设备
CN101262481A (zh) 一种计算机网络远程服务识别***及其识别方法
CN114443750A (zh) 资源数据存储和查询方法、装置
CN110413496A (zh) 一种实现电子证照运行数据组件化收集的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant