CN112163060A - 一种大数据技术处理海量gps数据*** - Google Patents

一种大数据技术处理海量gps数据*** Download PDF

Info

Publication number
CN112163060A
CN112163060A CN202010971958.0A CN202010971958A CN112163060A CN 112163060 A CN112163060 A CN 112163060A CN 202010971958 A CN202010971958 A CN 202010971958A CN 112163060 A CN112163060 A CN 112163060A
Authority
CN
China
Prior art keywords
data
layer
gps
processing
big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010971958.0A
Other languages
English (en)
Inventor
张春香
张传学
张零辉
吴鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Longyun Intelligent Technology Co ltd
Original Assignee
Anhui Longyun Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Longyun Intelligent Technology Co ltd filed Critical Anhui Longyun Intelligent Technology Co ltd
Priority to CN202010971958.0A priority Critical patent/CN112163060A/zh
Publication of CN112163060A publication Critical patent/CN112163060A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Position Fixing By Use Of Radio Waves (AREA)

Abstract

本发明公开了一种大数据技术处理海量GPS数据***,包括:数据采集层、数据预处理层,数据存储层,数据处理层,所述数据采集层包括日志文件信息采集模块,所述日志文件信息采集模块将采集的信息缓存进Kafk分布式缓存区,所述数据预处理层采用Storm从所述Kafk分布式缓存区接收数据,进行数据清洗、数据加工、数据汇总,然后对数据进行实时统计,所述数据存储层将所述数据预处理层处理后的数据,首先缓存到非结构化储存区Redis中,每隔一定得时间间隔,将数据批量转存到MongoDB中,随后所述数据处理层利用线性回归算法和k‑means算法对所述数据存储层存储的数据进行挖掘并进行离线计算、实时计算,所述数据分析层是整理后的数据可视化及多维分析,该基于大数据技术处理海量GPS数据***可以自动采集高可用的GPS数据,实时分析、处理大数据量、大并发量的GPS数据,并且分布式部署,防止数据丢失,利用算法进行知识挖掘,发掘潜在的价值。

Description

一种大数据技术处理海量GPS数据***
技术领域
本发明涉及计算机网络技术领域,具体为一种大数据技术处理海量GPS数据***。
背景技术
现阶段物联网***或者地理信息***,部分都集成了GPS定位功能,但是在亿万级GPS数据的冲击下,传统的数据处理方式非常耗时。比如,仅仅对GPS做一些简单的统计分析,程序就需要几个小时才能跑完一天的数据,完全达不到实时分析的要求,更无法对数据进行一些深层次的挖掘,另外历史数据的存储也是一个亟待解决的问题。
目前大多采用的方式是将日志文件进行压缩后上传到服务器上进行存储,这种方式既原始又不可靠,一是需要作业员每天定时手动上传数据,操作不方便;二是一旦存储数据的服务器出现问题,可能会造成大量数据的丢失,造成不可挽回的损失。
随着大数据技术的成熟和普及,我们发现借助于大数据技术可以完美的解决上述问题,所以如何设计一种大数据技术处理海量GPS数据***成为我们当前需要解决的问题。
发明内容
本发明的目的在于提供一种大数据技术处理海量GPS数据***,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种大数据技术处理海量GPS数据***,包括数据采集层、数据预处理层,数据存储层,数据处理层,数据分析层,所述数据采集层包括日志文件信息采集模块,所述日志文件信息采集模块将采集的信息缓存进Kafk分布式缓存区,所述数据预处理层采用Storm从所述Kafk分布式缓存区接收数据,进行数据清洗、数据加工、数据汇总,然后对数据进行实时统计,所述数据存储层将所述数据预处理层处理后的数据,首先缓存到非结构化储存区Redis中,每隔一定得时间间隔,将数据批量转存到MongoDB中,随后所述数据处理层利用线性回归算法和k-means算法对所述数据存储层存储的数据进行挖掘并进行离线计算、实时计算,所述数据分析层是整理后的数据可视化及多维分析。
进一步的,所述数据采集层采用Flume架构。
进一步的,所述据预处理层运用Storm分布式实时大数据接收、处理框架。
进一步的,所述数据处理层运用线性回归算法,预测GPS客户端的停留时间。利用k-means算法对位置临近的GPS客户端做聚类分析。
进一步的,所述数据分析模块采用抓路算法将GPS数据和地图数据进行融合。
与现有技术相比,本发明的有益效果是:
1.可以实时分析、处理大数据量、大并发量的GPS数据;
2.自动采集高可用的GPS数据;
3.数据分布式分布式储存,防止数据丢失;
4.利用算法对数据进行深层次挖掘。
附图说明
图1是本***的整体架构示意图;
图2是本***数据采集层日志文件信息采集模块(Flume)流程示意图;
图3是本***数据预处理层数据接收模块(Storm)流程示意图;
图4是本***数据分析层数据可视化模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-4,本发明提供一种技术方案:一种大数据技术处理海量GPS数据***,包括:数据采集层1、数据预处理层2,数据存储层3,数据处理层4,数据分析层5,所述数据采集层1包括日志文件信息采集模块6,所述日志文件信息采集模块6将采集的信息缓存进Kafk分布式缓存区7,所述数据预处理层2采用Storm从所述Kafk分布式缓存区7接收数据,进行数据清洗8、数据加工9、数据汇总10,然后对数据进行实时统计,所述数据存储层3将所述数据预处理层2处理后的数据,首先缓存到非结构化储存区10Redis中,每隔一定得时间间隔,将数据批量转存到MongoDB中,随后所述数据处理层4利用线性回归算法和k-means算法对所述数据存储层3存储的数据进行挖掘并进行离线计算13、实时计算14,所述数据分析层5是整理后的数据可视化15及多维分析16。
进一步的,所述数据采集层采用Flume架构,利用Flume架构的分布式、高可靠、高可用的海量日志采集特性,实现了海量日志数据采集的自动化。
进一步的,所述所述据预处理层(2)运用Storm框架,利用Storme分布式实时接收、处理大量的GPS数据,提高了海量GPS数据接收、处理的效率。
进一步的,所述数据处理层运用线性回归算法,预测GPS客户端的停留时间。利用k-means算法对位置临近的GPS客户端做聚类分析。
进一步的,所述数据分析模块采用抓路算法将GPS数据和地图数据进行融合,对分段的轨迹进行不同颜色的显示,可以让调度人员对当前时间段的道路通行情况一目了然,辅助车辆、人员的调度。
工作原理:首先GPS定位终端设备将数据上传日志文件到服务器,数据采集层主要利用开源组件Flume对日志文件进行采集,直接发送给kafka进行缓存并且将数据进行压缩后写入HDFS供之后的分析用,Storm从Kafka接收数据,然后对数据进行实时统计,通过Storm处理后的数据,首先缓存到Redis中,每隔一定得时间间隔,将数据批量转存到MongoDB中,用线性回归算法,预测GPS客户端停留时间,利用k-means算法对位置临近的GPS客户端做聚类分析,从而发现热点区域。根据GPS客户端速度将轨迹数据进行分段,从而分析某个时间段的道路畅通状况等,将GPS数据加载到地图上,利用抓路算法将GPS数据和地图数据进行融合,对分段的轨迹进行不同颜色的显示,可以让调度人员对当前时间段的道路通行情况一目了然,辅助GPS客户端的调度。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (5)

1.一种大数据技术处理海量GPS数据***,包括:数据采集层(1)、数据预处理层(2),数据存储层(3),数据处理层(4),数据分析层(5);其特征在于:所述数据采集层(1)包括日志文件信息采集模块(6),所述日志文件信息采集模块(6)将采集的信息缓存进Kafk分布式缓存区(7),所述数据预处理层(2)采用Storm从所述Kafk分布式缓存区(7)接收数据,进行数据清洗(8)、数据加工(9)、数据汇总(10),然后对数据进行实时统计,所述数据存储层(3)将所述数据预处理层(2)处理后的数据,首先缓存到非结构化储存区(10)Redis中,每隔一定得时间间隔,将数据批量转存到MongoDB中,随后所述数据处理层(4)利用线性回归算法和k-means算法对所述数据存储层(3)存储的数据进行挖掘并进行离线计算(13)、实时计算(14),所述数据分析层(5)是整理后的数据可视化(15)及多维分析(16)。
2.根据权利要求1所述的一种大数据技术处理海量GPS数据***,其特征在于:所述数据采集层(1)采用Flume架构。
3.根据权利要求1所述的一种大数据技术处理海量GPS数据***,其特征在于:所述据预处理层(2)运用Storm分布式实时大数据接收、处理框架。
4.根据权利要求1所述的一种大数据技术处理海量GPS数据***,其特征在于:所述数据处理层(4)运用线性回归算法,预测GPS客户端的停留时间;利用k-means算法对位置临近的GPS客户端做聚类分析。
5.根据权利要求1所述的一种大数据技术处理海量GPS数据***,其特征在于:所述数据分析模块(5)采用抓路算法将GPS数据和地图数据进行融合。
CN202010971958.0A 2020-09-16 2020-09-16 一种大数据技术处理海量gps数据*** Pending CN112163060A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010971958.0A CN112163060A (zh) 2020-09-16 2020-09-16 一种大数据技术处理海量gps数据***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010971958.0A CN112163060A (zh) 2020-09-16 2020-09-16 一种大数据技术处理海量gps数据***

Publications (1)

Publication Number Publication Date
CN112163060A true CN112163060A (zh) 2021-01-01

Family

ID=73859214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010971958.0A Pending CN112163060A (zh) 2020-09-16 2020-09-16 一种大数据技术处理海量gps数据***

Country Status (1)

Country Link
CN (1) CN112163060A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761358A (zh) * 2021-05-11 2021-12-07 中科天玑数据科技股份有限公司 一种多通道热点发现的方法及多通道热点发现***
CN116545740A (zh) * 2023-05-30 2023-08-04 阿锐巴数据科技(上海)有限公司 一种基于大数据的威胁行为分析方法及服务器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集***
CN106600960A (zh) * 2016-12-22 2017-04-26 西南交通大学 基于时空聚类分析算法的交通出行起讫点识别方法
US20170169078A1 (en) * 2015-12-14 2017-06-15 Siemens Aktiengesellschaft Log Mining with Big Data
CN109284195A (zh) * 2018-08-27 2019-01-29 广东电网有限责任公司信息中心 一种实时画像数据计算方法及***
CN109977125A (zh) * 2019-04-09 2019-07-05 福建奇点时空数字科技有限公司 一种基于网络安全的大数据安全分析平台***
CN111258979A (zh) * 2020-01-16 2020-06-09 山东大学 一种云防护日志***及其工作方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集***
US20170169078A1 (en) * 2015-12-14 2017-06-15 Siemens Aktiengesellschaft Log Mining with Big Data
CN106600960A (zh) * 2016-12-22 2017-04-26 西南交通大学 基于时空聚类分析算法的交通出行起讫点识别方法
CN109284195A (zh) * 2018-08-27 2019-01-29 广东电网有限责任公司信息中心 一种实时画像数据计算方法及***
CN109977125A (zh) * 2019-04-09 2019-07-05 福建奇点时空数字科技有限公司 一种基于网络安全的大数据安全分析平台***
CN111258979A (zh) * 2020-01-16 2020-06-09 山东大学 一种云防护日志***及其工作方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
周素红等: "《地理学评论》", 31 December 2019, 商务印书馆 *
张俊友等: "《智能交通***及应用》", 31 August 2017, 哈尔滨工业大学出版社 *
董昭 等: ""大数据位置类应用实现方式研究"", 《互联网天地》 *
陈玉华: "《如何玩转专利大数据》", 31 July 2019, 知识产权出版社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761358A (zh) * 2021-05-11 2021-12-07 中科天玑数据科技股份有限公司 一种多通道热点发现的方法及多通道热点发现***
CN116545740A (zh) * 2023-05-30 2023-08-04 阿锐巴数据科技(上海)有限公司 一种基于大数据的威胁行为分析方法及服务器
CN116545740B (zh) * 2023-05-30 2024-05-14 阿锐巴数据科技(上海)有限公司 一种基于大数据的威胁行为分析方法及服务器

Similar Documents

Publication Publication Date Title
CN110135273B (zh) 接触网视频图像云端智能监测与故障识别方法
CN109923595B (zh) 一种基于浮动车数据的城市道路交通异常检测方法
Xu et al. Identifying urban traffic congestion pattern from historical floating car data
CN107610421A (zh) 一种地质灾害预警分析***及方法
CN104778245B (zh) 基于海量车牌识别数据的相似轨迹挖掘方法及装置
US11544657B2 (en) Roadway maintenance condition detection and analysis
CN112163060A (zh) 一种大数据技术处理海量gps数据***
CN112184625A (zh) 一种基于视频深度学习的路面缺陷识别方法和***
CN109374631B (zh) 一种隧道状态评测方法
WO2022174679A1 (zh) 单体电池电压不一致故障预测方法、装置及服务器
CN110359919B (zh) 一种盾构机施工风险防控方法及***
CN114428828A (zh) 基于行驶轨迹挖掘新增道路方法、装置及电子设备
CN106407429A (zh) 文件追踪方法、装置及***
CN112446549A (zh) 基于大数据的城市垃圾智慧监管平台
CN112862233A (zh) 一种基于车联网数据的故障关联性分析***及方法
CN111815098A (zh) 基于极端天气的交通信息处理方法、装置、存储介质和电子设备
CN112883075A (zh) 一种滑坡普适型地表位移监测数据缺失及异常值处理方法
CN116359285A (zh) 一种基于大数据的油气浓度智能检测***及方法
CN112184624A (zh) 一种基于深度学习的图片检测方法及***
CN110782060A (zh) 基于大数据技术的轨道交通断面客流短时预测方法及***
CN114387812A (zh) 一种垃圾收运监控方法、装置、设备和存储介质
CN111651648A (zh) 杆塔关键部件巡检计划的智能化生成方法和装置
CN114646021B (zh) 地下管网监测方法
CN110798510A (zh) 智能垃圾桶物联网监控平台
CN116070152B (zh) 基于多维运行特征的挖掘机工作量识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210101

RJ01 Rejection of invention patent application after publication