CN111198884B - 一种车辆初次入城信息处理方法及信息处理*** - Google Patents

一种车辆初次入城信息处理方法及信息处理*** Download PDF

Info

Publication number
CN111198884B
CN111198884B CN201911383284.6A CN201911383284A CN111198884B CN 111198884 B CN111198884 B CN 111198884B CN 201911383284 A CN201911383284 A CN 201911383284A CN 111198884 B CN111198884 B CN 111198884B
Authority
CN
China
Prior art keywords
data
time
vehicle
vehicletrack
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911383284.6A
Other languages
English (en)
Other versions
CN111198884A (zh
Inventor
林雪红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Weidun Science And Technology Group Co ltd
Original Assignee
Fujian Weidun Science And Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Weidun Science And Technology Group Co ltd filed Critical Fujian Weidun Science And Technology Group Co ltd
Priority to CN201911383284.6A priority Critical patent/CN111198884B/zh
Publication of CN111198884A publication Critical patent/CN111198884A/zh
Application granted granted Critical
Publication of CN111198884B publication Critical patent/CN111198884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于交通信息处理技术领域,公开了一种车辆初次入城信息处理方法及信息处理***,在Greenplum中建立一张最近一个月的有完整车牌的车辆轨迹数据的数据表;将过去两年的全部过车数据存储在大数据库HIVE上;通过计算引擎Spark的窗口处理程序生成数据表;通过spark sql每天定时生成每个车牌该天第一次经过每个卡口的过车轨迹信息的数据表;自定义条件进行数据查询,并通过可视化界面输出查询结果。本发明合理利用Greenplum数据库的分区、SQL语言和大数据HIVE以及高速的计算引擎Spark高效的计算出各种自定义条件下的初次入城车辆轨迹信息。

Description

一种车辆初次入城信息处理方法及信息处理***
技术领域
本发明属于交通信息处理技术领域,尤其涉及一种车辆初次入城信息处理方法。
背景技术
目前,最接近的现有技术:近年来随着各地平安城市、天网工程的深推进建设,为公安机关的视频侦查工作提供了越来越丰富的情报来源,尤其是这其中的过车数据。随着越来越多的案件与车辆相关,过车数据已经成为案件侦破,抓捕犯罪嫌疑人的关键突破点。可以说,掌握了车辆动态就掌握了犯罪嫌疑人的动态。由此视频侦查技术也成为继刑事技术,技侦技术和网侦技术之后的第四大技术。
而在乘车犯罪的过程中,犯罪分子经常会有一个共同的规律,就是他们往往会离开常住地去异地作案,并且在违法犯罪的前不久才首次出现在该违法地点所在的城市,这就为公安机关办案或排查提供了重要线索;而在现在的卡口***中,过车记录的数量越来越多,成为海量的数据。据统计在一个普通的中等县城每天卡口、电警等设备拍摄的过车数据的数量就有400万之多,在这些海量的数据中检索分析初次入城车辆的时间地点,为公安机关提供办案线索,从而达到快速的破案,是公安干警们一直存在的需求,比如选定案发时间范围和回溯时间范围,查询在回溯时间范围内未出现过而案发时间范围内首次出现的车辆,在此之上还可以叠加出现次数、卡口范围、车辆类型、车身颜色等限制条件,从而更精确的排查嫌疑车辆。
传统的初次入城分析,最常见的一种是对用户选取的案发时间范围内的过车数据先按车牌号去掉重复数据,然后将用户选取的回溯时间范围内的过车数据也按车牌号去重,最终得到两个较小的数据集,再对两个数据集做关联,得出在案发时间段内出现过,而在回溯时间段内未出现过的车辆数据;该种方案很容易实现,然而存在明显的缺点,首先用户选取的回溯时间可能相当长,以一个县一天的过车数据为400万条为例,用户为了更精确的确定初次入城,往往会选择30天以上的回溯时间,这样就需要扫描1.2亿条数据做去重,耗时很长,5个节点单次查询往往需要20分钟以上。
综上所述,现有技术存在的问题是:现有计算车辆初次入城时间的方法计算速度慢,其需要大量的存储空间,无法灵活高效的进行入城时间的计算。选取的范围变大,计算内存需求就变大耗费资源就变多。
解决上述技术问题的难度:利用小计算资源的情况解决大数据量碰撞分析秒级响应的要求,而且要求可以查实时的初次入城情况。
解决上述技术问题的意义:根据预先计算的中间结果,用户可以选择长时间范围全区域查看初次入城的数据在秒级出来,并且不浪费其他用户使用其他业务需要的资源。加上实时保存一个月的数据存储实时数据可以满足查询分析实时数据的需求,离线分析部分解决跨度时间大范围碰撞分析速度慢浪费资源的问题,实时数据解决离线没办法马上计算的问题。
发明内容
针对现有技术存在的问题,本发明提供了一种车辆初次入城信息处理方法。
本发明是这样实现的,一种车辆初次入城信息处理方法,所述车辆初次入城信息处理方法包括:
利用Greenplum数据库的分区、SQL语言和大数据库HIVE以及计算引擎Spark通过自定义条件进行初次入城车辆轨迹信息的计算。
进一步,所述车辆初次入城信息处理方法包括以下步骤:
步骤一,在Greenplum中建立一张最近一个月的有完整车牌的车辆轨迹数据的数据表vehicletrack_mm;
步骤二,将过去两年的全部过车数据存储在大数据库HIVE上;
步骤三,通过计算引擎Spark的窗口处理程序生成数据表vehicletrack_up、vehicletrack_samepot_up、vehicletrack_samearea_up;
步骤四,通过spark sql每天定时生成每个车牌该天第一次经过每个卡口的过车轨迹信息vehicletrack_first;
步骤五,自定义条件进行数据查询,并通过可视化界面输出查询结果。
进一步,步骤三中,所述数据表vehicletrack_up、vehicletrack_samepot_up、vehicletrack_samearea_up的生成方法如下:
1)利用spark程序订阅hive的数据源信息数据,数据增量流入对车辆轨迹信息窗口依次移动;
2)通过map和reduce函数将过车数据规范化并且按照不同的key进行分组,根据不同的key生成不同的中间表;
3)通过orderby命令将同一个组的数据进行按时间从小到大排序;
4)将最小的数据按excel的格式放入到redis,并将除最小数据以外的其他数据与所述最小数据的redis数据进行比对;
5)如果当前数据过车时间-redis过车时间<2天,则将redis的数据丢弃,并且把当前数据存放至redis;如果当前数据过车时间-redis的过车时间>=2天,则把当前数据根据key保存到相应的中间表,然后把当前数据放到redis重复步骤4),根据不同的key生成中间表。
进一步,步骤2)中,所述根据不同的key生成不同的中间表包括:
当key为车牌号码和车牌种类时,则生成vehicletrack_up;
当key为车牌号码和车牌种类以及点位时,则生成vehicletrack_samepot_up;
当key为车牌号码和车牌种类以及区域时,则生成vehicletrack_samearea_up。
进一步,步骤五中,所述数据查询方法包括:
(1)当查询某段时间内回溯时长是N天的初次入城数据,则通过查询语句直接查询vehicletrack_up即可;
(2)当查询某单个区域某段时间内回溯时长是N天的初次入城数据,则通过查询语句直接查询vehicletrack_samearea_up;
(3)当查询某单个点位某段时间内回溯时长是N天的初次入城数据,则通过查询语句查询vehicletrack_samepot_up;
(4)当查询混合点位或者混合区域的某段时间内回溯时长是N天的初次入城数据,则通过统计sql进行查询。
进一步,步骤(4)中,所述通过统计sql进行查询包括:
利用Greenplum的Lag函数,通过Lag()取当前顺序的上一行记录,结合over分组统计数据;计算出每个车牌在每个条件下的上一条的过车时间然后进行相减得到大于回溯时长的车辆轨迹数据;
同时当时间范围较小包含时间实时的时,统计sql中的vehicletrack_mm;当时间范围较大时则统计vehicletrack_first。
本发明的另一目的在于实施所述车辆初次入城信息处理方法的车辆初次入城信息处理***,所述车辆初次入城信息处理***包括:
初始数据表建立模块:用于在Greenplum数据库中建立最近一个月的拥有完整车牌的车辆轨迹数据数据表vehicletrack_mm;
大数据库HIVE:用于存储过去2年全部的过车数据;
中间表生成模块:用于通过Spark的窗口处理程序生成数据表vehicletrack_up、vehicletrack_samepot_up、vehicletrack_samearea_up;
数据计算模块:用于通过spark sql每天定时生成每个车牌当天第一次经过每个卡口的过车轨迹信息数据表vehicletrack_first;
参数自定义模块:用于自定义查询条件;
数据查询模块:用于基于自定义的查询条件,利用SQL查询命令分别调用不同的数据表中的数据,查询相关初次入城车辆轨迹信息;
结果输出模块:用于通过可视化界面输出查询结果。
进一步,所述初始数据表建立模块包括:
月过车数据表vehicletrack_mm模块:存储最近一个月的拥有完整车牌的车辆轨迹数据;并实时入库,同时在入库时根据规则删除不规则号码同时去除重复的数据;且所述数据表vehicletrack_mm按天分区,并于每日删除之前第31天的数据;
每天第一条车辆表vehicletrack_first模块:存储每天经过每个点位的第一条过车记录信息,存储时间为2年,按月分区;
全区域相同车辆间隔两天以上的车辆轨迹vehicletrack_up模块:存储车辆轨迹及相邻上一条的车辆轨迹信息,存储时间为2年,按月分区;并于每月定时删除最早的前25个月的数据;
相同卡口相同车辆间隔两天以上的车辆轨迹vehicletrack_samepot_up模块:存储车辆轨迹及同一卡口的相邻上一条的车辆轨迹信息,存储时间为2年,按月分区;并于每月定时删除最早的前25个月的数据;
相同区域相同车辆间隔两天以上的车辆轨迹vehicletrack_samearea_up模块:存储车辆轨迹及同一区域的相邻上一条的车辆轨迹信息,存储时间为2年,按月分区;并于每月定时删除最早的前25个月的数据。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述的车辆初次入城信息处理方法。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的车辆初次入城信息处理方法。
综上所述,本发明的优点及积极效果为:本发明通过卡口、微卡口、卡式电警等各类前端设备抓拍上来的车辆轨迹数据,计算初次入城的车辆,帮助公安管控重点车辆、分析车辆轨迹行为。本方法的初次入城模型提供可选择的区间范围、灵活的时间段选择和自定义的回溯时长,可以方便的计算出某段时间内往前推N(回溯天数)天第一次出现在指定区间范围内的车辆轨迹数据。由于车辆轨迹数据量大,经过调研一个二级市的一天车辆轨迹数据已经到达6000万左右,最低要求是保存2年的车辆轨迹信息。本方法合理利用Greenplum数据库的分区、SQL语言和大数据HIVE以及高速的计算引擎Spark高效的计算出在这种大数据量情况下各种自定义条件下的初次入城车辆轨迹信息。
本发明合理利用Greenplum数据库的分区、SQL语言和大数据HIVE以及高速的计算引擎Spark高效的计算出各种自定义条件下的初次入城车辆轨迹信息。
之前在某现场环境每天数据2000万左右,总共保存2年数据将近100亿,使用旧方法和新方法的比较。
Figure GDA0002440329740000061
附图说明
图1是本发明实施例提供的车辆初次入城信息处理方法流程图。
图2是本发明实施例提供的数据表vehicletrack_up、vehicletrack_samepot_up、vehicletrack_samearea_up的生成逻辑示意图。
图3是本发明实施例提供的车辆初次入城信息处理***结构示意图。
图中:1、初始数据表建立模块;2、大数据库HIVE;3、中间表生成模块;4、数据计算模块;5、参数自定义模块;6、数据查询模块;7、结果输出模块。
图4是本发明实施例提供的各数据表示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种车辆初次入城信息处理方法,下面结合附图对本发明作详细的描述。
本发明实施例提供的车辆初次入城信息处理方法包括:
利用Greenplum数据库的分区、SQL语言和大数据库HIVE以及计算引擎Spark通过自定义条件进行初次入城车辆轨迹信息的计算。
如图1所示,本发明实施例提供的车辆初次入城信息处理方法包括以下步骤:
S101,在Greenplum中建立一张最近一个月的有完整车牌的车辆轨迹数据的数据表vehicletrack_mm。
S102,将过去两年的全部过车数据存储在大数据库HIVE上。
S103,通过计算引擎Spark的窗口处理程序生成数据表vehicletrack_up、vehicletrack_samepot_up、vehicletrack_samearea_up。
S104,通过spark sql每天定时生成每个车牌该天第一次经过每个卡口的过车轨迹信息vehicletrack_first。
S105,自定义条件进行数据查询,并通过可视化界面输出查询结果。
如图2所示,步骤S103中,本发明实施例提供的数据表vehicletrack_up、vehicletrack_samepot_up、vehicletrack_samearea_up的生成方法如下:
1)利用spark程序订阅hive的数据源信息数据,数据增量流入对车辆轨迹信息窗口依次移动。
2)通过map和reduce函数将过车数据规范化并且按照不同的key进行分组,根据不同的key生成不同的中间表;
3)通过orderby命令将同一个组的数据进行按时间从小到大排序。
4)将最小的数据按excel的格式放入到redis,并将除最小数据以外的其他数据与所述最小数据的redis数据进行比对。
5)如果当前数据过车时间-redis过车时间<2天,则将redis的数据丢弃,并且把当前数据存放至redis;如果当前数据过车时间-redis的过车时间>=2天,则把当前数据根据key保存到相应的中间表,然后把当前数据放到redis重复步骤4),生成中间表。
步骤2)中,本发明实施例提供的根据不同的key生成不同的中间表包括:
当key为车牌号码和车牌种类时,则生成vehicletrack_up。
当key为车牌号码和车牌种类以及点位时,则生成vehicletrack_samepot_up。
当key为车牌号码和车牌种类以及区域时,则生成vehicletrack_samearea_up。
步骤S105中,本发明实施例提供的数据查询方法包括:
(1)当查询某段时间内回溯时长是N天的初次入城数据,则通过查询语句直接查询vehicletrack_up即可。
(2)当查询某单个区域某段时间内回溯时长是N天的初次入城数据,则通过查询语句直接查询vehicletrack_samearea_up。
(3)当查询某单个点位某段时间内回溯时长是N天的初次入城数据,则通过查询语句查询vehicletrack_samepot_up。
(4)当查询混合点位或者混合区域的某段时间内回溯时长是N天的初次入城数据,则通过统计sql进行查询。
如图3所示,步骤(4)中,本发明实施例提供的通过统计sql进行查询包括:
利用Greenplum的Lag函数,通过Lag()取当前顺序的上一行记录,结合over分组统计数据;计算出每个车牌在每个条件下的上一条的过车时间然后进行相减得到大于回溯时长的车辆轨迹数据。
同时当时间范围较小包含时间实时的时,统计sql中的vehicletrack_mm;当时间范围较大时则统计vehicletrack_first。
如图4所示,步骤S103中,本发明实施例提供的车辆初次入城信息处理***包括:
初始数据表建立模块:用于在Greenplum数据库中建立最近一个月的拥有完整车牌的车辆轨迹数据数据表vehicletrack_mm。
大数据库HIVE:用于存储过去2年全部的过车数据。
中间表生成模块:用于通过Spark的窗口处理程序生成数据表vehicletrack_up、vehicletrack_samepot_up、vehicletrack_samearea_up。
数据计算模块:用于通过spark sql每天定时生成每个车牌当天第一次经过每个卡口的过车轨迹信息数据表vehicletrack_first。
参数自定义模块:用于自定义查询条件。
数据查询模块:用于基于自定义的查询条件,利用SQL查询命令分别调用不同的数据表中的数据,查询相关初次入城车辆轨迹信息。
结果输出模块:用于通过可视化界面输出查询结果。
本发明实施例提供的初始数据表建立模块包括:
数据表vehicletrack_mm模块:存储最近一个月的拥有完整车牌的车辆轨迹数据;并实时入库,同时在入库时根据规则删除不规则号码同时去除重复的数据;且所述数据表vehicletrack_mm按天分区,并于每日删除之前第31天的数据。
vehicletrack_first模块:存储每天经过每个点位的第一条过车记录信息,存储时间为2年,按月分区。
vehicletrack_up模块:存储车辆轨迹及相邻上一条的车辆轨迹信息,存储时间为2年,按月分区;并于每月定时删除最早的前25个月的数据。
vehicletrack_samepot_up模块:存储车辆轨迹及同一卡口的相邻上一条的车辆轨迹信息,存储时间为2年,按月分区;并于每月定时删除最早的前25个月的数据。
vehicletrack_samearea_up模块:存储车辆轨迹及同一区域的相邻上一条的车辆轨迹信息,存储时间为2年,按月分区;并于每月定时删除最早的前25个月的数据。
上述数据表字段如下:
Figure GDA0002440329740000101
下面结合具体实施例对本发明作进一步说明。
实施例:
本发明的目的在于合理利用Greenplum数据库的分区、SQL语言和大数据HIVE以及高速的计算引擎Spark高效的计算出各种自定义条件下的初次入城车辆轨迹信息。
(1)在Greenplum中建立一张最近一个月的有完整车牌的车辆轨迹数据vehicletrack_mm,该表按天分区增加查询统计速度方便维护每天删除之前第31天的数据。该表数据实时入库在入库时根据规则删除号码不规则,还有去除重复的数据减少该表的数据量。
(2)全量的2年过车数据存在HIVE上面
(3)通过Spark的窗口处理程序生成vehicletrack_up、vehicletrack_samepot_up、vehicletrack_samearea_up生成逻辑如图4以上三张表都是保存2年数据按月分区,每个月定时删除最早的前25个月的数据。
(4)通过spark sql每天定时生成每个车牌该天第一次经过每个卡口的过车轨迹信息vehicletrack_first。表都是保存2年数据按月分区,每个月定时删除最早的前25个月的数据。
(5)A、当客户只查询某段时间内回溯时长是N天的初次入城数据就直接通过普通的查询语句去查询vehicletrack_up;B、当客户查询的是某单个区域某段时间内回溯时长是N天的初次入城数据就直接通过普通的查询语句去查询vehicletrack_samearea_up;C、当客户查询的是某单个点位某段时间内回溯时长是N天的初次入城数据就直接通过普通的查询语句去查询vehicletrack_samepot_up;D、当客户查询的是混合点位或者混合区域的某段时间内回溯时长是N天的初次入城数据就直接通过统计sql去统计vehicletrack_mm(时间范围比较小包含时间实时的时候)vehicletrack_first(时间范围比较大的时候统计该表)。
如图2所示,由于数据量太大再大表的数据进行统计查询经常会使得数据库奔溃并且查询性能不好,所以采用了多个中间表的方式以空间换时间,提供查询的性能,主要表如下。
vehicletrack_mm:近一个月的有完整车牌的车辆轨迹数据。
vehicletrack_first:每天经过每个点位的第一条过车记录信息(存2年,按月分区)。
vehicletrack_up:车辆轨迹及相邻上一条的车辆轨迹信息(存2年,按月分区)。
vehicletrack_samepot_up:车辆轨迹及同一卡口的相邻上一条的车辆轨迹信息(存2年,按月分区)。
vehicletrack_samearea_up:车辆轨迹及同一区域的相邻上一条的车辆轨迹信息(存2年,按月分区)
vehicletrack_up、vehicletrack_samepot_up、vehicletrack_samearea_up三张表的主要生产逻辑:
1)利用spark程序订阅hive的数据源信息数据,数据增量流入对车辆轨迹信息窗口一个一个移动。
2)通过map和reduce函数把过车数据规范化并且把同一个key(如图2各个不同的key)的分配到同一个分组。
3)通过orderby把同一个组的数据进行按时间从小到大排序。
4)把最小的那条数据按图2excel的格式放入到redis,接下来的数据和该条redis的数据比对如果(该条过车时间-redis过车时间<2天)就把redis的数据丢弃,并且把该条数据放到redis;直到接下的数据出现(该条过车数据-redis的过车时间>=2天)就把该条数据根据key保存到相应的中间表,然后把该条数据放到redis重复做4的操作;生成中间表。
如下所示:是完整的统计初次入城的sql主要是利用Greenplum的Lag函数。Lag()就是取当前顺序的上一行记录。结合over就是分组统计数据。方便计算出每个车牌在每个条件下的上一条的过车时间然后进行相减求出他大于回溯时长的车辆轨迹数据:
Figure GDA0002440329740000121
/>
Figure GDA0002440329740000131
下面结合具体实施例及实验数据对本发明作进一步描述。
实施例
各个查询情况的sql文件和数据表如下:
表1
Figure GDA0002440329740000132
表2
Figure GDA0002440329740000141
表3
Figure GDA0002440329740000142
表4
Figure GDA0002440329740000143
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种车辆初次入城信息处理方法,其特征在于,所述车辆初次入城信息处理方法包括:
利用Greenplum数据库的分区、SQL语言和大数据库HIVE以及计算引擎Spark通过自定义条件进行初次入城车辆轨迹信息的计算;
所述车辆初次入城信息处理方法包括以下步骤:
步骤一,在Greenplum中建立一张最近一个月的有完整车牌的车辆轨迹数据的数据表vehicletrack_mm;
步骤二,将过去两年的全部过车数据存储在大数据库HIVE上;
步骤三,通过计算引擎Spark的窗口处理程序生成数据表vehicletrack_up、vehicletrack_samepot_up、vehicletrack_samearea_up;
步骤四,通过sparksql每天定时生成每个车牌该天第一次经过每个卡口的过车轨迹信息vehicletrack_first;
步骤五,自定义条件进行数据查询,并通过可视化界面输出查询结果;
步骤三中,所述数据表vehicletrack_up、vehicletrack_samepot_up、vehicletrack_samearea_up的生成方法如下:
1)利用spark程序订阅hive的数据源信息数据,数据增量流入对车辆轨迹信息窗口依次移动;
2)通过map和reduce函数将过车数据规范化并且按照不同的key进行分组,根据不同的key生成不同的中间表;
3)通过orderby命令将同一个组的数据进行按时间从小到大排序;
4)将最小的数据按excel的格式放入到redis,并将除最小数据以外的其他数据与所述最小数据的redis数据进行比对;
5)如果当前数据过车时间-redis过车时间<2天,则将redis的数据丢弃,并且把当前数据存放至redis;如果当前数据过车时间-redis的过车时间>=2天,则把当前数据根据key保存到相应的中间表,然后把当前数据放到redis重复步骤4),根据不同的key生成中间表。
2.如权利要求1所述车辆初次入城信息处理方法,其特征在于,步骤2)中,所述根据不同的key生成不同的中间表包括:
当key为车牌号码和车牌种类时,则生成vehicletrack_up;
当key为车牌号码和车牌种类以及点位时,则生成vehicletrack_samepot_up;
当key为车牌号码和车牌种类以及区域时,则生成vehicletrack_samearea_up。
3.如权利要求1所述车辆初次入城信息处理方法,其特征在于,步骤五中,所述数据查询方法包括:
(1)当查询某段时间内回溯时长是N天的初次入城数据,则通过查询语句直接查询vehicletrack_up即可;
(2)当查询某单个区域某段时间内回溯时长是N天的初次入城数据,则通过查询语句直接查询vehicletrack_samearea_up;
(3)当查询某单个点位某段时间内回溯时长是N天的初次入城数据,则通过查询语句查询vehicletrack_samepot_up;
(4)当查询混合点位或者混合区域的某段时间内回溯时长是N天的初次入城数据,则通过统计sql进行查询。
4.如权利要求3所述车辆初次入城信息处理方法,其特征在于,步骤(4)中,所述通过统计sql进行查询包括:
利用Greenplum的Lag函数,通过Lag()取当前顺序的上一行记录,结合over分组统计数据;计算出每个车牌在每个条件下的上一条的过车时间然后进行相减得到大于回溯时长的车辆轨迹数据;
同时当时间范围较小的时候,统计sql中的vehicletrack_mm;当时间范围较大时则统计vehicletrack_first。
5.一种实施如权利要求1所述车辆初次入城信息处理方法的车辆初次入城信息处理***,其特征在于,所述车辆初次入城信息处理***包括:
初始数据表建立模块:用于在Greenplum数据库中建立最近一个月的拥有完整车牌的车辆轨迹数据数据表vehicletrack_mm;
大数据库HIVE:用于存储过去2年全部的过车数据;
中间表生成模块:用于通过Spark的窗口处理程序生成数据表vehicletrack_up、vehicletrack_samepot_up、vehicletrack_samearea_up;
数据计算模块:用于通过sparksql每天定时生成每个车牌当天第一次经过每个卡口的过车轨迹信息数据表vehicletrack_first;
参数自定义模块:用于自定义查询条件;
数据查询模块:用于基于自定义的查询条件,利用SQL查询命令分别调用不同的数据表中的数据,查询相关初次入城车辆轨迹信息;
结果输出模块:用于通过可视化界面输出查询结果。
6.如权利要求5所述车辆初次入城信息处理***,其特征在于,所述初始数据表建立模块包括:
数据表模块:存储最近一个月的拥有完整车牌的车辆轨迹数据;并实时入库,同时在入库时根据规则删除不规则号码同时去除重复的数据;且所述数据表vehicletrack_mm按天分区,并于每日删除之前第31天的数据;
vehicletrack_first模块:存储每天经过每个点位的第一条过车记录信息,存储时间为2年,按月分区;
vehicletrack_up模块:存储车辆轨迹及相邻上一条的车辆轨迹信息,存储时间为2年,按月分区;并于每月定时删除最早的前25个月的数据;
vehicletrack_samepot_up模块:存储车辆轨迹及同一卡口的相邻上一条的车辆轨迹信息,存储时间为2年,按月分区;并于每月定时删除最早的前25个月的数据;
vehicletrack_samearea_up模块:存储车辆轨迹及同一区域的相邻上一条的车辆轨迹信息,存储时间为2年,按月分区;并于每月定时删除最早的前25个月的数据。
7.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-4任意一项所述的车辆初次入城信息处理方法。
CN201911383284.6A 2019-12-27 2019-12-27 一种车辆初次入城信息处理方法及信息处理*** Active CN111198884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911383284.6A CN111198884B (zh) 2019-12-27 2019-12-27 一种车辆初次入城信息处理方法及信息处理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911383284.6A CN111198884B (zh) 2019-12-27 2019-12-27 一种车辆初次入城信息处理方法及信息处理***

Publications (2)

Publication Number Publication Date
CN111198884A CN111198884A (zh) 2020-05-26
CN111198884B true CN111198884B (zh) 2023-06-06

Family

ID=70747044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911383284.6A Active CN111198884B (zh) 2019-12-27 2019-12-27 一种车辆初次入城信息处理方法及信息处理***

Country Status (1)

Country Link
CN (1) CN111198884B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269809B (zh) * 2020-11-18 2022-07-05 安徽四创电子股份有限公司 一种基于rbm数据结构实现区域首次出现的实施方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862867A (zh) * 2017-11-08 2018-03-30 泰华智慧产业集团股份有限公司 基于大数据进行初次入城车辆分析的方法及***
CN108021652A (zh) * 2017-11-30 2018-05-11 武汉烽火众智数字技术有限责任公司 一种初次入城车辆数据管理方法及***
CN108389394A (zh) * 2018-04-23 2018-08-10 泰华智慧产业集团股份有限公司 车辆初次入城分析的方法及***
CN110209646A (zh) * 2019-05-14 2019-09-06 汇通达网络股份有限公司 一种基于实时流式计算的数据平台***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10877999B2 (en) * 2017-12-21 2020-12-29 Micron Technology, Inc. Programmatically identifying a personality of an autonomous vehicle

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862867A (zh) * 2017-11-08 2018-03-30 泰华智慧产业集团股份有限公司 基于大数据进行初次入城车辆分析的方法及***
CN108021652A (zh) * 2017-11-30 2018-05-11 武汉烽火众智数字技术有限责任公司 一种初次入城车辆数据管理方法及***
CN108389394A (zh) * 2018-04-23 2018-08-10 泰华智慧产业集团股份有限公司 车辆初次入城分析的方法及***
CN110209646A (zh) * 2019-05-14 2019-09-06 汇通达网络股份有限公司 一种基于实时流式计算的数据平台***

Also Published As

Publication number Publication date
CN111198884A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN110334111B (zh) 一种多维轨迹分析方法及装置
CN105659263A (zh) 序列识别
CN107680385B (zh) 一种确定***的方法及***
CN108389394B (zh) 车辆初次入城分析的方法及***
CN111125118B (zh) 关联数据查询方法、装置、设备及介质
CN109254901B (zh) 一种指标监测方法及***
CN107832333B (zh) 基于分布式处理和dpi数据构建用户网络数据指纹的方法和***
CN107870988A (zh) 一种信息核查方法、终端设备及存储介质
CN110851473A (zh) 一种数据处理方法、装置和***
CN109949569A (zh) 一种交通违法数据审核***及其实现方法
CN111367951A (zh) 一种流数据处理的方法及装置
CN104809252A (zh) 互联网数据提取***
CN103853838A (zh) 一种数据处理方法和装置
CN111198884B (zh) 一种车辆初次入城信息处理方法及信息处理***
CN104834739A (zh) 互联网信息存储***
CN114092056A (zh) 项目管理方法、装置、电子设备、存储介质及产品
CN108876687A (zh) 一种在电子地图上标注和回溯社区治安事件的***及方法
CN107862019B (zh) 一种基于大数据分析昼伏夜出车辆的方法及装置
CN109145109A (zh) 基于社交网络的用户群体消息传播异常分析方法及装置
CN111950985B (zh) 成本控制方法、装置、计算机设备及存储介质
CN112365248B (zh) 一种分析数字货币交易路径的方法及***
CN111179603B (zh) 一种车辆识别方法、装置、电子设备及存储介质
CN112862598A (zh) 渠道信息管理方法、装置、电子设备及介质
CN106407461A (zh) 一种企业圈的生成方法及***
CN113160565A (zh) 一种***辆的识别方法、装置、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant